上云无忧 > 文档中心 > 百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 创建数据集并导入
飞桨EasyDL零门槛AI开发平台
百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 创建数据集并导入

文档简介:
在训练模型之前,需要先在数据总览【创建数据集】。只需输入数据集名称、选择数据去重策略,即可创建一个空数据集。 数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

创建数据集

在训练模型之前,需要先在数据总览【创建数据集】。只需输入数据集名称、选择数据去重策略,即可创建一个空数据集。

数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」

导入数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

您可以使用4种方案上传情感倾向分析的数据,分别为:

  • 本地导入
  • BOS目录导入
  • 分享链接导入
  • 平台已有数据集

不论您上传无标注信息的数据或有标注信息的数据,都需要以下述格式要求进行上传。区别在于上传有标注信息的数据时,需要针对正向文本内容与负向文本内容分别进行上传。每个数据集里面默认包含正向(positive)标签和负向(negative)标签。

本地导入

您可以通过以下三种方式进行本地数据的导入:

  • 以压缩包的方式上传
  • 以TXT文本文件方式上传
  • 以Excel文件的方式上传

以压缩包方式上传

  • 一个文本文件保存一个样本,文本文件的编码方式:UTF-8,每个文本文件最长不能超过512个汉字(字符)
  • 压缩包仅支持zip格式;大小需要在5GB以内

以TXT文本文件上传

  • 一个文本文件包含多个样本,文本文件中每行为一个样本
  • 一个文本文件包含一个样本,单次上传限制100个文件,最多可上传100万个文本文件
  • 每行样本最长不能超过512个汉字(字符),文件编码方式:UTF-8

以Excel文件上传

  • Excel文件上传数据格式为每行是一个样本,每个数据文本内容的字符数建议不超过512个,超出将被截断
  • 文件类型支持xlsx格式,单次上传限制100个文件
  • 需确保上传的样本在sheet1中,且数据都在首列

BOS目录导入

需选择Bucket地址与对应的文件夹地址。

请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。

分享链接导入

需输入链接地址。分享链接导入的要求如下:

  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接

平台已有数据集

  • 导入无标注数据时,选择需要导入的数据集名称,可导入其不带标注的全部数据,或未标注的数据
  • 导入已标注数据时,选择需要导入的数据集名称,可导入其某个或全部标签下的数据

准备数据集的技巧

情感倾向分析任务中,可参考以下准备数据集的技巧:

设计分类

情感倾向分析的数据集,默认只使用正向和负向两种标签的数据,所以数据集中无需创建标签,您只需准备对应情感倾向的标签数据即可。

数据量

每个标签建议至少需要准备50个以上的样本,如果想要较好的效果,建议准备1000-10000个文本样本,如果某些分类的文本具有相似性,需要增加更多文本。

数据分布

  • 训练集文本需要和实际场景要识别的文本内容的业务范围一致,且标签对应文本的数量分布一致。如训练集的业务范围是图书商品的情感倾向分析,而预计线上对应的场景或业务是电子产品的情感倾向分析,此时两者不一致,将会导致模型实际应用效果不佳
  • 考虑实际应用场景有多种可能性,每个场景都需要准备相对应的训练数据,训练集若能覆盖的场景越多,模型的泛化能力则越强
  • 建议对高频的业务场景尽量做到覆盖,并通过线上bad case来进行训练数据的优化

如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈

相似文档
  • Step 1 进入标注页面: 上传未标注的数据后,可以通过以下两个方式进入标注页面: 在「数据总览」页面,该数据集对应的操作列下,点击「标注」,即可进入标注页面。 在「在线标注」页面,选择该数据集,即可进入标注页面。
  • 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如: 文本内容 标签 这个酒店的地段不错,交通方便 1, 这个酒店的地段不错,交通方便 1, 这个酒店的地段不错,交通方便 0, 上表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。
  • 本文档主要说明当您线下已有大量的已经完成分类整理的文本数据,如何通过调用API完成文本数据的便捷上传和管理。 EasyDL经典版数据集管理API在管理不同模型数据类型之间是通用的。上传不同模型类型数据,只是在部分接口入参存在差异,使用及接口地址完全一致。
  • 本文档主要说明当您线下已有大量的已经完成分类整理的文本数据,如何通过调用API完成文本数据的便捷上传和管理。 EasyDL经典版数据集管理API在管理不同模型数据类型之间是通用的。上传不同模型类型数据,只是在部分接口入参存在差异,使用及接口地址完全一致。
  • 完成数据的标注,或提交已标注的数据后,即可在「模型中心」目录中点击「训练模型」,开始模型的训练。 按以下步骤操作,启动模型训练: Step 1 选择模型。 选择此次训练的模型。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部