百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 创建数据集并导入

飞桨EasyDL零门槛AI开发平台

简介/价格/文档

百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 创建数据集并导入

文档简介：

在训练模型之前，需要先在数据总览【创建数据集】。只需输入数据集名称、选择数据去重策略，即可创建一个空数据集。数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

创建数据集

在训练模型之前，需要先在数据总览【创建数据集】。只需输入数据集名称、选择数据去重策略，即可创建一个空数据集。

数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」

导入数据

创建数据集后，在「数据总览」页面中，找到该数据集，点击右侧操作列下的「导入」，即可进入导入数据页面。

您可以使用4种方案上传情感倾向分析的数据，分别为：

本地导入
BOS目录导入
分享链接导入
平台已有数据集

不论您上传无标注信息的数据或有标注信息的数据，都需要以下述格式要求进行上传。区别在于上传有标注信息的数据时，需要针对正向文本内容与负向文本内容分别进行上传。每个数据集里面默认包含正向（positive）标签和负向（negative）标签。

本地导入

您可以通过以下三种方式进行本地数据的导入：

以压缩包的方式上传
以TXT文本文件方式上传
以Excel文件的方式上传

以压缩包方式上传

一个文本文件保存一个样本，文本文件的编码方式：UTF-8，每个文本文件最长不能超过512个汉字（字符）
压缩包仅支持zip格式；大小需要在5GB以内

以TXT文本文件上传

一个文本文件包含多个样本，文本文件中每行为一个样本
一个文本文件包含一个样本，单次上传限制100个文件，最多可上传100万个文本文件
每行样本最长不能超过512个汉字（字符），文件编码方式：UTF-8

以Excel文件上传

Excel文件上传数据格式为每行是一个样本，每个数据文本内容的字符数建议不超过512个，超出将被截断
文件类型支持xlsx格式，单次上传限制100个文件
需确保上传的样本在sheet1中，且数据都在首列

BOS目录导入

需选择Bucket地址与对应的文件夹地址。

请确保将全部文本已通过txt文件保存至同一层文件目录，该层目录下子文件目录及非相关内容（包括压缩包格式等）不导入。

分享链接导入

需输入链接地址。分享链接导入的要求如下：

仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接

平台已有数据集

导入无标注数据时，选择需要导入的数据集名称，可导入其不带标注的全部数据，或未标注的数据
导入已标注数据时，选择需要导入的数据集名称，可导入其某个或全部标签下的数据

准备数据集的技巧

情感倾向分析任务中，可参考以下准备数据集的技巧：

设计分类

情感倾向分析的数据集，默认只使用正向和负向两种标签的数据，所以数据集中无需创建标签，您只需准备对应情感倾向的标签数据即可。

数据量

每个标签建议至少需要准备50个以上的样本，如果想要较好的效果，建议准备1000-10000个文本样本，如果某些分类的文本具有相似性，需要增加更多文本。

数据分布

训练集文本需要和实际场景要识别的文本内容的业务范围一致，且标签对应文本的数量分布一致。如训练集的业务范围是图书商品的情感倾向分析，而预计线上对应的场景或业务是电子产品的情感倾向分析，此时两者不一致，将会导致模型实际应用效果不佳
考虑实际应用场景有多种可能性，每个场景都需要准备相对应的训练数据，训练集若能覆盖的场景越多，模型的泛化能力则越强
建议对高频的业务场景尽量做到覆盖，并通过线上bad case来进行训练数据的优化

如果需要寻求第三方数据采集团队协助数据采集，请在百度云控制台内提交工单反馈

相似文档

百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 在线标注
Step 1 进入标注页面：上传未标注的数据后，可以通过以下两个方式进入标注页面：在「数据总览」页面，该数据集对应的操作列下，点击「标注」，即可进入标注页面。在「在线标注」页面，选择该数据集，即可进入标注页面。
百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 数据去重
一个样本包括文本内容和标签。重复样本的定义，是指您上传的数据中，存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如：文本内容标签这个酒店的地段不错，交通方便 1，这个酒店的地段不错，交通方便 1，这个酒店的地段不错，交通方便 0，上表三个样本均为重复样本，后两个样本虽然标签不一，但文本内容一致，也为重复样本。
百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - API上传
本文档主要说明当您线下已有大量的已经完成分类整理的文本数据，如何通过调用API完成文本数据的便捷上传和管理。 EasyDL经典版数据集管理API在管理不同模型数据类型之间是通用的。上传不同模型类型数据，只是在部分接口入参存在差异，使用及接口地址完全一致。
百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 创建模型
本文档主要说明当您线下已有大量的已经完成分类整理的文本数据，如何通过调用API完成文本数据的便捷上传和管理。 EasyDL经典版数据集管理API在管理不同模型数据类型之间是通用的。上传不同模型类型数据，只是在部分接口入参存在差异，使用及接口地址完全一致。
百度智能云飞桨EasyDL零门槛AI开发平台情感倾向分析 - 发起训练
完成数据的标注，或提交已标注的数据后，即可在「模型中心」目录中点击「训练模型」，开始模型的训练。按以下步骤操作，启动模型训练： Step 1 选择模型。选择此次训练的模型。