上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML文本分类数据去重策略
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML文本分类数据去重策略

文档简介:
重复样本的定义: 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如: 文本分类-单标签数据重复样本示例:
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

重复样本的定义

一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

文本分类-单标签数据重复样本示例:

文本内容 标签
今天北京的空气不错 weather
今天北京的空气不错 weather
今天北京的空气不错 local

文本分类-多标签数据重复样本示例:

文本内容 标签
未来的学和教正在改变,学生将会在家里学习,机器人将走上讲台。 education/science
未来的学和教正在改变,学生将会在家里学习,机器人将走上讲台。 education/science
未来的学和教正在改变,学生将会在家里学习,机器人将走上讲台。 AI/robot

上述两个表中,都代表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。

Tips: “如何利用好重复样本”,如果您在模型训练过程中,需要通过增加某个类别标签的预测权重,可以通过增加此标签的重复样本来达到此目标。

平台去重策略

平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。此时分为几种情况,如下:

  1. 数据集中有未标注样本,上传重复的已标注样本,此时未标注样本将被覆盖
  2. 数据集中有已标注样本,上传重复的未标注样本,此时已标注样本将被覆盖
  3. 数据集中有已标注样本,上传不同标注的已标注样本,此时已有的标注样本将被覆盖
相似文档
  • 1. 创建数据集: 您可以在控制面板中,选择“数据总览”并点击按钮“创建数据集”,即可完成一个数据集的创建。 2.导入短文本相似度数据: 进入到新创建的短文本数据集中,如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”
  • 短文本匹配数据标注: 打开短文本匹配数据集的标注页面,您可以看到全部未标注的数据。 在页面右侧选择两个文本是相似还是不相似,便可完成标注。
  • 重复样本的定义: 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:
  • 创建数据集: 您可以在BML中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“序列标注”,同时您需要根据您的标注数据,选择此序列标注数据集的标注体系(详见文档《序列标注标注说明》)。
  • 1.标注体系说明: 在序列标注任务中,一般会定义一个标签集合,来表示所有可能取到的预测结果。 标签是对字符串的token序列进行的表示: 对于英文字符串而言,token可以是一个单词(e.g. baidu),也可以是一个字符(e.g. b); 对于中文字符串而言,token可以是一个分词后的词语,也可以是单个汉字字符;
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部