上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML短文本匹配数据导入与标注
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML短文本匹配数据导入与标注

文档简介:
1. 创建数据集: 您可以在控制面板中,选择“数据总览”并点击按钮“创建数据集”,即可完成一个数据集的创建。 2.导入短文本相似度数据: 进入到新创建的短文本数据集中,如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

1. 创建数据集

您可以在控制面板中,选择“数据总览”并点击按钮“创建数据集”,即可完成一个数据集的创建。

2.导入短文本相似度数据

进入到新创建的短文本数据集中,如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”,如果您手中的数据是完成标注的数据,可以选择数据标注状态为“有标注信息”。

txt文件的未标注数据的样本的样例,如下图:

短文本匹配数据标注

  1. 打开短文本匹配数据集的标注页面,您可以看到全部无标注信息的数据
  2. 在页面右侧选择两个文本是相似还是不相似,便可完成标注

相似文档
  • 短文本匹配数据标注: 打开短文本匹配数据集的标注页面,您可以看到全部未标注的数据。 在页面右侧选择两个文本是相似还是不相似,便可完成标注。
  • 重复样本的定义: 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:
  • 创建数据集: 您可以在BML中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“序列标注”,同时您需要根据您的标注数据,选择此序列标注数据集的标注体系(详见文档《序列标注标注说明》)。
  • 1.标注体系说明: 在序列标注任务中,一般会定义一个标签集合,来表示所有可能取到的预测结果。 标签是对字符串的token序列进行的表示: 对于英文字符串而言,token可以是一个单词(e.g. baidu),也可以是一个字符(e.g. b); 对于中文字符串而言,token可以是一个分词后的词语,也可以是单个汉字字符;
  • 重复样本的定义: 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部