上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML序列标注数据导入
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML序列标注数据导入

文档简介:
创建数据集: 您可以在BML中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“序列标注”,同时您需要根据您的标注数据,选择此序列标注数据集的标注体系(详见文档《序列标注标注说明》)。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

创建数据集

您可以在BML中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“序列标注”,同时您需要根据您的标注数据,选择此序列标注数据集的标注体系(详见文档《序列标注标注说明》)。注意:当前序列标注数据集不支持在线标注功能,您在序列标注数据集中仅能上传标注数据。当您为此数据集选择标注体系后,标注体系不可修改,也不能导入其他标注体系的数据。

导入已标注数据

  1. 通过下图的”导入“进入到新创建的序列标注数据集的导入页面

  1. 在数据集的导入数据部分,您可以选择导入数据的方式,目前平台支持本地上传数据和在线导入已有数据集

  1. 本地上传数据,需要以压缩包的形式上传,压缩包内需要包括标注文本文件(utf-8,txt或tsv格式),标注标签的映射文件(utf-8,JSON格式;文件名必须为”label_map.json“),一个压缩包里可以有多个标注文本文件,但都需要对应一个JSON映射文件。如下图示意:

  1. 对于上传的数据文件的要求,请注意:

    1. 请上传对应标注体系的标注数据,避免数据上传失败
    2. 标注数据格式要求为“文本内容\t标注结果\n”文本内容和标注结果都需要按字切分,每一行表示一组数据,每组数据的字符数建议不超过512个
    3. 标签映射文件名须为”label_map.json“,标签映射文件的格式为:{"key":"value"}
    4. 上传压缩包文件支持zip格式,单个压缩包限制5G以内。压缩包内需包含txt或tsv格式的文本文件和标注为json格式的标签映射文件,编码仅支持UTF-8,单个文件最大可支持40MB。样本数据详见Demo数据
    5. 平台限免阶段每个账户最多支持100万条样本数据,超出后会被平台忽略

二次导入已标注数据

平台支持用户对于已有的数据集,进行二次导入数据。请注意,再次导入的已标注数据,标注标签需要完全一致。注意,二次导入过程不校验json文件。只对标注文本进行校验,与第一次上传的json文件里不一致的标签和标注数据,平台将过滤掉。

相似文档
  • 1.标注体系说明: 在序列标注任务中,一般会定义一个标签集合,来表示所有可能取到的预测结果。 标签是对字符串的token序列进行的表示: 对于英文字符串而言,token可以是一个单词(e.g. baidu),也可以是一个字符(e.g. b); 对于中文字符串而言,token可以是一个分词后的词语,也可以是单个汉字字符;
  • 重复样本的定义: 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:
  • 1. 创建数据集: 您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,选择数据类型为“文本”,标注类型选择“文本实体抽取”。标注模板中使用默认选项”文本实体抽取“。
  • 通过平台导入「无标注信息」的数据集后,可对无标注数据进行标注操作。 1. 创建标签 进入到待标注的数据集,您需要在右侧的标签栏中创建标签,点击「添加/搜索标签」后,即可输入标签名称,注意平台仅支持数字和字母的标签名
  • 重复样本的定义: 一个文本实体抽取的样本包括文本内容和实体类别。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部