上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML文本实体抽取数据导入
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML文本实体抽取数据导入

文档简介:
1. 创建数据集: 您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,选择数据类型为“文本”,标注类型选择“文本实体抽取”。标注模板中使用默认选项”文本实体抽取“。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

1. 创建数据集

您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,选择数据类型为“文本”,标注类型选择“文本实体抽取”。标注模板中使用默认选项”文本实体抽取“。

img

2.导入未标注文本数据

进入到新创建的文本实体抽取数据集中。如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”。平台暂不支持上传有标注信息的数据。

img

本地上传,包括三种上传方式,分别为「上传TXT文本」、「上传压缩包」、「上传Excel」;

通过文本上传时,需注意:

文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过10000个字符(约5000个字),超出将被截断

文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

通过压缩包上传时,需注意:

压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。

每组数据的数建议不超过10000个字符(约5000个字),超出将被截断

通过Excel文件上传时,需注意:

Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过10000个字符(约5000个字),超出将被截断

文件格式支持xlsx格式,单次可上传100个文件

相似文档
  • 通过平台导入「无标注信息」的数据集后,可对无标注数据进行标注操作。 1. 创建标签 进入到待标注的数据集,您需要在右侧的标签栏中创建标签,点击「添加/搜索标签」后,即可输入标签名称,注意平台仅支持数字和字母的标签名
  • 重复样本的定义: 一个文本实体抽取的样本包括文本内容和实体类别。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。
  • 使用智能标注功能可降低数据的标注成本。启动后,系统会从数据集所有图片中筛选出最关键的图片并提示需要优先标注。通常情况下,只需标注数据集30%左右的数据即可训练模型。与标注所有数据后训练相比,模型效果几乎等同。
  • 欢迎您使用「文本智能标注」。您可以通过提供少量人工标注数据和大量无标注数据,通过文本智能标注能力进行自动标注,并将需要人工优先复审的样本筛选出来,辅助您快速完成数据标注工作。您可以获得大规模的智能标注数据,并将数据用于模型的训练。本文将介绍说明如何利用「文本智能标注」获得智能标注数据,以及智能标注与后续如何使用智能标注数据训练模型。
  • 当线下有大规模已经标注好的数据,在上传时有两种方式: 一种是通过在页面以压缩包的形式上传标注文件及原始数据,这种方式对标注文件的格式有一定规范要求,详见不同数据类型的导入和上传方式; 一种为通过调用数据集上传API形式导入线下数据,当线下已有较大规模的已标注数据时,适合用该种方式上传。本文档主要介绍如何用数据集管理API上传数据。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部