上云无忧 > 文档中心 > 百度智能云飞桨EasyDL零门槛AI开发平台文本实体关系抽取 - 创建数据集并导入
飞桨EasyDL零门槛AI开发平台
百度智能云飞桨EasyDL零门槛AI开发平台文本实体关系抽取 - 创建数据集并导入

文档简介:
创建数据集: 在训练模型之前,需要在【数据总览】里面“创建数据集”。需输入数据集名称、选择相应的标注模版、选择数据去重策略,即可创建一个空数据集。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

创建数据集

在训练模型之前,需要在【数据总览】里面“创建数据集”。需输入数据集名称、选择相应的标注模版、选择数据去重策略,即可创建一个空数据集。

数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」

导入无标注数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

您可以使用3种方案上传数据,分别为:

  • 本地导入
  • BOS目录导入
  • 分享链接导入

本地导入

您可以通过以下三种方式进行本地数据的导入:

  • 以压缩包的方式上传
  • 以TXT文本文件方式上传
  • 以Excel文件的方式上传

通过压缩包上传时,需注意:

  • 压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8
  • 每组数据的数建议不超过512个字符,超出将被截断

通过TXT文本上传时,需注意:

  • 文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断
  • 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文件

通过Excel文件上传时,需注意:

  • Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
  • 文件格式支持xlsx格式,单次可上传100个文件

BOS目录导入

需选择Bucket地址与对应的文件夹地址。

请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。

分享链接导入

需输入链接地址。分享链接导入的要求如下:

  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接

导入有标注数据

创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。

您可以使用本地上传的方案上传数据。 您可以通过以下三种方式进行本地数据的导入:

  • 以Excel文件的方式上传
  • 以API的形式导入

通过Excel文件上传时,需注意:

  • Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
  • 文件格式支持xlsx格式,单次可上传100个文件

通过API上传时,需注意:

  • 可参考以下文档:实体抽取API数据管理

什么是实体类别?

实体类别(Entity Type)是指某类事物的集合,每一类数据对象的个体称为实体,如人/角色(例如学生),对象(例如发票),概念(例如简介)或事件(例如交易)。实体类别名标签名由数字、中英文、中/下划线组成,长度上限256字符

相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部