上云无忧 > 文档中心 > 百度智能云飞桨EasyDL零门槛AI开发平台短文本相似度 - 上传数据集
飞桨EasyDL零门槛AI开发平台
百度智能云飞桨EasyDL零门槛AI开发平台短文本相似度 - 上传数据集

文档简介:
您可以上传带有标注信息的数据,和无标注信息的数据。您可以根据自己的情况,选择上传方式,目前平台提供上传方式有: 上传Excel文件、 上传TXT文本、 上传压缩包、 通过API导入, 下面分别为您介绍几种上传方式。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

您可以上传带有标注信息的数据,和无标注信息的数据。您可以根据自己的情况,选择上传方式,目前平台提供上传方式有:

  • 上传Excel文件
  • 上传TXT文本
  • 上传压缩包
  • 通过API导入

下面分别为您介绍几种上传方式

以Excel文件上传

  • Excel文件内数据格式要求为:每行是一个样本,使用第一列和第二列分别作为需要计算相似度的两个文本,第三列为相似度标签(如果导入无标注数据,此列无数据)。第一列和第二列的文本内容的字符数建议不超过512个,超出将被截断。
  • 文件类型支持xlsx格式,单次上传限制100个文件
  • 请确保您上传的样本在sheet1中,且数据都在首列。注意,首行作为表头将被系统忽略

以压缩包方式上传

  • 压缩包格式为.zip格式,单个压缩包限制5G以内
  • 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,标注结果仅用1/0表示,1代表相似,0代表不相似。一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过1024个字符(约512个汉字)

以TXT文本文件上传

  • 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件。
  • 短文本相似度的数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,一行表示一组数据,每组数据字符数建议不超过1024个字符(约512个汉字),可上传多个文本文件

通过API方式导入

您可以通过API导入文档,查看上传数据的方式

相似文档
  • 本文档主要说明当您线下已有大量的已经完成分类整理的文本数据,如何通过调用API完成文本数据的便捷上传和管理。 EasyDL文本数据集管理API在管理不同模型数据类型之间是通用的。上传不同模型类型数据,只是在部分接口入参存在差异,使用及接口地址完全一致。
  • 步骤: Step 1 创建模型。 在【模型中心】或者【模型中心-我的模型】点击创建模型。 Step 2 填写基本信息。 选择模型类型、提交模型名称、模型描述、联系方式即可创建模型。 Step 3 查看已创建的模型。 模型创建成功后,可以在【我的模型】中看到刚刚创建的模型。
  • 训练模型: 完成数据的标注,或提交已标注的数据后,即可在「模型中心」目录中点击「训练模型」,开始模型的训练。 按以下步骤操作,启动模型训练: Step 1 选择模型。 选择此次训练的模型。 Step 2 训练配置。 部署方式。 可选择「公有云部署」。
  • 通过模型迭代、检查并优化训练数据、选择高精度模型等方法,能够提升模型效果。 模型迭代: 一个模型很难一次性就训练到最佳的效果,通常会需要结合模型评估报告和校验结果不断扩充数据和调优。
  • 模型评估: 模型训练完成后,可以在「我的模型」列表中查看该模型的效果,以及完整评估结果。 「完整评估结果」页面中将记录整体评估与详细评估的报告,包括该模型整体的准确率、F1-score、精确率、召回率,以及评估样本具体数据情况,各分类的精确值、F1-Score等指标。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部