上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML文本实体数据去重策略
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML文本实体数据去重策略

文档简介:
重复样本的定义: 一个文本实体抽取的样本包括文本内容和实体类别。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

重复样本的定义

一个文本实体抽取的样本包括文本内容和实体类别。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

以下3条都是文本实体抽取任务的重复样本,样本示例如下:

文本内容 实体类别
今天北京的空气不错 北京:loc
今天北京的空气不错 今天:date
今天北京的空气不错 北京:local

上述两个表中,都代表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。

Tips: “如何利用好重复样本”,如果您在模型训练过程中,需要通过增加某个类别标签的预测权重,可以通过增加此标签的重复样本来达到此目标。

平台去重策略

平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。此时分为几种情况,如下:

  1. 数据集中有未标注样本,上传重复的已标注样本,此时未标注样本将被覆盖
  2. 数据集中有已标注样本,上传重复的未标注样本,此时已标注样本将被覆盖
  3. 数据集中有已标注样本,上传不同标注的已标注样本,此时已有的标注样本将被覆盖
相似文档
  • 使用智能标注功能可降低数据的标注成本。启动后,系统会从数据集所有图片中筛选出最关键的图片并提示需要优先标注。通常情况下,只需标注数据集30%左右的数据即可训练模型。与标注所有数据后训练相比,模型效果几乎等同。
  • 欢迎您使用「文本智能标注」。您可以通过提供少量人工标注数据和大量无标注数据,通过文本智能标注能力进行自动标注,并将需要人工优先复审的样本筛选出来,辅助您快速完成数据标注工作。您可以获得大规模的智能标注数据,并将数据用于模型的训练。本文将介绍说明如何利用「文本智能标注」获得智能标注数据,以及智能标注与后续如何使用智能标注数据训练模型。
  • 当线下有大规模已经标注好的数据,在上传时有两种方式: 一种是通过在页面以压缩包的形式上传标注文件及原始数据,这种方式对标注文件的格式有一定规范要求,详见不同数据类型的导入和上传方式; 一种为通过调用数据集上传API形式导入线下数据,当线下已有较大规模的已标注数据时,适合用该种方式上传。本文档主要介绍如何用数据集管理API上传数据。
  • 开通云服务调用数据反馈功能后,可查找云服务模型识别错误的数据,纠正结果并将其加入模型迭代的训练集,实现训练数据的持续丰富和模型效果的持续优化。 具体使用流程如下: Step 1 为已部署在公有云的模型开通服务 在数据服务-云服务调用数据中创建新的数据反馈,阅读并同意服务条款:
  • 在BML中,面向初级的AI开发者提供了预置模型调参建模方式。在该方式下,开发者无需关注构建模型的代码细节,而只需要选择合适的预训练模型以及网络即可。对于系统预置的可配置网络参数,可以适用于大部分场景,开发者也可以根据自己的经验进行调整,以获得更适合特定场景的模型。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部