上云无忧 > 文档中心 > 百度智能云飞桨EasyDL零门槛AI开发平台评论观点抽取 - 数据去重策略
飞桨EasyDL零门槛AI开发平台
百度智能云飞桨EasyDL零门槛AI开发平台评论观点抽取 - 数据去重策略

文档简介:
重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如: 文本内容: 理发师的手艺真不错。 理发师的手艺真不错。 平台去重策略: 平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

重复样本的定义

重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

文本内容
理发师的手艺真不错
理发师的手艺真不错

平台去重策略

平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。

相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部