上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML自然语言处理任务简介
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML自然语言处理任务简介

文档简介:
EasyDL专业版平台将支持代码级的NLP任务包括文本分类任务、短文本匹配任务、序列标注任务、文本实体抽取任务。同时平台集成了百度大脑文心的ERNIE2.0预训练模型,可以选择ERNIE-Base、ERNIE-Large、ERNIE-Tiny三种类型的预训练模型。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

EasyDL专业版平台将支持代码级的NLP任务包括文本分类任务、短文本匹配任务、序列标注任务、文本实体抽取任务。同时平台集成了百度大脑文心的ERNIE2.0预训练模型,可以选择ERNIE-Base、ERNIE-Large、ERNIE-Tiny三种类型的预训练模型。

预训练模型ERNIE

ERNIE 是一个从海量无监督数据中学习大量知识的超大预训练模型,通过将 ERNIE 模型中的这些知识迁移到上层特定任务相关的网络从而显著提升任务效果;基于 ERNIE 来 Finetune 特定任务就好比是站在巨人的肩膀上看世界,起点会显著高于从 0 开始训练特定任务的深度学习模型;您可以通过ERNIE官网查看最新动态和相关信息。

不同版本的ERNIE特点

  • Base 模型的网路结构主体由 12 层 transformer block 构成,此版本的预测精度、预测性能、训练速度相对均衡
  • Large模型拥有更大的参数量,以及更好的 Finetune 效果,Large模型网络结构主体由 24 层Transformer Block构成,此版本的预测精度突出
  • Tiny模型有更浅的模型,在实际真实数据中有超过4倍的预测提速,预测精度逼近Base版

文本分类

文本分类任务中,平台提供的网络有:BOW、CNN、GRU、TextCNN、LSTM、BiLSTM; 同时,平台提供了BOW、CNN、GRU、TextCNN、LSTM、BiLSTM的ERNIE预训练模型版本的网络;

网络特点描述

  • BOW:词袋模型,不考虑语法和语序,用一组无序单词来表达一段文本
  • CNN:卷积神经网络,通过卷积核的权重共享减少参数数量,能够处理变长的序列输入
  • GRU:门控循环单元网络,能够较好地处理序列文本中长距离依赖的问题
  • TextCNN:该模型可以自主设定多组不同窗口的CNN模型
  • LSTM:长短期记忆网络,能够较好地处理序列文本中长距离依赖问题
  • BiLSTM:双向长短期记忆网络,能够更好的捕捉句子中的语义特征

短文本语义匹配

短文本匹配任务中,平台提供的网络有:SimNet-BOW、SimNet-CNN、SimNet-GRU、SimNet-LSTM、FC;

同时,ERNIE预训练模型可选FC网络;

网络特点描述

  • FC:基础句对匹配模型,可以任意搭配其他各种经典网络
  • SimNet-CNN:卷积神经网络,能够处理变长的序列输入,提取一个局部区域之内的特征
  • SimNet-BOW:词袋模型,不考虑语法和语序,用一组无序单词来表达一段文本
  • SimNet-GRU:门控循环单元网络,能够较好地处理序列文本中长距离依赖的问题
  • SimNet-LSTM:长短期记忆网络,能够较好地处理序列文本中长距离依赖问题

序列标注

序列标注任务中,平台提供的网络为CRF; ERNIE预训练模型可选CRF网络;

网络特点描述

  • CRF:条件随机场,能够考虑上下文关联信息的进行模型学习

文本实体抽取

文本实体抽取基于序列标注任务,平台提供CRF网络,使用预训练模型ERNIE时,也可接入CRF网络;

相似文档
  • 一个项目是指对应的一个场景或者领域的问题,例如智能客服场景、智能教育场景等。在BML中,提供了文本分类单标签、文本分类多标签、短文本相似度、序列标注、文本实体抽取任务的模型训练能力。本章节将通过演示,如何创建一个自然语言处理任务来完成问文本分类的任务。
  • 在新建任务的面板中,可查看相关项目“基本信息”、“配置任务类型”、“添加数据”、“配置任务”等操作,如下图: 配置任务类型时,您可以看到增量训练有一个开关选项。增量训练也成为模型热启动,当您训练完模型但效果不理想想继续添加数据,或您的训练模型超过训练时长被中断是,您可以开启增量训练,使该新任务能在基准任务的基础上继续运行。
  • 当平台跑完NLP任务后,您可以点击“模型效果”进行查看 您可以选择对应任务的不同版本,查看不同的效果数据,如图,当前是V1版本的效果数据: 效果校验 平台提供了针对模型的校验工具,您可以通过上传文本,了解如何模型的识别效果,从而对模型进行校验
  • 代码模板升级整体说明: 平台于2020年4月16日,对自然语言处理模型训练的代码模板进行了升级,建议您在5月1日前完成对旧版任务的迁移。本次升级,平台的自然语言处理任务将为您提供封装性和灵活性俱佳的开发体验,并支持了飞桨深度学习框架Paddle-Fluid 1.6.1的版本。
  • 脚本调参支持多种表格预测任务,训练得到的模型可以应用到广泛实际场景中。 表格预测模型类型: 表格预测帮助用户通过机器学习技术发现已有数据中的规律,从而创建机器学习模型,并基于机器学习模型处理新的数据,为业务应用生成预测结果。脚本调参中提供的表格数据预测支持创建回归、二分类、多分类三种类型的机器学习模型。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部