飞桨BML 全功能AI开发平台

简介/价格/文档

百度智能云全功能AI开发平台BML可视化建模 - NLP算法

文档简介：

Bert命名实体识别： BERT 采用了 Transformer Encoder 的模型来作为语言模型，Transformer模型完全抛弃了 RNN/CNN 等结构，而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上，加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络，然后在新的语料上重新训练来进行 fine-tune。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

NLP算法

Bert命名实体识别

BERT 采用了 Transformer Encoder 的模型来作为语言模型，Transformer模型完全抛弃了 RNN/CNN 等结构，而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上，加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络，然后在新的语料上重新训练来进行 fine-tune。 Bert命名实体识别模型将句子输入到bert中，在bert输出后连接一个crf层得到最后结果，输入的数据格式应满足BIO的标注格式。

输入

输入文本数据集，标注数据常采用BIO的标注方式。

输出

输出Bert命名实体识别模型。

算子参数

参数名称	是否必选	参数描述	默认值
batch_size	是	训练过程中的batch_size 范围：[1, inf)。	4
epoch	是	训练过程中的训练轮数范围：[1, inf)。	1
do_lower_case	是	输入文本是否小写, 对于中文文本应当设置为True。	开启
学习率	是	训练开始时的学习率范围：[0.0, 1.0]。	3e-05
序列最大长度，超过(序列最大长度-1)的输入字将被截取掉	是	序列最大长度范围：[2, inf)。	128
warmup_proportion	是	进行线性学习率预热的训练比例范围：[0.0, 1.0]。	0.1
save_checkpoints_steps	是	保存checkpoint的频率范围：[1, inf)。	1000
训练集/验证集划分比例	是	训练集合比例设置成 1 则不使用验证集。范围：[0.01, 1.0]。	0.8
选择预训练模型	是	选择预训练模型	中文训练模型

字段参数

参数名称	是否必选	参数描述	默认值
文本列	是	请选择文本列，句子分字，字之间必须以空格间隔，类型为字符串。	无
标签列	是	请选择标签列，采用BIO格式标注方式，标签之间必须以空格间隔且个数和文本列相同，类型为字符串。	无

使用示例

BIO方式标注的数据。

构件算子结构，完成训练，如果训练失败提示oom信息，请您增加内存后重新训练。

Bert词性标注

BERT 采用了 Transformer Encoder 的模型来作为语言模型，Transformer模型完全抛弃了 RNN/CNN 等结构，而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上，加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络，然后在新的语料上重新训练来进行 fine-tune。 Bert词性标注模型为：BERT + CRF，输入的数据格式应满足BIO的标注格式。

输入

输入文本数据集，标注数据常采用BIO的标注方式。

输出

输出Bert词性标注模型。

算子参数

参数名称	是否必选	参数描述	默认值
batch_size	是	训练过程中的batch_size 范围：[1, inf)。	4
epoch	是	训练过程中的训练轮数范围：[1, inf)。	1
do_lower_case	是	输入文本是否小写, 对于中文文本应当设置为True。	开启
学习率	是	训练开始时的学习率范围：[0.0, 1.0]。	3e-05
序列最大长度，超过(序列最大长度-1)的输入字将被截取掉	是	序列最大长度范围：[2, inf)。	128
warmup_proportion	是	进行线性学习率预热的训练比例范围：[0.0, 1.0]。	0.1
save_checkpoints_steps	是	保存checkpoint的频率范围：[1, inf)。	1000
训练集/验证集划分比例	是	训练集合比例设置成 1 则不使用验证集。范围：[0.01, 1.0]。	0.8
选择预训练模型	是	选择预训练模型	中文训练模型

字段参数

参数名称	是否必选	参数描述	默认值
文本列	是	请选择文本列，句子分字，字之间必须以空格间隔，类型为字符串。	无
标签列	是	请选择标签列，采用BIO格式标注方式，标签之间必须以空格间隔且个数和文本列相同，类型为字符串。	无

使用示例

BIO方式标注的数据。

构件算子结构，完成训练，如果训练失败提示oom信息，请您增加内存后重新训练。

查看预测结果。

Bert实体-关系组件

输入

输入数据集，特征列按顺序选择两列实体与一列文本（类型为字符串类型）。

输出

输出Bert实体-关系组件模型。

算子参数

参数名称	是否必选	参数描述	默认值
batch_size	是	训练过程中的batch_size 范围：[1, inf)。	4
epoch	是	训练过程中的训练轮数范围：[1, inf)。	1
do_lower_case	是	输入文本是否小写, 对于中文文本应当设置为True。	开启
学习率	是	训练开始时的学习率范围：[0.0, 1.0]。	3e-05
序列最大长度	是	序列最大长度范围：[2, inf)。	128
warmup_proportion	是	进行线性学习率预热的训练比例范围：[0.0, 1.0]。	0.1
save_checkpoints_steps	是	保存checkpoint的频率范围：[1, inf)。	1000
训练集/验证集划分比例	是	训练集合比例设置成 1 则不使用验证集。范围：[0.01, 1.0]。	0.8
选择预训练模型	是	选择预训练模型	中文训练模型

字段参数

参数名称	是否必选	参数描述	默认值
文本列	是	按顺序选择两列实体与一列文本（类型为字符串类型）。	无
标签列	是	选择一列标签列。	无

使用示例

构建算子结构，配置参数，完成训练。

Bert文本相似度

输入

输入数据集，特征列为两列文本列（类型为字符串类型），标签列为一列文本列（类型为整型）。

输出

输出Bert文本相似度模型。

算子参数

参数名称	是否必选	参数描述	默认值
batch_size	是	训练过程中的batch_size 范围：[1, inf)。	4
epoch	是	训练过程中的训练轮数范围：[1, inf)。	1
do_lower_case	是	输入文本是否小写, 对于中文文本应当设置为True。	开启
学习率	是	训练开始时的学习率范围：[0.0, 1.0]。	3e-05
序列最大长度	是	序列最大长度范围：[2, inf)。	128
warmup_proportion	是	进行线性学习率预热的训练比例范围：[0.0, 1.0]。	0.1
save_checkpoints_steps	是	保存checkpoint的频率范围：[1, inf)。	1000
训练集/验证集划分比例	是	训练集合比例设置成 1 则不使用验证集。范围：[0.01, 1.0]。	0.8
选择预训练模型	是	选择预训练模型。	中文训练模型

字段参数

参数名称	是否必选	参数描述	默认值
文本列	是	选择两列文本列（类型为字符串类型）	无
标签列	是	选择一列文本列（类型为整型）	无

使用示例

构建算子结构，配置参数，完成训练。

Fasttext文本分类

Fasttext 是一种简单有效的句子分类算法，通过词向量以及 n-gram 向量的平均值计算出句子的向量表示，再通过全连接层网络对句子进行分类。

输入

输入一个数据集，特征列需要是字符串列表或字符串类型（如果是字符串类型，假设字符串已经经过了分词，以空格或tab分割），标签列需要是枚举类型。

输出

输出Fasttext模型，可以使用python预测组件进行预测。

算子参数

参数名称	是否必选	参数描述	默认值
学习率	是	学习率范围：[0.01, 1.0]。	0.10
词向量维度	是	词向量维度范围：[50, 500]。	100
上下文窗口	是	训练词向量考虑的上下文窗口大小范围：[3, 15]。	5
迭代轮数	是	算法运行的 epoch 数，迭代几轮训练集范围：[1, 100]。	5
单词最小出现次数	是	小于该数值的单词记为OOV 范围：[1, 10]。	1
负采样个数	是	负采样个数范围：[1, 20]。	5
ngarm数	是	ngram数范围：[1, 5]。	1
损失函数	是	损失函数，目前支持： softmax hs ns ova	softmax

字段参数

参数名称	是否必选	参数描述	默认值
输入列	是	必须是字符串列表或字符串类型。如果是字符串类型，需要提前以空格或tab分词。	无
标签列	是	需要是枚举类型。	无

使用示例

构建算子结构，配置参数，完成训练。

LDA主题模型

LDA 在主题模型中占有非常重要的地位，常用来文本分类，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。

输入

输入一个数据集，输入列为字符串数组类型（既经过分词后的数据）。

输出

输出LDA主题模型。

算子参数

参数名称	是否必选	参数描述	默认值
主题数量	是	主题数量（聚簇中心数量）范围：[2, inf)。	10
优化器	是	优化器用来学习LDA模型，当前支持： online:Online Variational Bayes和em:Expectation-Maximization	online
Dirichlet分布的参数α	否	文档在主题上分布的先验参数（超参数α),值越大推断出得分布越平滑范围：[1.000000000000001, inf)。	无
Dirichlet分布的参数β	否	主题在单词上的先验分布参数,值越大推断出得分布越平滑范围：[1.000000000000001, inf)。	无
采样率	是	小批量梯度下降的每次迭代中要采样和使用的语料的比例范围：[1.0E-15, 1.0]。	0.05
最大迭代轮数	是	当迭代次数大于该数值时，停止迭代范围：[1, inf)。	20
随机种子	否	随机数种子。	无

字段参数

参数名称	是否必选	参数描述	默认值
输入列	是	需要做LDA的列，类型需要是字符串数组。	无

使用示例

构建算子结构，配置参数，完成训练。

相似文档

百度智能云全功能AI开发平台BML可视化建模 - 自然语言处理组件
Word2Vec： Word2Vec 是一种经典的词向量算法，能够从大量文本中学习出各个词语的向量表示，其利用神经网络，可以通过训练，将词映射到 K 维度空间向量，甚至对于表示词的向量进行操作还能和语义相对应，由于其简单和高效引起了很多人的关注。
百度智能云全功能AI开发平台BML可视化建模 - 图算法
FastUnfolding： FastUnfolding 算法是基于模块度对社区划分的算法。FastUnfolding 算法是一种迭代的算法，主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。
百度智能云全功能AI开发平台BML可视化建模 - 统计分析组件
统计分析组件 AutoRegression 自相关函数，求解时间序列的自相关性，可以表现出模型的平稳性。输入输入是一个数据集，需要选择要做AR的两列。选择的检验列需要是数值类型，排序列用于排序。输出输出是一个结果数据集。包含两列：lag，correlation，列的类型分别是bigint和double。
百度智能云全功能AI开发平台BML可视化建模 - 预测组件
特征工程预测特征工程预测是专门用于特征工程组件模型预测的组件，特征工程组件中生成模型的算法都可以采用该组件进行预测操作。输入输入Python 模型和预测数据集。输出输出Python模型预测结果数据集。预测组件预测组件是专门用于算法组件模型预测的组件，算法组件产出的模型可以采用该组件进行预测操作。
百度智能云全功能AI开发平台BML可视化建模 - 模型评估组件
二分类评估：评估模块支持计算 AUC、KS 及 F1 score，同时输出数据用于画 PR 曲线、ROC 曲线、KS 曲线、LIFT chart、Gain chart，同时也支持分组评估。输入：最多可输入4个数据集，用户需要选择原始标签列、预测标签列和正样本标签值，还可以提供scoreColumn获得更多指标。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

NLP算法

Bert命名实体识别

Bert词性标注

Bert实体-关系组件

Bert文本相似度

Fasttext文本分类

LDA主题模型