飞桨BML 全功能AI开发平台

简介/价格/文档

百度智能云全功能AI开发平台BML可视化建模 - 聚类算法

文档简介：

高斯混合模型聚类：高斯混合模型（Gaussian Mixture Model）通常简称GMM，高斯混合模型是由多个高斯分布的结合组成的概率分布模型，是一种业界广泛使用的聚类算法，该方法使用了高斯分布作为参数模型，并使用了期望最大（Expectation Maximization，简称EM）算法进行训练。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

聚类算法

高斯混合模型聚类

高斯混合模型（Gaussian Mixture Model）通常简称GMM，高斯混合模型是由多个高斯分布的结合组成的概率分布模型，是一种业界广泛使用的聚类算法，该方法使用了高斯分布作为参数模型，并使用了期望最大（Expectation Maximization，简称EM）算法进行训练。

输入

输入一个数据集，选择需要聚类的特征列，特征列只支持数值或数值列表类型。

输出

输出高斯混合聚类模型。

算子参数

参数名称	是否必选	参数描述	默认值
聚类数	是	聚类数范围：[2, 500]。	2
最大迭代次数	是	最大迭代次数范围：[1, 10000]。	100
收敛容差	否	当小于该值时，停止迭代范围：[0.0, inf)。	0.01
随机种子	否	随机种子，用于保证多次训练结果相同。	-1

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	支持数值或数值列表类型。	无

计算逻辑

高斯混合模型：

使用示例

查看聚类中心。

查看聚类结果。

KMeans聚类

KMeans 聚类是一种得到最广泛使用的聚类算法，把 n 个对象分为 k 个簇，使簇内具有较高的相似度。相似度根据一个簇中对象的平均值来计算。算法首先随机地选择 k 个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇，然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

输入

输入一个数据集，选择需要聚类的特征列，支持数值或数值列表类型。

输出

输出KMeans聚类。

算子参数

参数名称	是否必选	参数描述	默认值
聚类数	是	聚类数范围：[2, 500].	2
质心初始化方法	是	质心初始化方法： Furthest PlusPlus Random	Furthest
最大迭代次数	是	最大迭代次数范围：[1, 10000]	100
正则化	是	是否进行正则化处理	开启
评估聚类数量	是	开启后，算法会从1到设置的聚类数依次评估合适的聚类数	关闭
随机种子	否	随机种子，用于保证多次训练结果相同	无
是否交叉验证	是	是否进行交叉验证	否
交叉份数	是	交叉验证的份数范围：[2, 20]	2
交叉验证划分方式	是	交叉验证每份的划分方式，目前支持取余划分和随机划分	随机划分

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	支持数值或数值列表类型	无

使用示例

构建算子结构，配置参数，完成训练。

查看聚类结果。

相似文档

百度智能云全功能AI开发平台BML可视化建模 - Python算法组件
注意：Python算法组件，需连接Python预测组件。 AP聚类： AP 算法的基本思想是将全部样本看作网络的节点，通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中，共有两种消息在各节点间传递，分别是吸引度(responsibility)和归属度(availability)。AP 算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的 Exemplar（类似于质心），同时将其余的数据点分配到相应的聚类中。
百度智能云全功能AI开发平台BML可视化建模 - NLP算法
Bert命名实体识别： BERT 采用了 Transformer Encoder 的模型来作为语言模型，Transformer模型完全抛弃了 RNN/CNN 等结构，而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上，加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络，然后在新的语料上重新训练来进行 fine-tune。
百度智能云全功能AI开发平台BML可视化建模 - 自然语言处理组件
Word2Vec： Word2Vec 是一种经典的词向量算法，能够从大量文本中学习出各个词语的向量表示，其利用神经网络，可以通过训练，将词映射到 K 维度空间向量，甚至对于表示词的向量进行操作还能和语义相对应，由于其简单和高效引起了很多人的关注。
百度智能云全功能AI开发平台BML可视化建模 - 图算法
FastUnfolding： FastUnfolding 算法是基于模块度对社区划分的算法。FastUnfolding 算法是一种迭代的算法，主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。
百度智能云全功能AI开发平台BML可视化建模 - 统计分析组件
统计分析组件 AutoRegression 自相关函数，求解时间序列的自相关性，可以表现出模型的平稳性。输入输入是一个数据集，需要选择要做AR的两列。选择的检验列需要是数值类型，排序列用于排序。输出输出是一个结果数据集。包含两列：lag，correlation，列的类型分别是bigint和double。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

聚类算法

高斯混合模型聚类

KMeans聚类