上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML可视化建模 - 聚类算法
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML可视化建模 - 聚类算法

文档简介:
高斯混合模型聚类: 高斯混合模型(Gaussian Mixture Model)通常简称GMM,高斯混合模型是由多个高斯分布的结合组成的概率分布模型,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

聚类算法

高斯混合模型聚类

高斯混合模型(Gaussian Mixture Model)通常简称GMM,高斯混合模型是由多个高斯分布的结合组成的概率分布模型,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。

输入

  • 输入一个数据集,选择需要聚类的特征列,特征列只支持数值或数值列表类型。

输出

  • 输出高斯混合聚类模型。

算子参数

参数名称 是否必选 参数描述 默认值
聚类数 聚类数 范围:[2, 500]。 2
最大迭代次数 最大迭代次数 范围:[1, 10000]。 100
收敛容差 当小于该值时,停止迭代 范围:[0.0, inf)。 0.01
随机种子 随机种子,用于保证多次训练结果相同。 -1

字段参数

参数名称 是否必选 参数描述 默认值
特征列 支持数值或数值列表类型。

计算逻辑

高斯混合模型:

使用示例

查看聚类中心。

查看聚类结果。

KMeans聚类

KMeans 聚类是一种得到最广泛使用的聚类算法,把 n 个对象分为 k 个簇,使簇内具有较高的相似度。相似度根据一个簇中对象的平均值来计算。 算法首先随机地选择 k 个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇,然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。 它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。

输入

  • 输入一个数据集,选择需要聚类的特征列,支持数值或数值列表类型。

输出

  • 输出KMeans聚类。

算子参数

参数名称 是否必选 参数描述 默认值
聚类数 聚类数 范围:[2, 500]. 2
质心初始化方法 质心初始化方法:
Furthest
PlusPlus
Random
Furthest
最大迭代次数 最大迭代次数 范围:[1, 10000] 100
正则化 是否进行正则化处理 开启
评估聚类数量 开启后,算法会从1到设置的聚类数依次评估合适的聚类数 关闭
随机种子 随机种子,用于保证多次训练结果相同
是否交叉验证 是否进行交叉验证
交叉份数 交叉验证的份数 范围:[2, 20] 2
交叉验证划分方式 交叉验证每份的划分方式,目前支持取余划分和随机划分 随机划分

字段参数

参数名称 是否必选 参数描述 默认值
特征列 支持数值或数值列表类型

使用示例

  1. 构建算子结构,配置参数,完成训练。

  1. 查看聚类结果。

相似文档
  • 注意:Python算法组件,需连接Python预测组件。 AP聚类: AP 算法的基本思想是将全部样本看作网络的节点,通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中,共有两种消息在各节点间传递,分别是吸引度(responsibility)和归属度(availability)。AP 算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的 Exemplar(类似于质心),同时将其余的数据点分配到相应的聚类中。
  • Bert命名实体识别: BERT 采用了 Transformer Encoder 的模型来作为语言模型,Transformer模型完全抛弃了 RNN/CNN 等结构,而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上,加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络,然后在新的语料上重新训练来进行 fine-tune。
  • Word2Vec: Word2Vec 是一种经典的词向量算法,能够从大量文本中学习出各个词语的向量表示,其利用神经网络,可以通过训练,将词映射到 K 维度空间向量,甚至对于表示词的向量进行操作还能和语义相对应,由于其简单和高效引起了很多人的关注。
  • FastUnfolding: FastUnfolding 算法是基于模块度对社区划分的算法。FastUnfolding 算法是一种迭代的算法,主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。
  • 统计分析组件 AutoRegression 自相关函数,求解时间序列的自相关性,可以表现出模型的平稳性。 输入 输入是一个数据集,需要选择要做AR的两列。选择的检验列需要是数值类型,排序列用于排序。 输出 输出是一个结果数据集。包含两列:lag,correlation,列的类型分别是bigint和double。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部