上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML可视化建模 - 异常检测算法
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML可视化建模 - 异常检测算法

文档简介:
IsolationForest: 在高维数据集中实现异常值检测的一种有效方法是使用随机森林。隔离森林(IsolationForest)通过随机选择特征然后随机选择所选特征的最大值和最小值之间的分割值来隔离观测。 由于递归划分可以由树形结构表示,因此隔离样本所需的分割次数等同于从根节点到终止节点的路径长度。 在这样的随机树的森林中取平均的路径长度作为决策量度。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

异常检测算法

IsolationForest

在高维数据集中实现异常值检测的一种有效方法是使用随机森林。隔离森林(IsolationForest)通过随机选择特征然后随机选择所选特征的最大值和最小值之间的分割值来隔离观测。 由于递归划分可以由树形结构表示,因此隔离样本所需的分割次数等同于从根节点到终止节点的路径长度。 在这样的随机树的森林中取平均的路径长度作为决策量度。 随机划分能为异常观测产生明显的较短路径。 因此,当随机树的森林共同为特定样本产生较短的路径长度时,这些样本就很有可能是异常观测。

输入

  • 输入一个数据集,选择需要进行异常检测的特征列。

输出

  • 输出IsolationForest模型。

算子参数

参数名称 是否必选 参数描述 默认值
树的数量 模型中树的数量。数量较大时建议增加内存 范围:[1, 1000]。 50
最大深度 每棵树最大的深度 范围:[1, 50]。 30
采样率 计算每棵树时从训练数据集随机采样的比率 范围:[0.001, 1.0]。 0.632
随机种子 随机种子,用于保证多次训练结果相同。

字段参数

参数名称 是否必选 参数描述 默认值
特征列 支持数值或数值数组类型。

使用示例

如下图所示,构建算子结构,选择特征列,配置检测条件参数。

相似文档
  • 高斯混合模型聚类: 高斯混合模型(Gaussian Mixture Model)通常简称GMM,高斯混合模型是由多个高斯分布的结合组成的概率分布模型,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。
  • 注意:Python算法组件,需连接Python预测组件。 AP聚类: AP 算法的基本思想是将全部样本看作网络的节点,通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中,共有两种消息在各节点间传递,分别是吸引度(responsibility)和归属度(availability)。AP 算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的 Exemplar(类似于质心),同时将其余的数据点分配到相应的聚类中。
  • Bert命名实体识别: BERT 采用了 Transformer Encoder 的模型来作为语言模型,Transformer模型完全抛弃了 RNN/CNN 等结构,而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上,加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络,然后在新的语料上重新训练来进行 fine-tune。
  • Word2Vec: Word2Vec 是一种经典的词向量算法,能够从大量文本中学习出各个词语的向量表示,其利用神经网络,可以通过训练,将词映射到 K 维度空间向量,甚至对于表示词的向量进行操作还能和语义相对应,由于其简单和高效引起了很多人的关注。
  • FastUnfolding: FastUnfolding 算法是基于模块度对社区划分的算法。FastUnfolding 算法是一种迭代的算法,主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部