上云无忧 > 文档中心 > 百度智能云全功能AI开发平台BML开发表格预测模型-配置专家模式表格数据预测任务
飞桨BML 全功能AI开发平台
百度智能云全功能AI开发平台BML开发表格预测模型-配置专家模式表格数据预测任务

文档简介:
表格预测任务支持AutoML和专家两种运行方式: 专家模式:高度开放的建模方式,用户可以进行特征工程、算法、超参搜索等配置,具备相关技能的开发者可以在方式下获得更多的开发自由度。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

表格预测任务支持AutoML和专家两种运行方式:

  • AutoML模式:全流程自动建模,用户只需设置数据集、目标列以及制定任务类型即可,而无需关注数据处理以及算法配置等过程,系统会自动完成建模过程,并从中挑选最优的模型作为训练任务的运行结果。
  • 专家模式:高度开放的建模方式,用户可以进行特征工程、算法、超参搜索等配置,具备相关技能的开发者可以在方式下获得更多的开发自由度。

创建专家建模任务

操作场景

以iris数据集为例,创建多分类模型,iris数据集示例如下:

sepal_length,sepal_width,petal_length,petal_width,species

5.1,3.5,1.4,0.2,setosa

4.9,3.0,1.4,0.2,setosa

4.7,3.2,1.3,0.2,setosa

4.6,3.1,1.5,0.2,setosa

前提条件

在创建表格预测任务前,需满足如下条件:

  • 必须已成功创建“表格”类数据,数据集导入状态为“已完成”
  • 数据集中行数必须大于0,即必须是非空数据集

操作步骤

  1. 在BML操作台的左侧导航菜单上单击“脚本调参”,进入脚本调参列表页面。
  2. 单击已创建的“iris分类”所在行的“新建任务”,进入“新建任务”页面。

    配置参数如下所示:

    • 基本信息

      • 开发方式:选择专家模式
      • 训练方式:支持单机和分布式两种模式,单击模式支持更多的算法。
      • 任务备注:请根据实际情况填写,详细的配置说明可以参考初始化脚本头部的注释内容。
    • 添加数据

      • 选择数据集:选择已创建的iris数据集
      • 选择目标列:设置为species
      • 算法类型:设置为“多分类”
      • 特征工程策略:

        • 默认配置:执行系统默认的特征工程策略
        • 手动配置:用户可以手工配置各个特征工程算子的执行参数从而控制其执行方式
        • 自动搜索:用户可以选择要使用那些特征工程算子,系统会自动搜索并完成用户选择的特征工程算子的配置。
    • 配置任务

      • 系统会根据用户选择的训练方式以及算法类型自动生成任务脚本,在不需要修改的情况下可直接启动训练。
      • 自定义脚本内容过程中有如下注意事项:

        1. 可以自定义的部分为超参配置字典conf部分,包括是否开启超参搜索,训练模型类型和模型配置,具体见脚本中的注释
        2. 训练默认开启自动超参搜索,如需关闭请手动将"hyperparameter_tune"的参数值由"True"更改为"False"
        3. BML当前表格数据预测支持模型为CAT(CatBoost), LGBM(LightGBM),RF(RandomForest), LR(Logistic Regression), XGB(Xgboost), KNN(k-NearestNeighbor)
        4. 在"hp_space"中已经预置可搜索的超参数,用户无需修改参数名称,随意设置可能会导致训练失败
        5. 在超参搜索范围内的取值方式支持:平均采样(uniform),非平均采样(quniform), 离散值(choice), 对数平均采样(loguniform),随机整数(randint)五种,超参搜索范围设置过大可能会导致训练时间过长。
        6. CAT模型支持搜索的超参数,已经预置默认搜索范围,详见脚本内容

          超参数 说明
          depth 决策树的深度
          iterations 最大树数
          learning_rate 学习率,控制机器学习网络的学习速度,学习率越低,损失函数的 变化速度就越慢,反之亦然
          l2_leaf_reg L2正则项,防止模型过拟合
          border_count numerical features的分割数
        7. LGBM模型支持搜索的超参数,已经预置默认搜索范围,详见脚本内容

          超参数 说明
          num_leaves 决策树的叶子数
          boosting_type boosting参数的类型,默认包含"rf", "gbdt", "dart", "goss"
          n_estimators 对原始数据集进行有放回抽样生成的子数据集个数,即决策树的个 数,n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大
          max_depth 决策树最大深度
          subsample 每棵树随机采样的比例
          learning_rate 学习率
          colsample_bytree 每棵随机采样的列数的占比(每一列是一个特征)
          reg_alpha L1正则项,防止模型过拟合
          reg_lambda L2正则项,防止模型过拟合
        8. RF模型支持搜索的超参数,已经预置默认搜索范围,详见脚本内容

          超参数 说明
          n_estimators 对原始数据集进行有放回抽样生成的子数据集个数,即决策树的个 数,n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大
          max_features 随机森林允许单个决策树使用特征的最大数量
          max_depth 决策树最大深度
          min_samples_split 节点可分的最小样本数,少于该数值次叶子节点不再可分
          min_samples_leaf 叶子节点上应有的最少样例数,样例数量不符合则不能构成一个叶子节点
          bootstrap 是否对样本集进行有放回抽样来构建树
      • 发布模型

        • 自动发布-开:即完成训练后,系统会自动将当前任务得到的模型发布到模型仓库中
        • 自动发布-关:完成训练后,用户可以根据模型精度等再决定是否将模型发布到模型仓库
      • 配置资源

        • 运行环境:请根据数据量以及期望的运行速度进行设置。根据经验值,在建模过程中,数据会在内存中膨胀为原始大小的10倍,为保证任务顺利完成,请尽量确保配置的资源的内存不小于原始数据集的10倍。
        • 选择节点数:只有选择的“分布式”的训练方式才可以设置为大于1的值。
        • 最长训练时间:该时长指算法求解阶段的最长时长,若超过该时长,算法仍未得到结果,系统会强制结束训练任务。

    配置示例如下所示:

    • 基本信息部分:


    • 添加数据部分:


  3. 单击“提交训练任务”,开始执行模型训练。

    提交任务后可以在任务列表中查看任务的执行状态。

相似文档
  • 在脚本调参任务训练完成后,可以查看任务结果。 在BML左侧导航栏中单击“脚本调参”,进入脚本调参列表页面。 在脚本调参表单中单击“任务列表”,可以进入其任务列表页面,如下所示: 在任务列表中,单击评估报告,可以查看该任务生成的模型的报告信息,如下所示:
  • 文字识别模型类型: 文字识别模型即是常说的OCR模型,预置模型调参目前提供了通用的全文本识别场景,可以应对常规的文字识别任务,且支持多种文字。 文字识别模型应用场景: 纸质文档电子化: 通用文字识别模型支持针对多语种的纸质文档进行电子化,开发者可以采集文档图片并标注,对模型进行训练,从而实现纸质文档的自动电子化,提升工作效率。
  • 文字识别任务操作流程 第一步:点击进入文字识别模型页面 第二步:点击创建 第三步:填写项目基本信息 第四步:点击新建任务 第五步:完善任务信息 第六步:配置资源并提交训练
  • 可视化建模通过拖拉拽和拼接组件的方式,形成建模流程。用户配置组件参数后,即可训练模型。 平台提供可视化的实验开发环境,开发人员和业务人员根据场景和业务需求能够在交互式画布上直观地连接数据处理、特征工程,算法,模型预测和模型评估等组件,基于无代码方式实现人工智能模型开发。可视化建模在降低模型开发门槛的同时提升了建模的效率。
  • 本文以信用卡诈骗场景为例,帮助您快速构建可视化建模实验。 数据准备: 本例所采用的Credit card fraud( https://www.kaggle.com/mlg-ulb/creditcardfraud) 数据集包含 2013 年九月欧洲的信用卡持有者的交易记录,交易次数共有 284807 次,其中的 492 次为诈骗交易。该数据集多用于金融领域,建模的目的是检测信用卡欺诈行为。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部