百度智能云数据湖管理与分析平台EasyDAP - 离线可视化作业开发
文档简介:
可视化作业创建:
点击新建按钮,弹出【新建作业】弹窗。输入可视化作业名称。
点击【确定】。在【任务开发】列表中,显示创建任务。并且在开发面板中显示可视化作业支持插件。
可视化作业创建
点击新建按钮,弹出【新建作业】弹窗。输入可视化作业名称。
点击【确定】。在【任务开发】列表中,显示创建任务。并且在开发面板中显示可视化作业支持插件。
可视化作业编辑
离线可视化作业支持四种类型插件。源端插件、数据处理组件、开发分析组件和目标端插件。
- 源端插件:作为整个可视化作业的数据输入端,源端插件只能作为开始节点,下游可以连接数据处理组件、开发分析组件或者直接连接目标端插件。
- 数据处理组件:对上游源端插件的数据进行数据处理,用户可以使用脚本类插件对数据进行处理。
- 数据开发组件:对上游源端插件的数据进行数据开发,用户可以使用SQL抽象插件进行数据处理。
- 目标端插件:将上游处理好的数据写入到目标端插件。且目标端插件需要作为可视化作业的最后节点。
用户可以将插件节点拖拽到可视化开发面板中,进行可视化作业的开发。
可视化作业配置
开发完可视化作业之后,点击【基本信息】,显示可视化作业的基本信息,并能够进行描述修改。
点击【参数设置】,弹出可视化作业的参数设置。设置的参数可以在可视化作业中进行引用。
点击【资源设置】弹出作业资源设置框,对可视化作业进行资源设置。
需要选择【计算资源】,计算资源在资源管理中统一设置。
计算引擎可以选择:mapreduce和spark引擎,并可以针对不同引擎设置Driver和Executor。
可视化作业的保存及测试运行
开发完可视化作业后,点击上面【保存】按钮,进行作业保存。单独的离线可视化作业不支持发布,需要将可视化作业在【离线开发】作业组中引用,生成离线作业组之后,统一发布作业组。
点击【执行】,进行可视化作业测试运行,且在【执行信息】中弹出执行日志信息。