上云无忧 > 文档中心 > 天翼云数据治理中心 DataArts Studio 节点参考 - DLI Spark
数据治理中心 DataArts Studio
天翼云数据治理中心 DataArts Studio 节点参考 - DLI Spark

文档简介:
本章节主要介绍节点参考的 DLI Spark。 功能: 通过DLI Spark节点执行一个预先定义的Spark作业。 参数: 用户可参考下表配置DLI Spark节点的参数。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

功能

通过DLI Spark节点执行一个预先定义的Spark作业。

参数

用户可参考下表配置DLI Spark节点的参数。

属性参数

参数 是否必选 说明
节点名称 节点名称,可以包含中文、英文字母、数字、“_”、“-”、“/”、“<”、“>”等各类特殊字符,长度为1~128个字符。
DLI队列 下拉选择需要使用的队列。
作业特性 选择自定义镜像和对应版本。仅当DLI队列为容器化队列类型时,出现本参数。自定义镜像是DLI的特性。用户可以依赖DLI提供的Spark或者Flink基础镜像,使用Dockerfile将作业运行需要的依赖(文件、jar包或者软件)打包到镜像中,生成自己的自定义镜像,然后将镜像发布到SWR(容器镜像服务)中,最后在此选择自己生成的镜像,运行作业。自定义镜像可以改变Spark作业和Flink作业的容器运行环境。用户可以将一些私有能力内置到自定义镜像中,从而增强作业的功能、性能。。
作业名称 填写DLI Spark作业的名称,只能包含英文字母、数字、“_”,且长度为1~64个字符。默认与节点的名称一致。
作业运行资源 选择作业运行的资源规格:
8核32G内存
16核64G内存
32核128G内存
作业主类 Spark作业的主类名称。当应用程序类型为“.jar”时,主类名称不能为空。
Spark程序资源包 运行spark作业依赖的jars。可以输入jar包名称,也可以输入对应jar包文件的的OBS路径,格式为:obs://桶名/文件夹路径名/包名。在选择资源包之前,您需要先将Jar包及其依赖包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考管理资源章节中的“新建资源”。
资源类型 支持OBS路径和DLI程序包两种类型的资源。
OBS路径:作业执行时,不会上传资源包文件到DLI资源管理,文件的OBS路径会作为启动作业消息体的一部分,推荐使用该方式。
DLI程序包:作业执行前,会将资源包文件上传到
DLI资源管理。
分组设置 当“资源类型”选择了“DLI程序包”时,需要设置。可选择“已有分组”,“创建新分组”或“不分组”。
分组名称 当“资源类型”选择了“DLI程序包”时,需要设置。
选择“已有分组”:可选择已有的分组。
选择“创建新分组”:可输入自定义的组名称。
选择“不分组”:不需要选择或输入组名称。
主类入口参数 用户自定义参数,多个参数请以Enter键分隔。应用程序参数支持全局变量替换。例如,在“全局配置”>“全局变量”中新增全局变量key为batch_num,可以使用{{batch_num}},在提交作业之后进行变量替换。
Spark作业运行参数 以“key/value”的形式设置提交Spark作业的属性,多个参数以Enter键分隔。具体参数请参见Spark Configuration。
Spark参数value支持全局变量替换。
例如,在“全局配置”>“全局变量”中新增全局变量key为custom_class,可以使用"spark.sql.catalog"={{custom_class}},在提交作业之后进行变量替换。
说明
Spark作业不支持自定义设置jvm垃圾回收算法。
Module名称 DLI系统提供的用于执行跨源作业的依赖模块,访问各个不同的服务,选择不同的模块:
CloudTable/MRS HBase: sys.datasource.hbase
DDS:sys.datasource.mongo
CloudTable/MRS OpenTSDB: sys.datasource.opentsdb
DWS: sys.datasource.dws
RDS MySQL: sys.datasource.rds
RDS PostGre: sys.datasource.rds
DCS: sys.datasource.redis
CSS: sys.datasource.css
DLI内部相关模块:
sys.res.dli-v2
sys.res.dli
sys.datasource.dli-inner-table
访问元数据 是否通过Spark作业访问元数据。

高级参数

参数 是否必选 说明
节点状态轮询时间(秒) 设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。
节点执行的最长时间 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将不会再重试,直接置为失败状态。
失败重试 节点执行失败后,是否重新执行节点。
是:重新执行节点,请配置以下参数。
− 最大重试次数
− 重试间隔时间(秒)
否:默认值,不重新执行节点。
说明
如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后将不会再重试,直接置为失败状态。
失败策略 节点执行失败后的操作:
终止当前作业执行计划:停止当前作业运行,当前作业实例状态显示为“失败”。
继续执行下一节点:忽略当前节点失败,当前作业实例状态显示为“忽略失败成功”。
挂起当前作业执行计划:暂停当前作业运行,当前作业实例状态显示为“等待运行”。
终止后续节点执行计划:停止后续节点的运行,当前作业实例状态显示为“失败”。
空跑 如果勾选了空跑,该节点不会实际执行,将直接返回成功。

血缘关系

参数 说明
输入
新建 单击“新建”,在“类型”的下拉选项中选择要新建的类型。可以选择DWS,OBS,CSS,HIVE,CUSTOM和DLI类型。
DWS
− 连接名称(必选):单击,在弹出的“连接名称”窗口选择DWS的数据连接。
− 数据库(必选):单击,在弹出的“数据库”窗口选择DWS的数据库。
− schema(必选):单击,在弹出的“schema”窗口选择DWS的数据库模式。
− 表名(必选):单击,在弹出的“表名”窗口选择DWS的数据表。
OBS
− 路径(必选):单击,在弹出的“OBS文件浏览”窗口选择OBS路径。
CSS
− 集群名称(必选):单击,在弹出的“CloudSearch集群”窗口选择CloudSearch集群。
− 索引名称(必选):输入CSS类型的索引名称。
HIVE
− 连接名称(必选):单击,在弹出的“连接名称”窗口选择HIVE的数据连接。
− 数据库(必选):单击,在弹出的“数据库”窗口选择HIVE的数据库。
− 表名(必选):单击,在弹出的“表名”窗口选择HIVE的数据表。
CUSTOM
− 名称(必选):输入CUSTOM类型的名称。
− 属性(必选):输入CUSTOM类型的属性,可新增不止一条。
DLI
− 连接名称(必选):单击,在弹出的“连接名称”窗口选择DLI的数据连接。
− 数据库(必选):单击,在弹出的“数据库”窗口选择DLI的数据库。
− 表名(必选):单击,在弹出的“表名”窗口选择DLI的数据表。
确定 单击“确认”,保存节点输入功能的参数配置。
取消 单击“取消”,取消节点输入功能的参数配置。
编辑 单击,修改节点输入功能的参数配置,修改完成后,请保存。
删除 单击,删除节点输入功能的参数配置。
查看表详情 单击,查看节点输入血缘关系创建数据表的详细信息。
输出
新建 单击“新建”,在“类型”的下拉选项中选择要新建的类型。可以选择DWS,OBS,CSS,HIVE,CUSTOM和DLI类型。
DWS
− 连接名称(必选):单击三个点.png,在弹出的“连接名称”窗口选择DWS的数据连接。
− 数据库(必选):单击三个点.png,在弹出的“数据库”窗口选择DWS的数据库。
− schema(必选):单击三个点.png,在弹出的“schema”窗口选择DWS的数据库模式。
− 表名(必选):单击三个点.png,在弹出的“表名”窗口选择DWS的数据表。
OBS
− 路径(必选):单击三个点.png,在弹出的“OBS文件浏览”窗口选择OBS路径。
CSS
− 集群名称(必选):单击三个点.png,在弹出的“CloudSearch集群”窗口选择CloudSearch集群。
− 索引名称(必选):输入CSS类型的索引名称。
HIVE
− 连接名称(必选):单击三个点.png,在弹出的“连接名称”窗口选择HIVE的数据连接。
− 数据库(必选):单击三个点.png,在弹出的“数据库”窗口选择HIVE的数据库。
− 表名(必选):单击三个点.png,在弹出的“表名”窗口选择HIVE的数据表。
CUSTOM
− 名称(必选):输入CUSTOM类型的名称。
− 属性(必选):输入CUSTOM类型的属性,可新增不止一条。
DLI
− 连接名称(必选):单击三个点.png,在弹出的“连接名称”窗口选择DLI的数据连接。
− 数据库(必选):单击三个点.png,在弹出的“数据库”窗口选择DLI的数据库。
− 表名(必选):单击,在弹出的“表名”窗口选择DLI的数据表。
确定 单击“确认”,保存节点输出功能的参数配置。
取消 单击“取消”,取消节点输出功能的参数配置。
编辑 单击,修改节点输出功能的参数配置,修改完成后,请保存。
删除 单击,删除节点输出功能的参数配置。
查看表详情 单击,查看节点输出血缘关系创建数据表的详细信息。
相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部