数据湖探索

简介/价格/文档

天翼云数据湖探索使用教程 - 创建Flink SQL作业

文档简介：

本章节主要介绍创建Flink SQL作业。 Flink SQL是一种由用户根据自己的逻辑需求编写作业的方式。用SQL表达业务逻辑，可以简便快捷的实现业务。目前Flink SQL作业支持两种Flink SQL语句编辑方式：SQL编辑器和可视化编辑器。

*产品来源：中国电信天翼云。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

Flink SQL是一种由用户根据自己的逻辑需求编写作业的方式。用SQL表达业务逻辑，可以简便快捷的实现业务。目前Flink SQL作业支持两种Flink SQL语句编辑方式：SQL编辑器和可视化编辑器。本章节主要介绍使用SQL编辑器编写Flink SQL作业的方式。

前提条件

创建Flink SQL作业时，需要事先准备数据源以及数据输出通道，具体内容请参见准备Flink作业数据。
创建Flink SQL作业，访问其他外部数据源时，如访问OpenTSDB、HBase、Kafka、DWS、RDS、CSS、CloudTable、DCS Redis、DDS Mongo等，需要先创建跨源连接，打通作业运行队列到外部数据源之间的网络。

当前Flink作业支持访问的外部数据源详情请参考跨源连接和跨源分析概述。
创建跨源连接操作请参见增强型跨源连接。创建完跨源连接后，可以通过“队列管理”页面，单击“操作”列“更多”中的“测试地址连通性”，验证队列到外部数据源之间的网络连通是否正常。详细操作可以参考测试地址连通性。

创建FLink SQL作业

在DLI管理控制台的左侧导航栏中，单击“作业管理”>“Flink作业”，进入“Flink作业”页面。
在“Flink作业”页面右上角单击“创建作业”，弹出“创建作业”对话框。
配置作业信息。

详见下表：作业配置信息

参数	参数说明
类型	选择“Flink SQL”：用户通过编辑SQL语句来启动作业。
名称	作业名称，只能由字母、中文、数字、中划线和下划线组成，并且长度为1～57字节。说明作业名称必须是唯一的。
描述	作业的相关描述，长度为0～512字节。
模板名称	用户可以选择样例模板或自定义的作业模板。关于模板的详细信息，请参见Flink模板管理。

单击“确定”，进入作业“编辑”页面。
编辑SQL作业。

在SQL语句编辑区域，输入详细的SQL语句。相关SQL语句请参考《数据湖探索SQL语法参考》。

单击“语义校验”，确保语义校验成功。

只有语义校验成功后，才可以执行“调试”或“启动”作业的操作。
如果校验成功，提示“SQL语义校验成功”。
如果校验失败，会在错误的SQL语句前面显示红色的“X”记号，鼠标移动到“X”号上可查看详细错误，请根据错误提示修改SQL语句。

设置作业运行参数

参见下表：作业运行参数说明

参数	参数说明
所属队列	默认选择“共享队列”，用户也可以选择自定义的独享队列。说明当子用户在创建作业时，子用户只能选择已经被分配的队列。当所选择队列的剩余容量不能满足作业需求时，系统会自动扩容。当队列空闲时，系统也会自动缩容。
UDF Jar	选择“独享队列”时可配置该参数。用户自定义UDF文件，在选择UDF Jar之前需要将对应的jar包上传至OBS桶中，并在“数据管理>程序包管理”中创建程序包，具体操作请参考创建程序包。用户可以在SQL中调用插入Jar包中的自定义函数。
CU数量	CU数量为DLI的计算单元数量和管理单元数量总和，1CU=1核4G。当前配置的CU数量为运行作业时所需的CU数，不能超过其绑定队列的CU数量。
管理单元	管理单元CU数量。
并行数	并行数是指同时运行Flink SQL作业的最大任务数。适度增加并行数会提高作业整体算力，但也须考虑线程增多带来的切换开销。说明最大并行数不能大于计算单元（CU数量-管理单元）的4倍。该界面并行数优先级低于代码中并行数设置。
TaskManager配置	用于设置TaskManager资源参数。勾选后需配置下列参数： “单TM所占CU数”：每个TaskManager占用的资源数量。 “单TM Slot”：每个TaskManager包含的Slot数量。
OBS桶	选择OBS桶用于保存用户作业日志信息、checkpoint等信息。如果选择的OBS桶是未授权状态，需要单击“OBS授权”。说明如果同时勾选了“开启Checkpoint”和“保存作业日志”，OBS授权一次即可。
保存作业日志	设置是否将作业运行时的日志信息保存到OBS。日志信息的保存路径为：“桶名/jobs/logs/作业id开头的目录”。在作业列表中，单击对应的作业名称，在“运行日志”页签，可以单击页面提供的OBS链接跳转至对应的路径下。注意该参数建议勾选，否则作业运行完成后不会生成运行日志，后续如果作业运行异常则无法获取运行日志进行定位。勾选后需配置下列参数： “OBS桶”：选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态，需要单击“OBS授权”。说明如果同时勾选了“开启Checkpoint”和“保存作业日志”，OBS授权一次即可。
作业异常告警	设置是否将作业异常告警信息，如作业出现运行异常或者欠费情况，以SMN的方式通知用户。勾选后需配置下列参数： “SMN主题”：选择一个自定义的SMN主题。如何自定义SMN主题，请参见《消息通知服务用户指南》中“创建主题”章节。
开启Checkpoint	设置是否开启作业快照，开启后可基于Checkpoint（一致性检查点）恢复作业。勾选后需配置下列参数： “Checkpoint间隔”：Checkpoint的时间间隔，单位为秒，输入范围1~999999，默认值为30s。 “Checkpoint模式”：支持如下两种模式： − At least once：事件至少被处理一次。 − Exactly once：事件仅被处理一次。 “OBS桶”：选择OBS桶用于保存用户Checkpoint。如果选择的OBS桶是未授权状态，需要单击“OBS授权”。 Checkpoint保存路径为：“桶名/jobs/checkpoint/作业id开头的目录”。说明如果同时勾选了“开启Checkpoint”和“保存作业日志”，OBS授权一次即可。
异常自动重启	设置是否启动异常自动重启功能，当作业异常时将自动重启并恢复作业。勾选后需配置下列参数： “异常重试最大次数”：配置异常重试最大次数。单位为“次/小时”。 − 无限：无限次重试。 − 有限：自定义重试次数。 “从Checkpoint恢复”：需要同时勾选“开启Checkpoint”才可配置该参数。
空闲状态保留时长	用于清除GroupBy或Window经过最大保留时间后仍未更新的中间状态，默认设置为1小时。
脏数据策略	选择处理脏数据的策略。支持如下三种策略：“忽略”，“抛出异常”和“保存”。说明 “保存”是指将脏数据保存到OBS桶中。
脏数据转储地址	“脏数据策略”选择“保存”时，配置该参数。单击地址框选择保存脏数据的OBS路径。

（可选）根据需要调试参数。作业调试功能只用于验证SQL逻辑，不会有数据写入操作。具体操作请参见调试Flink作业。
（可选）根据需要设置自定义配置。自定义配置为用户自定义。
单击“保存”，保存作业和相关参数。
单击“启动”，进入“启动Flink作业”页面，确认作业规格后，单击“立即启动”，启动作业。

启动作业后，系统将自动跳转到Flink作业管理页面，新创建的作业将显示在作业列表中，在“状态”列中可以查看作业状态。作业提交成功后，状态将由“提交中”变为“运行中”。运行完成后显示“已完成”。

如果作业状态为“提交失败”或“运行异常”，表示作业提交或运行失败。用户可以在作业列表中的“状态”列中，将鼠标移动到状态图标上查看错误信息，单击可以复制错误信息。根据错误信息解决故障后，重新提交。

说明

其他功能按钮说明如下：

另存为：将新建作业另存为一个新作业。
调试：对作业进行调试。具体操作请参见调试Flink作业。
格式化：对SQL语句进行格式化。
设为模板：将新创建的作业设置为作业模板。
主题设置：设置页面主题，可以设置字体大小，自动换行和页面风格。

相似文档

天翼云数据湖探索使用教程 - 创建Flink Jar作业
本章节介绍如何新建FlinkJar作业。用户可以基于Flink的API进行二次开发，构建自己的应用Jar包并提交到DLI的队列运行，DLI完全兼容开源社区接口。此功能需要用户自己编写并构建应用Jar包，适合对Flink二次开发有一定了解，并对流计算处理复杂度要求较高的用户。
天翼云数据湖探索使用教程 - 调试Flink作业
本章节主要介绍调试Flink作业。调试作业功能可以帮助用户在正式运行作业前，检测用户编写的SQL语句逻辑的正确性。说明：目前只有Flink SQL作业支持本功能。作业调试功能只用于验证SQL逻辑，不会有数据写入操作。
天翼云数据湖探索使用教程 - 操作Flink作业
本章节主要介绍操作Flink作业。用户创建了新作业后，需要根据用户的实际需求对作业进行操作，具体操作有如下几种：编辑作业、启动作业、停止作业、删除作业、导出作业、导入作业、名称和描述修改、导入保存点、触发保存点、运行时配置。
天翼云数据湖探索使用教程 - Flink作业详情
本章节主要介绍Flink作业详情。创建作业后，用户可以通过查看作业详情，了解如下信息。查看作业详情、查看作业监控、查看作业任务列表、查看作业执行计划、查看提交作业日志、查看作业运行日志。
天翼云数据湖探索使用教程 - Spark作业管理概述
本章节主要介绍Spark作业管理概述。 DLI在开源Spark基础上进行了大量的性能优化与服务化改造，兼容Apache Spark生态和接口，执行批处理任务。 DLI还支持使用Spark作业访问DLI元数据。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

前提条件

创建FLink SQL作业