上云无忧 > 文档中心 > 天翼云数据湖探索使用教程 - 创建Flink SQL作业
数据湖探索
天翼云数据湖探索使用教程 - 创建Flink SQL作业

文档简介:
本章节主要介绍 创建Flink SQL作业 。 Flink SQL是一种由用户根据自己的逻辑需求编写作业的方式。用SQL表达业务逻辑,可以简便快捷的实现业务。目前Flink SQL作业支持两种Flink SQL语句编辑方式:SQL编辑器和可视化编辑器。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

Flink SQL是一种由用户根据自己的逻辑需求编写作业的方式。用SQL表达业务逻辑,可以简便快捷的实现业务。目前Flink SQL作业支持两种Flink SQL语句编辑方式:SQL编辑器和可视化编辑器。本章节主要介绍使用SQL编辑器编写Flink SQL作业的方式。

前提条件

  • 创建Flink SQL作业时,需要事先准备数据源以及数据输出通道,具体内容请参见准备Flink作业数据。
  • 创建Flink SQL作业,访问其他外部数据源时,如访问OpenTSDB、HBase、Kafka、DWS、RDS、CSS、CloudTable、DCS Redis、DDS Mongo等,需要先创建跨源连接,打通作业运行队列到外部数据源之间的网络。
  1. 当前Flink作业支持访问的外部数据源详情请参考跨源连接和跨源分析概述。
  2. 创建跨源连接操作请参见增强型跨源连接。创建完跨源连接后,可以通过“队列管理”页面,单击“操作”列“更多”中的“测试地址连通性”,验证队列到外部数据源之间的网络连通是否正常。详细操作可以参考测试地址连通性。

创建FLink SQL作业

  1. 在DLI管理控制台的左侧导航栏中,单击“作业管理”>“Flink作业”,进入“Flink作业”页面。
  2. 在“Flink作业”页面右上角单击“创建作业”,弹出“创建作业”对话框。
  3. 配置作业信息。

详见下表:作业配置信息

参数 参数说明
类型 选择“Flink SQL”:用户通过编辑SQL语句来启动作业。
名称 作业名称,只能由字母、中文、数字、中划线和下划线组成,并且长度为1~57字节。
说明
作业名称必须是唯一的。
描述 作业的相关描述,长度为0~512字节。
模板名称 用户可以选择样例模板或自定义的作业模板。关于模板的详细信息,请参见Flink模板管理。
  1. 单击“确定”,进入作业“编辑”页面。
  2. 编辑SQL作业。

在SQL语句编辑区域,输入详细的SQL语句。相关SQL语句请参考《数据湖探索SQL语法参考》。

  1. 单击“语义校验”,确保语义校验成功。
  • 只有语义校验成功后,才可以执行“调试”或“启动”作业的操作。
  • 如果校验成功,提示“SQL语义校验成功”。
  • 如果校验失败,会在错误的SQL语句前面显示红色的“X”记号,鼠标移动到“X”号上可查看详细错误,请根据错误提示修改SQL语句。
  1. 设置作业运行参数

参见下表:作业运行参数说明

参数 参数说明
所属队列 默认选择“共享队列”,用户也可以选择自定义的独享队列。
说明
当子用户在创建作业时,子用户只能选择已经被分配的队列。
当所选择队列的剩余容量不能满足作业需求时,系统会自动扩容。当队列空闲时,系统也会自动缩容。
UDF Jar 选择“独享队列”时可配置该参数。
用户自定义UDF文件,在选择UDF Jar之前需要将对应的jar包上传至OBS桶中,并在“数据管理>程序包管理”中创建程序包,具体操作请参考创建程序包。
用户可以在SQL中调用插入Jar包中的自定义函数。
CU数量 CU数量为DLI的计算单元数量和管理单元数量总和,1CU=1核4G。
当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的CU数量。
管理单元 管理单元CU数量。
并行数 并行数是指同时运行Flink SQL作业的最大任务数。适度增加并行数会提高作业整体算力,但也须考虑线程增多带来的切换开销。
说明
最大并行数不能大于计算单元(CU数量-管理单元)的4倍。
该界面并行数优先级低于代码中并行数设置。
TaskManager配置 用于设置TaskManager资源参数。
勾选后需配置下列参数:
“单TM所占CU数”:每个TaskManager占用的资源数量。
“单TM Slot”:每个TaskManager包含的Slot数量。
OBS桶 选择OBS桶用于保存用户作业日志信息、checkpoint等信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。
说明
如果同时勾选了“开启Checkpoint”和“保存作业日志”,OBS授权一次即可。
保存作业日志 设置是否将作业运行时的日志信息保存到OBS。日志信息的保存路径为:“桶名/jobs/logs/作业id开头的目录”。在作业列表中,单击对应的作业名称,在“运行日志”页签,可以单击页面提供的OBS链接跳转至对应的路径下。
注意
该参数建议勾选,否则作业运行完成后不会生成运行日志,后续如果作业运行异常则无法获取运行日志进行定位。
勾选后需配置下列参数:
“OBS桶”:选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。
说明
如果同时勾选了“开启Checkpoint”和“保存作业日志”,OBS授权一次即可。
作业异常告警 设置是否将作业异常告警信息,如作业出现运行异常或者欠费情况,以SMN的方式通知用户。
勾选后需配置下列参数:
“SMN主题”:
选择一个自定义的SMN主题。如何自定义SMN主题,请参见《消息通知服务用户指南》中“创建主题”章节。
开启Checkpoint 设置是否开启作业快照,开启后可基于Checkpoint(一致性检查点)恢复作业。
勾选后需配置下列参数:
“Checkpoint间隔”:Checkpoint的时间间隔,单位为秒,输入范围1~999999,默认值为30s。
“Checkpoint模式”:支持如下两种模式:
− At least once:事件至少被处理一次。
− Exactly once:事件仅被处理一次。
“OBS桶”:选择OBS桶用于保存用户Checkpoint。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。 Checkpoint保存路径为:“桶名/jobs/checkpoint/作业id开头的目录”。
说明
如果同时勾选了“开启Checkpoint”和“保存作业日志”,OBS授权一次即可。
异常自动重启 设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。
勾选后需配置下列参数:
“异常重试最大次数”:配置异常重试最大次数。单位为“次/小时”。
− 无限:无限次重试。
− 有限:自定义重试次数。
“从Checkpoint恢复”:需要同时勾选“开启Checkpoint”才可配置该参数。
空闲状态保留时长 用于清除GroupBy或Window经过最大保留时间后仍未更新的中间状态,默认设置为1小时。
脏数据策略 选择处理脏数据的策略。支持如下三种策略:“忽略”,“抛出异常”和“保存”。
说明
“保存”是指将脏数据保存到OBS桶中。
脏数据转储地址 “脏数据策略”选择“保存”时,配置该参数。单击地址框选择保存脏数据的OBS路径。
  1. (可选)根据需要调试参数。作业调试功能只用于验证SQL逻辑,不会有数据写入操作。 具体操作请参见 调试Flink作业。
  2. (可选)根据需要设置自定义配置。自定义配置为用户自定义。
  3. 单击“保存”,保存作业和相关参数。
  4. 单击“启动”,进入“启动Flink作业”页面,确认作业规格后,单击“立即启动”,启动作业。

启动作业后,系统将自动跳转到Flink作业管理页面,新创建的作业将显示在作业列表中,在“状态”列中可以查看作业状态。作业提交成功后,状态将由“提交中”变为“运行中”。运行完成后显示“已完成”。

如果作业状态为“提交失败”或“运行异常”,表示作业提交或运行失败。用户可以在作业列表中的“状态”列中,将鼠标移动到状态图标上查看错误信息,单击可以复制错误信息。根据错误信息解决故障后,重新提交。

说明

其他功能按钮说明如下:


  • 另存为:将新建作业另存为一个新作业。

  • 调试:对作业进行调试。具体操作请参见调试Flink作业。

  • 格式化:对SQL语句进行格式化。

  • 设为模板:将新创建的作业设置为作业模板。

  • 主题设置:设置页面主题,可以设置字体大小,自动换行和页面风格。

相似文档
  • 本章节介绍如何新建FlinkJar作业。 用户可以基于Flink的API进行二次开发,构建自己的应用Jar包并提交到DLI的队列运行,DLI完全兼容开源社区接口。此功能需要用户自己编写并构建应用Jar包,适合对Flink二次开发有一定了解,并对流计算处理复杂度要求较高的用户。
  • 本章节主要介绍调试Flink作业。 调试作业功能可以帮助用户在正式运行作业前,检测用户编写的SQL语句逻辑的正确性。 说明: 目前只有Flink SQL作业支持本功能。 作业调试功能只用于验证SQL逻辑,不会有数据写入操作。
  • 本章节主要介绍 操作Flink作业。 用户创建了新作业后,需要根据用户的实际需求对作业进行操作,具体操作有如下几种: 编辑作业、 启动作业、 停止作业、 删除作业、 导出作业、 导入作业、 名称和描述修改、 导入保存点、 触发保存点、 运行时配置。
  • 本章节主要介绍Flink作业详情。 创建作业后,用户可以通过查看作业详情,了解如下信息。 查看作业详情、 查看作业监控、 查看作业任务列表、 查看作业执行计划、 查看提交作业日志、 查看作业运行日志。
  • 本章节主要介绍Spark作业管理概述。 DLI在开源Spark基础上进行了大量的性能优化与服务化改造,兼容Apache Spark生态和接口,执行批处理任务。 DLI还支持使用Spark作业访问DLI元数据。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部