上云无忧 > 文档中心 > 天翼云数据治理中心 DataArts Studio 管理作业 - 配置HDFS源端参数
数据治理中心 DataArts Studio
天翼云数据治理中心 DataArts Studio 管理作业 - 配置HDFS源端参数

文档简介:
本章节主要介绍配置HDFS源端参数。 作业中源连接为配置HDFS连接时,即从MRS HDFS、FusionInsight HDFS、Apache HDFS导出数据时,源端作业参数如下表所示。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

作业中源连接为配置HDFS连接时,即从MRS HDFS、FusionInsight HDFS、Apache HDFS导出数据时,源端作业参数如下表所示。

表 HDFS作为源端时的作业参数

参数类型 参数名 说明 取值样例
基本参数 源连接名称 由用户下拉选择即可。 hdfs_to_cdm
基本参数 源目录或文件 “列表文件”选择为“否”时,才有该参数。 待迁移数据的目录或单个文件路径。
该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。
/user/cdm/
基本参数 文件格式 传输数据时所用的文件格式,可选择以下文件格式:
CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。
二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。
Parquet格式:以Parquet格式解析源文件,用于HDFS数据导到表的场景。
CSV格式
基本参数 列表文件 当“文件格式”选择为“二进制格式”时,才有该参数。
打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),文件内容示例如下:
/mrs/job-properties/application_1634891604621_0014/job.properties
/mrs/job-properties/application_1634891604621_0029/job.properties
基本参数 列表文件源连接 当“列表文件”选择为“是”时,才有该参数。可选择列表文件所在的OBS连接。 OBS_test_link
基本参数 列表文件OBS桶 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶名。 01
基本参数 列表文件或目录 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。 /0521/Lists.txt
高级属性 换行符 文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时,才有该参数。 \n
高级属性 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时,才有该参数。 ,
高级属性 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的第一行数据作为标题行,不写入目的端的表。
高级属性 源文件处理方式 作业执行成功后对源端文件的处理方式:
不处理。
重命名:作业执行成功后将源文件重命名,添加用户名和时间戳的后缀。
删除:作业执行成功后将源文件删除。
不处理
高级属性 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 ok.txt
高级属性 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。 -
高级属性 路径过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 *input
高级属性 文件过滤器 “过滤类型”选择“通配符”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 *.csv
高级属性 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。
高级属性 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。
该参数支持配置为时间宏变量,例如**${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}** 表示:只迁移最近90天内的文件。
2019-07-01 00:00:00
高级属性 终止时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。
该参数支持配置为时间宏变量,例如**${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}** 表示:只迁移修改时间为当前时间以前的文件。
2019-07-30 00:00:00
高级属性 创建快照 如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不允许对单个文件创建快照),然后CDM迁移快照中的数据。
需要HDFS系统的管理员权限才可以创建快照,CDM作业完成后,快照会被删除。
高级属性 加密方式 “文件格式”选择“二进制格式”时,该参数才显示。
如果源端数据是被加密过的,则CDM支持解密后再导出。这里选择是否对源端数据解密,以及选择解密算法:
无:不解密,直接导出。
AES-256-GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES-256-GCM(NoPadding)。该参数在目的端为加密,在源端为解密。
AES-256-GCM
高级属性 数据加密密钥 “加密方式”选择“AES-256-GCM”时显示该参数,密钥由长度64的十六进制数组成,且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。

DD0AE00DFECD78BF051BCFDA25BD4

E320DB0A7AC75A1F3FC3D3C56A457DCDC1B

高级属性 初始化向量 “加密方式”选择“AES-256-GCM”时显示该参数,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F
高级属性 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致。 .md5

说明

HDFS文件编码只能为“UTF-8”,故HDFS不支持设置文件编码类型。

相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部