上云无忧 > 文档中心 > 天翼云数据治理中心 DataArts Studio 元数据采集 - 任务管理
数据治理中心 DataArts Studio
天翼云数据治理中心 DataArts Studio 元数据采集 - 任务管理

文档简介:
本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

前提条件

元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE类型的数据源,首先需要在管理中心创建数据连接。

新增采集任务

  1. 在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据目录”模块,进入数据目录页面。

选择数据目录

  1. 选择“元数据采集 > 任务管理”。
  2. 选择采集任务所归属的目录。如果未新建目录请参见下图创建进行。

  1. 单击页面上方“新建”或者右键单击任务菜单,单击“新增任务”,在弹出的对话框中,配置相关参数,新建采集任务。

新建任务有如下图所示的两个入口。

a.配置基本参数。

基本配置说明

参数名 说明
任务名称 采集任务的名称,只能包含中文、英文字母、数字和下划线,且长度不能超过62个字符。
描述 为更好的识别采集任务,此处加以描述信息。描述信息长度不能超过255个字符。
选择目录 采集任务的存储目录,可选择已创建的目录。目录创建请参见下图。

目录创建

b.配置数据源信息、

数据源信息参数说明

参数名 说明
数据源类型 从下拉列表中选择数据源类型。
说明
元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE类型的数据源,首先需要在管理中心创建数据连接。
OBS桶 选择待采集数据归属的OBS桶,仅数据源类型为OBS时,呈现此参数。
数据连接 所选数据连接类型中已创建数据连接,支持从下拉列表中选择。
所选数据连接类型中未创建数据连接,请单击“新建”,创建新的数据连接。
OBS路径 选择待采集数据在OBS桶中的存储路径,仅数据源类型为OBS时,呈现此参数。
采集范围 选择待采集数据的采集范围,仅数据源类型为OBS时,呈现此参数,原因是obs桶中是分目录层级的。
选择“当前文件夹”,采集任务仅采集obs路径中设置的文件夹下的对象。
选择“当前文件夹和所有子文件夹”,采集任务会采集obs路径中设置的文件夹下所有的对象,包括其子文件夹下的对象
采集内容 选择待采集数据的采集内容,仅数据源类型为OBS时,呈现此参数,原因是obs桶中是分目录层级的。
选择“文件夹和对象”,采集任务采集文件夹和对象。
选择“ 文件夹”,采集任务仅采集文件夹。
数据库和schema 仅数据源类型为DWS时,呈现此参数。 单击数据库和schema后的“设置”,设置采集任务扫描的数据库和schema范围。当不进行设置时,默认选择该数据连接下的所有数据库和schema。 单击“清除”,可对已选择的数据库和schema进行修改。
命名空间 仅数据源类型为MRS HBase时,呈现此参数。 单击命名空间后的“设置”,设置采集任务扫描的命名空间范围。当不进行设置时,默认选择该数据连接下的所有命名空间 。 单击“清除”,可对已选择的命名空间进行修改。
数据库 数据表 呈现待采集的数据库和数据表。
单击数据库后的“设置”,设置采集任务扫描的数据库范围。当不进行设置时,默认选择该数据连接下的所有数据库 。
单击数据表后的“设置”,设置采集任务扫描的数据表范围。当不进行设置时,默认选择数据库下的所有数据表。针对数据连接类型为Mysql、Oracle和DLI的数据表,支持按照正则表达式过滤需要采集的表。
当数据库和数据表均不设置时,则采集任务扫描的数据范围为该数据连接下的所有数据表。
单击“清除”,可对已选择的数据库和数据表进行修改。
选择图 仅数据源类型为GES时,呈现此参数。 选择存储了以“关系”为基础的结构数据的图。
选择集群 仅数据源类型为CSS时,呈现此参数。 选择待采集数据存储的CSS集群。 您也可以单击“新建”,创建CSS集群,创建完成后单击“刷新”,选择新建的CSS集群即可。
绑定Agent 管理CloudTable/GES/CSS类型的数据连接,请选择CDM集群提供的Agent。 用户也可以单击“新建”,创建新的Agent,创建完成后单击“刷新”,选择新的Agent即可。
索引 仅数据源类型为CSS时,呈现此参数。 用于存储Elasticsearch的数据,类似关系型数据库的Database。是一个或多个分片分组在一起的逻辑空间。

c.元数据采集参数配置

元数据采集参数说明

参数名 说明
数据源元数据已更新 当数据连接中元数据发生变化时,通过配置更新策略,设置数据目录中元数据的更新方式。 需要注意的是配置的更新、删除策略是作用在用户配置的数据库、数据表的范围内的。
勾选“仅更新数据目录中的元数据”:采集任务仅更新数据目录已经采集到的元数据。
勾选“仅添加新元数据”:采集任务仅采集数据源中存在,但是数据目录中不存在的元数据。
勾选“更新数据目录中的元数据、添加新元数据”:采集任务全量同步数据源中的元数据。
勾选“忽略更新、添加操作”:不采集数据源中的元数据。
数据源元数据已删除 当数据连接中元数据发生变化时,通过配置删除策略,设置数据目录中元数据的更新方式。
勾选“从数据目录中删除元数据”:当数据源中的某些元数据已经被删除,数据目录中也将同步删除对应的元数据。
勾选“忽略删除”:当数据源中的某些元数据已经被删除,数据目录中不同步删除对应元数据。

d.勾选数据概要时的参数配置。

数据概要参数说明

参数名 说明
基于全量数据 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较少(100W以下)的情况。
基于采样数据,采样数量为x 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较多的情况。
基于全量数据,随机取x%的数据 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较多的情况。
DLI队列 选择获取profile数据,执行DLI SQL用的队列。 勾选“采集唯一值”表示只统计已采集的表中的唯一值的个数,并在数据目录中的概要页签呈现。
数据格式 当存储在OBS桶中的数据为CSV格式,请依据数据的实际属性进行勾选是否有表头,是否自定义分隔符,是否自定义引用字符,是否自定义转义字符。
日期格式 当存储在OBS桶中的数据为CSV格式,请依据实际属性配置日期格式,以免影响数据被错误解析。
时间戳格式 当存储在OBS桶中的数据为CSV格式,请依据实际属性配置时间戳格式,以免影响数据被错误解析。

e.数据分类配置说明(仅当数据目录组件中具备数据安全功能时,支持配置该选项;当前暂不支持关联独立数据安全组件中的敏感数据识别规则)。

  • 数据分类:勾选此项参见数据分类新建分类规则组或者选中已有分类规则组,实现自动识别数据并添加分类。
  • 数据分级:勾选“根据数据分类结果更新数据表密级”,表示可根据匹配的分类规则中,将密级最高的设置为表的密级。
  • 数据同步:勾选“手动同步分类结果”,表示“数据目录 > 数据目录 > 列属性”中呈现的数据列,在采集任务执行完毕后,不会自动添加分类和密级属性。需要用户前往“元数据采集 > 任务监控 ”页面,找到任务实例,选择“操作 > 更多 > 扫描结果”,查看采集任务的执行结果,确认分类结果是否匹配。勾选分类匹配字段前的复选框,单击“同步”,即可将分类和密级属性手动同步到资产。
说明

仅DWS、DLI数据源支持创建采集任务时添加数据分类,实现自动识别。另外,只可给数据表的列和OBS对象添加分类。

  1. 单击“下一步”,选择调度方式,支持单次调度和周期调度两种方式。单次调度:超时时间表示如果任务运行的时长超过了设置的超时时间,任务会被认定运行失败。

周期调度的相关参数配置请参见下表:配置周期调度参数。

说明
  • 单次调度会产生手动任务的实例,手动任务的特点是没有调度依赖,只需要手动触发即可。

  • 周期调度会产生周期实例,周期实例是周期任务达到启用调度所配置的周期性运行时间时,被自动调度起来的实例快照。

  • 周期任务每调度一次,便生成一个实例工作流。用户可以对已调度起的实例任务进行日常的运维管理,如查看运行状态,对任务进行终止、重跑等操作。

参数名 说明
生效日期 调度任务的生效时间段。
调度周期 选择调度任务的执行周期,并配置相关参数。
分钟
小时

开始时间 周期调度开始的具体时间,与生效日期中的开始时期配合使用。
间隔时间 两次周期调度之间的间隔时间。 即使上一次调度任务实例未结束,从上次调度开始时间达到间隔时间后,新的调度任务实例也会开始。当前采集任务支持多实例并发运行。
结束时间 周期调度结束的具体时间,与生效日期中的结束时期配合使用。
超时时间 单次任务实例的运行超时时间,如果运行时长超过了此处设置,任务会被认定运行失败。
启动调度 勾选复选框,则表示立即启动此调度任务。
  1. 单击“提交”,采集任务创建成功。

管理采集任务

  1. 在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据目录”模块,进入数据目录页面。

选择数据目录

  1. 选择“元数据采集 > 任务管理”。

在采集任务页面,可查看所有已创建的采集任务。

管理采集任务

参数名 说明
任务名称 采集任务的名称。 单击采集任务名称,可查看该采集任务的采集策略和调度属性。
数据源类型 数据连接的名称。
调度状态 显示采集任务的调度方式,单击,可进行筛选。
调度周期 显示采集任务的调度频率,单击,可进行筛选。
描述 展示采集任务的描述信息。
创建人 展示采集任务的创建人。
最近运行时间 展示采集任务的最近运行时间。
操作 对已创建的采集任务可进行如下操作:
编辑:支持对采集任务(状态为已启动、未启动、运行失败)的采集策略强相关参数进行修改,不支持修改数据源类型。
运行:单击“运行”,可运行此采集任务,并可在“任务监控”页面查看其状态和相关日志信息。
启动调度:当其状态为“已停止”,则可重新启动调度。
停止调度:当调度状态为“调度中”,则可停止调度。
相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部