上云无忧 > 文档中心 > 百度智能云数据湖管理与分析平台EasyDAP数据质量 - 质量作业
数据湖管理与分析平台EasyDAP
百度智能云数据湖管理与分析平台EasyDAP数据质量 - 质量作业

文档简介:
创建质量作业: 数据质量支持按库表配置质量监控作业。 规则配置: 操作步骤: 登录并进入百度智能云数据湖管理与分析EasyDAP。 在左侧导航栏,单击数据治理-数据质量。 单击上方质量作业进入质量作业管理页面。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

创建质量作业

数据质量支持按库表配置质量监控作业。

规则配置

操作步骤:

  1. 登录并进入百度智能云数据湖管理与分析EasyDAP。
  2. 在左侧导航栏,单击数据治理-数据质量。
  3. 单击上方质量作业进入质量作业管理页面。
  4. 从左侧各数据源类型中选择一个,并且选中一个数据库。
  5. 单击新建质量作业进入创建质量作业页面。

6.选择一个表,输入作业名称,规则配置添加对应质量规则配置,单击确认按钮完成创建。

表单项说明:

名称


含义

使用限制

表名称


选择一个需要进行质量校验的表。


作业名称


数据质量作业名称。

不大于30个字符。

扫描范围


选择全表扫描或条件扫描。条件扫描需要输入过滤条件(where 后语句)。


规则配置

规则选择

根据筛选框给表或字段添加对应粒度、分类下的规则。表级规则无需选择字段,字段级和跨字段级规则需要选择一个字段作为探查对象。



输入值

如果所选规则有自定义输入值,则需要根据提示填入对应的值。

系统内置规则模板包括正则表达式、取值范围、枚举值等需要输入值。自定义规则则根据实际逻辑填入。



SQL解析

展示所选规则的sql逻辑。



其他字段参数

如果所选规则需要关联其他数据源,则选择其他字段参数。

系统内置规则模板中一致性校验需要选择参考数据源。自定义规则根据实际逻辑选择对应数据源。



告警条件

根据规则对应输出提示配置三级(L1 提示、L2 警告、L3 严重)告警条件。



开启任务阻塞

如果开启任务阻塞,该项规则校验产生严重告警时会阻塞下游任务节点。



生成异常数据

如果系统内置规则支持异常数据保存输出,开启生成异常数据会把对应异常数据保存在配置的异常数据输出路径中。

如果没有配置质量异常数据保存路径,请参考 七、配置管理 先配置质量异常数据保存路径,否则会导致任务执行失败。

描述


数据质量作业描述信息。

不大于100个字符。


举例说明:


示例1:正则表达式校验

输入值:正则表达式。需要输入自己的正则表达式,这里为 ^[.a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$ 。

SQL解析:展示正则表达式的sql逻辑。

其他字段参数:无。

告警条件:该规则提示“请使用【总行数:COUNT】、【无效行数:INVALID_COUNT】、【有效行数:VALID_COUNT】、【无效比率:INVALID_RATE】进行配置”。则告警条件如下:

  • 提示:${INVALID_COUNT} > 0 ,表示无效行数 > 0时产生提示告警。
  • 警告:${INVALID_COUNT} > 10 ,表示无效行数 > 10时产生警告告警。
  • 严重:${INVALID_COUNT} > 100 ,表示无效行数 > 100时产生严重告警。

开启任务阻塞:开。如果无效行数 > 100时产生严重告警并阻塞任务流中下游任务执行。

生成异常数据:开。该系统规则支持保存异常数据,即该字段数据不符合输入正则表达式的数据。

  • 保存数据量:全部。保存全部异常数据,也可指定保存指定行数的异常数据,如“20”。

详情如下: 

示例2:字段一致性校验

输入值:无。

SQL解析:展示字段一致性校验的sql逻辑。

其他字段参数:需要一个关联表和一个关联字段,用于判断数据一致性。

告警条件:该规则提示“请使用【总行数:COUNT】、【一致行数:CONSISTENT_COUNT】、【不一致行数:INCONSISTENT_COUNT】、【一致比率:CONSISTENT_RATE】进行配置”。则告警条件如下:

  • 提示:${INCONSISTENT_COUNT} > 0 ,表示不一致行数 > 0 时产生提示告警。
  • 警告:无。
  • 严重:${CONSISTENT_RATE} < 0.9 ,表示一致比例 < 0.9 时产生严重告警。

开启任务阻塞:开。如果一致比例 < 0.9 时产生严重告警并阻塞任务流中下游任务执行。

生成异常数据:开。该系统规则支持保存异常数据,即该字段数据不在其他字段参数所选关联表和字段的数据中的数据。

  • 保存数据量:指定条数,20。

详情如下: 

示例3:自定义规则模板

见 3.2 节 创建自定义规则示例1:查询满足自定义过滤条件的表行数。

输入值:${Input1}:90。自定义模板sql中的输入表达式占位符。

SQL解析:改自定义规则模板的sql表达式。

其他字段参数:选择当前表的两个字段。结合输入值,该规则最终表达的含义为score > 90分且name不为null的数量。

告警条件:该规则提示“请使用【表行数:表行数】进行配置”。则告警条件如下:

  • 提示:无。
  • 警告:${表行数} < 10。
  • 严重:无。

开启任务阻塞:关。

生成异常数据:关。自定义规则模板暂不支持保存异常数据。

详情如下: 

告警配置

待上线。

调度配置

数据质量作业任务运行依赖离线作业组调度执行,需要在离线作业组开发中添加质量任务节点执行。

操作步骤:

  1. 登录并进入百度智能云数据湖管理与分析EasyDAP。
  2. 在左侧导航栏,单击数据加工-我的项目,查看项目列表。
  3. 点击一个项目进入具体开发页面,单击离线开发-作业组开发,新建作业或者选择一个已有作业。
  4. 选择数据质量-Quality节点拖入画布中。

5.对于多节点任务或者质量任务需要阻塞下游执行,则串联多个节点。当质量任务开启阻塞并且发生L3严重告警时会阻塞下游执行。 

6.单击Quality节点,配置质量作业节点,需要选择计算资源,然后通过类型-主题/源连接-库-表-质量作业选择一个已经配置好的质量作业。

7.根据实际情况(该表数据量大小、集群资源),可以修改计算引擎配置参数。包括Driver的cpu个数(默认1)和内存大小(默认1024M),Executor的cpu个数(默认1)、内存大小(默认1024M)和数量(默认1)。注意内存配置需要带上单位(M,G等)。

关于计算引擎参数配置:

  • 默认参数对于常见如单表数据10G以内,可以正常执行。
  • 如果数据量级在100G,建议参数Driver的cpu个数1和内存大小4G,Executor的cpu个数2、内存大小8G和数量2。
  • 对于多表关联规则,如系统内置字段一致性规则模板、自定义多表关联规则,可以适当增加资源。

注意:配置示例仅供参照,如果出现如OOM问题,需根据实际情况调整。

相似文档
  • 质量问题整改: 数据质量运维管理模块可以查看任务运行结果、告警情况和异常数据预览。 查询作业实例: 操作步骤: 登录并进入百度智能云数据湖管理与分析EasyDAP。 在左侧导航栏,单击数据治理-数据质量。 单击上方运维管理进入质量作业实例管理页面。
  • 质量评价指标体系: 1、评价对象 评价对象分为EDAPDataLake和其他数据源链接(MySql、Hive等) EDAP的评价对象包括主题、库、表、字段; 其他数据源的评价对象包括数据源链接、库、表、字段;
  • 异常数据存储路径配置。 操作步骤: 登录并进入百度智能云数据湖管理与分析EasyDAP。 在左侧导航栏,单击数据治理-数据质量。 单击上方配置管理,可以进入数据质量配置管理页面。 单击修改,选择一个存储路径,然后单击保存即可完成配置修改。
  • 点击【数据源查询】,进入数据源查询界面。 在数据源查询界面中,能够显示平台中【数据管理-数据源】中创建的HIVE数据源。 双击某个数据源链接,打开数据源下的库表信息。双击某张表能够显示表的字段信息。
  • 点击【SQL分析】,数据名称,可以创建新的SQL分析编辑框。 在编辑框内,可以输入SQL语句进行数据分析。选择引擎和计算资源之后,点击【执行】,使用选择的资源进行数据分析操作。结果会显示在【执行结果】tab页面。在【执行历史】中可以显示每次执行的历史数据。在【执行分析】中可以显示每次执行的分析数据。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部