上云无忧 > 文档中心 > 百度智能云数据湖管理与分析平台EasyDAP数据质量 - 运维管理
数据湖管理与分析平台EasyDAP
百度智能云数据湖管理与分析平台EasyDAP数据质量 - 运维管理

文档简介:
质量问题整改: 数据质量运维管理模块可以查看任务运行结果、告警情况和异常数据预览。 查询作业实例: 操作步骤: 登录并进入百度智能云数据湖管理与分析EasyDAP。 在左侧导航栏,单击数据治理-数据质量。 单击上方运维管理进入质量作业实例管理页面。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

质量问题整改

数据质量运维管理模块可以查看任务运行结果、告警情况和异常数据预览。

查询作业实例

操作步骤:

  1. 登录并进入百度智能云数据湖管理与分析EasyDAP。
  2. 在左侧导航栏,单击数据治理-数据质量。
  3. 单击上方运维管理进入质量作业实例管理页面。
  4. 从左侧各数据源类型中选择一个,并且选中一个数据库,即可查看该数据库下所有表的质量任务运行实例。

描述

表名称

该质量任务实例所属质量作业的基表名称。

质量作业名称

该质量任务实例所属质量作业名称。

实例ID

该质量任务实例ID。

状态

该质量任务实例运行状态。

业务时间

该质量任务实例运行业务时间。

运行开始时间

该质量任务实例运行开始时间。

状态说明

质量作业状态包括:运行中、成功、告警、阻塞、失败五种。调度中质量节点的状态有运行中、成功、失败三种。

质量作业状态

调度中质量节点状态

说明

运行中

运行中

作业运行中。

成功、告警

成功

质量作业运行成功或产生告警(L1提示、L2警告),调度中质量节点状态为成功。

阻塞、失败

失败

质量作业发生阻塞(L3严重告警)或者失败,调度中质量节点状态为失败,如果是阻塞状态则会停止执行下游节点。


查看异常数据

操作步骤:

  1. 登录并进入百度智能云数据湖管理与分析EasyDAP。
  2. 在左侧导航栏,单击数据治理-数据质量。
  3. 单击上方运维管理进入质量作业实例管理页面。
  4. 从左侧各数据源类型中选择一个,并且选中一个数据库,查看该数据库下所有表的质量任务运行实例。
  5. 点击实例列表操作栏中的结果查看,进入执行结果查看详情页面。

6.在结果查看详情页面,可以查看任务每个规则的告警状态和异常数据数量、路径,如果有异常数据,点击字段名称前面箭头可以预览最多20条异常数据。

构造表结构,查看不同规则的异常数据展示。

表结构:


示例数据:

insert into test_stu.test_stu values(1, 'name1', 'e-name1@test.com', 90);
insert into test_stu.test_stu values(1, 'name2', 'e-name1attest.com', 90);
insert into test_stu.test_stu values(2, 'name2', 'e-name2@test.com', 96);
insert into test_stu.test_stu values(3, 'name3', 'e-name3@test.com', 78);
insert into test_stu.test_stu values(4, 'name4', 'e-name4@test.com', 69);
insert into test_stu.test_stu values(5, 'name5', 'e-name5#test.com', -10);
insert into test_stu.test_stu values(6, 'name6', 'e-name6@test.com', 100);
insert into test_stu.test_stu values(7, 'name7', 'e-name7@test.com', 1000);
insert into test_stu.test_stu values(8, '', '', null);
insert into test_stu.test_stu values(9, null, null, null);
insert into test_stu.test_stu values(10, null, null, null);
insert into test_stu.test_stu values(null, null, null, 90);
insert into test_stu.test_stu values(null, null, null, 90);

完整性

  • 规则粒度:字段级
  • 探查对象:Name
  • 规则分类:完整性
  • 规则模板名称:字段空值
  • 异常数据:

  • 说明:异常数据为name字段为NULL或者空字符串的数据。

唯一性

  • 规则粒度:字段级
  • 探查对象:ID
  • 规则分类:唯一性
  • 规则模板名称:字段重复值
  • 异常数据: 

说明:异常数据为ID重复的数据,为id=1的两条数据。多个NULL值不算重复。

有效性

  • 规则粒度:字段级
  • 探查对象:email
  • 规则分类:有效性
  • 规则模板名称:正则表达式校验
  • 异常数据: 

说明:异常数据为email字段不符合邮箱格式正则表达式的数据。不包含NULL值。

准确性

  • 规则粒度:字段级
  • 探查对象:score
  • 规则分类:准确性
  • 规则模板名称:值域范围校验,[0,100]。
  • 异常数据: 

    说明:异常数据为score字段不在[0,100]范围内的2条数据。

一致性

  • 规则粒度:字段级
  • 探查对象:ID
  • 规则分类:一致性
  • 规则模板名称:字段一致性校验
  • 参考表数据: 
  • 异常数据: 

说明:异常数据为ID值不在参考表ID字段中的数据。

问题分析整改

对于有质量问题的数据,需要根据校验结果并查看对应异常数据,结合业务定位数据出现问题的原因。

比如完整性问题,一般由业务数据本身缺失导致,或者数据开发过程中如join关联出错导致空值数据问题。业务数据本身缺失导致的需要完善初始业务数据收集,保证数据完整性。数据开发过程中导致的问题需要结合实际处理逻辑定位问题原因,可以借助比如数据血缘根据数据链路排查问题。

相似文档
  • 质量评价指标体系: 1、评价对象 评价对象分为EDAPDataLake和其他数据源链接(MySql、Hive等) EDAP的评价对象包括主题、库、表、字段; 其他数据源的评价对象包括数据源链接、库、表、字段;
  • 异常数据存储路径配置。 操作步骤: 登录并进入百度智能云数据湖管理与分析EasyDAP。 在左侧导航栏,单击数据治理-数据质量。 单击上方配置管理,可以进入数据质量配置管理页面。 单击修改,选择一个存储路径,然后单击保存即可完成配置修改。
  • 点击【数据源查询】,进入数据源查询界面。 在数据源查询界面中,能够显示平台中【数据管理-数据源】中创建的HIVE数据源。 双击某个数据源链接,打开数据源下的库表信息。双击某张表能够显示表的字段信息。
  • 点击【SQL分析】,数据名称,可以创建新的SQL分析编辑框。 在编辑框内,可以输入SQL语句进行数据分析。选择引擎和计算资源之后,点击【执行】,使用选择的资源进行数据分析操作。结果会显示在【执行结果】tab页面。在【执行历史】中可以显示每次执行的历史数据。在【执行分析】中可以显示每次执行的分析数据。
  • 数据共享场景概述: 数据共享是将企业中的数据通过服务化的方式发布出去,提供给数据使用方调用查询。EDAP 数据共享通过 SQL 方式将数据发布为 HTTP API 接口,可以一键发布 API 数据共享服务到 API 网关,API 网关提供了 HTTP 访问、维护、监控等能力。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部