上云无忧 > 文档中心 > 百度智能云数据湖管理与分析平台EasyDAP功能发布记录
数据湖管理与分析平台EasyDAP
百度智能云数据湖管理与分析平台EasyDAP功能发布记录

文档简介:
2022-09 : 平台管理: 用户角色和权限升级,增加平台级权限策略EDAPFullControl(EDAP系统管理员)、EDAPDataManage(EDAP数据管理员)。 数据治理场景: 数据质量规则引擎升级,内置45个质量规则模版,涵盖维度包括完整性、唯一性、有效性、准确性、一致性、及时性,涵盖粒度包括表级、字段级、跨字段级,支持用户自定义SQL模版。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠
发布时间 功能描述
2022-09
    平台管理:
  • 用户角色和权限升级,增加平台级权限策略EDAPFullControl(EDAP系统管理员)、EDAPDataManage(EDAP数据管理员)
  • 数据治理场景:
  • 数据质量规则引擎升级,内置45个质量规则模版,涵盖维度包括完整性、唯一性、有效性、准确性、一致性、及时性,涵盖粒度包括表级、字段级、跨字段级,支持用户自定义SQL模版
  • 支持连接数据源进行质量探查,涵盖的数据源类型包括:EDAP数据湖、Hive、Doris、Mysql、Oracle、SqlServer
  • 支持数据质量任务开启任务阻塞,防止脏数据污染下游节点
  • 增加数据质量任务运维模块,支持查看异常数据,进行问题分析整改
  • 引入数据质量评价指标体系,支持对数据源链接、库、表、字段进行定量和定性评价
  • 支持质量报告下载功能
2022-08
    数据开发场景:
  • 可视化ETL支持schema自动推导
  • 数据同步支持批量设置目标表分区
  • 计算资源支持第三方hadoop集群,支持kerberos认证
  • 作业组开发增加数据集成插件,可通过拖拽方式与其他作业节点配置依赖关系
  • 修数据功能显示修数据任务实例信息,支持用户通过DAG图选择需要触发的下游节点
  • 数据分析场景:
  • 支持多源Catalog功能,可进行跨数据源的交互式分析
  • 支持数据湖分析任务的创建、执行、查看、下载功能
2022-07
    数据湖全场景:
  • 支持将BOS对象存储、HDFS作为数据湖存储,进行存储路径的创建和管理
  • 支持通过选择已有表和自动建表的方式进行离线数据入湖
  • 支持面向数据湖进行统一元数据管理,支持通过可视化、DDL的方式面向数据湖建表
  • 支持使用Spark、Flink引擎对数据湖的数据进行离线、实时数据开发
  • 数据治理场景:
  • 数据标准和公共代码模版升级
  • 支持标准的发布、审批、删除、废弃流程,支持批量导入导出
2021-06
  • 平台整体升级,增强在线开发IDE的开发模式,将开发和运维过程进行分离
  • 实时计算支持Flink引擎,能够进行FlinkSQL、FlinkJAR的实时作业开发
  • 扩展离线计算脚本开发能力,增加HIVESQL脚本、JDBCSQL脚本
  • 增加数据标准,允许进行码表、标准、表模板的创建和管理
  • 增加数据质量功能,进行质量规则的创建及应用,生成质量报告
  • 数据血缘功能显示,支持显示平台表级别数据血缘
2020-08 支持数据分析,对平台管理的元数据能够进行跨源异购的级联查询
2020-05 支持监控系统,包括作业监控、数据监控和资源监控
2020-04 支持数据管理元数据的物理表、映射表的创建,将表统一注册在EDAP平台进行统一的管理。物理表为创建在存储路径上的表,数据存储在存储路径对应的HDFS/对象存储文件上。映射表仅作为数据源中表的查询映射,不在EDAP平台存储数据
2019-11
  • 支持数据管理功能,用户可以将数据源注册到EDAP中
  • 支持离线作业、离线作业组功能,进行离线的大数据加工处理
  • 支持实时作业的功能,使用SparkStreaming进行实时数据处理
  • 支持Hadoop集群的注册管理,并将Hadoop集群作为计算资源池统一管理
相似文档
  • 全场景: 围绕数据全生命周期,封装数据从汇聚、开发、管理到服务的一整套体系。 数据集成、数据治理、数据开发、数据分析、数据服务应用一站完成。 低门槛: 封装复杂的大数据相关技术和组件,提供简易的操作界面。 0代码数据集成、批&流可视化开发Studio、拖拽式作业编排 、一键多源联邦分析。
  • 0代码数据集成: 多源异构数据的分布式集成工具: 离线数据同步,数据库、MPP数仓、Nosql、对象存储、HDFS分布式文件系统等异构数据源的定时、周期性同步。 实时流采集,支持http ,kafka 实时流数据同步到 DB、MPP数仓、Nosql、对象存储、HDFS分布式文件系统等数据源。
  • 数据仓库 VS 数据湖: 随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用, 移动互联网和物联网时代,产生了大量的网站数据,社交媒体数据,物联网设备数据等非结构化数据。数据仓库无法满足这些多元化的数据结构的存储和查询,以及非结构化和结构化数据的交叉分析。数据湖,可以容纳大量的原始数据的存储库和处理系统。
  • 产品架构将介绍EasyDAP的产品架构,帮助用户理解EasyDAP重要功能和能力。主架构贯穿数据管理、数据集成、数据开发、作业调度、数据分析服务等数据全生命周期;管理中心支持对接大数据存储计算平台和企业原有IT系统,元数据、资源管理开放OpenApi支持灵活定制数据应用开发。
  • 数据集成、交换场景: 通过EasyDAP实现异构数据源的数据集成、交换。 数据治理场景: 通过EasyDAP从元数据角度对企业数据进行统一数据目录管理、同时保证数据质量、数据安全、提供数据萃取服务。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部