上云无忧 > 文档中心 > 百度智能云数据湖管理与分析平台EasyDAP中数据仓库、数据管理、数据开发等概念详解
数据湖管理与分析平台EasyDAP
百度智能云数据湖管理与分析平台EasyDAP中数据仓库、数据管理、数据开发等概念详解

文档简介:
数据仓库 VS 数据湖: 随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用, 移动互联网和物联网时代,产生了大量的网站数据,社交媒体数据,物联网设备数据等非结构化数据。数据仓库无法满足这些多元化的数据结构的存储和查询,以及非结构化和结构化数据的交叉分析。数据湖,可以容纳大量的原始数据的存储库和处理系统。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

数据仓库 VS 数据湖

随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用, 移动互联网和物联网时代,产生了大量的网站数据,社交媒体数据,物联网设备数据等非结构化数据。数据仓库无法满足这些多元化的数据结构的存储和查询,以及非结构化和结构化数据的交叉分析。数据湖,可以容纳大量的原始数据的存储库和处理系统。

特性 数据仓库 数据湖
存储数据类型 历史的、结构化的、 预先定义数据模型 、一般来源 事务系统、运营数据、业务应用程序 所有类型数据, 结构化、非结构化、半结构化数据等,数据的类型遵循数据源系统的原始数据格式 , IOT设备、网站、移动程序、社交媒体和企业应用程序关系和非关系数据
数据处理方式 高度结构化的架构,数据清洗转换之后加载到数据仓库,即写时模式(Schema - On -Write ),用户从数据仓库获取的是处理后的数据。 数据直接加载到数据湖中,然后根据分析的需求处理数据。 即 读时模式( Schema -On Read),提供强大的计算能力处理和分析所有类型的数据,分析后的数据存储起来供用户使用。
成本 更快的查询结构,存储成本高 存储海量数据,采用分布式存储系统 、 对象存储系统 降低存储成本
数据分析应用 多维分析和可视化报表 跨源融合分析、 批&流出数据处理 、机器学习、预测分析、数据发现和分析

数据管理

元数据是对数据的描述,采集企业环境中的各类元数据并统一存储,通过分析元数据,根据业务维度、系统维度等不同维度对数据分类,并梳理出数据和数据之间的关系,将能从多种视角360°展示出企业的数据资产视图,让企业不同的员工都能方便地看到自己关心的数据。EDAP的元数据管理通过主题、库、表 三级以实现数据的高效组织和管理。

  • 数据湖:数据湖是按原始数据格式存储,任何数据可以以最原始的形态储存,可是结构化或者非结构化数据,以确保数据在使用时可以不丢失任何细节,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中获取相关数据用于数据分析或者机器学习。
  • (数据湖)存储路径:进行数据湖存储的存储位置。基于常见数据资产类型,EasyDAP支持的数据湖存储类型为:HDFS分布式文件系统、 BOS对象存储。
  • 源链接:企业数据源系统的链接信息。基于企业场景的数据源系统,EasyDAP目前已支持管理 MYSQL 、ORACLE、SQLSERVER等DB类,PALO、GP等MPP类,HBASE 等NOSQL类型的数据源系统。
  • 元数据,EasyDAP基于数据湖存储建物理表、基于源连接各类型数据源建映射表, 对企业全域数据进行统一元数据管理。并基于元数据表,支持用户高效进行数据集成、批&流数据开发、多源交互式查询分析等数据处理和分析。
  • 主题: 较高层次上将企业的数据进行综合、归类。主题下可以有0个、1个或者多个库。
  • 库: 表的组织 ,库下可以有0个、1个或者多个表。库命名全局唯一。
  • 表: 元数据表。EasyDAP 包括 物理表、映射表。
  • 物理表:物理表指数据存储于接入EasyDAP的数据湖存储系统中(主要是BOS、HDFS ,针对HIVE数仓,可以接入HIVE的HDFS存储路径作为数据湖存储 ),存储的路径由EasyDAP进行管理。EasyDAP管理物理表的读、写操作,当表被删除时,数据也会被一同删除。
  • 映射表:针对企业的各类数据源系统,如MYSQL,ORACLE,SQLSERVR,HBASE、PALO、GP等,EasyDAP针对各类数据源系统通过建外表的形式建立元数据表,在EasyDAP实现元数据的统一管理,并支持数据的读取,支持多源联合查询分析。

数据开发

  • 作业:一个数据流处理pipeline。
  • 作业实例:一个作业的一次执行生成一个作业实例。
  • 作业组: 一个或多个pipeline作业以及用户自定义程序包编排形成作业组。
  • 作业组实例:一个作业组的一次执行生成一个作业组实例。
  • 作业编排:作业编排将作业形成一个有向无环图,按照图的顺序依次调用。
相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部