上云无忧 > 找云产品 > 【阿里云】数据湖构建 Data Lake Formation
【阿里云】数据湖构建 Data Lake Formation
数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和AI计算。数据湖构建服务(Data Lake Formation,DLF)作为云原生数据湖架构核心组成部分,帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。
*此产品及展示信息均由阿里云官方提供。 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云!微信咨询
  免费试用、价格特惠

注册资本:100000万元人民币

成立时间:2008-04-08


阿里云档案>>

数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和AI计算。数据湖构建服务(Data Lake Formation,DLF)作为云原生数据湖架构核心组成部分,帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。


产品特色


数据入湖
支持多种数据类型和入湖渠道
支持数据统一清洗


元数据服务
智能元数据识别服务
统一收集避免分散管理


权限管理
企业级数据权限管理
用户可以针对库、表、字段分别设置权限


多引擎对接
支持上游多种计算引擎
轻松构建全链路数据湖服务


生态开放
兼容Hive Metastore
提供多语言Open API,易集成


数据加速
独有JindoFS数据加速功能
提供高性能数据湖分析加速能力


应用场景


开源生态构建数据湖


典型场景
用户已经基于阿里云开源大数据生态系统(E-MapReduce,实时计算Flink,DLA等产品)来构建自己的数据处理分析平台,而在数据量飞速膨胀的趋势下,用户存储资源与计算资源扩容速度不匹配,有成本优化方面的诉求;大数据生态的丰富,用户的数据来源广泛,元数据分散较难管理,用户希望能统一管理不同存储中的元数据


方案价值

元数据管理
数据湖构建支持自动采集发现多引擎元数据,可做到统一管理,避免数据孤岛


生态优势
阿里云大数据团队提供专家级服务支持



构建湖仓一体数据仓库


典型场景
数据仓库和数据湖,是大数据架构的两种设计取向。数据湖优先的设计,通过开放底层文件存储,给数据入湖带来了最大的灵活性。而数据仓库优先的设计,更加关注的是数据使用效率、大规模下的数据管理、安全/合规这样的企业级成长性需求。灵活性和成长性,对于处于不同时期的企业来说,重要性不同。随着用户业务的逐渐清晰与沉淀,用户面临着数据湖和数据仓库架构的融合,依托于阿里云数据仓库(MaxCompute、Hologres、ADB等产品)和数据湖构建产品,帮助用户打造湖仓一体的数据系统,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系


方案价值

免运维
数据湖构建产品提供用户全托管服务,仅需简单点击操作,就可以协助用户快速搭建起云上的数据湖系统


安全有保证
统一权限管理体系,可做到对数据库、表、列的权限控制。



数据湖数据实时分析


典型场景

用户大量不同类型数据存储在OSS中,希望能对数据做各种多种维度的分析查询,如实时数据分析、OLAP查询,并将对应的结果反馈到业务系统中。同时用户希望能方便的对接云上多种计算引擎,在数据查询时能够直接进行,不需要提取全部数据到查询系统


方案价值

实时数据入湖
提供数据实时入湖能力,提供业务时效性


元数据自动发现
数据湖构建可以自动对数据进行抓取、编排和准备,以进行分析,避免复杂手动操作



数据湖构建机器学习


典型场景
大数据是AI的基础,AI也是大数据的未来。数据湖可以很好的在经典机器学习场景和深度学习场景下服务用户:在机器学习场景下,用户面临数据量大,模型训练慢,算法效果差的问题,需要数据湖具备能够对接成熟的机器学习平台的能力。在深度学习时,用户需要能够动态的调整对GPU资源的使用,节约成本


方案价值

易用性强
数据湖构建无缝对接阿里云机器学习平台,同时提供多种Open API,方便用户集成


数据规范化
数据湖构建支持用户在入湖时对数据进行清洗处理、标准化,方便后续使用机器学习模型分析



应用实践


在线教育数据湖实践

用户数过亿的某在线教育平台


客户需求
用户希望课件素材、应用日志、学习采样等数据能够集中存储,统一管理。用户也希望能够对不同类型数据提供课件播放、离线分析、机器学习,实现在线教育不同场景的应用


客户价值
数据湖构建完美适配数据存储OSS,同时对接大量计算引擎,满足用户不同的分析需求





在线游戏数据湖实践


亚洲领先的某互动娱乐公司


客户需求
用户希望通过数据分析,及时调整游戏关卡难度,掉宝率,资源产出率,保证用户的游戏体验、提高用户留存率。用户也希望云上资源有灵活的扩展和升级能力,而数据湖方案可以解决传统的大数据集群计算和存储资源紧绑定的问题,提供用户更多弹性能力


客户价值
数据湖构建帮助用户快速搭建云上数据湖服务,解决存储计算资源问题,同时对接实时计算分析引擎,可以帮助用户实时调整业务



互娱新媒体数据湖实践


月活用户数破亿的某互联网新媒体平台


客户需求
用户希望可以统一管理多个存储系统的元数据,提供数据的共享分析能力,服务业务发展


客户价值
利用数据湖构建将分散的元数据统一集中管理,特有的发现能力可以从用户数据库和对象存储中收集并按目录分类数据



更多产品与服务


E-MapReduce
构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品


大数据计算服务 · MaxCompute
提供快速、完全托管的PB级数据仓库解决方案,经济并高效的分析处理海量数据


交互式分析
兼容PostgreSQL协议的实时交互式分析产品


对象存储 OSS
海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%的数据可靠性



相似产品
  • 想买: 712人 简介: 实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
  • 想买: 773人 简介: Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可同时满足数据分析师、数据开发工程师和数据科学家的分析需求,实现协同合作和数据共享。满足用户在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。
  • 想买: 759人 简介: 图计算服务(Graph Compute)是新一代一站式图数据管理和分析平台,支持图数据建模、导入和修改、支持Apache TinkerPop标准Gremlin语言进行图查询,并支持常见图分析算法,具有数据加载快、规模可扩展、查询延时低(毫秒级)和离在线混合引擎与共享存储等优势,可帮助您轻松构建海量关系数据的图应用服务
  • 想买: 875人 简介: DataQuotient画像分析 是面向业务的标签和画像管理中台,整合多类型存储资源数据,帮助企业构建业务标签体系。内置完善的标签运营机制和灵活的圈群分析模版,是企业进行营销活动必备基础设施。
  • 想买: 703人 简介: 数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为400对数据源提供不同网络环境下的全量/增量数据进出通道。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部