上云无忧 > 找云产品 > 【华为云】数据湖探索 DLI
【华为云】数据湖探索 DLI
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。
*此产品及展示信息均由华为云官方提供。 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云!微信咨询
  免费试用、价格特惠

注册资本:50000万元人民币

成立时间:2005-09-07


华为云档案>>

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。



Serverless DLI的优势

存算分离
存储和计算解耦,分开申请和计费,降低成本的同时,提高了资源利用率

自动扩缩容
根据业务负载,对计算资源进行预估和自动扩缩容

按量计费
真正的按使用量(扫描量/CU时)计费,不运行作业时“0”费用

免运维、高可用
用户无需感知底层运维、升级、跨AZ高可用,跨AZ双活




产品功能


All in SQL
无需大数据背景,会SQL就会大数据分析。SQL语法全兼容标准ANSI SQL 2003



Serverless Spark/Flink/openLooKeng
完全兼容Apache Spark、Apache Flink、Apache Presto生态和接口,线下应用可无缝平滑迁移上云,减少迁移工作量;一份资源支持流处理、批处理、交互式分析多种计算


跨源分析
支持多种数据格式,云上多种数据源、ECS自建数据库以及线下数据库,数据无需搬迁,即可实现对云上多个数据源进行分析,构建企业的统一视图,帮助企业快速完成业务创新和数据价值探索


企业级多租户
支持对计算资源和数据按租户进行细粒度授权管理,满足中大企业使用数据中台时对权限管理的需求


不同业务场景下使用DLI服务


数据库分析



数据库分析

应用的数据(如:注册信息)存在关系型数据库中,想对数据库内的数据进行分析

痛点:

•  数据量日益增多,复杂查询关系型数据库查不出来

•  数据分库分表存在多个关系型数据库中,无法做全量分析

•  不想因为分析业务影响在线业务

优势

熟悉的SQL体验
DLI的SQL语法全兼容关系型数据库的标准ANSI SQL 2003,0学习成本,使用习惯保持一致


极致性能
DLI采用分布式内存计算模型,轻松处理海量数据


建议搭配使用
云数据迁移 CDM


电商行业



精准营销

电商行业需要获取多个途径的信息做关联分析,以便更好地做精准营销,提高转化率。如:关联【页面广告点击事件数据】和【用户注册数据】,获取不同年龄

段喜欢的广告类型,以便对不同年龄段用户投放更精准的广告

优势

跨源分析
数据免搬迁,就可以关联分析存在OBS中的【页面广告点击事件数据】和RDS中的【用户注册数据】


纯SQL操作
DLI已对接多个数据源,直接通过SQL建表就可以完成数据源的映射


建议搭配使用
对象存储服务 OBS 数据接入服务 DIS

游戏行业



日志分析

游戏公司日常通过数据分析平台,借助数据力量没突破行业瓶颈。例如:寻找优质的投放渠道、提高新手期玩家留存、优化运营活动提升玩家活跃、数据驱动产

品迭代等

痛点:

•  日志分析通常是按周期进行调度,每次调度之间存在大量空闲期

优势

按量计费
DLI按量计费只在使用期间收费,成本较独占集群降低50%以上


融合分析
DLI三大引擎间元数据互通,数据实时清洗后入库进行离线ETL处理,处理结果直接可用交互式分析进行数据探索


建议搭配使用
数据接入服务 DIS 云数据库 MySQL

大企业



日志分析

大企业的部门比较多,不同部门在使用云服务时,需要对不同部门的员工的权限进行管理,包括计算资源的创建、删除、使用、隔离等。同时,也需要对不同部

门的数据进行管理,包括数据的隔离、共享等

优势

细粒度权限控制
列级别权限控制;INSERTINTO/OVERWRITE单独权限控制;表元数据只读权限控制


统一的管理机制
使用统一的IAM管理用户(无需单独创建DLI用户),支持IAM细粒度授权

基因行业



基因数据处理

现在基因行业有很多基于Spark分布式框架的第三方分析库,如ADAM、Hail等

痛点:

•  安装ADAM、Hail等分析库比较复杂

•  每次新建集群都需要安装一遍

优势

支持自定义镜像
支持基于基础镜像打包ADAM、Hail等第三方分析库,直接上传到容器镜像服务SWR,在DLI中运行作业时会自动拉取SWR中的自定义镜像


内置多个基础镜像
内置华为增强版Spark/Flink多版本基础镜像,开源Tensorflow/Keras/PyTorch的AI镜像


建议搭配使用
容器镜像服务 SWR

金融行业



实时风控

为了提高消灭或减少风险事件发生的各种可能性,需要使用风控系统对典型的场景包括:注册风控、登录风控、交易分控等进行风控

痛点:

•  风控系统对实时性要求很高

优势

高吞吐低时延
采用Apache Flink的Dataflow模型,完全的实时计算框架。采用高性能计算资源,单CPU每秒吞吐1千~2万条消息

丰富的云生态
使用SQL就可以将处理后的数据流式写入CloudTable、SMN等多个云服务

建议搭配使用
数据接入服务 DIS 消息通知服务 SMN

政府行业



实时大屏

为了更好地做好新冠疫情的管控,各地政府需要通过实时大屏掌握新冠疫情的现存确诊、累计确诊、境外输入等关键数据,为下一步疫情调控提供数据支撑

痛点:

•  政府行业技术人员通常会SQL,但对大数据了解不多

优势

毫秒级查询性能
内置的openLooKeng引擎在内存计算框架的基础上,还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要


简单易用
纯SQL开发方式,SQL语法全兼容标准ANSI SQL 2003


建议搭配使用
云数据迁移 CDM 云数据库 MySQL 数据可视化 DLV

地理大数据分析




地理大数据分析

地理大数据具有大数据的相关特征,数据体量巨大,例如全球卫星遥感影像数据量达到PB级;数据种类多,有结构化的遥感影像栅格数据、矢量数据,非结构化

的空间位置数据、三维建模数据;在大体量的地理大数据中,通过高效的挖掘工具或者挖掘方法实现价值提炼,是用户非常关注的话题

优势

提供地理专业算子
支持全栈Spark能力,具备丰富的Spark空间数据分析算法算子,全面支持结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理,支

持带有位置属性的动态流数据实时计算处理

CEP SQL
提供地理位置分析函数对地理空间数据进行实时分析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景

大数据治理能力
能快速将海量遥感影像数据接入上云,快速完成影像数据切片处理,为分布式批处理计算提供弹性分布式数据集

建议搭配使用
数据接入服务 DIS 对象存储服务 OBS 云数据迁移 CDM 数据快递服务 DES 表格存储服务 CloudTable



Serverless DLI与自建Hadoop对比


Data Lake Insight
自建Hadoop系统



成本

按照实际扫描数据量/CU时收费,可变成本,成本节约50%


长期占用资源,资源浪费严重,成本高


弹性扩缩容能力


基于容器化Kubernetes,极致的弹性伸缩




运维可用

即开即用,Serverless架构,跨AZ容灾能力


需要较强的技术能力去搭建、配置、运维

学习成本



10年、千个项目经验固化的调优参数。同时提供可视化智能调优界面



需要了解上百个调优参数

支持数据源

云上:OBS/RDS/DWS/CSS/MongoDB/Redis

云下:自建数据库/MongoDB/Redis

云上:OBS

云下:HDFS

生态兼容
DLV、Tableau、永洪BI、帆软


大数据生态工具


自定义镜像


支持,按需添加依赖,满足业务多样性

工作流调度


DAYU-DLF调度

自建大数据生态的调度工具,如Airflow


企业级多租户
基于表的权限管理,可以精细化到列权限
基于文件的权限管理


性能
基于软硬件一体化的深度垂直优化
大数据开源版本性能



客户案例


龙渊网络


龙渊网络携手华为云,实现高效、经济的查询分析海量数据,助力运营、策划、推广部门快速响应业务落地,实现数据应用一体化,DLI提供大数据分析工具助

力企业提升整体效益





视频教程



帮助文档




开发者资源


API
通过发起HTTP/HTTPS请求调用API的方式灵活的使用DLI服务

地区和终端节点
了解当前可服务区域和服务的Endpoint,选择满足DLI业务布局的服务区

SDK
获取、安装和调用SDK,达到资源综合管理目的


相似产品
  • 想买: 2777人 简介: GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库,支持x86和Kunpeng硬件架构,支持行存储与列存储,提供GB~PB级数据分析能力、多模分析和实时处理能力,用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景,广泛应用于汽车、制造、零售、物流、互联网、金融、政府、电信等行业分析决策系统
  • 想买: 990人 简介: 表格存储服务(CloudTable)是基于Apache HBase提供的全托管NoSQL服务,集成时序、时空数据存储特性,可提供千万级TPS以及毫秒级随机读写能力。可被广泛应用于物联网、车联网、金融、智慧城市、气象等行业。
  • 想买: 1416人 简介: 华为云可信智能计算服务( TICS,Trusted Intelligent Computing Service )面向政企行业, 打破跨行业的数据孤岛, 实现行业内部、跨行业之间在数据隐私保护下的多方数据联合分析和联邦计算能力,基于可信硬件执行环境TEE、安全多方计算MPC、区块链等技术, 实现数据在存储、流通、计算过程中端到端的安全和可审计, 推动跨行业的可信数据融合和协同。
  • 想买: 6530人 简介: 数据湖治理中心(DGC)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务、数据可视化等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。
  • 想买: 2546人 简介: 数据接入服务(Data Ingestion Service,简称DIS)可让您轻松收集、处理和分发实时流数据,以便您对新信息快速做出响应。DIS对接多种第三方数据采集工具,提供丰富的云服务Connector及Agent/SDK。适用于IoT、互联网、媒体等行业的设备监控、实时推荐、日志分析等场景。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部