数据总线(DataHub)服务是阿里云提供的流式数据(Streaming Data)服务,它提供流式数据的发布 (Publish)和订阅 (Subscribe)的功能,让您可以轻松构建基于流式数据的分析和应用。
产品优势
稳定性
脱胎于阿里内部实时传输系统,支持历年双十一,久经考验,稳定可靠。
高吞吐
最高支持单主题(Topic)每日T级别的数据量写入,每个分片(Shard)支持最高每日百GB级别的写入量。
低成本
随开随用,按量付费,每一分钱都花在刀刃上。
生态融合
系出飞天,与阿里云大数据系统深度整合,无缝对接MaxCompute、实时计算、交互式分析等产品,打通整个大数据体系。
数据接入
提供多种SDK、API和Flume、Logstash等第三方插件,让您高效便捷的把数据接入到数据总线。
数据缓存
灵活的缓存时间,下游可重复消费,自动多备份,保障数据高可靠性。
数据投递
提供DataConnector模块,稍作配置即可把接入的数据实时同步到下游MaxCompute、OSS、TableStore等存储分析系统,极大减轻了数据链路的工作量。
多种接口
既有适合人交互的Web控制台,也有适合程序交互的API和SDK,满足各种使用需求。
实时数据通道
接入多种异构数据并投递到下游多种大数据系统
通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。
收益
系统解耦
对外,大数据系统与业务系统解耦,对内,大数据系统各组件之间解耦。
实时通道
通过数据总线,业务数据能够实时汇入大数据系统,缩短数据分析周期。
实时数据清洗和分析
接入多种异构数据,实时清洗并归一化
通过数据总线和实时计算,您可以把多种数据源的异构数据实时清洗成统一的结构化数据,为进一步分析做准备。
收益
实时ETL
接入多种数据源,实时进行清洗、过滤、关联与转换,产出结构化数据。
实时分析
亚秒级产出业务指标,把握转瞬即逝的数据价值。
实时数据仓库
数据总线替换传统数据库,构建实时数仓
从Lambda架构到Kappa架构,通过数据总线搭建原始数据层,实时明细层和实时汇总层,打造实时数据仓库。
收益
统一的Kappa架构
传统Lambda架构的两条链路缩减为一条,大大降低维护成本。
大数据实时化
数仓是大数据的基础,实时化的数仓能够让BI、报表、推荐(用户标签产出)等多种业务收益,大数据系统总体向实时化迈进。