上云无忧 > 文档中心 > 天翼云数据治理中心 DataArts Studio 管理中心 - 支持的数据源
数据治理中心 DataArts Studio
天翼云数据治理中心 DataArts Studio 管理中心 - 支持的数据源

文档简介:
本章节主要介绍DataArts Studio支持的数据源。 在使用DataArts Studio前,您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖,用于存储原始数据和数据治理过程中的数据,并进行数据开发、服务和运营。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

在使用DataArts Studio前,您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖,用于存储原始数据和数据治理过程中的数据,并进行数据开发、服务和运营。DataArts Studio集成了丰富的数据引擎,支持对接如DLI、DWS、MRS Hive等云上数据湖与数据库云服务,也支持对接企业传统数据库,例如MySQL、PostgreSQL等。

DataArts Studio支持的数据源

DataArts Studio支持的数据源可分为“数据集成组件支持的数据源”和“DataArts Studio其他组件支持的数据源”。

  • 数据集成组件支持的数据源。数据集成组件需要集成源数据到数据湖中,因此支持的数据源范围更广。

数据集成支持的数据源请参见 支持的数据源。注意,如需在数据集成中使用这些数据源,请先在数据集成中创建对应的数据连接,这些数据连接仅限于在数据集成模块中使用。

  • DataArts Studio其他组件支持的数据源,即为DataArts Studio所支持的数据湖底座。

其他组件支持的数据源如下表所示,数据源的介绍请参见下方数据源简介。注意,如需在其他组件中使用这些数据源,请先前往DataArts Studio管理中心控制台创建数据连接,这些数据连接不能在数据集成模块中使用。

详见下表 DataArts Studio其他组件支持的数据源

数据源类型 管理中心 数据架构 数据开发 数据目录[1] 数据质量[2] 数据服务
数据仓库服务(DWS)
数据湖探索(DLI)
MapReduce服务(MRS HBase) × × × ×
MapReduce服务(MRS Hive) ×
MapReduce服务(MRS Kafka) × × × ×
MapReduce服务(MRS Ranger) × × × × ×
MySQL × × ×
MapReduce服务(MRS Spark) × × ×
云数据库RDS(MySQL) ×
云数据库RDS(PostgreSQL) ×
主机连接 × × × ×
MapReduce服务(MRS Presto) × × × ×

注释 :

[1] 数据目录: 数据目录组件除了上表中列出的数据源外,还支持采集以下数据源的元数据:

  1. 关系型数据库如MySQL/PostgreSQL/达梦数据库DM等(可使用RDS类型连接,采集其元数据)
  2. 云搜索服务CSS
  3. 图引擎服务GES
  4. 对象存储服务OBS

[2] 数据质量 :数据质量组件中的质量作业和对账作业功能不支持对接MRS集群存算分离的场景。

数据源简介

数据源简介

数据源类型 简介
数据仓库服务(DWS) DWS是基于Shared-nothing分布式架构,具备MPP大规模并行处理引擎,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。
数据湖探索(DLI) DLI是完全兼容Apache Spark和Apache Flink生态,实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。
MapReduce服务(MRS HBase) HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。
使用MRS HBase可实现海量数据存储,并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新,并支持百万级时序数据查询分析。
MapReduce服务(MRS Hive) Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HiveQL,它允许熟悉SQL的用户查询数据。
使用MRS Hive可实现TB/PB级的数据分析,快速将线下Hadoop大数据平台(CDH、HDP等)迁移上云,业务迁移 “0”中断,业务代码 “0”改动。
MapReduce服务(MRS Kafka) MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。
MapReduce服务(MRS Ranger) Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限。
MySQL MySQL是目前最受欢迎的开源数据库之一,其性能卓越,架构成熟稳定,支持流行应用程序,适用于多领域多行业,支持各种WEB应用,成本低,中小企业首选。
MapReduce服务(MRS Spark) Spark是一个开源的,并行数据处理框架,能够帮助用户简单的开发快速、统一的大数据应用,对数据进行协处理、流式处理、交互式分析等等。
Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。
云数据库RDS RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。
注意,DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库。
主机连接 通过主机连接,用户可以在DataArts Studio数据开发中连接到指定的主机,通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息,当主机的连接信息有变化时,只需在主机连接管理中编辑修改,而不需要到具体的脚本或作业中逐一修改。
MapReduce服务(MRS Presto) Presto是一个开源的用户交互式分析查询的SQL查询引擎,用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。
Presto允许查询的数据源包括Hadoop分布式文件系统(HDFS),Hive,HBase,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源,执行跨数据源的数据分析。
相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部