数据治理中心 DataArts Studio

简介/价格/文档

天翼云数据治理中心 DataArts Studio 管理中心 - 支持的数据源

文档简介：

本章节主要介绍DataArts Studio支持的数据源。在使用DataArts Studio前，您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖，用于存储原始数据和数据治理过程中的数据，并进行数据开发、服务和运营。

*产品来源：中国电信天翼云。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

在使用DataArts Studio前，您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖，用于存储原始数据和数据治理过程中的数据，并进行数据开发、服务和运营。DataArts Studio集成了丰富的数据引擎，支持对接如DLI、DWS、MRS Hive等云上数据湖与数据库云服务，也支持对接企业传统数据库，例如MySQL、PostgreSQL等。

DataArts Studio支持的数据源

DataArts Studio支持的数据源可分为“数据集成组件支持的数据源”和“DataArts Studio其他组件支持的数据源”。

数据集成组件支持的数据源。数据集成组件需要集成源数据到数据湖中，因此支持的数据源范围更广。

数据集成支持的数据源请参见支持的数据源。注意，如需在数据集成中使用这些数据源，请先在数据集成中创建对应的数据连接，这些数据连接仅限于在数据集成模块中使用。

DataArts Studio其他组件支持的数据源，即为DataArts Studio所支持的数据湖底座。

其他组件支持的数据源如下表所示，数据源的介绍请参见下方数据源简介。注意，如需在其他组件中使用这些数据源，请先前往DataArts Studio管理中心控制台创建数据连接，这些数据连接不能在数据集成模块中使用。

详见下表 DataArts Studio其他组件支持的数据源

数据源类型	管理中心	数据架构	数据开发	数据目录[1]	数据质量[2]	数据服务
数据仓库服务（DWS）	√	√	√	√	√	√
数据湖探索（DLI）	√	√	√	√	√	√
MapReduce服务（MRS HBase）	√	×	×	√	×	×
MapReduce服务（MRS Hive）	√	√	√	√	√	×
MapReduce服务（MRS Kafka）	√	×	√	×	×	×
MapReduce服务（MRS Ranger）	√	×	×	×	×	×
MySQL	√	×	×	×	√	√
MapReduce服务（MRS Spark）	√	×	√	×	√	×
云数据库RDS（MySQL）	√	×	√	√	√	√
云数据库RDS（PostgreSQL）	√	√	√	√	√	×
主机连接	√	×	√	×	×	×
MapReduce服务（MRS Presto）	√	×	√	×	×	×

注释：

[1] 数据目录： 数据目录组件除了上表中列出的数据源外，还支持采集以下数据源的元数据：

关系型数据库如MySQL/PostgreSQL/达梦数据库DM等（可使用RDS类型连接，采集其元数据）
云搜索服务CSS
图引擎服务GES
对象存储服务OBS

[2] 数据质量 ：数据质量组件中的质量作业和对账作业功能不支持对接MRS集群存算分离的场景。

数据源简介

数据源类型	简介
数据仓库服务（DWS）	DWS是基于Shared-nothing分布式架构，具备MPP大规模并行处理引擎，兼容标准ANSI SQL 99和SQL 2003，同时兼容PostgreSQL/Oracle数据库生态，为各行业PB级海量大数据分析提供有竞争力的解决方案。
数据湖探索（DLI）	DLI是完全兼容Apache Spark和Apache Flink生态，实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎，企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等，挖掘和探索数据价值。
MapReduce服务（MRS HBase）	HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。使用MRS HBase可实现海量数据存储，并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新，并支持百万级时序数据查询分析。
MapReduce服务（MRS Hive）	Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HiveQL，它允许熟悉SQL的用户查询数据。使用MRS Hive可实现TB/PB级的数据分析，快速将线下Hadoop大数据平台（CDH、HDP等）迁移上云，业务迁移 “0”中断，业务代码 “0”改动。
MapReduce服务（MRS Kafka）	MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统，它提供了类似于JMS的特性，但在设计上完全不同，它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费，如常规的消息收集、网站活性跟踪、聚合统计系统运营数据（监控数据）、日志收集等大量数据的互联网服务的数据收集场景。
MapReduce服务（MRS Ranger）	Ranger提供一个集中式安全管理框架，提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限。
MySQL	MySQL是目前最受欢迎的开源数据库之一，其性能卓越，架构成熟稳定，支持流行应用程序，适用于多领域多行业，支持各种WEB应用，成本低，中小企业首选。
MapReduce服务（MRS Spark）	Spark是一个开源的，并行数据处理框架，能够帮助用户简单的开发快速、统一的大数据应用，对数据进行协处理、流式处理、交互式分析等等。 Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop，Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。
云数据库RDS	RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。注意，DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库。
主机连接	通过主机连接，用户可以在DataArts Studio数据开发中连接到指定的主机，通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息，当主机的连接信息有变化时，只需在主机连接管理中编辑修改，而不需要到具体的脚本或作业中逐一修改。
MapReduce服务（MRS Presto）	Presto是一个开源的用户交互式分析查询的SQL查询引擎，用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。 Presto允许查询的数据源包括Hadoop分布式文件系统（HDFS），Hive，HBase，Cassandra，关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源，执行跨数据源的数据分析。

相似文档

天翼云数据治理中心 DataArts Studio 管理中心 - 创建数据连接
本章节主要介绍创建数据连接。通过配置数据源信息，可以建立数据连接。DataArts Studio基于管理中心的数据连接对数据湖底座进行数据开发、治理、服务和运营。
天翼云数据治理中心 DataArts Studio 管理中心 - 资源迁移
本章节主要介绍资源迁移。当您需要将一个工作空间中的资源迁移至另一个工作空间，可使用数据治理中心DataArts Studio的资源迁移功能，对资源进行导入导出。
天翼云数据治理中心 DataArts Studio 管理中心 - 新建MRS Hive连接
本章节主要介绍新建MRS Hive连接。本章节以新建MRS Hive连接为例，介绍如何建立DataArts Studio与数据湖底座之间的数据连接。
天翼云数据治理中心 DataArts Studio 管理中心 - 新建DWS连接
本章节主要介绍新建DWS连接。本章节以新建DWS连接为例，介绍如何建立DataArts Studio与数据仓库底座之间的数据连接。
天翼云数据治理中心 DataArts Studio 管理中心 - 新建MySQL连接
本章节主要介绍新建MySQL连接。前提条件：在创建数据连接前，请确保您已创建所要连接的数据湖（如DataArts Studio所支持的数据库、云服务等）。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

DataArts Studio支持的数据源

数据源简介