上云无忧 > 文档中心 > 天翼云数据治理中心 DataArts Studio 使用教程 - 配置Hive连接
数据治理中心 DataArts Studio
天翼云数据治理中心 DataArts Studio 使用教程 - 配置Hive连接

文档简介:
本章节主要介绍数据治理中心的配置Hive连接功能。 目前CDM支持连接的Hive数据源有以下几种: MRS Hive、 FusionInsight Hive、 Apache Hive。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

目前CDM支持连接的Hive数据源有以下几种:

  • MRS Hive
  • FusionInsight Hive
  • Apache Hive

MRS Hive

用户具有MRS Hive连接的表的访问权限时,才能在字段映射时看到表。

MRS Hive连接适用于云上的MapReduce服务。MRS Hive的连接参数如下表所示。

说明
  • 新建MRS连接前,需在MRS中添加一个kerberos认证用户并登录MRS管理页面更新其初始密码,然后使用该新建用户创建MRS连接。

  • 如需连接MRS 2.x版本的集群,请先创建2.x版本的CDM集群。CDM 1.8.x版本的集群无法连接MRS 2.x版本的集群。

  • 由于当前CDM Hive连接是从MRS HDFS组件获取core-site.xml配置信息,所以在MRS侧使用的是Hive over OBS场景时,在创建Hive连接前,需要用户在MRS管理界面的HDFS组件中配置OBS的AK、SK信息。

  • 需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件:

  • DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。

  • DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见《虚拟私有云》帮助文档中的“自定义路由(Region Type Ⅰ)> 添加路由信息”章节,配置安全组规则请参见《虚拟私有云》帮助文档中的“安全组 > 添加安全组规则”章节。

  • 此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。

详见下表:MRS Hive连接参数

参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 mrs-link
Manager IP MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 127.0.0.1
认证类型 访问MRS的认证类型:
SIMPLE:非安全模式选择Simple鉴权。
KERBEROS:安全模式选择Kerberos鉴权。
SIMPLE
Hive版本 Hive的版本。根据服务端Hive版本设置。 HIVE_3_X
用户名 选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
说明
如果CDM集群为2.9.0版本及之后版本,且MRS集群为3.1.0及之后版本,则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接;如果需要对应组件的进行库、表、数据的操作,还需要添加对应组件的用户组权限。
如果CDM集群为2.9.0之前的版本,或MRS集群为3.1.0之前的版本,则所创建的用户需要具备Manager_administrator或System_administrator权限,才能在CDM创建连接。
仅具备Manager_tenant或Manager_auditor权限,无法创建连接。
cdm
密码 访问MRS Manager的用户密码。 -
OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。
运行模式 “HIVE_3_X”版本支持该参数。支持以下模式:
EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
说明
STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。
EMBEDDED
检查Hive JDBC连通性 是否需要测试Hive JDBC连通性。
是否使用集群配置 用户可以在“连接管理”处创建集群配置,用于简化Hadoop连接参数配置。
属性配置 其他Hive客户端配置属性。 -

单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。

FusionInsight Hive

FusionInsight Hive连接适用于用户在本地数据中心自建的FusionInsight HD,需通过专线连接。

FusionInsight Hive的连接参数详见下表

参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 hivelink
Manager IP FusionInsight Manager平台的地址。 127.0.0.1
Manager端口 FusionInsight Manager平台的端口。 28443
CAS Server端口 与FusionInsight对接的CAS Server的端口。 20009
认证类型 访问集群的认证类型:
SIMPLE:非安全模式选择Simple鉴权。
KERBEROS:安全模式选择Kerberos鉴权。
SIMPLE
Hive版本 Hive的版本。 HIVE_3_X
用户名 登录FusionInsight Manager平台的用户名。 cdm
密码 FusionInsight Manager平台的密码。 -
OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。
运行模式 “HIVE_3_X”版本支持该参数。支持以下模式:
EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。
说明
STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。
EMBEDDED
是否使用集群配置 您可以通过使用集群配置,简化Hadoop连接参数配置。
集群配置名 仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 hive_01

单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。

Apache Hive

Apache Hive连接适用于用户在本地数据中心或ECS上自建的第三方Hadoop,其中本地数据中心的Hadoop需通过专线连接。

Apache Hive的连接参数详见下表

参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 hivelink
URI NameNode URI地址。 hdfs://hacluster
Hive元数据地址 设置Hive元数据地址,参考hive.metastore.uris配置项。例如:thrift://host-192-168-1-212:9083 -
认证类型 访问集群的认证类型:
SIMPLE:非安全模式选择Simple鉴权。
KERBEROS:安全模式选择Kerberos鉴权。
SIMPLE
Hive版本 Hive的版本。 HIVE_3_X
IP与主机名映射 如果Hadoop配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。 -
OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。
Principal 认证类型为“KERBEROS”时,需要填写Principal。Principal即Kerberos安全模式下的用户名,可以联系Hadoop管理员获取。此处填写的Principal需要与Keytab文件保持一致。 -
Keytab文件 认证类型为“KERBEROS”时,需要上传Keytab文件。Keytab文件为认证凭据文件,可以联系Hadoop管理员获取。获取Keytab文件前,需要在集群上至少修改过一次此用户的密码,否则下载获取的keytab文件可能无法使用。另外,修改用户密码后,之前导出的keytab将失效,需要重新导出。 -
运行模式 “HIVE_3_X”版本支持该参数。支持以下模式:
EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。
说明
STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。
EMBEDDED
是否使用集群配置 您可以通过使用集群配置,简化Hadoop连接参数配置。
集群配置名 仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 hive_01
Hive JDBC连接串 连接Hive JDBC的url,默认使用匿名用户连接。 -

单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。

相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部