文档简介:
Q:MRS是什么?
A:MapReduce服务是公有云的一项基础服务,用于海量数据的管理和分析,简称MRS。
MRS打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量的数据分析和计算能力,可解决各大企业的数据存储和处理需求。用户可以独立申请和使用托管Hadoop、Spark、HBase和Hive组件,用于快速在主机上创建集群,提供海量数据的实时性要求不高的批量数据分析和计算能力。
Q:MRS可以做什么?
A:基于开源软件Hadoop进行功能增强、Spark内存计算引擎、HBase分布式存储数据库以及Hive数据仓库框架,提供企业级大数据存储、查询和分析的统一平台,帮助企业快速构建海量数据信息处理系统,可解决各大企业的以下需求:
-
海量数据的分析与计算
-
海量数据的存储
Q: 如何使用MRS?
A:MRS是公有云的一项基础服务,使用简单。通过使用在集群中连接在一起的多台计算机,您可以运行各种任务,处理或者存储(PB级)巨量数据。MRS的基本使用流程如下:
1、准备数据
准备程序和数据文件,用户需要先将本地的程序和数据文件上传至对象存储服务(OBS)中。
2、创建集群
使用MRS的首要操作就是购买集群,集群购买数量受弹性云服务器数量限制。配置集群基本信息,完成集群的创建。为节省您的宝贵时间,且方便使用MRS,创建集群时可同时提交作业。
创建集群时只能新增一个作业,若需要新增多个作业,则需要执行步骤4。
3、导入数据
MRS集群创建成功后,可使用集群导入功能,将OBS中的数据导入至集群HDFS中。MRS集群既能处理OBS中数据,也能处理HDFS中的数据。
4、创建作业
数据上传到OBS后可对数据进行分析和处理,MRS为用户提供程序执行平台,程序由用户自身开发,MRS负责程序的提交、执行和监控。作业创建成功后自动运行一次,状态默认为“运行中”。
5、查看作业执行结果
作业运行需要时间,作业运行结束后,在“作业管理”的“作业”页签,刷新作业列表,查看作业执行结果。
作业执行成功或失败后都不能再次执行,只能新增或者复制作业,配置作业参数后重新提交作业。
6、终止集群
如果作业执行结束后不需要集群了,可以在“集群列表”中单击“终止”,集群状态由“运行中”更新为“删除中”,待集群删除成功后,集群状态更新为“已终止”,并且显示在“历史集群”中。集群终止后不再产生费用。
Q:如何保证数据和业务运行安全?
A:MRS作为一个海量数据管理和分析平台,具备高安全性。主要从以下几个方面保障数据和业务运行安全:
-
网络隔离
整个公有云网络划分为2个平面,即业务平面和管理平面。两个平面采用物理隔离的方式进行部署,保证业务、管理各自网络的安全性。
业务平面:主要是集群组件运行的网络平面,支持为用户提供业务通道,对外提供数据存取、任务提交及计算能力。
管理平面:主要是公有云管理控制台,用于购买和管理MRS。
-
主机安全
用户可以根据自己业务的需要部署第三方的防病毒软件。针对操作系统和端口部分,MRS提供如下安全措施:
-
操作系统内核安全加固
-
更新操作系统最新补丁
-
操作系统权限控制
-
操作系统端口管理
-
操作系统协议与端口防攻击
-
数据安全
MRS支持数据存储在OBS上,保障客户数据安全。
-
数据完整性
MRS处理完数据后,通过SSL加密传输数据至OBS,保证客户数据的完整性。
Q:如何准备MRS的数据源?
A:MRS既可以处理OBS中的数据,也可以处理HDFS中的数据。在使用MRS分析数据前,需要先准备数据。
1、将本地数据上传OBS。
(1)登录OBS管理控制台。
(2)在OBS上创建userdata桶,然后在userdata桶下创建program、input、output和log文件夹。
(a)单击“创建桶”,创建一个名称为userdata的桶。
(b)在userdata桶下单击“新建文件夹”,分别创建program、input、output和log目录。
(3)上传数据至userdata桶。
(a)进入program文件夹,单击 选择用户程序。
(b)单击“上传”。
(c)使用同样方式将用户数据文件上传至input目录。
2、将OBS数据导入至HDFS。
当“Kerberos认证”为“关闭”,且运行中的集群,可执行将OBS数据导入至HDFS的操作。
(1)登录MRS管理控制台。
(2)进入“文件管理”页面,选择“HDFS文件列表”。
(3)进入数据存储目录,如“bd_app1”。
(4)“bd_app1”目录仅为示例,可以是界面上的任何目录,也可以通过“新建”创建新的目录。
(5)单击“导入数据”,通过 选择OBS和HDFS路径。
(6)单击“确定”。
(7)文件上传进度可在“文件操作记录”中查看。
Q:数据存储在OBS和HDFS有什么区别?
A:MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS(Object Storage Service)即对象存储服务,是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于云管理平台Web界面和OBS客户端对数据进行浏览、管理和使用,同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。
-
数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。
-
数据存储在HDFS:数据存储和计算不分离,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。
Q: 如何查看所有集群?
A:MRS所有的集群都展示在“集群列表”页面中,进入“集群列表”页面,可查看所有集群。集群数量较多时,可采用翻页显示,您可以查看任何状态下的集群。
-
现有集群:包含除“已终止”状态外的所有集群。
-
历史集群:仅包含“已终止”状态的集群,目前界面只显示6个月内创建且已终止的集群,若需要查看6个月以前创建的集群,请联系技术支持人员。
-
任务状态:仅包含“失败”状态的任务。
-
集群创建失败的任务
-
集群终止失败的任务
-
集群扩容失败的任务
Q:如何查看日志信息?
A:“操作日志”页面记录了用户对集群和作业的操作的日志信息。目前,MRS界面记录的日志信息分为2类:
集群操作
−创建集群、删除集群和扩容集群
−创建目录、删除目录和删除文件
作业操作:创建作业、停止作业和删除作业
Q:MRS支持哪些作业类型?
A:作业是MRS为用户提供的程序执行平台,当前MRS支持MR、Spark和Hive作业,作业的特点及区别如表所示。
作业类型
类型 |
说明 |
MR |
MapReduce,一种简化并行计算的编程模型,用于大数据集(大于1TB)的并行运算。 Map将一个任务分解成为多个任务,Reduce将分解后多任务处理的结果汇总起来,得出最终的分析结果。 用户完成代码开发后,在IDEA或Eclipse中打包成Jar包,上传到MRS集群中执行并获取执行结果。 |
Spark |
数据批量处理引擎,数据处理速度快,但Spark是基于内存进行计算,对内存要求较高。Spark作业包括: l Spark Jar:需要以“.jar”结尾,jar不区分大小写 l Spark Script:需要以“.sql”结尾,sql不区分大小写 l Spark SQL:规范的Spark SQL语句,例如:show tables; |
Hive |
Hive是建立在Hadoop上的数据仓库框架,提供类似SQL的HiveQL语言操作结构化数据,其基本原理是将Hive Script中的HiveQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 规范的HiveQL语句,例如:create table page_view(viewTime INT,userid BIGINT,page_url STRING,referrer_uel STRING,ip STRING COMMENT 'IP Address of the User'); |
Q: 如何将用户程序提交到MRS中?
A:MRS为用户提供程序执行平台,程序由用户自身开发,MRS负责程序的提交、执行和监控。那如何将用户程序提交至MRS中呢?新增作业时,将“执行程序路径”参数配置为用户程序的实际存放路径。
Q:如何查看集群配置信息?
A:集群创建完成后可在基本信息页面中查看集群的基本配置信息。其中,节点的实例规格和容量决定了该集群对数据的分析处理能力。节点实例规格越高,容量越大,集群运行速度越快,分析处理能力越强,相应的成本也越高。
在基本信息页面,单击“Cluster Manager”,跳转至MRS集群管理页面。用户可在集群管理页面查看和处理告警信息、修改集群配置以及升级集群补丁等。
Q: MRS当前支持哪些规格主机?
A:MRS根据丰富的大数据产品调优经验,提供不同场景对应的最佳搭配。MRS当前支持以下规格主机,主机规格的配型由CPU+内存+Disk共同决定:
-
s1.xlarge.linux.bigdata -- 4 vCPU,16 GB
−CPU:4核
−内存:16GB
−系统Disk:40GB
-
c2.2xlarge.linux.bigdata -- 8 vCPU,16 GB
−CPU:8核
−内存:16GB
−系统Disk:40GB
-
c2.4xlarge.linux.bigdata -- 16 vCPU,32 GB
−CPU:16核
−内存:32GB
−系统Disk:40GB
-
s1.4xlarge.linux.bigdata -- 16 vCPU,64 GB
−CPU:16核
−内存:64GB
−系统Disk:40GB
-
s1.8xlarge.linux.bigdata -- 32 vCPU,128 GB
−CPU:32核
−内存:128GB
−系统Disk:40GB
主机的实例规格配置越高,数据处理分析能力越强,集群所需费用也越高,请根据您要处理的数据量选择主机配型。
Q:MRS当前支持哪些组件?
A:MRS当前支持Hadoop 2.7.2、Spark 2.1.0、HBase 1.0.2和Hive 1.2.1组件,后续会支持更多版本和组件。组件在MRS Manager中也被称为服务。
Q: Spark和Hadoop什么关系?
A:Spark是和Hadoop数据兼容快速和通用的处理引擎。通过YARN,Spark可以在Hadoop集群下运行。Spark可以处理在HDFS、HBase、Hive以及Hadoop输入的任何形式的数据。
Q:集群支持提交哪些形式的Spark作业?
A:当前在MRS页面,集群支持提交Spark、Spark Script和Spark SQL形式的Spark作业。
Q:Spark集群能访问OBS中的数据吗?
A:与Hadoop集群一样,Spark集群可以访问存储在OBS系统中的数据,只需在提交作业时将“数据输入路径”、“输出路径”配置为OBS的路径即可。
Q:Hive与其他组件有什么关系?
A:1、Hive与HDFS间的关系
Hive是Apache的Hadoop项目的子项目,Hive利用HDFS作为其文件存储系统。Hive通过解析和计算处理结构化的数据,Hadoop HDFS则为Hive提供了高可靠性的底层存储支持。Hive数据库中的所有数据文件都可以存储在Hadoop HDFS文件系统上,Hive所有的数据操作也都是通过Hadoop HDFS接口进行。
2、Hive与MapReduce间的关系
Hive所有的数据计算都依赖于MapReduce。MapReduce也是Apache的Hadoop项目的子项目,它是一个基于Hadoop HDFS分布式并行计算框架。Hive进行数据分析时,会将用户提交的HiveQL语句解析成相应的MapReduce任务并提交MapReduce执行。
3、Hive与DBService间的关系
Hive的MetaStore(元数据服务)处理Hive的数据库、表、分区等的结构和属性信息,这些信息需要存放在一个关系型数据库中,由MetaStore维护和处理。在MRS中,这个关系型数据库由DBService组件维护。
4、Hive与Spark间的关系
Hive的数据计算也可以运行在Spark上。Spark也是Apache的一个项目,它是基于内存的分布式计算框架。Hive进行数据分析时,会将用户提交的HiveQL语句解析成相应的Spark任务并提交Spark执行。
Q:MRS支持什么类型的分布式存储?
A:提供目前主流的Hadoop,目前支持Hadoop 2.7.2版本,并且随社区更新版本。
Q:MRS是否支持变更MRS集群节点?
A:MRS管理控制台不支持变更集群节点,也不建议用户在ECS管理控制台直接修改MRS集群节点。如果手动在ECS管理控制台对集群节点执行停止ECS、删除ECS、修改或重装ECS操作系统,以及修改ECS规格的操作,可能影响集群稳定运行。
如果您对MRS集群节点进行了上述操作,MRS会自动识别并直接删除发生变更的集群节点。您可以登录MRS管理控制台,通过扩容恢复已经删除的节点。请勿在扩容过程中对正在扩容的节点进行操作。