百度智能云MapReduce集群 - 监控运维

MapReduce

简介/价格/文档

百度智能云MapReduce集群 - 监控运维

文档简介：

BMR中的监控运维主要包含两部分：监控查看监控查看是在BMR侧查看各种类型(用户/集群/主机/服务/组件/Topic)监控指标趋势。报警配置报警配置是在BCM侧配置BMR中的事件报警和指标报警规则，以及查看报警历史。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

说明

一. 监控查看
1 用户仪表盘
2 集群监控
2.1 集群监控列表
2.2 集群仪表盘
2.3 主机监控
2.4 服务监控

二. 报警配置
1 BMR事件报警配置
2 BMR指标报警配置

说明

BMR中的监控运维主要包含两部分

监控查看监控查看是在BMR侧查看各种类型(用户/集群/主机/服务/组件/Topic)监控指标趋势。
报警配置报警配置是在BCM侧配置BMR中的事件报警和指标报警规则，以及查看报警历史。

一.监控查看

在“产品服务->MapReduce”页中，点击监控运维, 下面分别有仪表盘和集群监控。

1.用户仪表盘

选择"监控运维->仪表盘", 仪表盘就是用户仪表盘，就是从全局查看用户当前区域下的所有的集群(含有YARN和HDFS)的资源使用情况:

2.集群监控

2.1.集群监控列表

选择"监控运维->集群监控",能看到当前区域下的集群列表

选择某一个具体的集群，点击右侧的"监控详情"，进入集群监控详情查看，如下图；点击"集群管理"则进入集群管理页面

2.2.集群仪表盘

集群监控详情页->选择"集群仪表盘"，则能查看集群的全局指标：

2.3.主机监控

集群监控详情页->选择"主机监控"，能查看当前主机列表以及当前实时资源使用情况

主机列表中，可选择"状态列"表头选择已停止和运行中进行过滤，如下图:

还可以选择具体的指标列(比如CPU使用率，内存利用率...磁盘使用率等)进行排序。

主机列表->点击某主机名称，进入主机监控指标查看页面

默认是展示最近2个小时的指标，可以选择指标查看选中时间范围内(注意:开始时间不能早于当前时间40天，结束时间不能晚于当前时间2个小事)的指标趋势，点击刷新按钮，时间重置到最近2个小时:

另外，主机指标默认展示的是常用指标，可以通过指标筛选，选择更多的指标进行查看：

选择其他指标后，点击确定，则页面会显示新加的的指标趋势图

2.4.服务监控

集群监控详情页->选择"服务监控"，能查看当前集群下的服务(当前仅支持HDFS/YARN/KAFKA/ZOOKEEPER四种服务)的指标数据展示。同样，也可以进行时间选择和指标筛选。

在每个服务下面，有服务下的组件列表，比如HDFS服务下面有NameNode和DataNode列表:

2.5.KafkaTopic监控

集群监控详情页->选择"服务监控"->选择Kafka服务->选择底部的Topic列表：

选择具体的某个Topic,点击查看流量详情，就能查看该Topic的写流量，读流量，写消息数指标趋势图:

二.报警配置

BMR的报警配置都是在BCM侧进行配置的，BMR的报警配置分为BMR事件报警配置和BMR指标报警配置:
BMR事件报警配置是针对BMR中监控对象(比如主机和组件进程)运行状态(比如down/up)的事件报警配置。
BMR指标报警配置是针对BMR中监控对象指标阈值的报警配置，比如CPU利用率，磁盘利用率超过阈值报警配置。

1.BMR事件报警配置

在“产品服务->云监控 BCM”页中，点击"事件监控"，参考BCM的事件监控说明，配置BMR的事件报警策略。
如下图，配置主机运行状态的事件报警策略，产品类型选择MapReduce BMR, 事件名称选择主机宕和主机宕恢复:

参考主机运行状态事件报警策略配置，可以配置组件运行状态的事件报警策略配置（事件名称选择组件宕和组件宕恢复）

2.BMR指标报警配置

BMR指标报警配置，是通过实例组来进行配置的，也就是需要先建立实例组，然后再创建该实例组的指标报警策略。
在“产品服务->云监控 BCM”页中，点击"实例组"，参考BCM的实例组说明，配置BMR的实例组以及实例组的报警策略，下面是创建一个BMR实例组:

BMR的监控实例组类型有主机/集群/服务/组件/Topic共5中类型。创建完实例组后，参考参考BCM的添加实例组报警策略创建实例组的指标报警策略，如下图，添加主机的最大磁盘分区利用率的指标报警策略：

参考上面主机的最大磁盘分区利用率指标报警策略，可以配置其他监控实例类型的指标报警策略。

相似文档

百度智能云MapReduce集群 - 安全组
在通过相应的端口登录和访问BMR集群前，您需要将访问的IP地址或IP段加到安全组中，进行相应的安全组配置，BMR产品为用户提供了默认的BMR安全组：BaiduMapReduce-Default，用户可以选择默认的安全组进行使用无需单独配置，如果有其他端口和IP访问的需求，可以在创建集群完成后，在VPC安全组中BMR的安全组中进行配置。
百度智能云MapReduce集群 - EIP
BMR集群中使用EIP：弹性公网IP EIP (Elastic IP) 作为一个独立的商品为用户提供公网带宽服务。 EIP的主要用途包括：通过EIP实例，用户可以获取公网带宽服务。用户可灵活配置EIP实例的计费模式，包括按需按带宽付费、按需按流量付费和包年包月按带宽付费三种。
百度智能云MapReduce - SSH连接到集群
应用场景：在集群运行期间与主节点交互。例如，登录主节点运行交互式查询，检查日志文件，使用在主节点上运行的应用程序监控性能，调试集群问题等。
百度智能云MapReduce - 使用OpenVPN访问集群
使用BMR集群的VPN服务，需配置OpenVPN Client，本章介绍在Mac OS X、Linux和Windows操作系统上配置OpenVPN Client的过程。 Mac OS X：以Mac OS X（10.11.2）为例。具体操作如下：下载Tunnelblick的安装文件。
百度智能云MapReduce集群 - 使用OpenVPN提交Hadoop作业
本章介绍如何使用OpenVPN在Linux、Windows和Mac OS X操作系统中提交Hadoop作业。使用客户端提交作业时，需在系统中设置环境变量，即“HADOOP_USER_NAME=hdfs”，或在MapReduce作业中配置，即在程序第一行加上“System.setProperty("HADOOP_USER_NAME","hdfs")”，可实现以hdfs用户的身份提交作业。