上云无忧 > 文档中心 > 百度智能云MapReduce集群 - 监控运维
百度智能云MapReduce集群 - 监控运维

文档简介:
BMR中的监控运维主要包含两部分: 监控查看 监控查看是在BMR侧查看各种类型(用户/集群/主机/服务/组件/Topic)监控指标趋势。 报警配置 报警配置是在BCM侧配置BMR中的事件报警和指标报警规则,以及查看报警历史。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

目录

说明

一. 监控查看
1 用户仪表盘
2 集群监控
2.1 集群监控列表
2.2 集群仪表盘
2.3 主机监控
2.4 服务监控

二. 报警配置
1 BMR事件报警配置
2 BMR指标报警配置

说明

BMR中的监控运维主要包含两部分

  1. 监控查看 监控查看是在BMR侧查看各种类型(用户/集群/主机/服务/组件/Topic)监控指标趋势。
  2. 报警配置 报警配置是在BCM侧配置BMR中的事件报警和指标报警规则,以及查看报警历史。

一.监控查看

在“产品服务->MapReduce”页中,点击监控运维, 下面分别有仪表盘和集群监控。

1.用户仪表盘

选择"监控运维->仪表盘", 仪表盘就是用户仪表盘,就是从全局查看用户当前区域下的所有的集群(含有YARN和HDFS)的资源使用情况:

2.集群监控

2.1.集群监控列表

选择"监控运维->集群监控",能看到当前区域下的集群列表

选择某一个具体的集群,点击右侧的"监控详情",进入集群监控详情查看,如下图;点击"集群管理"则进入集群管理页面

2.2.集群仪表盘

集群监控详情页->选择"集群仪表盘",则能查看集群的全局指标:

2.3.主机监控

  1. 集群监控详情页->选择"主机监控",能查看当前主机列表以及当前实时资源使用情况

主机列表中,可选择"状态列"表头选择已停止和运行中进行过滤,如下图:

还可以选择具体的指标列(比如CPU使用率,内存利用率...磁盘使用率等)进行排序。

  1. 主机列表->点击某主机名称,进入主机监控指标查看页面

默认是展示最近2个小时的指标,可以选择指标查看选中时间范围内(注意:开始时间不能早于当前时间40天,结束时间不能晚于当前时间2个小事)的指标趋势,点击刷新按钮,时间重置到最近2个小时:

另外,主机指标默认展示的是常用指标,可以通过指标筛选,选择更多的指标进行查看:

选择其他指标后,点击确定,则页面会显示新加的的指标趋势图

2.4.服务监控

集群监控详情页->选择"服务监控",能查看当前集群下的服务(当前仅支持HDFS/YARN/KAFKA/ZOOKEEPER四种服务)的指标数据展示。同样,也可以进行时间选择和指标筛选。

在每个服务下面,有服务下的组件列表,比如HDFS服务下面有NameNode和DataNode列表:

2.5.KafkaTopic监控

集群监控详情页->选择"服务监控"->选择Kafka服务->选择底部的Topic列表:

选择具体的某个Topic,点击查看流量详情,就能查看该Topic的写流量,读流量,写消息数指标趋势图:

二.报警配置

BMR的报警配置都是在BCM侧进行配置的,BMR的报警配置分为BMR事件报警配置和BMR指标报警配置:
BMR事件报警配置 是针对BMR中监控对象(比如主机和组件进程)运行状态(比如down/up)的事件报警配置。
BMR指标报警配置 是针对BMR中监控对象指标阈值的报警配置,比如CPU利用率,磁盘利用率超过阈值报警配置。

1.BMR事件报警配置

在“产品服务->云监控 BCM”页中,点击"事件监控",参考BCM的事件监控说明,配置BMR的事件报警策略。
如下图,配置主机运行状态的事件报警策略,产品类型选择MapReduce BMR, 事件名称选择主机宕和主机宕恢复:

参考主机运行状态事件报警策略配置,可以配置组件运行状态的事件报警策略配置(事件名称选择组件宕和组件宕恢复)

2.BMR指标报警配置

BMR指标报警配置,是通过实例组来进行配置的,也就是需要先建立实例组,然后再创建该实例组的指标报警策略。
在“产品服务->云监控 BCM”页中,点击"实例组",参考BCM的实例组说明,配置BMR的实例组以及实例组的报警策略,下面是创建一个BMR实例组:

BMR的监控实例组类型有主机/集群/服务/组件/Topic共5中类型。创建完实例组后,参考参考BCM的添加实例组报警策略 创建实例组的指标报警策略,如下图,添加主机的最大磁盘分区利用率的指标报警策略:

参考上面主机的最大磁盘分区利用率指标报警策略,可以配置其他监控实例类型的指标报警策略。

相似文档
  • 在通过相应的端口登录和访问BMR集群前,您需要将访问的IP地址或IP段加到安全组中,进行相应的安全组配置,BMR产品为用户提供了默认的BMR安全组:BaiduMapReduce-Default,用户可以选择默认的安全组进行使用无需单独配置,如果有其他端口和IP访问的需求,可以在创建集群完成后,在VPC安全组中BMR的安全组中进行配置。
  • BMR集群中使用EIP: 弹性公网IP EIP (Elastic IP) 作为一个独立的商品为用户提供公网带宽服务。 EIP的主要用途包括: 通过EIP实例,用户可以获取公网带宽服务。 用户可灵活配置EIP实例的计费模式,包括按需按带宽付费、按需按流量付费和包年包月按带宽付费三种。
  • 应用场景: 在集群运行期间与主节点交互。例如,登录主节点运行交互式查询,检查日志文件,使用在主节点上运行的应用程序监控性能,调试集群问题等。
  • 使用BMR集群的VPN服务,需配置OpenVPN Client,本章介绍在Mac OS X、Linux和Windows操作系统上配置OpenVPN Client的过程。 Mac OS X: 以Mac OS X(10.11.2)为例。具体操作如下: 下载Tunnelblick的安装文件。
  • 本章介绍如何使用OpenVPN在Linux、Windows和Mac OS X操作系统中提交Hadoop作业。 使用客户端提交作业时,需在系统中设置环境变量,即“HADOOP_USER_NAME=hdfs”,或在MapReduce作业中配置,即在程序第一行加上“System.setProperty("HADOOP_USER_NAME","hdfs")”,可实现以hdfs用户的身份提交作业。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部