目录
说明
一. 监控查看
1 用户仪表盘
2 集群监控
2.1 集群监控列表
2.2 集群仪表盘
2.3 主机监控
2.4 服务监控
二. 报警配置
1 BMR事件报警配置
2 BMR指标报警配置
说明
BMR中的监控运维主要包含两部分
- 监控查看 监控查看是在BMR侧查看各种类型(用户/集群/主机/服务/组件/Topic)监控指标趋势。
- 报警配置 报警配置是在BCM侧配置BMR中的事件报警和指标报警规则,以及查看报警历史。
一.监控查看
在“产品服务->MapReduce”页中,点击监控运维, 下面分别有仪表盘和集群监控。
1.用户仪表盘
选择"监控运维->仪表盘", 仪表盘就是用户仪表盘,就是从全局查看用户当前区域下的所有的集群(含有YARN和HDFS)的资源使用情况:
2.集群监控
2.1.集群监控列表
选择"监控运维->集群监控",能看到当前区域下的集群列表
选择某一个具体的集群,点击右侧的"监控详情",进入集群监控详情查看,如下图;点击"集群管理"则进入集群管理页面
2.2.集群仪表盘
集群监控详情页->选择"集群仪表盘",则能查看集群的全局指标:
2.3.主机监控
- 集群监控详情页->选择"主机监控",能查看当前主机列表以及当前实时资源使用情况
主机列表中,可选择"状态列"表头选择已停止和运行中进行过滤,如下图:
还可以选择具体的指标列(比如CPU使用率,内存利用率...磁盘使用率等)进行排序。
- 主机列表->点击某主机名称,进入主机监控指标查看页面
默认是展示最近2个小时的指标,可以选择指标查看选中时间范围内(注意:开始时间不能早于当前时间40天,结束时间不能晚于当前时间2个小事)的指标趋势,点击刷新按钮,时间重置到最近2个小时:
另外,主机指标默认展示的是常用指标,可以通过指标筛选,选择更多的指标进行查看:
选择其他指标后,点击确定,则页面会显示新加的的指标趋势图
2.4.服务监控
集群监控详情页->选择"服务监控",能查看当前集群下的服务(当前仅支持HDFS/YARN/KAFKA/ZOOKEEPER四种服务)的指标数据展示。同样,也可以进行时间选择和指标筛选。
在每个服务下面,有服务下的组件列表,比如HDFS服务下面有NameNode和DataNode列表:
2.5.KafkaTopic监控
集群监控详情页->选择"服务监控"->选择Kafka服务->选择底部的Topic列表:
选择具体的某个Topic,点击查看流量详情,就能查看该Topic的写流量,读流量,写消息数指标趋势图:
二.报警配置
BMR的报警配置都是在BCM侧进行配置的,BMR的报警配置分为BMR事件报警配置和BMR指标报警配置:
BMR事件报警配置 是针对BMR中监控对象(比如主机和组件进程)运行状态(比如down/up)的事件报警配置。
BMR指标报警配置 是针对BMR中监控对象指标阈值的报警配置,比如CPU利用率,磁盘利用率超过阈值报警配置。
1.BMR事件报警配置
在“产品服务->云监控 BCM”页中,点击"事件监控",参考BCM的事件监控说明,配置BMR的事件报警策略。
如下图,配置主机运行状态的事件报警策略,产品类型选择MapReduce BMR, 事件名称选择主机宕和主机宕恢复:
参考主机运行状态事件报警策略配置,可以配置组件运行状态的事件报警策略配置(事件名称选择组件宕和组件宕恢复)
2.BMR指标报警配置
BMR指标报警配置,是通过实例组来进行配置的,也就是需要先建立实例组,然后再创建该实例组的指标报警策略。
在“产品服务->云监控 BCM”页中,点击"实例组",参考BCM的实例组说明,配置BMR的实例组以及实例组的报警策略,下面是创建一个BMR实例组:
BMR的监控实例组类型有主机/集群/服务/组件/Topic共5中类型。创建完实例组后,参考参考BCM的添加实例组报警策略 创建实例组的指标报警策略,如下图,添加主机的最大磁盘分区利用率的指标报警策略:
参考上面主机的最大磁盘分区利用率指标报警策略,可以配置其他监控实例类型的指标报警策略。