腾讯云消息队列 RabbitMQ 版 - 监控告警
文档简介:
操作场景:
TDMQ RabbitMQ 版专享集群支持监控您账户下创建的资源,包括集群、节点、Vhost 等,您可以根据这些监控数据,分析集群的使用情况,针对可能存在的风险及时处理。同时您也可以对监控项设置报警规则,以便数据异常时收到报警消息,及时处理风险,保障系统的稳定运行。
操作场景
TDMQ RabbitMQ 版专享集群支持监控您账户下创建的资源,包括集群、节点、Vhost 等,您可以根据这些监控数据,分析集群的使用情况,针对可能存在的风险及时处理。同时您也可以对监控项设置报警规则,以便数据异常时收到报警消息,及时处理风险,保障系统的稳定运行。
监控指标
TDMQ RabbitMQ 版专享集群支持查看集群、节点、Vhost 和 Queue 四个维度的监控数据,支持的监控指标如下:
分类
|
监控指标
|
单位
|
监控指标含义
|
基本信息
|
连接数量
|
Count
|
当前打开的连接数量
|
通道数量
|
Count
|
当前打开的通道数量
|
|
队列数量
|
Count
|
当前可用队列总数
|
|
消费者数量
|
Count
|
当前在线消费者总数
|
|
堆积消息数量
|
Count
|
ready 状态(堆积未投递)的消息总数
|
|
公网入带宽
|
Mbps
|
公网入带宽
|
|
公网出带宽
|
Mbps
|
公网出带宽
|
|
推荐 TPS 上限(生产+消费)
|
Count/s
|
集群未开启镜像队列时的 TPS 上限推荐值
|
|
生产消费
|
生产确认速率
|
Count/s
|
client 消息生产成功后,broker 确认回包速率
|
每秒生产消息数量
|
Count/s
|
client 端生产消息速率
|
|
消费未确认消息数量
|
Count
|
已投递至消费者但未确认的消息总数
|
|
消费确认速率
|
Count/s
|
消费者确认的消息速率
|
|
每秒消费消息数量
|
Count/s
|
总体每秒消费消息速率,包括 autuAck=false 和 autoAck=true 两种情况
|
|
重投递速率
|
Count/s
|
channel 中重投递到消费者的消息速率
|
|
消息丢弃速率
|
Count/s
|
mandatory=false 的情况下发送至 exchange,并且没有符合的路由条件导致消息丢弃(drop)速率
|
分类
|
监控指标
|
单位
|
监控指标含义
|
基本信息
|
连接数量
|
Count
|
当前打开的连接数量
|
通道数量
|
Count
|
当前打开的通道数量
|
|
队列数量
|
Count
|
当前可用队列总数
|
|
消费者数量
|
Count
|
当前在线消费者总数
|
|
堆积消息数量
|
Count
|
ready 状态(堆积未投递)的消息总数
|
|
CPU利用率
|
%
|
节点CPU利用率
|
|
内存利用率
|
%
|
节点内存利用率
|
|
磁盘利用率
|
%
|
节点磁盘利用率
|
|
生产消费
|
生产确认速率
|
Count/s
|
client 消息生产成功后,broker 确认回包速率
|
每秒生产消息数量
|
Count/s
|
client 端生产消息速率
|
|
消费未确认消息数量
|
Count
|
已投递至消费者但未确认的消息总数
|
|
消费确认速率
|
Count/s
|
消费者确认的消息速率
|
|
每秒消费消息数量
|
Count/s
|
总体每秒消费消息速率,包括 autuAck = false 和 autoAck = true 两种情况
|
|
重投递速率
|
Count/s
|
channel 中重投递到消费者的消息速率
|
|
消息丢弃速率
|
Count/s
|
mandatory = false 的情况下发送至 exchange,并且没有符合的路由条件导致消息丢弃(drop)速率
|
分类
|
监控指标
|
单位
|
监控指标含义
|
基本信息
|
消费者数量
|
Count
|
当前在线消费者总数
|
堆积消息数量
|
Count
|
ready 状态(堆积未投递)的消息总数
|
|
生产消费
|
生产确认速率
|
Count/s
|
client 消息生产成功后,broker 确认回包速率
|
每秒生产消息数量
|
Count/s
|
client 端生产消息速率
|
|
消费未确认消息数量
|
Count
|
已投递至消费者但未确认的消息总数
|
|
消费确认速率
|
Count/s
|
消费者确认的消息速率
|
|
每秒消费消息数量
|
Count/s
|
总体每秒消费消息速率,包括 autuAck=false 和 autoAck=true 两种情况
|
|
重投递速率
|
Count/s
|
channel 中重投递到消费者的消息速率
|
|
消息丢弃速率
|
Count/s
|
mandatory = false 的情况下发送至 exchange,并且没有符合的路由条件导致消息丢弃(drop)速率
|
分类
|
监控指标
|
单位
|
监控指标含义
|
基本信息
|
消费者数量
|
Count
|
当前在线消费者总数
|
堆积消息数量
|
Count
|
ready 状态(堆积未投递)的消息总数
|
|
生产消费
|
消费未确认消息数量
|
Count
|
已投递至消费者但未确认的消息总数
|
消费确认速率
|
Count/s
|
消费者确认的消息速率
|
|
重投递速率
|
Count/s
|
channel 中重投递到消费者的消息速率
|
查看监控数据
1. 登录 TDMQ RabbitMQ 版控制台。
2. 在左侧导航栏选择集群管理,选择好地域,单击需要查看的集群的“ID”,进入集群详情页。
3. 在集群详情页顶部,选择监控页签,进入监控页面。
4. 选择要查看的资源页签,选择要查看的资源,并设置好时间范围后,查看对应的监控数据。
图标
|
说明
|
![]() |
单击可查看监控指标同环比,支持同比、环比和自定义日期对比。
|
![]() |
单击可刷新获取最新的监控数据,支持设置30s、5min、30min和1h时间间隔自动刷新监控数据。
|
![]() |
单击可将图表复制到 Dashboard,关于 Dashboard 请参见 什么是 Dashboard。
|
![]() |
勾选后可在图表上显示图例信息。
|

配置告警规则
新建告警规则
您可以为监控指标配置告警规则,当监控指标达到设定的报警阈值时,腾讯云可观测平台可以通过邮件、短信、微信、电话等方式通知您,帮助您及时应对异常情况。
1. 在集群的监控页面,单击下图告警按钮跳转至 腾讯云可观测平台控制台 配置告警策略。


2. 在告警策略页面,选择好策略类型和要设置告警的实例,设置好告警规则和告警通知模板。
策略类型:选择消息队列 TDMQ/RabbitMQ。
告警对象:选择需要配置告警策略的 RabbitMQ 资源。
触发条件:支持选择模板和手动配置,默认选择手动配置,手动配置参见以下说明,新建模板参见 新建触发条件模板。
说明
指标:例如“连接数量”,选择统计粒度为1分钟,则在1分钟内,生产时延平均耗时连续N个数据点超过阈值,就会出发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
通知模板:选择通知模板,也可以新建通知模板,设置告警接收对象和接收渠道。
3. 单击完成,完成配置。
说明
有关告警的更多信息,请参见 腾讯云可观测平台告警服务。
新建触发条件模板
1. 登录 腾讯云可观测平台控制台。
2. 在左侧导航栏中,单击触发条件模板,进入触发条件列表页面。
3. 在触发条件模板页单击新建。
4. 在新建模板页,配置策略类型。
策略类型:选择消息队列 TDMQ/RabbitMQ。
使用预置触发条件:勾选此选项,会出现系统建议的告警策略。
5. 确认无误后,单击保存。


6. 返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。


告警配置建议
本节为您介绍在使用 TDMQ RabbitMQ 版过程中需要重点关注的一些指标及其告警建议配置:
指标
|
维度
|
告警建议配置
|
详细说明
|
磁盘利用率(%)
|
节点
|
统计粒度1分钟,>80%,持续5个数据点,每30分钟告警一次
|
磁盘使用率过高会导致节点没有足够的磁盘空间容纳消息分配到该节点上,从而导致消息无法落盘。建议在平均磁盘使用率超过80%时及时清理数据或扩容集群。
|
内存利用率(%)
|
节点
|
统计粒度1分钟,>50%,持续5个数据点,每30分钟告警一次
|
内存利用率过高会阻塞消息生产。建议在内存利用率超过50%时及时加快消费、对生产进行流控或扩容集群。
|
CPU利用率(%)
|
节点
|
统计粒度1分钟,>70%,持续5个数据点,每30分钟告警一次
|
CPU 利用率过高会影响消息生产速度。建议在 CPU 利用率超过70%时及时扩容。
|
堆积消息数量(Count)
|
节点
|
统计周期5分钟,>业务预期堆积消息数量,持续5个数据点,每30分钟告警一次
|
堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨,无法再接入更多消息。需要进行扩容。
|