腾讯云容器服务 TKE 标准集群 - 监控及告警指标列表
文档简介:
目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值。
目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值。
集群监控及告警指标
指标
|
单位
|
说明
|
Pod 数量
|
个
|
集群中 Pod 个数
|
Node 数量
|
个
|
集群中 Node 个数
|
CPU 总配置
|
核
|
集群的 CPU 总配置量
|
CPU 使用量
|
核
|
集群的 CPU 使用量
|
CPU 利用率
|
%
|
集群的 CPU 利用率
|
CPU 使用量(弹性容器)
|
核
|
弹性容器的 CPU 使用量(若使用节点池的虚拟节点)
|
块设备读取大小
|
Mbytes
|
集群硬盘的使用总量
|
块设备读取次数
|
次
|
集群硬盘读取总次数
|
块设备写入大小
|
Mbytes
|
集群硬盘写入数据量
|
块设备写入次数
|
次
|
集群硬盘写入总次数
|
内存总和
|
Gbytes
|
集群内存总量
|
内存使用量
|
Mbytes
|
集群内存使用量总和
|
内存利用率
|
%
|
集群内存利用率
|
内存使用量(弹性容器)
|
Mbytes
|
弹性容器的内存使用量(若使用节点池的虚拟节点)
|
内存使用量(弹性容器,不含 Cache)
|
Mbytes
|
弹性容器的内存(不含 Cache)使用量(若使用节点池虚拟节点)
|
网络入流量
|
Mbytes
|
集群网络入流量
|
网络带宽
|
Mbps
|
集群网络带宽
|
网络入包量
|
个/s
|
集群网络入包量
|
网络出流量
|
Mbytes
|
集群网络出流量
|
网络出包量
|
个/s
|
集群网络出包量
|
GPU 内存总量
|
Gbytes
|
集群 GPU 内存总量
|
GPU 内存使用量
|
Mbytes
|
集群 GPU 内存总使用量
|
GPU 总量
|
卡
|
集群 GPU 总量
|
GPU 使用量
|
卡
|
集群整体的 CPU 利用率
|
显存利用率
|
%
|
GPU 显存利用率
|
GPU 利用率
|
%
|
集群 GPU 利用率
|
Master&Etcd 和普通节点监控及告警指标
指标
|
单位
|
说明
|
Pod 重启次数
|
次
|
节点内所有 Pod 的重启次数之和
|
Node 状态
|
-
|
节点的状态,正常或异常
|
CPU 利用率
|
%
|
节点内所有 Pod 的 CPU 使用量占节点总量之比
|
CPU 分配量
|
核
|
节点内所有 Pod 的 CPU 分配量总和
|
内存利用率
|
%
|
节点内所有 Pod 的工作集内存使用量占节点总量之比
|
内存分配量
|
Mbps
|
节点内所有 Pod 的内存分配量总和
|
内网入带宽
|
Mbps
|
节点内所有 Pod 的内网入方向带宽之和
|
内网出带宽
|
Mbps
|
节点内所有 Pod 的内网出方向带宽之和
|
外网入带宽
|
Mbps
|
节点内所有 Pod 的外网入方向带宽之和
|
外网出带宽
|
Mbps
|
节点内所有 Pod 的外网出方向带宽之和
|
TCP 连接数
|
个
|
节点保持的 TCP 连接数
|
GPU 使用量
|
卡
|
节点内所有 Pod 的 GPU 使用量之和
|
GPU 内存使用量
|
Mbps
|
节点内所有 Pod 的 GPU 内存使用量之和
|
GPU 内存利用率
|
%
|
节点内所有 Pod 的 GPU 内存使用量占节点 GPU 内存总量之比
|
GPU 利用率
|
%
|
节点内所有 Pod 的 GPU 使用量占节点 GPU 总量之比
|
Node 的 eni- IP 分配量
|
个
|
Node 的弹性网卡上已分配的 IP 数量
|
Node 的 direct-eni 分配量
|
个
|
Node 的 direct-eni 上已分配的 IP 数量
|
GlobalRouter模式集群中节点 Pod CIDR 已经分配的 IP 数
|
个
|
GlobalRouter 模式的 K8S 集群中,一个节点的 Pod CIDR 中已分配的 IP 个数
|
GlobalRouter模式集群中节点可以分配的 IP 数
|
个
|
GlobalRouter 模式的 K8S 集群中,一个节点中总共可分配的 IP 个数
|
集群节点更详细的指标监控及告警请参考 云服务器监控 和 创建告警策略。
集群节点数据盘更详细的指标监控及告警请参考 云硬盘监控 和 创建告警策略。
工作负载监控及告警指标
指标
|
单位
|
说明
|
工作负载异常
|
-
|
工作负载是否为异常状态,非0即为异常
|
Pod 数量
|
个
|
工作负载内所有 Pod 的数量和
|
Pod 重启次数
|
次
|
工作负载内所有 Pod 的重启次数之和
|
CPU 使用量
|
核
|
工作负载内所有 Pod 的 CPU 使用量
|
CPU 利用率
|
%
|
工作负载内所有 Pod 的 CPU 使用量占总量之比
|
内存使用量
|
Mbytes
|
工作负载内所有 Pod 的内存使用量之和
|
内存使用量(不含 Cache)
|
Mbytes
|
工作负载内所有 Pod 的内存使用量(不含 Cache)之和
|
内存使用量(working_set)
|
Mbytes
|
工作负载内所有 Pod 的工作集内存使用量之和
|
内存利用率
|
%
|
工作负载内所有 Pod 的内存使用量占总量之比
|
内存利用率(不含 Cache)
|
%
|
工作负载内所有 Pod 的内存使用量(不含 Cache)占所有 Pod 内存总量之比
|
内存利用率(working_set)
|
%
|
工作负载内所有 Pod 的工作集内存使用量占总量之比
|
网络入带宽
|
bps
|
工作负载内所有 Pod 的入方向带宽之和
|
网络出带宽
|
bps
|
工作负载内所有 Pod 的出方向带宽之和
|
网络入流量
|
B
|
工作负载内所有 Pod 的入方向流量之和
|
网络出流量
|
B
|
工作负载内所有 Pod 的出方向流量之和
|
网络入包量
|
个/s
|
工作负载内所有 Pod 的入方向包数之和
|
网络出包量
|
个/s
|
工作负载内所有 Pod 的出方向包数之和
|
块设备读取大小
|
Mbytes
|
工作负载内所有 Pod 的块设备读取大小之和
|
块设备读取次数
|
次
|
工作负载内所有 Pod 的块设备读取次数之和
|
块设备写入大小
|
Mbytes
|
工作负载内所有 Pod 的块设备写入大小之和
|
块设备写入次数
|
次
|
工作负载内所有 Pod 的块设备写入次数之和
|
GPU 使用量
|
卡
|
工作负载内所有 Pod 的 GPU 使用量之和
|
GPU 内存使用量
|
Mbps
|
工作负载内所有 Pod 的 GPU 内存使用量之和
|
GPU 内存利用率
|
%
|
工作负载内所有 Pod 的 GPU 内存使用量与 GPU 内存总量之比
|
GPU 利用率
|
%
|
工作负载内所有 Pod 的 GPU 使用量与 GPU 总量之比
|
如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控。
Pod 监控及告警指标
指标
|
单位
|
说明
|
Pod 重启次数
|
次
|
Pod 的重启次数
|
异常状态
|
-
|
Pod 的状态,正常或异常
|
CPU 使用量
|
核
|
Pod 的 CPU 使用量
|
CPU 利用率(占节点)
|
%
|
Pod 的 CPU 使用量占节点总量之比
|
CPU 利用率(占 Request)
|
%
|
Pod 的 CPU 使用量和设置的 Request 值之比
|
CPU 利用率(占 Limit)
|
%
|
Pod 的 CPU 使用量和设置的 Limit 值之比
|
内存使用量
|
Mbytes
|
Pod 中 Container 的内存使用量(含缓存)之和(来源:container_memory_usage_bytes)
|
内存使用量(不包含 Cache)
|
Mbytes
|
Pod 中 Container 的内存使用量(不含缓存)之和(来源:container_memory_usage_bytes - container_memory_cache)
|
内存使用量(working_set)
|
Mbytes
|
Pod 中 Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
|
内存利用率(占节点)
|
%
|
Pod 中 Container 的内存使用量(含缓存)占节点总量之比
|
内存利用率(占节点,不包含 Cache)
|
%
|
Pod 中 Container 的内存使用量(不含缓存)占节点总量之比
|
内存利用率(占节点,working_set)
|
%
|
Pod 中 Container 的工作集内存使用量占节点总量之比
|
内存利用率(占 Request)
|
%
|
Pod 中 Container 的内存使用量和设置的 Request 值之比
|
内存利用率(占 Request,不包含 Cache)
|
%
|
Pod 中 Container 的内存使用量(不含缓存)和设置的 Request 值之比
|
内存利用率(占 Request,working_set)
|
%
|
Pod 中 Container 的工作集内存使用量与设置的 Request 值之比
|
内存利用率(占 Limit)
|
%
|
Pod 中 Container 的内存使用量和设置的 Limit 值之比
|
内存利用率(占 Limit,不包含 Cache)
|
%
|
Pod 中 Container 的内存使用量(不含缓存)和设置的 Limit 值之比
|
内存利用率(占 Limit,working_set)
|
%
|
Pod 中 Container 的工作集内存使用量与设置的 Limit 值之比
|
网络入带宽
|
Mbps
|
Pod 的入方向带宽之和
|
网络出带宽
|
Mbps
|
Pod 的出方向带宽之和
|
网络入流量
|
Mbytes
|
Pod 的入方向流量之和
|
网络出流量
|
Mbytes
|
Pod 的出方向流量之和
|
网络入包量
|
个/s
|
Pod 的入方向包数之和
|
网络出包量
|
个/s
|
Pod 的出方向包数之和
|
块设备读取大小
|
Mbytes
|
Pod 的块设备读取大小
|
块设备读取次数
|
次
|
Pod 的块设备读取次数
|
块设备写入大小
|
Mbytes
|
Pod 的块设备写入大小
|
块设备写入次数
|
次
|
Pod 的块设备写入次数
|
rootfs使用量
|
字节
|
Pod 中 rootfs 使用量
|
GPU 申请量
|
卡
|
Pod 中 GPU 申请量
|
GPU 内存利用率(占节点)
|
%
|
Pod 中 GPU 内存使用量占节点 GPU 内存总量之比
|
GPU 内存利用率(占 request)
|
%
|
Pod 中 GPU 内存使用量占 GPU 内存申请量之比
|
GPU 利用率(占节点)
|
%
|
Pod 中 GPU 使用量占节点 GPU 总量之比
|
GPU 利用率(占 request)
|
%
|
Pod 中 GPU 使用量占 GPU 申请量之比
|
GPU 内存申请量
|
Mbytes
|
Pod 中 GPU 内存申请量
|
GPU 内存使用量
|
Mbytes
|
Pod 中 GPU 内存使用量
|
GPU 使用量
|
卡
|
Pod 中 GPU 使用量
|
GPU 显存使用率
|
%
|
Pod 中 GPU 显存使用量占显存总量的百分比
|
GPU 编码资源使用率
|
%
|
Pod 中 GPU 编码资源使用率
|
GPU 解码资源使用率
|
%
|
Pod 中 GPU 解码资源使用率
|
GPU 流处理器使用率
|
%
|
Pod 中 GPU 流处理器使用率
|
Container 监控及告警指标
指标
|
单位
|
说明
|
CPU 使用量
|
核
|
Container 的 CPU 使用量
|
CPU 利用率(占节点)
|
%
|
Container 的 CPU 使用量占节点总量之比
|
CPU 利用率(占 Request)
|
%
|
Container 的 CPU 使用量和设置的 Request 值之比
|
CPU 利用率(占 Limit)
|
%
|
Container 的 CPU 使用量和设置的 Limit 值之比
|
内存使用量
|
Mbytes
|
Container 的内存使用量,含缓存(来源:container_memory_usage_bytes)
|
内存使用量(不包含 Cache)
|
Mbytes
|
Container 的内存使用量,不含缓存(来源:container_memory_usage_bytes - container_memory_cache)
|
内存使用量(working_set)
|
Mbytes
|
Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
|
内存利用率(占节点)
|
%
|
Container 的内存使用量(含缓存)占节点总量之比
|
内存利用率(占节点,不包含 Cache)
|
%
|
Container 的内存使用量(不含缓存)占节点总量之比
|
内存利用率(占节点,working_set)
|
%
|
Container 的工作集内存使用量占节点总量之比
|
内存利用率(占 Request)
|
%
|
Container 的内存使用量和设置的 Request 值之比
|
内存利用率(占 Request,不包含 Cache)
|
%
|
Container 的内存使用量(不含缓存)和设置的 Request 值之比
|
内存利用率(占 Request,working_set)
|
%
|
Container 的工作集内存使用量与设置的 Request 值之比
|
内存利用率(占 Limit)
|
%
|
Container 的内存使用量和设置的 Limit 值之比
|
内存利用率(占 Limit,不包含 Cache)
|
%
|
Container 的内存使用量(不含缓存)和设置的 Limit 值之比
|
内存利用率(占 Limit,working_set)
|
%
|
Container 的工作集内存使用量与设置的 Limit 值之比
|
块设备读带宽
|
B/s
|
Container 从硬盘读取数据的吞吐量
|
块设备写带宽
|
B/s
|
Container 把数据写入硬盘的吞吐量
|
块设备读 IOPS
|
次/s
|
Container 从硬盘读取数据的 IO 次数
|
块设备写 IOPS
|
次/s
|
Container 把数据写入硬盘的 IO 次数
|