上云无忧 > 文档中心 > 腾讯云容器服务 TKE 标准集群 - 监控及告警指标列表
容器服务 TKE
腾讯云容器服务 TKE 标准集群 - 监控及告警指标列表

文档简介:
目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠
目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值

集群监控及告警指标

指标
单位
说明
Pod 数量
集群中 Pod 个数
Node 数量
集群中 Node 个数
CPU 总配置
集群的 CPU 总配置量
CPU 使用量
集群的 CPU 使用量
CPU 利用率
%
集群的 CPU 利用率
CPU 使用量(弹性容器)
弹性容器的 CPU 使用量(若使用节点池的虚拟节点)
块设备读取大小
Mbytes
集群硬盘的使用总量
块设备读取次数
集群硬盘读取总次数
块设备写入大小
Mbytes
集群硬盘写入数据量
块设备写入次数
集群硬盘写入总次数
内存总和
Gbytes
集群内存总量
内存使用量
Mbytes
集群内存使用量总和
内存利用率
%
集群内存利用率
内存使用量(弹性容器)
Mbytes
弹性容器的内存使用量(若使用节点池的虚拟节点)
内存使用量(弹性容器,不含 Cache)
Mbytes
弹性容器的内存(不含 Cache)使用量(若使用节点池虚拟节点)
网络入流量
Mbytes
集群网络入流量
网络带宽
Mbps
集群网络带宽
网络入包量
个/s
集群网络入包量
网络出流量
Mbytes
集群网络出流量
网络出包量
个/s
集群网络出包量
GPU 内存总量
Gbytes
集群 GPU 内存总量
GPU 内存使用量
Mbytes
集群 GPU 内存总使用量
GPU 总量
集群 GPU 总量
GPU 使用量
集群整体的 CPU 利用率
显存利用率
%
GPU 显存利用率
GPU 利用率
%
集群 GPU 利用率

Master&Etcd 和普通节点监控及告警指标

指标
单位
说明
Pod 重启次数
节点内所有 Pod 的重启次数之和
Node 状态
-
节点的状态,正常或异常
CPU 利用率
%
节点内所有 Pod 的 CPU 使用量占节点总量之比
CPU 分配量
节点内所有 Pod 的 CPU 分配量总和
内存利用率
%
节点内所有 Pod 的工作集内存使用量占节点总量之比
内存分配量
Mbps
节点内所有 Pod 的内存分配量总和
内网入带宽
Mbps
节点内所有 Pod 的内网入方向带宽之和
内网出带宽
Mbps
节点内所有 Pod 的内网出方向带宽之和
外网入带宽
Mbps
节点内所有 Pod 的外网入方向带宽之和
外网出带宽
Mbps
节点内所有 Pod 的外网出方向带宽之和
TCP 连接数
节点保持的 TCP 连接数
GPU 使用量
节点内所有 Pod 的 GPU 使用量之和
GPU 内存使用量
Mbps
节点内所有 Pod 的 GPU 内存使用量之和
GPU 内存利用率
%
节点内所有 Pod 的 GPU 内存使用量占节点 GPU 内存总量之比
GPU 利用率
%
节点内所有 Pod 的 GPU 使用量占节点 GPU 总量之比
Node 的 eni- IP 分配量
Node 的弹性网卡上已分配的 IP 数量
Node 的 direct-eni 分配量
Node 的 direct-eni 上已分配的 IP 数量
GlobalRouter模式集群中节点 Pod CIDR 已经分配的 IP 数
GlobalRouter 模式的 K8S 集群中,一个节点的 Pod CIDR 中已分配的 IP 个数
GlobalRouter模式集群中节点可以分配的 IP 数
GlobalRouter 模式的 K8S 集群中,一个节点中总共可分配的 IP 个数
集群节点更详细的指标监控及告警请参考 云服务器监控创建告警策略。 集群节点数据盘更详细的指标监控及告警请参考 云硬盘监控创建告警策略

工作负载监控及告警指标

指标
单位
说明
工作负载异常
-
工作负载是否为异常状态,非0即为异常
Pod 数量
工作负载内所有 Pod 的数量和
Pod 重启次数
工作负载内所有 Pod 的重启次数之和
CPU 使用量
工作负载内所有 Pod 的 CPU 使用量
CPU 利用率
%
工作负载内所有 Pod 的 CPU 使用量占总量之比
内存使用量
Mbytes
工作负载内所有 Pod 的内存使用量之和
内存使用量(不含 Cache)
Mbytes
工作负载内所有 Pod 的内存使用量(不含 Cache)之和
内存使用量(working_set)
Mbytes
工作负载内所有 Pod 的工作集内存使用量之和
内存利用率
%
工作负载内所有 Pod 的内存使用量占总量之比
内存利用率(不含 Cache)
%
工作负载内所有 Pod 的内存使用量(不含 Cache)占所有 Pod 内存总量之比
内存利用率(working_set)
%
工作负载内所有 Pod 的工作集内存使用量占总量之比
网络入带宽
bps
工作负载内所有 Pod 的入方向带宽之和
网络出带宽
bps
工作负载内所有 Pod 的出方向带宽之和
网络入流量
B
工作负载内所有 Pod 的入方向流量之和
网络出流量
B
工作负载内所有 Pod 的出方向流量之和
网络入包量
个/s
工作负载内所有 Pod 的入方向包数之和
网络出包量
个/s
工作负载内所有 Pod 的出方向包数之和
块设备读取大小
Mbytes
工作负载内所有 Pod 的块设备读取大小之和
块设备读取次数
工作负载内所有 Pod 的块设备读取次数之和
块设备写入大小
Mbytes
工作负载内所有 Pod 的块设备写入大小之和
块设备写入次数
工作负载内所有 Pod 的块设备写入次数之和
GPU 使用量
工作负载内所有 Pod 的 GPU 使用量之和
GPU 内存使用量
Mbps
工作负载内所有 Pod 的 GPU 内存使用量之和
GPU 内存利用率
%
工作负载内所有 Pod 的 GPU 内存使用量与 GPU 内存总量之比
GPU 利用率
%
工作负载内所有 Pod 的 GPU 使用量与 GPU 总量之比
如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控

Pod 监控及告警指标

指标
单位
说明
Pod 重启次数
Pod 的重启次数
异常状态
-
Pod 的状态,正常或异常
CPU 使用量
Pod 的 CPU 使用量
CPU 利用率(占节点)
%
Pod 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)
%
Pod 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)
%
Pod 的 CPU 使用量和设置的 Limit 值之比
内存使用量
Mbytes
Pod 中 Container 的内存使用量(含缓存)之和(来源:container_memory_usage_bytes)
内存使用量(不包含 Cache)
Mbytes
Pod 中 Container 的内存使用量(不含缓存)之和(来源:container_memory_usage_bytes - container_memory_cache)
内存使用量(working_set)
Mbytes
Pod 中 Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
内存利用率(占节点)
%
Pod 中 Container 的内存使用量(含缓存)占节点总量之比
内存利用率(占节点,不包含 Cache)
%
Pod 中 Container 的内存使用量(不含缓存)占节点总量之比
内存利用率(占节点,working_set)
%
Pod 中 Container 的工作集内存使用量占节点总量之比
内存利用率(占 Request)
%
Pod 中 Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache)
%
Pod 中 Container 的内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Request,working_set)
%
Pod 中 Container 的工作集内存使用量与设置的 Request 值之比
内存利用率(占 Limit)
%
Pod 中 Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)
%
Pod 中 Container 的内存使用量(不含缓存)和设置的 Limit 值之比
内存利用率(占 Limit,working_set)
%
Pod 中 Container 的工作集内存使用量与设置的 Limit 值之比
网络入带宽
Mbps
Pod 的入方向带宽之和
网络出带宽
Mbps
Pod 的出方向带宽之和
网络入流量
Mbytes
Pod 的入方向流量之和
网络出流量
Mbytes
Pod 的出方向流量之和
网络入包量
个/s
Pod 的入方向包数之和
网络出包量
个/s
Pod 的出方向包数之和
块设备读取大小
Mbytes
Pod 的块设备读取大小
块设备读取次数
Pod 的块设备读取次数
块设备写入大小
Mbytes
Pod 的块设备写入大小
块设备写入次数
Pod 的块设备写入次数
rootfs使用量
字节
Pod 中 rootfs 使用量
GPU 申请量
Pod 中 GPU 申请量
GPU 内存利用率(占节点)
%
Pod 中 GPU 内存使用量占节点 GPU 内存总量之比
GPU 内存利用率(占 request)
%
Pod 中 GPU 内存使用量占 GPU 内存申请量之比
GPU 利用率(占节点)
%
Pod 中 GPU 使用量占节点 GPU 总量之比
GPU 利用率(占 request)
%
Pod 中 GPU 使用量占 GPU 申请量之比
GPU 内存申请量
Mbytes
Pod 中 GPU 内存申请量
GPU 内存使用量
Mbytes
Pod 中 GPU 内存使用量
GPU 使用量
Pod 中 GPU 使用量
GPU 显存使用率
%
Pod 中 GPU 显存使用量占显存总量的百分比
GPU 编码资源使用率
%
Pod 中 GPU 编码资源使用率
GPU 解码资源使用率
%
Pod 中 GPU 解码资源使用率
GPU 流处理器使用率
%
Pod 中 GPU 流处理器使用率

Container 监控及告警指标

指标
单位
说明
CPU 使用量
Container 的 CPU 使用量
CPU 利用率(占节点)
%
Container 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)
%
Container 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)
%
Container 的 CPU 使用量和设置的 Limit 值之比
内存使用量
Mbytes
Container 的内存使用量,含缓存(来源:container_memory_usage_bytes)
内存使用量(不包含 Cache)
Mbytes
Container 的内存使用量,不含缓存(来源:container_memory_usage_bytes - container_memory_cache)
内存使用量(working_set)
Mbytes
Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
内存利用率(占节点)
%
Container 的内存使用量(含缓存)占节点总量之比
内存利用率(占节点,不包含 Cache)
%
Container 的内存使用量(不含缓存)占节点总量之比
内存利用率(占节点,working_set)
%
Container 的工作集内存使用量占节点总量之比
内存利用率(占 Request)
%
Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache)
%
Container 的内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Request,working_set)
%
Container 的工作集内存使用量与设置的 Request 值之比
内存利用率(占 Limit)
%
Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)
%
Container 的内存使用量(不含缓存)和设置的 Limit 值之比
内存利用率(占 Limit,working_set)
%
Container 的工作集内存使用量与设置的 Limit 值之比
块设备读带宽
B/s
Container 从硬盘读取数据的吞吐量
块设备写带宽
B/s
Container 把数据写入硬盘的吞吐量
块设备读 IOPS
次/s
Container 从硬盘读取数据的 IO 次数
块设备写 IOPS
次/s
Container 把数据写入硬盘的 IO 次数
相似文档
  • 组件介绍: TKE 开发了 elastic-gpu-exporter 组件用于获取 GPU 相关监控指标,主要包含: GPU 卡利用率、 Pod / 容器 GPU 资源利用率。 部署方式: elastic-gpu-exporter 通过 DaemonSet 的方式部署到集群里。
  • 操作场景: 日志采集功能是容器服务 TKE 为用户提供的集群内日志采集工具,可以将集群内服务或集群节点特定路径文件的日志发送至 腾讯云日志服务 CLS、消息队列 CKafka。日志采集功能适用于需要对 Kubernetes 集群内服务日志进行存储和分析的用户。
  • 本文将介绍如何在容器服务控制台配置日志采集规则并投递到 腾讯云日志服务 CLS。 操作步骤: 创建日志采集规则: 1. 登录 容器服务控制台,选择左侧导航栏中的日志管理 > 日志规则。 2. 在日志规则页面上方选择地域和需要配置日志采集规则的集群,单击新建。如下图所示:
  • 操作场景: 您不仅可以 使用控制台配置日志采集,还可通过自定义资源(CustomResourceDefinitions,CRD)的方式配置日志采集。CRD 支持采集容器标准输出、容器文件和主机文件,支持多种日志采集格式。支持投递到 CLS 和 CKafka 等不同消费端。
  • 操作场景: 容器服务运维中心提供日志组件版本升级的功能,若您已开启日志采集,腾讯云容器服务当前支持您在容器服务控制台的运维功能管理中,查看当前组件版本和进行组件版本的手动升级操作。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部