上云无忧 > 文档中心 > 腾讯云容器服务 TKE 标准集群 - 健康检查
容器服务 TKE
腾讯云容器服务 TKE 标准集群 - 健康检查

文档简介:
操作场景: 集群健康检查功能是腾讯云容器服务(Tencent Kubernetes Engine,TKE)为集群提供检查各个资源状态及运行情况的服务,检查报告将详细展示组件、节点、工作负载的状态和配置的检查内容。若出现异常项,可进行异常详情描述,并自动分析异常级别、异常原因、异常影响和修复建议等。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

操作场景

集群健康检查功能是腾讯云容器服务(Tencent Kubernetes Engine,TKE)为集群提供检查各个资源状态及运行情况的服务,检查报告将详细展示组件、节点、工作负载的状态和配置的检查内容。若出现异常项,可进行异常详情描述,并自动分析异常级别、异常原因、异常影响和修复建议等。
注意
在健康检查过程中,您的集群内会自动新建 namespace tke-cluster-inspection,并安装一个 Daemonset 进行节点信息采集,检查结束后均会被自动删除。

主要检查项目

检查类别
检查项
检查内容
仅独立集群
资源状态
kube-apiserver 的状态
检测组件是否正在运行,如果组件以 Pod 形式运行,则检测其24小时内是否重启过。
kube-scheduler 的状态
kube-controller-manager 的状态
etcd 的状态
kubelet 的状态
kube-proxy 的状态
dockerd 的状态
master 节点的状态
检测节点状态是否 Ready 且无其他异常情况,如内存不足,磁盘不足等。
worker 节点的状态
检测节点状态是否 Ready 且无其他异常情况,如内存不足,磁盘不足等。
各个工作负载的状态
检测工作负载当前可用 Pod 数是否符合其期望目标 Pod 数。
运行情况
kube-apiserver 的参数配置
根据 master 节点配置检测以下参数:
max-requests-inflight:给定时间内运行的非变更类请求的最大值。
max-mutating-requests-inflight:给定时间内运行的变更类请求的最大值。
kube-scheduler 的参数配置
根据 master 节点配置检测以下参数:
kube-api-qps:请求 kube-apiserver 使用的 QPS。
kube-api-burst:和 kube-apiserver 通信的时候最大 burst 值。
kube-controller-manager 的参数配置
根据 master 节点配置检测以下参数:
kube-api-qps:请求 kube-apiserver 使用的 QPS。
kube-api-burst:和 kube-apiserver 通信的时候最大 burst 值。
etcd 的参数配置
根据 master 节点配置检测以下参数:quota-backend-bytes:存储大小。
master 节点的配置合理性
检测当前 master 节点配置是否足以支撑当前的集群规模。
node 高可用
检测目前集群是否是单节点集群;检测当前集群节点是否支持多可用区容灾。即当一个可用区不可用后,其他可用区的资源总和是否足以支撑当前集群业务规模。
工作负载的 Request 和 Limit 配置
检测工作负载是否有未设置资源限制的容器,配置资源限制有益于完善资源规划、Pod 调度、集群可用性等。
工作负载的反亲和性配置
检测工作负载是否配置了亲和性或者反亲和性,配置反亲和性有助于提高业务的高可用性。
工作负载的 PDB 配置
检测工作负载是否配置了 PDB,配置 PDB 可避免您的业务因驱逐操作而不可用。
工作负载的健康检查配置
检测工作负载是否配置了健康检查,配置健康检查有助于发现业务异常。
HPA-IP 配置
当前集群剩余的 Pod IP 数目是否满足 HPA 扩容的最大数。

操作步骤

1. 登录 容器服务控制台,选择左侧导航栏中的运维中心 > 健康检查
2. 进入“健康检查”页面,选择需要健康检查的集群,并为其选择合适的检查方式。 健康检查的三种方式分别为批量检查、立即检查和自动检查。
批量检查:适用于同时检查多个集群。
立即检查:适用于只检查一个集群。
自动检查:适用于需要周期性检查的集群。选择需要周期检查的集群,单击自动检查。如下图所示:

在“自动检查设置”弹窗中,可根据您的需求设置开启状态、检查周期和时刻。如下图所示:

3. 选择好检查方式之后,等待检查完成,可查看检查进度。如下图所示:

4. 检查完成后,可单击查看结果查看检查报告。如下图所示:


在检查报告页面,选择资源状态运行情况分别查看资源状态和异常情况,单击检查内容可展示具体的检查内容,单击异常可查看异常级别、异常描述、异常原因、异常影响和修复建议。如下图所示: 


相似文档
  • 容器服务 TKE 现在可以通过与 腾讯云事件总线 EB 对接,支持自定义推送规则的配置。TKE 检测到的风险可以及时通过短信、站内信等方式推送给您,您可以及时处理相关风险。
  • 概述: 腾讯云容器服务 TKE 提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。通过告警配置您可以为不同资源收集不同维度的监控数据,方便掌握资源的使用状况,轻松定位故障。
  • 操作场景: 腾讯云容器服务默认为所有集群提供基础监控功能,您可以通过以下方式查看容器服务的监控数据。 查看集群指标、 查看节点指标、 查看节点内 Pod 指标、 查看工作负载指标、 查看工作负载内 Pod 指标、 查看 Pod 内 Container 指标。
  • 目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值。
  • 组件介绍: TKE 开发了 elastic-gpu-exporter 组件用于获取 GPU 相关监控指标,主要包含: GPU 卡利用率、 Pod / 容器 GPU 资源利用率。 部署方式: elastic-gpu-exporter 通过 DaemonSet 的方式部署到集群里。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部