腾讯云容器服务常见问题QA - 基础监控相关

容器服务 TKE

简介/价格/文档

腾讯云容器服务常见问题QA - 基础监控相关

文档简介：

基础监控常见问题：节点 cpu/memory 分配量为什么会超出节点资源规格？原因：node 层级的 cpu/memory 分配量指标依赖节点上各个 pod 的 cpu/memory request 来计算，在计算时没有把 failed 的 pod 排除。

*此产品及展示信息均由腾讯云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

基础监控常见问题

节点 cpu/memory 分配量为什么会超出节点资源规格？

原因：node 层级的 cpu/memory 分配量指标依赖节点上各个 pod 的 cpu/memory request 来计算，在计算时没有把 failed 的 pod 排除。

示例：节点规格是 4c8g，节点上目前运行3个 pod（资源 request 用量如下）：

pod1 正常运行其 request 为 2c4g；

pod2 正常运行其 request 为 1c2g；

pod3 状态为 failed 其 request 为 0.5c1g；

此时节点剩余可调度资源为 4-2-1=1c、8-4-2=2g，pod4 request 为 0.8c1.5g，满足调度器筛选，正常被调度到该节点上。此时节点上共4个 pod，3个正常1个异常，此时 node 层级的分配量为 4.3c8.5g（因计算时没有把 failed 的 pod 排除，因此超过了节点规格）。

该问题已在5月新版本中修复，即计算 node 资源分配量已把异常 pod 排除。

为什么 pod 状态显示正常，但监控指标 k8s_workload_abnormal 展示异常？

原因：该指标根据 workload 下 pod 是否异常来判断，pod 是否异常取决于 pod.status.condition 下这四个 Type 来确定。当这四个指标同时为True时k8s_workload_abnormal才会认为是正常，否则认为是异常。

PodScheduled：Pod 已经被调度到某节点。

ContainersReady：Pod 中所有容器都已就绪。

Initialized：所有的 Init 容器都已成功完成。

Ready：Pod 可以为请求提供服务，并且应该被添加到对应服务的负载均衡池中。

daemonSet tke-monitor-agent 报错原因总结

现象	原因	解决措施
无法解析域名 receiver.barad.tencentyun.com，指标上报失败，导致用户集群没有监控数据	节点 dns 被修改	给 DaemonSet tke-monitor-agent 加上 hostAlias。参考代码如下： hostAliases: - hostnames: - receiver.barad.tencentyun.com ip: 169.254.0.4

相似文档

腾讯云容器服务常见问题QA - 日志采集相关
集群配置日志采集后，为什么在日志服务控制台查看不到日志？发生日志查看不到或者缺失的情况，请检查是否存在以下问题：检查所选的日志 topic 是否开启了索引。索引配置是使用日志服务进行检索分析的必要条件。若未开启，则无法查看日志。配置索引的详细操作，请参见日志服务配置索引。
腾讯云容器服务常见问题QA - Prometheus 监控相关
TKE Serverless 如何对接腾讯云原生 Prometheus 监控？ 1. 登录容器服务控制台，选择左侧导航中的云原生监控。 2. 创建监控实例，操作详情请参见监控实例管理。 3. 完成创建后，在“云原生监控”列表页中单击监控实例名称进入监控实例详情页。
腾讯云容器服务常见问题QA - 服务类
服务的名称为什么不能重复？服务名称是当前集群下的服务的唯一标识，服务之间可以通过服务名称+访问端口的形式互相访问。
腾讯云容器服务常见问题QA - Service/Ingress FAQ
如何判断更新配置后是否成功下发？您可以先查看资源的 Event 信息，然后根据资源同步的返回码或错误码来判断资源同步是否遇到问题。如果返回码或错误码表明同步失败，您可以参考 Service&Ingress 常见报错和处理进一步查看错误信息并采取相应的措施来解决问题。
腾讯云容器服务常见问题QA - 镜像仓库类
命名空间有什么作用？命名空间是标识用户私人镜像的地址前缀。镜像仓库的账户是什么？默认是用户的腾讯云账号（QQ 号）。开通时创建的密码忘记了怎么办？可以通过控制台重置密码。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

基础监控常见问题

节点 cpu/memory 分配量为什么会超出节点资源规格？

为什么 pod 状态显示正常，但监控指标 k8s_workload_abnormal 展示异常？

daemonSet tke-monitor-agent 报错原因总结