上云无忧 > 文档中心 > 腾讯云容器服务 - 节点常见报错与处理
容器服务 TKE
腾讯云容器服务 - 节点常见报错与处理

文档简介:
节点异常关键字排障: 当使用 TKE 集群服务的节点检查能力时,可能会检查出节点异常,包含建议您进一步排查的关键字,本文档总结了节点检查中出现的关键字、异常现象及对应的检查方式(通过正则表达式匹配内核 / dev / dmesg 日志进行检查),您可以根据本文档登录节点进一步排查异常原因。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

节点异常关键字排障

当使用 TKE 集群服务的节点检查能力时,可能会检查出节点异常,包含建议您进一步排查的关键字,本文档总结了节点检查中出现的关键字、异常现象及对应的检查方式(通过正则表达式匹配内核 / dev / dmesg 日志进行检查),您可以根据本文档登录节点进一步排查异常原因。

节点异常关键字含义及检测方式

关键字
含义
匹配用的正则表达式
OOMKilling
进程 OOM killing
Killed process \d+ (.+) total-vm:\d+kB, anon-rss:\d+kB, file-rss:\d+kB.*
TaskHung
进程长时间冻结(IO、NFS 等问题)
task [\S ]+:\w+ blocked for more than \w+ seconds\.
UnregisterNetDevice
网络设备泄露,如存在没有注册的网络设备
unregister_netdevice: waiting for \w+ to become free. Usage count = \d+
KernelOops
内核出现空指针
BUG: unable to handle kernel NULL pointer dereference at .*
KernelOops
除0错误
divide error: 0000 [#\d+] SMP
Ext4Error
Ext4 文件系统故障
EXT4-fs error .*
Ext4Warning
Ext4 文件系统警告
EXT4-fs warning .*
IOError
Buffer 写入设备阻塞
Buffer I/O error .*
MemoryReadError
内存故障
CE memory read error .*
FilesystemIsReadOnly
文件系统只读,无法写入
Remounting filesystem read-only
TCPMemOverFlow
TCP 内存不足
TCP: out of memory -- consider tuning tcp_mem
TCPSkOverFlow
Socket 太多引发
TCP: too many orphaned sockets
NFOverFlow
conntrack 表满
nf_conntrack: table full, dropping packet
ARPOverFlow
arp 表满
\w+: neighbor table overflow!
BlockIOError
Buffer 写入设备阻塞
Buffer I/O error on device (.+), logical block \d+
BlockIOError
Blkio 请求阻塞
blk_update_request: I/O error, dev \w+, sector \d+
FileOpenLimit
打开文件超过系统上限
VFS: file-max limit \d+ reached
SlabFreeErr
释放 Slab 错误
cache_from_obj: Wrong slab cache. (.+) but object is from (.+)
MemPageFailed
Page 分配错误
page allocation failure(.) order:[3-5],(.+)
SoftLockUp
CPU 长时间没有调度切换
BUG: soft lockup - CPU#\d+ stuck for (.+)
SchedInAtomic
占有自旋锁时调用 sleep
BUG: scheduling while atomic:(.+)
RCUStall
CPU RCU 长时间卡顿
INFO: \w+ self-detected stall on CPU (.+)
PCICardErr
PCI Card 错误,如虚拟设备
Card not present on Slot(.+)
相似文档
  • cbs 盘创建相关问题 1. no available storage in zone。 现象:kubectl describe pvc 发现类型为 ProvisioningFailed 的事件,内容包含 no available storage in zone。 原因:资源售罄或者该 zone 不支持这种类型的 cbs 盘。 解决措施:用户可切换到有资源的 region/zone,或联系 cbs 售后提供资源。
  • 本文档介绍 TKE 集群中多场景下可能发生的磁盘爆满问题,并给出对应的排查思路及解决方案,请按照下文中的步骤进行排查并解决。
  • 本文档介绍如何在 TKE 集群中,通过工具定位异常是否由高负载造成,请按照以下步骤进行问题排查。 现象描述: 节点高负载将会导致进程无法获得足够运行所需的 CPU 时间片,通常表现为网络 Timeout、健康检查失败或服务不可用。
  • 本文档介绍如何判断 TKE 集群中存在问题是否由内存碎片化引起,并给出解决方法,请按照以下步骤进行排查并解决。
  • 排查思路: 1. 确保集群 DNS 正常运行 容器内解析 DNS 通过集群 DNS(通常是 CoreDNS),首先要确保集群 DNS 运行正常。kubelet 启动参数--cluster-dns可以看到 DNS 服务的 Cluster IP:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部