腾讯云容器服务 - 节点常见报错与处理
文档简介:
节点异常关键字排障:
当使用 TKE 集群服务的节点检查能力时,可能会检查出节点异常,包含建议您进一步排查的关键字,本文档总结了节点检查中出现的关键字、异常现象及对应的检查方式(通过正则表达式匹配内核 / dev / dmesg 日志进行检查),您可以根据本文档登录节点进一步排查异常原因。
节点异常关键字排障
当使用 TKE 集群服务的节点检查能力时,可能会检查出节点异常,包含建议您进一步排查的关键字,本文档总结了节点检查中出现的关键字、异常现象及对应的检查方式(通过正则表达式匹配内核 / dev / dmesg 日志进行检查),您可以根据本文档登录节点进一步排查异常原因。
节点异常关键字含义及检测方式
关键字
|
含义
|
匹配用的正则表达式
|
OOMKilling
|
进程 OOM killing
|
Killed process \d+ (.+) total-vm:\d+kB, anon-rss:\d+kB, file-rss:\d+kB.*
|
TaskHung
|
进程长时间冻结(IO、NFS 等问题)
|
task [\S ]+:\w+ blocked for more than \w+ seconds\.
|
UnregisterNetDevice
|
网络设备泄露,如存在没有注册的网络设备
|
unregister_netdevice: waiting for \w+ to become free. Usage count = \d+
|
KernelOops
|
内核出现空指针
|
BUG: unable to handle kernel NULL pointer dereference at .*
|
KernelOops
|
除0错误
|
divide error: 0000 [#\d+] SMP
|
Ext4Error
|
Ext4 文件系统故障
|
EXT4-fs error .*
|
Ext4Warning
|
Ext4 文件系统警告
|
EXT4-fs warning .*
|
IOError
|
Buffer 写入设备阻塞
|
Buffer I/O error .*
|
MemoryReadError
|
内存故障
|
CE memory read error .*
|
FilesystemIsReadOnly
|
文件系统只读,无法写入
|
Remounting filesystem read-only
|
TCPMemOverFlow
|
TCP 内存不足
|
TCP: out of memory -- consider tuning tcp_mem
|
TCPSkOverFlow
|
Socket 太多引发
|
TCP: too many orphaned sockets
|
NFOverFlow
|
conntrack 表满
|
nf_conntrack: table full, dropping packet
|
ARPOverFlow
|
arp 表满
|
\w+: neighbor table overflow!
|
BlockIOError
|
Buffer 写入设备阻塞
|
Buffer I/O error on device (.+), logical block \d+
|
BlockIOError
|
Blkio 请求阻塞
|
blk_update_request: I/O error, dev \w+, sector \d+
|
FileOpenLimit
|
打开文件超过系统上限
|
VFS: file-max limit \d+ reached
|
SlabFreeErr
|
释放 Slab 错误
|
cache_from_obj: Wrong slab cache. (.+) but object is from (.+)
|
MemPageFailed
|
Page 分配错误
|
page allocation failure(.) order:[3-5],(.+)
|
SoftLockUp
|
CPU 长时间没有调度切换
|
BUG: soft lockup - CPU#\d+ stuck for (.+)
|
SchedInAtomic
|
占有自旋锁时调用 sleep
|
BUG: scheduling while atomic:(.+)
|
RCUStall
|
CPU RCU 长时间卡顿
|
INFO: \w+ self-detected stall on CPU (.+)
|
PCICardErr
|
PCI Card 错误,如虚拟设备
|
Card not present on Slot(.+)
|