当前位置: 首页 > news >正文

K8S Pod Terminating/Unknown故障排查

一、pod异常出现现象
优雅终止周期(Graceful termination period): 当pod被删除时,会进入"Terminating"状态,等待容器优雅关闭。如果容器关闭所需时间超过默认期限(默认30秒),则pod将保持在"Terminating"状态。
Finalizers: Finalizer是一种允许在删除资源之前清理资源的机制。如果pod有Finalizer,并且相关的清理操作被卡住或没有响应,则pod将保持在"Terminating"状态。
无响应容器(Unresponsive containers): 如果pod中的容器在终止过程中没有响应SIGTERM信号,则可能导致pod卡在"Terminating"状态。
节点问题(Node issues): 如果节点无响应、断开连接或遇到其他问题,pod可能会进入"Unknown"状态。在这种情况下,Kubernetes控制平面无法确定pod的实际状态。
网络问题(Network issues): 节点与Kubernetes控制平面之间的连接问题可能导致pod进入"Unknown"状态。例如,如果控制平面无法与节点通信,则无法接收来自pod的状态更新。
Kubelet问题: 如果节点上运行的Kubelet进程出现问题或崩溃,可能会导致无法将pod状态上报给控制平面,从而造成pod进入"Unknown"状态。

二、故障排查
优雅终止周期(Graceful termination period)
K8S中的优雅终止周期是在删除pod时,容器的优雅关闭时间。在此期间,容器接收SIGTERM信号,执行必要的清理工作,例如关闭连接,完成正在进行的任务,并在资源终止之前释放资源,默认为30秒。

检查pod状态和事件: 通过kubectl检查pod的状态和事件以获取相关信息:

kubectl describe pod <pod-name> -n <namespace>#检查容器日志
kubectl logs <pod-name> -c <container-name> -n <namespace> --previous

调整优雅终止周期: 如果容器始终需要更多的时间来清理资源,可以通过在pod的YAML文件中设置terminationGracePeriodSeconds字段来调整pod的终止周期。

apiVersion: v1
kind: Pod
metadata:name: my-pod
spec:terminationGracePeriodSeconds: 60containers:- name: my-containerimage: my-image

Finalizers
Finalizer允许在删除资源之前清理资源,如果pod上存在Finalizer,并且相关的清理操作被卡住或没有响应,则pod将保持在"Terminating"状态。例如:

apiVersion: v1
kind: Pod
metadata:name: my-finalizer-podfinalizers:- example.com/cleanup
spec:containers:- name: busyboximage: busyboxcommand: ["sh", "-c", "sleep 3600"]

检查是否有finalizer,可以运行以下命令:

kubectl get pod <pod-name> -n <namespace> -o json

如果确定不需要finalizer,或者确定可以将其安全删除,可以使用kubectl patch命令。但是,这样做要小心,因为可能会导致意想不到的副作用:

kubectl patch pod <pod-name> -n <namespace> -p '{"metadata":{"finalizers":["<finalizer-1>", "<finalizer-2>", ...]}}'

无响应容器(Unresponsive containers)
当容器消耗过多系统资源时,可能会进入无响应状态。
用kubectl describe命令查看Pod状态和事件。

kubectl describe pod <pod-name> -n <namespace>
#检查Pod/container日志:
kubectl logs <pod-name> -c <container-name> -n <namespace>
#强制删除pod: 可以强制删除被卡住的pod
kubectl delete pod <pod-name> -n <namespace> --force --grace-period=0

节点/网络/Kubelet问题
执行以下步骤处理节点问题:
检查节点状态/事件: 检查pod所在节点的状态:

kubectl describe node <node-name>
kubectl get events --field-selector involvedObject.kind=Node,involvedObject.name=<node-name>
#检查系统日志
journalctl -u kubelet
journalctl -u docker
journalctl -u containerd
cat /var/log/messages

排空节点: 如果已经确定了节点问题,并且需要执行维护,可以排空节点以安全驱逐所有正在运行的pod,并将节点标记为不可调度:

kubectl drain <node-name>
http://www.lryc.cn/news/266431.html

相关文章:

  • labelme标注的json文件数据转成coco数据集格式(可处理目标框和实例分割)
  • MySQL报错:1366 - Incorrect integer value: ‘xx‘ for column ‘xx‘ at row 1的解决方法
  • MySQL中MVCC的流程
  • 朴素贝叶斯法_naive_Bayes
  • Windows下安装MongoDB实践总结
  • 华为云Stack 8.X 流量模型分析(二)
  • rk3588 之启动
  • ARM GIC (五)gicv3架构-LPI
  • sql-labs服务器结构
  • 【小沐学写作】Docsify制作在线电子书、技术文档(Docsify + Markdown + node)
  • 电脑完全重装教程——原版系统镜像安装
  • 【智慧办公】如何让智能会议室的电子标签实现远程、批量更新信息?东胜物联网硬件网关让解决方案更具竞争力
  • 面向对象设计与分析40讲(16)静态工厂方法模式
  • 【贪心】买卖股票的最佳时机含手续费
  • Altium Designer入门到就业【目录】
  • cmake 查看编译命令,以及在vscode中如何使用cmke
  • 玩转 Scrapy 框架 (一):Scrapy 框架介绍及使用入门
  • node.js mongoose index(索引)
  • 谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频
  • ES-mapping
  • Centos 7.9安装Oracle19c步骤亲测可用有视频
  • .NET中的Swagger使用
  • 结构屈曲分析
  • Flink 客户端操作命令及可视化工具
  • csrf自动化检测调研
  • 记录一个Python鼠标自动模块用法和selenium加载网页插件的设置
  • 【数据库系统概论】第3章-关系数据库标准语言SQL(1)
  • 【Python】基于flaskMVT架构与session实现博客前台登录登出功能
  • 为什么有的开关电源需要加自举电容?
  • 【MCAL】TC397+EB-treso之MCU配置实战 - 芯片时钟