当前位置: 首页 > news >正文

k8s worker 节点关机 sts 管理的 pod 无法迁移

背景

1.28.2 版本 k8s 中的一台 worker 节点内存异常,需要关机换内存,正好可以测试一下 pod 的迁移。

发现

deployment 管理的 pod 是能够重新创建飘到其他节点上的,但是 statefulset 管理的 pod 一直处于 Terminating 状态无法迁移,pod 就一直无法提供服务。官方文档中解释如下:

当某节点关闭但 kubelet 的节点关闭管理器未检测到这一事件时, 在那个已关闭节点上、属于 StatefulSet 的 Pod 将停滞于终止状态,并且不能移动到新的运行节点上。 这是因为已关闭节点上的 kubelet 已不存在,亦无法删除 Pod, 因此 StatefulSet 无法创建同名的新 Pod。 如果 Pod 使用了卷,则 VolumeAttachments 不会从原来的已关闭节点上删除, 因此这些 Pod 所使用的卷也无法挂接到新的运行节点上。 所以,那些以 StatefulSet 形式运行的应用无法正常工作。 如果原来的已关闭节点被恢复,kubelet 将删除 Pod,新的 Pod 将被在不同的运行节点上创建。 如果原来的已关闭节点没有被恢复,那些在已关闭节点上的 Pod 将永远滞留在终止状态

解决办法

官方提供的解决办法是给该节点添加一个 NoExecute 的污点。尝试发现并不行,而且 node 长期处于 NotReady,node control 会给该节点自动添加 NOExecute 的污点。

有尝试过升级 k8s 版本到 1.31.1,发现也并不行。

后续搜索发现可以强制删除节点上的 pod,原理是强制删除不需要等待该节点上的 kubelet 的响应。

kubectl delete pod "pod_name" -n "namespace" --grace-period=0 --force

我们可以创建 deployment 来定时查找长期处于 Terminating 状态的 pod,或者说是 cronJob。

编写查询并删除 pod 的脚本 configmap:

apiVersion: v1
kind: ConfigMap
metadata:name: delete-terminating-pods-scriptnamespace: ops  
data:delete_terminating_pods.sh: |#!/bin/bashtemp_file="/tmp/terminating_pods.txt"> "$temp_file"while true; dokubectl get pod -A | grep Terminating | awk '{print $1,$2}' > "$temp_file"sleep 60kubectl get pod -A | grep Terminating | awk '{print $1,$2}'| while read namespace pod_name; doif grep -q "$namespace $pod_name" "$temp_file"; then  #避免删除优雅退出的 podkubectl delete pod "$pod_name" -n "$namespace" --grace-period=0 --forcefidone> "$temp_file"sleep 60done

创建一个 ServiceAccount 并给予权限

apiVersion: v1
kind: ServiceAccount
metadata:name: delete-terminating-pods-sanamespace: ops
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:name: pod-deleter
rules:
- apiGroups: [""]resources: ["pods"]verbs: ["get", "list", "delete"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:name: delete-terminating-pods-crb
subjects:
- kind: ServiceAccountname: delete-terminating-pods-sanamespace: ops
roleRef:kind: ClusterRolename: pod-deleterapiGroup: rbac.authorization.k8s.io

编写一个 deployment,kubectl 的版本与自己集群版本相同即可

apiVersion: apps/v1
kind: Deployment
metadata:name: kubectlnamespace: ops
spec:replicas: 1selector:matchLabels:app: kubectltemplate:metadata:labels:app: kubectlspec:serviceAccountName: delete-terminating-pods-sacontainers:- name: kubectl-containerimage: bitnami/kubectl:1.31.1command: ["/bin/bash", "/scripts/delete_terminating_pods.sh"]volumeMounts:- name: script-volumemountPath: /scriptsvolumes:- name: script-volumeconfigMap:name: delete-terminating-pods-script

到此就可以自动发现并删除 节点意外情况 sts 管理的 pod 了,有更好的办法评论区可以留言。

http://www.lryc.cn/news/465538.html

相关文章:

  • 排序04 视频播放建模
  • 【常见大模型API调用】第三篇:清华智谱--智谱AI
  • LayerSkip – Meta推出加速大型语言模型推理过程的技术
  • 环境变量与本地变量(Linux)
  • 【完-网络安全】Windows防火墙及出入站规则
  • Vue学习记录之十七 css中样式穿透及新特征介绍
  • Nature 正刊丨海洋涡旋中常见的地下热浪和寒潮
  • 代码随想录算法训练营第六十二天| prim算法,kruskal算法
  • Newstar_week1_week2_wp
  • 今天我们研究一段代码(异或位运算)
  • pycharm中使用ctrl+鼠标滚轮改变字体大小
  • 【算法-动态规划】打家劫舍专题
  • 关于技术管理者的一些思考
  • Alpha-CLIP: A CLIP Model Focusing on Wherever You Want CVPR 2024
  • Golang | Leetcode Golang题解之第495题提莫攻击
  • 04 go语言(golang) - 变量和赋值过程
  • 语言/图像/视频模型一网打尽!BigModel大模型开放平台助力开发者轻松打造AI新应用!
  • Go语言Linux环境搭建以编写第一个Go程序
  • 使用 Go 构建一个最小的 API 应用
  • MySQL 日常维护指南:常见任务、频率及问题解决
  • oracle ORA-24920:列大小对于客户机过大
  • 使用 Docker compose 部署 Nacos(达梦数据库)
  • 人工智能 | 阿里通义千问大模型
  • Windows环境下Qt Creator调试模式下qDebug输出中文乱码问题
  • java防止表单重复提交的注解@RepeatSubmit
  • HTTP快速入门
  • Nacos简介
  • 基于深度学习的稳健的模型推理与不确定性建模
  • C语言 sizeof 的介绍,以及sizeof计算数组名、 数组首地址、数组的元素之间的区别
  • 深入理解Oracle闪回技术