当前位置: 首页 > news >正文

K8S OOM killer机制

当kubelet没来得及触发pod驱逐,使得节点内存耗尽时,将触发节点上的OOM killer机制;

Linux上有个机制叫OOM killer(Out Of Memory killer),这个机制会在系统内存耗尽的情况下发挥作用,即根据一定的算法规则,选择性的杀死一些进程,以释放部分内存,让系统继续稳定运行。

如何选择杀死哪个进程

当发生oomkill时,OOM killer给进程打分,得到oom_score,然后优先把oom_score最大的进程先杀死;

oom_score怎么计算获得呢?oom_score=oom_score_adj+进程内存占用大小;

而oom_score_adj则是可以人工给每个进程设置的,从而让用户通过设置进程的oom_score_adj值来影响OOM killer杀死进程的选择;

当oom_score_adj的值设置为-1000时,表示该进程将不会被OOM killer杀死,但如果设置的值不是-1000,那这个进程还是会参与打分,会受oom_score_adj以及进程内存占用大小的影响,需要注意的是,即使oom_score_adj的值设置的很小,比如-999,但当你的进程占用内存很大时,该进程同样有很大的概率会被杀死;

pod中容器进程的oom_score_adj

  • 对于Guaranteed级别的pod,其oom_score_adj的值被设置为-998
  • 对于Best-Effort级别的pod,其oom_score_adj的值被设置为1000
  • 对于Burstable级别的pod,其oom_score_adj的取值为2到999

怎么避免OOM Killer杀死某个业务进程?

  1. 将进程oom_score_adj的值设置为-1000;
  2. 关闭OOM killer机制;
设置oom_score_adj

在Linux系统中,oom_score_adj是一个文件,其路径通常位于/proc/[pid]/oom_score_adj,其中[pid]是进程的ID。通过修改这个文件,可以调整特定进程的OOM(Out of Memory)killer评分。这个评分影响OOM killer在选择哪个进程杀死时的决策。oom_score_adj的值范围从-1000到1000,负值会降低进程被OOM killer选中的概率,而正值则会增加。

在Kubernetes环境中,通常不需要手动设置oom_score_adj,因为kubelet会自动为容器设置适当的值,基于Pod的QoS(服务质量)等级。但是,如果你需要手动设置或调整容器内进程的oom_score_adj值,可以通过以下方法:

1. 直接在容器内设置

如果你有权限访问容器内部,可以直接在容器内修改oom_score_adj文件。例如,要为容器内的某个进程设置oom_score_adj值为500,可以执行以下命令:

echo 500 > /proc/[pid]/oom_score_adj

替换[pid]为实际的进程ID。

2. 使用Security Context设置

在Kubernetes中,可以通过Pod的Security Context来设置特定的安全选项,包括oom_score_adj。以下是一个示例,展示如何在Pod定义中设置oom_score_adj

apiVersion: v1
kind: Pod
metadata:name: mypod
spec:securityContext:oomScoreAdj: 500containers:- name: mycontainerimage: myimage

在这个示例中,oomScoreAdj设置为500,这将应用于Pod内的所有容器。

3. 使用Node Feature Discovery

对于更复杂的场景,比如需要根据节点特性动态设置oom_score_adj,可以使用Node Feature Discovery项目。这个项目可以帮助你根据节点的硬件特性来设置特定的参数。

注意事项

  • 修改oom_score_adj可能会影响系统的稳定性,因为过高的值会增加进程被OOM killer选中的风险。
  • 在生产环境中,建议谨慎使用,并充分测试以确保不会对系统稳定性造成负面影响。
  • Kubernetes的自动oom_score_adj设置是基于Pod的QoS等级的,通常不需要手动干预。
关闭OOM killer机制 

在Linux系统中,OOM(Out of Memory)killer是一个保护机制,用于在系统内存不足时自动选择并终止消耗内存最多的进程,以防止系统因内存耗尽而完全崩溃。尽管在某些情况下,您可能想要关闭这个机制,但请注意,这样做会增加系统因内存不足而变得不稳定或崩溃的风险。

如果您确实需要临时或永久地关闭OOM killer,可以通过以下方法:

1. 临时关闭OOM killer

可以通过向/proc/sys/vm/panic_on_oom文件写入值0来临时关闭OOM killer:

echo 0 > /proc/sys/vm/panic_on_oom

这个设置在系统重启后会恢复默认值。

2. 永久关闭OOM killer

要永久关闭OOM killer,您需要编辑/etc/sysctl.conf文件(或对应的发行版配置文件),并添加或修改以下行:

vm.panic_on_oom = 0

然后,应用更改:

sysctl -p

这将使更改永久生效,即使在系统重启后。

3. 通过启动参数关闭

也可以在Linux内核启动参数中添加panic_on_oom=0来关闭OOM killer。这通常在/etc/default/grub(对于使用GRUB的系统)或相应的启动配置文件中设置。修改后,需要更新GRUB配置并重启系统:

echo 'kernel_param="panic_on_oom=0"' >> /etc/default/grub
update-grub
reboot

注意事项

  • 关闭OOM killer可能会导致系统在内存不足时变得不稳定或无法预测,因为没有任何机制来自动终止进程以释放内存。
  • 在某些情况下,如实时或嵌入式系统,可能需要关闭OOM killer以避免意外的进程终止。
  • 在大多数服务器和桌面环境中,建议保持OOM killer启用,因为它是保护系统免受内存耗尽影响的重要机制。
http://www.lryc.cn/news/500458.html

相关文章:

  • 什么是绩效文化?
  • 【人工智能-CV领域】对抗生成网络(GAN)与扩散模型全面解析与深度融合:实现AI生成能力的新突破
  • IT系统运维监控指标体系-持续完善中
  • RPC设计--TcpAcceptor
  • 《Python数据分析:活用pandas库》学习笔记Day1:Panda DataFrame基础知识
  • 【Go 基础】并发相关
  • 数据质量规则(Data Quality Rules)
  • stm32延时
  • 工作随笔2024,12.9
  • 【PGCCC】 pg_query 6.0:使用 Postgres 自己的解析器解析、反解析和规范化 SQL 查询的 Ruby 库
  • 18.Vue 3 + OpenLayers:实现添加全屏显示功能示例
  • 04_掌握Python基础语句
  • iOS如何自定义一个类似UITextView的本文编辑View
  • 【时时三省】(NIT计算机考试)Word的使用方法
  • openjdk17 jvm加载class文件,解析字段和方法,C++源码展示
  • 驱动断链的研究
  • 在 Windows WSL 上部署 Ollama 和大语言模型:从镜像冗余问题看 Docker 最佳实践20241208
  • 做题时HashSet、TreeSet、LinkedHashSet的选择
  • Manus手套动作捕捉AI训练灵巧手
  • 嵌入式驱动开发详解4(内核定时器)
  • Linux:信号的预备和产生
  • 国城杯2024——Curve
  • AI生成不了复杂前端页面?也许有解决方案了
  • 常见矩阵分析法(BCG、GE、IE、SPACE、TOWS、优先、战略优先级、安索夫、风险矩阵):如何通过系统化方法助力战略决策与数据驱动决策
  • JWT 在 SaaS 系统中的作用与分布式 SaaS 系统设计的最佳实践
  • 基于C#和Sql Server的网上书店管理系统
  • 特高频局放装置在现代配电设施中的应用
  • FSC认证是什么?FSC认证费用
  • JAVA数据结构
  • mysql8 主从复制一直失败