当前位置: 首页 > news >正文

一次Kafka启动失败引出的问题

背景

        Some time,有个现场童鞋说咱的Kafka实例有个broker一直crash,还截图给我看了,大致是Kafka启动加载topic分区日志文件的时候,然后就没了,连个WARN都没有。当然,光看这个截图咱啥都不知道,因此只能搞个会议一起看看,这里说一下,公司内部聊天软件太菜了,所以就用腾讯会议,嗯,挺好的,反正是免费的。

干活

        好,跟现场童鞋搞起来。嗯,Kafka启动日志既然看不了啥,那只能看下pod状态,哦豁,OOMKILLED,nice,找到原因了,嗯,但是,使用kubectl describe node xxxx 查看,这个node还剩一半呀,咋回事呢?

  • Kafka pod是OOMKILLED
  • kubectl describe nodes xxxx 查看,cpu/内存是足够的

       那么是不是Node资源不够呢?free -m 一看,好家伙,256G只剩1个G了,而Kafka pod配置的request是4Gi,那么启动的时候当然会被内核给干死了,没内存了。到这一步了,基本上就不干Kafka的事情了,不过,都查看现在了,这会儿就继续查看哪个大哥占用了。 

top -b -n 1 | head -n 12 | tail -n 10 查看前10占用内存最大的进程,嗯,发现是个死进程,是容器的死进程,但是这个容器所在的pod都已经删除了,跟k8s大佬一沟通,好吧,是个开源bug,到这我就没法处理了,跟大佬沟通后,有个脚本可以把这些死进程给干掉,释放掉这些占用的内存出来,当前环境只能通过脚本来巡检处理了,不过,新版本已经解决,哎,客户私有场景下,现场环境版本总是落后的,而且客户还不一定想升级,不好搞呀!

http://www.lryc.cn/news/496289.html

相关文章:

  • mysql 查询所有的触发器
  • 704. 二分查找 C++
  • SpringCloud Seata集成分布式事务管理 事务保护 XA AT两种模式的区别
  • node.js基础学习-querystring模块-查询字符串处理(三)
  • 电子电气架构 --- 车载网关GW连接外部IP Tester
  • 鸿蒙LiteOS的核心架构
  • C语言——实现计算房屋总价
  • 【380】基于springboot的闲置图书分享
  • element-ui的下拉框报错:Cannot read properties of null (reading ‘disabled‘)
  • VMware虚拟机——安装保姆级教程(附安装包)
  • 如何实现表格选中时禁用树结构的复选框功能(El-Tree 与 El-Table 联动实现)
  • STM32CUBEIDE FreeRTOS操作教程(十):interrupt on/off中断开关
  • Linux的基本操作及虚拟机设置
  • oracle 用户手册
  • Flutter-Web打包后上线白屏
  • 解决linux访问huggingface的问题(操作记录)
  • Android Studio 右侧Gradle窗口只有test的task问题解决
  • Spring AOP 的实现和切点表达式的介绍
  • 【赛博保安】安全日记之常用术语(一)
  • C++ 中的 string 类:全面解析与应用实践(上)
  • 量化交易系统开发-实时行情自动化交易-8.7.文华平台
  • 美畅物联丨如何通过 FFmpeg 解码视频
  • 机器学习任务功略
  • Web Worker 和 WebSocket的区别
  • JMeter实时性能压测可视化系统整合
  • 无限加载和懒加载及路由滚动及路由滚动不生效
  • CSS底层基础:小白速来
  • 【MySQL 进阶之路】索引概述
  • 【C++boost::asio网络编程】有关异步读写api的笔记
  • Elasticsearch 的存储与查询