当前位置: 首页 > news >正文

记录一次典型oom的处理过程

背景

有同学反馈收到应用RT的报警,其中的流量都来自于网关集群中的一台机器。因为负责网关,就上去看了下并进行排查。整体是一个比较明显的oom,这里只是记录下排查过程,老司机可以略过了。

初步现象

常规步骤,使用top 和jstat -gcutil 能直观的看到在拼命full gc。推测是出现了oom。
在这里插入图片描述

初步排查

一开始是用 jmap -histo:live [pid] >a.log 导出当前内存对象,为什么没有直接用jmap -dump:live 也是想偷懒,因为-dump 生成的文件太大,我们的服务器又跑在k8s上面,要拿回本地需要通过ftp 中转,想着能省就省。结果发现这个给后面埋了个大坑。
在这里插入图片描述
基于上面的结果,一度怀疑是sentinel 引起的问题。特别是对比了正常的机器上的内存分布
在这里插入图片描述
在上面浪费了大量时间,后面回过头看其实ConcurrentHashMap 占比这么高说明是缓存管理出现了问题。

进一步排查

老老实实用 jmap -dump:live,format=b,file=xxx.xxx [pid] 打印出详细的内存堆栈,拿到本地后用 IBM HeapAnalyzer(比较好用) 或者MAT 打开分析。
在这里插入图片描述
从上面比较直观看到出现oom的类。这里只是看到单个的类比较大,从源码上看:在这里插入图片描述
会发现有块缓存没有设置长度和失效时间,这个很可能是导致oom的原因。

http://www.lryc.cn/news/193634.html

相关文章:

  • centos离线安装telnet、traceroute工具
  • 【java学习—七】对象的实例化过程(33)
  • P4451 [国家集训队] 整数的lqp拆分
  • Mysql 日常命令记录
  • 可视化上证50结构图
  • STM32_PID通用算法增量式和位置式
  • Spark的数据输入、数据计算、数据输出
  • Windows端口号被占用的查看方法及解决办法
  • Web3 整理React项目 导入Web3 并获取区块链信息
  • 基于SpringBoot的旅游网站开题报告
  • 基于SSM的班级事务管理系统
  • 基于Spring Boot开发的汽车租赁管理系统
  • 精品基于django的高校竞赛比赛管理系统Python
  • RustDay04------Exercise[01-10]
  • ARM day9
  • 【TensorFlow2 之013】TensorFlow-Lite
  • Java基础--阳光总在风雨后,请相信彩虹
  • 高级网络调试技巧:使用Charles Proxy捕获和修改HTTP/HTTPS请求
  • Discuz大气游戏风格模板/仿lol英雄联盟游戏DZ游戏模板GBK
  • 206、SpringBoot 整合 RabbitMQ 的自动配置类 和 对应的属性处理类 的知识点
  • 网络链接失败怀疑是服务器处于非正常状态?如何用本地电脑查看服务器是否正常?
  • 文件操作(打开关闭文件、文件顺序以及随机读写)
  • HTTP 响应头 X-Frame-Options
  • MongoDB 集群配置
  • random生成随机数的灵活运用
  • 宏定义实现二进制数的奇偶位交换
  • 【ELK 使用指南】ELK + Filebeat 分布式日志管理平台部署
  • 传输层 | UDP协议、TCP协议
  • Webmin(CVE-2019-15107)远程命令执行漏洞复现
  • 嵌入式实时操作系统的设计与开发 (前后台系统)