当前位置: 首页 > news >正文

每日10亿数据的日志分析系统OOM

背景

一个每日10亿数据的日志清洗系统,主要工作就是从消息队列中消费各种各样的日志,然后对日志进行清洗,例如:用户敏感信息(姓名、手机号、身份证)进行脱敏处理,然后把清理完的数据交付给其他系统使用。
我们项目中,推荐系统、营销系统,大数据分析系统,都会使用清洗好的数据。

在这里插入图片描述

现场

收到线上的报警,发现日志清洗系统发生了OOM
查看日志发现是java.lang.OutOfMemoryError: java heap space
通过异常日志,能看到如下信息:

xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()

这里能够发现,同一个方法XXClass.process() 被反复调用了,最终导致了堆内存溢出的问题。
初步定位是,某处有不合理的递归调用,接下来使用MAT分析内存快照。

分析

  1. 通过MAT去分析的时候,我们就发现了一个问题,因为有大量的XXClass.process()方法的递归执行,每个XXClass.process()中都创建了大量的char数组!导致大量的char[] 数组,耗尽了内存。
  2. 此时,我们发现了一个问题,递归的次数不是很多,也就十几次到几十次递归。我们也观察了一下,所有创建的char[],占用的内存也就1G,这就有一个问题了,这次oom不全是代码的问题,可能是我们的jvm参数设置的不对,分配的堆内存空间太小了。
  3. 因为我们要分析是不是堆内存设置的太小了,就要分析jvm运行时的内存使用模型,只能去看jvm启动参数中加入的自动记录GC日志,在日志中,我们发现JVM启动时的核心参数:
    -Xmx1024m -Xms1024m -XX:+PrintGCDetails -XX:+PrintGC() -XX:+HeapDumpOnOutOfMemoryError -
    Xloggc:/opt/logs/gc.log -XX:HeapDumpPath=/opt/logs/dump
  4. 观察日志可以发现,jvm参数里指定了gc的日志路径,以及内存溢出时要导出的内存快照地址,还有给堆分配的内存-Xmx1024m -Xms1024m,这台机器是4 core 8G的,只分配1G内存太小了
  5. 接下来详细看下gc.log:
    [Full GC (Allocation Failure) 866M->654M(1024M)]
    [Full GC (Allocation Failure) 843M->633M(1024M)]
    [Full GC (Allocation Failure) 855M->621M(1024M)]
    [Full GC (Allocation Failure) 878M->612M(1024M)]
    在日志中发现,allocation failure触发的Full GC很多,也就是堆内存无法分配内存给新的对象了,然后触发GC,根据数据发现,每次full gc只能回收一点对象,而且日志中显示,是每秒full gc一次,很可怕。导致一直full gc的原因有两个,一个是老年代内存满了,每秒钟执行young gc之前,会发现老年代可用空间不够,就会提前触发full gc;另外一个可能是young gc之后,存活的对象无法放入到survivor区,都要进入老年代,放不下,就会触发full gc;
  6. 我们重启了系统,利用jstat分析了一下当时jvm运行时的内存模型,发现如下情况:
    S0 S1 E O YGC FGC
    0 100 57 69 36 0
    0 100 57 69 36 0
    0 100 65 69 37 0
    0 100 0 99 37 0
    0 100 0 87 37 1

jstat解析
YGC 从36 -> 37 表示发生一次young gc,但是我们发现old区从69 -> 99 ,表示young gc之后,survivor区放不下,直接进入lod区,紧接着发生了一次FGC,但是发现old区并没有回收掉多少内存,几次循环之后,内存就堆满了,直接触发oom。

优化

  1. 增加堆内存大小
    给堆内存加大空间,直接给了堆内存5G的内存。
  2. 改代码
    改写代码,让他不要占用过多的内存。当时代码之所以递归,就是因为在一条日志中,可能会出现很多用户的信息,一条日志也许会合并包含了十几个到几十个用户的信息。
    这个时候代码中就是会递归十几次到几十次去处理这个日志,每次递归都会产生大量的char[]数组,是切割了日志用来处理的。
    其实这个代码写的完全没有必要,因为对每一条日志,如果发现包含了多个用户的信息,其实就对这一条日志切割出来进行处理就可以
    了,完全没有必要递归调用,每次调用都切割一次日志,生成大量的char[]数组。
    所以把这一步代码优化了之后,一下子发现线上系统的内存使用情况降低了10倍以上。

总结

今天这个案例,大家会发现,我们先是通过OOM的排查方法去分析,发现主要是内存太小导致的问题。然后用gc日志和jstat分析,明显发现是内存不够用了,最后加大系统内存,并且优化代码就可以了。

http://www.lryc.cn/news/346199.html

相关文章:

  • 智能驱动,精准管理:打造高效干部管理系统
  • 轮式机器人简介
  • 已知哈夫曼节点个数,求哈夫曼字符编码数
  • Kubernetes Cluster IP,Node IP,Pod IP间通信原理解析
  • 随机链表的深拷贝
  • 328_C++_HTTP_HTTP协议传输data数据,为什么要进行base64编解码操作?
  • 【二叉树】Leetcode N 叉树的层序遍历
  • Spring AI
  • fiori SAP ui5 动态改变控件颜色
  • RabbitMQ php amqp
  • 对称二叉树
  • 浅浅总结SQL中的事务.
  • C++ | Leetcode C++题解之第76题最小覆盖子串
  • 什么可以替代iframe?
  • HTTP/1.0、HTTP/1.1、HTTP/2.0区别
  • 鸿蒙内核源码分析(文件句柄篇) | 你为什么叫句柄
  • 2024.5.8 关于 SpringCloud —— Ribbon 的基本认知
  • Lua 协程模拟 Golang 的 go defer 编程模式
  • maven的安装与配置(超详细)
  • springCloud服务降级使用到的组件
  • Spring框架学习-详细
  • fatal: fetch-pack: invalid index-pack output
  • 相机购买指南
  • STM32微秒级别延时--F407--TIM1
  • AI图书推荐:杀手级ChatGPT提示词——利用人工智能实现成功与盈利
  • AI时代:低代码与人工智能引领科技创造新时代
  • 1.基于python的单细胞数据预处理-降维可视化
  • 【快捷部署】023_HBase(2.3.6)
  • Nginx配置项详解
  • 解决iview(view ui)中tabs组件中使用图片预览组件ImagePreview,图片不显示问题