当前位置：首页 > news >正文

一次生产故障引发的JVM垃圾回收器选型思考：彻底掌握垃圾回收原理及通用配置！

news 2025/9/15 23:51:44

写在前面的话

前几天凌晨2点，我被一通电话惊醒——线上交易系统出现了严重的延迟问题，用户支付请求响应时间从平时的100ms飙升到了5秒，客服电话都被打爆了。

经过紧急排查，我们发现罪魁祸首竟然是JVM的垃圾回收器！当时使用的CMS垃圾回收器在高并发场景下出现了严重的停顿，导致系统几乎不可用。

这次故障让我深刻认识到：选择合适的垃圾回收器不是小事，它直接关系到系统的生死存亡。

今天，我将把这些年在垃圾回收器选型和调优方面的经验总结出来，帮助大家彻底掌握JVM垃圾回收的精髓。

垃圾回收基础：为什么需要垃圾回收器？

在深入讲解各种垃圾回收器之前，我们先来理解一个本质问题：为什么Java需要垃圾回收？

内存管理的痛点

想象一下，如果没有垃圾回收，会发生什么？

程序员需要手动管理内存，像C/C++一样
一旦忘记释放内存，就会导致内存泄漏
系统运行时间越长，可用内存越少
最终导致OOM（内存溢出）

垃圾回收的工作原理

垃圾回收器的核心任务就是**自动识别和回收不再使用的对象**。这个过程主要分为两个步骤：

标记（Mark）：找出哪些对象还在使用，哪些已经"死亡"
清除（Sweep）：回收"死亡"对象占用的内存空间

三色标记算法

为了更好地理解后面的内容，我们需要了解三色标记算法：

白色：未被扫描的对象（可能是垃圾）
灰色：已被扫描但其引用的对象还未扫描完成
黑色：已被扫描且其引用的对象也已扫描完成（确定存活）

主流垃圾回收器深度解析

1. Serial GC：单线程的老前辈

特点：

单线程执行垃圾回收
回收时必须暂停所有用户线程（Stop The World）
算法简单，开销小

适用场景：

客户端应用
单核心或小内存环境
对延迟要求不高的场景

配置参数：

-XX:+UseSerialGC

2. Parallel GC：多线程的力量

Parallel GC是JDK 8及之前版本的默认垃圾回收器，也是目前应用最广泛的垃圾回收器之一。

核心特点：

多线程并行执行垃圾回收
注重吞吐量，适合后台任务
新生代使用Parallel Scavenge，老年代使用Parallel Old

关键参数配置：

# 启用Parallel GC
-XX:+UseParallelGC# 设置垃圾回收线程数（一般设置为CPU核心数）
-XX:ParallelGCThreads=8# 设置期望的吞吐量百分比（默认99，即GC时间不超过1%）
-XX:GCTimeRatio=99# 设置最大GC停顿时间目标（毫秒）
-XX:MaxGCPauseMillis=100

实战经验：
在我们的批处理系统中，使用Parallel GC配置如下：

-Xms4g -Xmx4g 
-XX:+UseParallelGC 
-XX:ParallelGCThreads=8 
-XX:GCTimeRatio=99

效果：吞吐量提升15%，GC时间占比控制在1%以内。

3. CMS GC：并发标记清除的先驱

CMS（Concurrent Mark Sweep）是第一个真正意义上的低延迟垃圾回收器。

工作流程：

初始标记：STW，标记GC Roots直接关联的对象
并发标记：与用户线程并发，标记所有可达对象
重新标记：STW，修正并发标记期间的变化
并发清除：与用户线程并发，清理垃圾对象

优点：

并发收集，低停顿
适合对响应时间敏感的应用

缺点：

产生内存碎片
并发阶段会抢占CPU资源
容易产生"浮动垃圾"

关键参数配置：

# 启用CMS
-XX:+UseConcMarkSweepGC
-XX:+UseParNewGC# 设置触发CMS GC的老年代使用率阈值
-XX:CMSInitiatingOccupancyFraction=75
-XX:+UseCMSInitiatingOccupancyOnly# 并发线程数
-XX:ConcGCThreads=4# 开启CMS预清理
-XX:+CMSPrecleaningEnabled# 设置预清理阶段的最大持续时间
-XX:CMSMaxAbortablePrecleanTime=5000

真实案例：
某电商系统使用CMS配置：

-Xms8g -Xmx8g 
-XX:+UseConcMarkSweepGC 
-XX:+UseParNewGC 
-XX:CMSInitiatingOccupancyFraction=70 
-XX:+UseCMSInitiatingOccupancyOnly

结果：平均GC停顿时间从200ms降低到50ms。

4. G1 GC：分代收集的革命者

G1（Garbage First）是JDK 9+的默认垃圾回收器，代表了垃圾回收技术的重大突破。

核心创新：

将堆内存划分为多个大小相等的Region
可预测的停顿时间
同时回收新生代和老年代

工作流程：

初始标记：STW，标记GC Roots
并发标记：并发标记整个对象图
最终标记：STW，处理SATB队列
筛选回收：STW，回收价值高的Region

核心数据结构：

RSet（记忆集）：记录跨Region引用
SATB（Snapshot At The Beginning）：解决并发标记时的漏标问题
Card Table：细粒度的引用跟踪

关键参数配置：

# 启用G1
-XX:+UseG1GC# 设置期望的最大停顿时间（毫秒）
-XX:MaxGCPauseMillis=200# 设置Region大小（1MB到32MB，必须是2的幂）
-XX:G1HeapRegionSize=16m# 设置并发标记线程数
-XX:ConcGCThreads=4# 设置触发Mixed GC的老年代占用率
-XX:G1MixedGCCountTarget=8
-XX:G1OldCSetRegionThreshold=10# G1相关的调优参数
-XX:G1ReservePercent=10
-XX:G1HeapWastePercent=5

生产实战配置：
某金融系统的G1配置：

-Xms16g -Xmx16g 
-XX:+UseG1GC 
-XX:MaxGCPauseMillis=100 
-XX:G1HeapRegionSize=16m 
-XX:G1MixedGCCountTarget=8 
-XX:+G1PrintRegionRememberedSetInfo

效果：99.9%的GC停顿时间控制在100ms以内。

5. ZGC：超低延迟的未来之星

ZGC是OpenJDK的一个实验性垃圾回收器，专注于超低延迟。

革命性特点：

停顿时间不超过10ms
支持TB级别的堆内存
并发回收，几乎不需要STW

适用场景：

对延迟极度敏感的应用
大内存应用
实时交易系统

配置参数：

# 启用ZGC（JDK 11+）
-XX:+UnlockExperimentalVMOptions
-XX:+UseZGC# 设置最大堆内存
-Xmx32g# 开启ZGC的分代收集（JDK 17+）
-XX:+UseZGC
-XX:+ZGenerational

6. Shenandoah：OpenJDK的低延迟选择

Shenandoah是Red Hat开发的低延迟垃圾回收器。

核心特点：

并发回收
停顿时间与堆大小无关
使用连接矩阵解决并发移动问题

配置参数：

# 启用Shenandoah
-XX:+UnlockExperimentalVMOptions
-XX:+UseShenandoahGC# 设置GC模式
-XX:ShenandoahGCMode=iu

垃圾回收器横向对比

垃圾回收器	停顿时间	吞吐量	内存开销	适用堆大小	并发程度
Serial GC	高	高	低	<100MB	无并发
Parallel GC	中	最高	低	<8GB	并行回收
CMS GC	低	中	中	2-8GB	并发标记
G1 GC	低	中高	中高	4GB+	并发+并行
ZGC	极低	中	高	8GB+	高度并发
Shenandoah	极低	中	高	8GB+	高度并发

场景化选择策略

Web应用服务器

场景特点：

对响应时间敏感
中等并发量
堆内存通常在4-16GB

推荐方案：

首选：G1 GC
备选：CMS GC（JDK 8及以下）

配置示例：

# G1配置（推荐）
-Xms8g -Xmx8g
-XX:+UseG1GC
-XX:MaxGCPauseMillis=100
-XX:G1HeapRegionSize=16m# CMS配置（兼容性考虑）
-Xms8g -Xmx8g
-XX:+UseConcMarkSweepGC
-XX:+UseParNewGC
-XX:CMSInitiatingOccupancyFraction=75

批处理系统

场景特点：

注重吞吐量
对延迟不敏感
大量数据处理

推荐方案：

首选：Parallel GC
备选：G1 GC（大堆场景）

配置示例：

# Parallel GC配置
-Xms16g -Xmx16g
-XX:+UseParallelGC
-XX:ParallelGCThreads=16
-XX:GCTimeRatio=99

实时交易系统

场景特点：

极低延迟要求
高并发
严格的SLA

推荐方案：

首选：ZGC（JDK 11+）
备选：Shenandoah

配置示例：

# ZGC配置
-Xms32g -Xmx32g
-XX:+UseZGC
-XX:+UnlockExperimentalVMOptions

微服务应用

场景特点：

小堆内存
快速启动
容器化部署

推荐方案：

首选：G1 GC
备选：Parallel GC

配置示例：

# 微服务G1配置
-Xms1g -Xmx2g
-XX:+UseG1GC
-XX:MaxGCPauseMillis=50
-XX:G1HeapRegionSize=1m

性能调优最佳实践

堆内存配置原则

初始堆大小（-Xms）应该等于最大堆大小（-Xmx）

-Xms8g -Xmx8g  # 避免动态扩容的开销

新生代大小要合理

# 一般设置为堆内存的1/4到1/3
-XX:NewRatio=3  # 新生代:老年代 = 1:3

Eden和Survivor比例调优

-XX:SurvivorRatio=8  # Eden:Survivor = 8:1

GC日志配置

详细的GC日志是调优的基础：

# JDK 8及以下
-XX:+PrintGC
-XX:+PrintGCDetails
-XX:+PrintGCTimeStamps
-XX:+PrintGCApplicationStoppedTime
-Xloggc:/path/to/gc.log# JDK 9+
-Xlog:gc*:gc.log:time,tags

监控指标关注点

GC频率：每分钟GC次数
GC停顿时间：平均和最大停顿时间
内存使用率：各代内存使用情况
吞吐量：应用线程时间占比

故障排查实战案例

案例1：CMS的并发模式失败

现象：

[GC [1 CMS-initial-mark: 6656K(13696K), 0.0023781 secs]
[Full GC 6656K->6571K(13696K), 0.0577079 secs]

原因：CMS并发收集失败，退化为Serial Old收集

解决方案：

# 降低CMS触发阈值
-XX:CMSInitiatingOccupancyFraction=60# 增加并发线程数
-XX:ConcGCThreads=6

案例2：G1的to-space exhausted

现象：

[GC pause (G1 Evacuation Pause) (to-space exhausted), 0.1234567 secs]

原因：G1无法找到足够的空Region来存放存活对象

解决方案：

# 增加堆内存或调整Region大小
-Xmx16g
-XX:G1HeapRegionSize=32m# 提前触发混合收集
-XX:G1MixedGCCountTarget=4

案例3：频繁Full GC

排查步骤：

分析GC日志确认Full GC频率
检查内存分配模式
分析对象生命周期
调整堆内存比例

常见解决方案：

# 增加堆内存
-Xms16g -Xmx16g# 调整新生代比例
-XX:NewRatio=2# 增加Survivor空间
-XX:SurvivorRatio=6

高级调优技巧

1. 使用GC分析工具

推荐工具：

GCViewer：可视化GC日志分析
GCPlot：在线GC日志分析
jstat：实时GC监控

使用示例：

# 监控GC情况
jstat -gc -t 12345 1s# 查看堆内存分布
jstat -gccapacity 12345

2. JIT编译优化

# 预热JIT编译器
-XX:CompileThreshold=10000# 启用分层编译
-XX:+TieredCompilation

3. 大对象处理

# G1大对象阈值设置
-XX:G1HeapRegionSize=32m  # 大对象阈值为16m# 启用大对象直接分配到老年代
-XX:PretenureSizeThreshold=1m

未来趋势展望

1. Project Leyden

Oracle正在开发的项目，旨在提供静态编译和快速启动能力。

2. Project Loom

虚拟线程项目将改变并发编程模式，可能影响GC策略。

3. 分代ZGC

ZGC正在开发分代收集功能，有望进一步提升性能。

总结与建议

经过这次深入的探讨，我想给大家几个关键建议：

1. 选择原则

小堆（<4GB）：Parallel GC 或 G1 GC
中堆（4-32GB）：G1 GC
大堆（32GB+）：ZGC 或 Shenandoah
延迟敏感：G1、ZGC、Shenandoah
吞吐量优先：Parallel GC

2. 调优步骤

建立基准测试
收集GC日志
分析性能指标
逐步调整参数
验证改进效果

3. 最佳实践

始终监控GC性能
定期分析GC日志
保持对新技术的关注
在非生产环境充分测试

4. 常用配置模板

Web应用推荐配置：

-Xms8g -Xmx8g
-XX:+UseG1GC
-XX:MaxGCPauseMillis=100
-XX:G1HeapRegionSize=16m
-XX:+G1UseAdaptiveIHOP
-XX:G1MixedGCCountTarget=8
-Xlog:gc*:gc.log:time,tags

高并发服务配置：

-Xms16g -Xmx16g
-XX:+UseZGC
-XX:+UnlockExperimentalVMOptions
-Xlog:gc*:gc.log:time,tags

回到文章开头的那次生产故障，经过这次系统性的学习和实践，我们最终选择了G1垃圾回收器，并通过精细的参数调优，将系统的响应时间稳定在了50ms以内，再也没有出现过类似的问题。

垃圾回收器的选择和调优是一门艺术，需要理论知识与实践经验的完美结合。希望这篇文章能够帮助大家在JVM调优的道路上少走弯路，打造更加稳定高效的Java应用。

记住：没有银弹，只有最适合的方案。在实际工作中，一定要结合具体的业务场景和性能要求来选择合适的垃圾回收器，并持续监控和优化。

如果这篇文章对你有帮助，欢迎点赞分享。在垃圾回收器调优的路上，我们一起进步！

查看全文

http://www.lryc.cn/news/571379.html

在 Java 中操作 Map时，高效遍历和安全删除数据

Arrays.asList() 的不可变陷阱：问题、原理与解决方案

FPGA 43 ，UDP 协议详细解析（ FPGA 中的 UDP 协议）

升级OpenSSL和OpenSSH 修复漏洞

多组件 flask 项目

数据库新选择？KingbaseES在线体验详解

Patch Position Embedding (PPE) 在医疗 AI 中的应用编程分析

工业 AI Agent：智能化转型的核心驱动力

计算机网络学习笔记：TCP流控、拥塞控制

taro小程序如何实现新用户引导功能？

【数据结构】图论实战：DAG空间压缩术——42%存储优化实战解析

AI大模型初识（一）：AI大模型的底层原理与技术演进

数据库系统概论（二十）数据库恢复技术

Linux Kernel崩溃分析的法宝：Kdump+Crash（上）

暴雨服务器成功中标洪湖市政府框架采购项目

汽车 CDC威胁分析与风险评估

解锁VSCode：从入门到精通的全攻略

ArcGIS Pro无插件加载（无偏移）天地图！一次添加长久使用

【机器人学】2-5.七自由度机器人逆解-SRS型机器人【附MATLAB代码】

React19源码系列之Hooks (useEffect、useLayoutEffect、useInsertionEffect)

电阻、电容、电感

单片机 - STM32读取GPIO某一位时为什么不能直接与1判断为高电平？

力扣面试题 17.05. 字母与数字

SpringBoot 通过集成 Flink CDC 来实时追踪 MySql 数据变动

基于高性能的光频域反射（OFDR）分布式光纤传感解决方案

爬虫技术：从基础到高级，探索数据抓取的奥秘

深度融合数智化，百胜软件联合华为云加速零售行业转型升级

【Manus第三篇-Prompt优化】两周实战，一套注意力视角的prompt优化框架，真的有用！

【笔记】MSYS2 的 MinGW64 环境中正确安装 Python 相关环境管理工具（Poetry、Virtualenv、Pipenv 和 UV）

复现 apache HTTPD 换行解析漏洞（CVE-2017-15715）

写在前面的话

垃圾回收基础：为什么需要垃圾回收器？

内存管理的痛点

垃圾回收的工作原理

三色标记算法

主流垃圾回收器深度解析

1. Serial GC：单线程的老前辈

2. Parallel GC：多线程的力量

3. CMS GC：并发标记清除的先驱

4. G1 GC：分代收集的革命者

5. ZGC：超低延迟的未来之星

6. Shenandoah：OpenJDK的低延迟选择

垃圾回收器横向对比

场景化选择策略

Web应用服务器

批处理系统

实时交易系统

微服务应用

性能调优最佳实践

堆内存配置原则

GC日志配置

监控指标关注点

故障排查实战案例

案例1：CMS的并发模式失败

案例2：G1的to-space exhausted

案例3：频繁Full GC

高级调优技巧

1. 使用GC分析工具

2. JIT编译优化

3. 大对象处理

未来趋势展望

1. Project Leyden

2. Project Loom

3. 分代ZGC

总结与建议

1. 选择原则

2. 调优步骤

3. 最佳实践

4. 常用配置模板

相关文章：