- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一次OOM故障引发的内存管理血案：我是如何在内存泄漏、栈溢出和锁竞争中杀出重围的

i-WIFI 发表于 2025/07/29 16:01:25 2025/07/29

【摘要】上个月的一个周五晚上，正准备下班，监控系统突然疯狂报警。线上服务内存占用持续飙升，已经触发了好几次Full GC，响应时间从平时的50ms涨到了3秒。更要命的是，有几台机器直接OOM挂掉了。那一晚，我们团队熬到凌晨4点，期间遭遇了内存泄漏、栈溢出、GC风暴，还有诡异的死锁问题。今天就来复盘这次"内存管理大作战"，希望大家能从我们的血泪教训中学到点东西。故障现场：内存暴涨的诡异曲线先看看当时...

上个月的一个周五晚上，正准备下班，监控系统突然疯狂报警。线上服务内存占用持续飙升，已经触发了好几次Full GC，响应时间从平时的50ms涨到了3秒。更要命的是，有几台机器直接OOM挂掉了。

那一晚，我们团队熬到凌晨4点，期间遭遇了内存泄漏、栈溢出、GC风暴，还有诡异的死锁问题。今天就来复盘这次"内存管理大作战"，希望大家能从我们的血泪教训中学到点东西。

故障现场：内存暴涨的诡异曲线

先看看当时的监控数据，简直是一部恐怖片：

时间点	堆内存使用	GC次数/分钟	响应时间P99	错误率	CPU使用率
18:00	2.1GB(26%)	Young:5,Full:0	52ms	0.01%	35%
18:30	3.5GB(44%)	Young:12,Full:0	85ms	0.02%	42%
19:00	5.8GB(73%)	Young:25,Full:2	320ms	0.5%	68%
19:30	7.2GB(90%)	Young:8,Full:5	1200ms	2.3%	85%
20:00	OOM	-	-	100%	-

看到这个趋势，我第一反应是：完了，内存泄漏了。

内存泄漏：潜伏的定时炸弹

定位泄漏点

立即dump了堆内存，用MAT（Memory Analyzer Tool）分析：

jmap -dump:format=b,file=heap.hprof <pid>

分析结果让人大跌眼镜：

对象类型	实例数	占用内存	占比	增长率
HashMap$Node[]	15,234	3.2GB	44%	持续增长
byte[]	892,341	1.8GB	25%	持续增长
UserSession	458,923	1.1GB	15%	只增不减
String	2,834,291	0.8GB	11%	缓慢增长

最可疑的是UserSession对象，数量只增不减。跟踪引用链发现，问题出在一个"智能"的缓存实现上：

// 有问题的代码
public class SessionCache {
    private static Map<String, UserSession> cache = new HashMap<>();
    
    public void addSession(String sessionId, UserSession session) {
        cache.put(sessionId, session);  // 只加不删！
    }
}

这位同事想做个缓存优化性能，结果忘了清理过期数据。每个用户登录都会创建session，永远不释放，妥妥的内存泄漏。

内存泄漏的常见场景

这些年遇到的内存泄漏，总结下来就这几类：

泄漏类型	常见原因	排查难度	解决方案	出现频率
静态集合	只添加不删除	★★☆☆☆	定期清理/弱引用	★★★★★
监听器未注销	忘记remove	★★★☆☆	try-finally	★★★★☆
线程局部变量	ThreadLocal未清理	★★★★☆	remove()调用	★★★☆☆
内部类持有外部引用	匿名内部类	★★★★☆	静态内部类	★★★☆☆
资源未关闭	IO流、连接池	★★☆☆☆	try-with-resources	★★★★☆

栈溢出：递归的噩梦

修复了内存泄漏，重启服务，以为可以安心了。结果没过10分钟，又有机器挂了，这次是StackOverflowError。

栈溢出的元凶

查看错误堆栈，发现是一个看似"优雅"的递归：

// 计算用户权限树
public Set<Permission> getUserPermissions(User user) {
    Set<Permission> permissions = new HashSet<>();
    
    // 获取直接权限
    permissions.addAll(user.getDirectPermissions());
    
    // 获取角色权限
    for (Role role : user.getRoles()) {
        permissions.addAll(getRolePermissions(role));
    }
    
    return permissions;
}

private Set<Permission> getRolePermissions(Role role) {
    Set<Permission> permissions = new HashSet<>();
    permissions.addAll(role.getPermissions());
    
    // 问题在这：角色可以继承角色，形成循环！
    for (Role parent : role.getParentRoles()) {
        permissions.addAll(getRolePermissions(parent));
    }
    
    return permissions;
}

原来是运营同学配置角色时，不小心搞出了循环继承：RoleA -> RoleB -> RoleC -> RoleA。

栈大小与递归深度

做了个实验，测试不同栈大小的递归深度：

JVM参数	栈大小	最大递归深度	栈帧大小	适用场景
默认	1MB	~10,000	~100字节	常规应用
-Xss256k	256KB	~2,500	~100字节	线程多的应用
-Xss2m	2MB	~20,000	~100字节	深度递归
-Xss4m	4MB	~40,000	~100字节	特殊算法

但增加栈大小只是治标不治本，关键还是要避免无限递归。

栈溢出的防护措施

总结了几种防护手段：

防护措施	实现难度	性能影响	效果	推荐指数
递归深度检查	★☆☆☆☆	极小	好	★★★★★
循环检测	★★★☆☆	小	很好	★★★★☆
改为迭代	★★★★☆	无	最好	★★★★★
缓存中间结果	★★☆☆☆	中	好	★★★☆☆
尾递归优化	★★★☆☆	无	好(JVM不支持)	★★☆☆☆

垃圾回收：从GC优化到GC地狱

解决了内存泄漏和栈溢出，系统终于稳定了一会儿。但好景不长，Full GC开始频繁出现。

GC日志分析

开启详细GC日志后，发现了问题：

-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:gc.log

GC情况统计：

时间段	Young GC	Full GC	平均停顿	最长停顿	吞吐量
正常时期	180次/小时	0	15ms	25ms	99.5%
故障初期	450次/小时	5次/小时	35ms	800ms	97.2%
故障高峰	120次/小时	20次/小时	150ms	3200ms	85.3%

GC调优实战

尝试了多种GC配置：

GC策略	参数配置	平均延迟	吞吐量	适用场景
Serial	-XX:+UseSerialGC	100ms	88%	单核小内存
Parallel	-XX:+UseParallelGC	80ms	95%	多核大吞吐
CMS	-XX:+UseConcMarkSweepGC	40ms	92%	低延迟
G1	-XX:+UseG1GC	35ms	93%	大堆低延迟
ZGC	-XX:+UseZGC	2ms	90%	超低延迟

最终选择了G1，配合合理的参数：

-XX:+UseG1GC 
-XX:MaxGCPauseMillis=200 
-XX:G1HeapRegionSize=16M
-XX:InitiatingHeapOccupancyPercent=45

内存分配优化

发现大量临时对象导致Young GC频繁，做了针对性优化：

优化措施	优化前	优化后	效果
对象池复用	每秒创建10万对象	每秒创建1万对象	Young GC减少80%
StringBuilder预分配	频繁扩容	一次分配	减少30%内存分配
避免自动装箱	Integer对象满天飞	使用原始类型	减少25%对象创建
集合初始容量	HashMap频繁扩容	预设容量	减少15%内存分配

互斥锁：并发的双刃剑

就在我们以为终于搞定的时候，系统又出现了新问题：某些请求卡死，CPU使用率却很低。jstack一看，大量线程在等锁。

锁竞争分析

用JProfiler分析锁竞争情况：

锁对象	竞争线程数	平均等待时间	最长等待	影响请求数
UserCache锁	127	850ms	12s	40%
数据库连接池	89	320ms	5s	25%
日志写入锁	45	150ms	2s	15%
配置更新锁	12	50ms	300ms	5%

最严重的是UserCache的全局锁：

public class UserCache {
    private Map<String, User> cache = new HashMap<>();
    private Object lock = new Object();
    
    public User getUser(String id) {
        synchronized(lock) {  // 读也加锁，太重了！
            return cache.get(id);
        }
    }
}

锁优化方案

针对不同场景采用不同的优化策略：

优化策略	适用场景	实现复杂度	性能提升	实际案例
读写锁	读多写少	★★☆☆☆	5-10x	UserCache
分段锁	降低粒度	★★★☆☆	3-5x	HashMap->ConcurrentHashMap
无锁CAS	简单操作	★★★★☆	10-20x	计数器
乐观锁	冲突较少	★★★☆☆	2-3x	版本号控制
锁消除	不必要的锁	★☆☆☆☆	1.5-2x	局部变量

死锁检测与预防

还发现了一个隐藏的死锁：

// 线程1: 先锁A再锁B
synchronized(lockA) {
    synchronized(lockB) {
        // 处理逻辑
    }
}

// 线程2: 先锁B再锁A  
synchronized(lockB) {
    synchronized(lockA) {
        // 处理逻辑
    }
}

建立了死锁检测机制：

检测方法	实现难度	开销	准确率	使用场景
jstack命令	★☆☆☆☆	低	100%	手动排查
JMX监控	★★☆☆☆	低	100%	自动监控
超时检测	★★★☆☆	中	90%	预警
银行家算法	★★★★★	高	100%	理论研究

综合优化后的效果

经过一个通宵的奋战，系统终于稳定了：

指标	优化前	优化后	改善率
内存使用	90%+	45%	50%
GC停顿	3200ms	50ms	98.4%
响应时间P99	3000ms	85ms	97.2%
错误率	2.3%	0.02%	99.1%
吞吐量	1000 TPS	5000 TPS	400%

血泪教训总结

1. 监控要全面

建立了完整的监控体系：

监控项	工具	告警阈值	检查频率
堆内存使用率	Prometheus	>80%	10秒
GC频率	JMX	Full GC>5次/小时	1分钟
线程状态	Arthas	死锁/blocked>10	30秒
锁等待时间	JProfiler	>1秒	1分钟

2. 预防胜于治疗

制定了代码规范：

所有缓存必须有过期机制
递归必须有深度检查
大对象使用对象池
锁的粒度要尽可能小

3. 压测很重要

这次故障暴露出我们压测的不足。后来建立了更完善的压测体系，模拟各种极端场景。

写在最后

这次故障虽然折腾了一个通宵，但收获很大。内存管理看似简单，实则处处是坑。Java的自动内存管理是把双刃剑，用好了事半功倍，用不好就是灾难。

最大的感悟是：性能优化要有数据支撑，不能靠猜。每个优化点都要测量效果，有时候你以为的优化反而是负优化。

另外，团队协作真的很重要。这次能快速定位并解决问题，多亏了团队里每个人的专长：有人擅长JVM调优，有人精通并发编程，有人熟悉监控工具。

如果你也遇到过类似的内存问题，欢迎分享经验。毕竟，在内存管理这条路上，谁还没踩过几个坑呢？

最后的最后，记住一句话：代码千万行，内存第一条。管理不规范，半夜两行泪。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一次OOM故障引发的内存管理血案：我是如何在内存泄漏、栈溢出和锁竞争中杀出重围的

故障现场：内存暴涨的诡异曲线

内存泄漏：潜伏的定时炸弹

定位泄漏点

内存泄漏的常见场景

栈溢出：递归的噩梦

栈溢出的元凶

栈大小与递归深度

栈溢出的防护措施

垃圾回收：从GC优化到GC地狱

GC日志分析

GC调优实战

内存分配优化

互斥锁：并发的双刃剑

锁竞争分析

锁优化方案

死锁检测与预防

综合优化后的效果

血泪教训总结

1. 监控要全面

2. 预防胜于治疗

3. 压测很重要

写在最后

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

一次OOM故障引发的内存管理血案：我是如何在内存泄漏、栈溢出和锁竞争中杀出重围的

故障现场：内存暴涨的诡异曲线

内存泄漏：潜伏的定时炸弹

定位泄漏点

内存泄漏的常见场景

栈溢出：递归的噩梦

栈溢出的元凶

栈大小与递归深度

栈溢出的防护措施

垃圾回收：从GC优化到GC地狱

GC日志分析

GC调优实战

内存分配优化

互斥锁：并发的双刃剑

锁竞争分析

锁优化方案

死锁检测与预防

综合优化后的效果

血泪教训总结

1. 监控要全面

2. 预防胜于治疗

3. 压测很重要

写在最后

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品