昨天线上网关突然无法访问。打开日志看到错误信息“io.netty.util.internal.OutOfDirectMemoryError” 堆外内存溢出。。这也没碰到过啊,看来今天准点下班的愿望又落空了。老规矩面向百度编程。先看看网上有没有其他兄弟碰到这个问题。一顿搜索之后发现,很多博客都是一知半解并不能解决我的问题。但是大概得到一个信息,这bug是有netty导致的,一般是用了ByteBuf对象没有调用release()释放内存。
但是项目代码这么多如何排查具体的问题代码呢?我灵机一动,netty本身有没有提供排查工具呢?继续百度发现Netty自身已经自带了内存泄漏检测工具,可用于检测出ByteBuf对象被GC回收,但ByteBuf管理的内存没有释放的情况(但不适用ByteBuf对象还没被GC回收内存泄漏的情况,例如任务队列积压)为了便于用户发现内存泄露,Netty提供4个检测级别:
disabled 完全关闭内存泄露检测
simple 以约1%的抽样率检测是否泄露,默认级别
advanced 抽样率同simple,但显示详细的泄露报告
paranoid 抽样率为100%,显示报告信息同advanced
奶思!
本地把把项目跑起来,记得加JVM参数 -Dio.netty.leakDetectionLevel=paranoid 开启netty自带检测,级别调到最高(火力全开!)。项目跑了不一会就看到了报错信息:
如上图已经提示了错误发生的地方,自行去代码中改就好。一般是对于ByteBuf申请相关代码的操作没有加Release操作。可通过在ReferenceCountUtil.safeRelease(buf);来释放。
这时候大多数情况下的问题都解决了。秀儿我单纯以为终于可以喝口茶准备下班了。
事实证明,我的问题恰恰不在大部分里面。。。报错信息的位置都是在框架源码中。我去哪里加release??
经过一番激烈的研究(百度),应该是依赖版本的bug。升级下版本就好了。
<groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.2.6.RELEASE</version>
升级到
<groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.2.13.RELEASE</version>
<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-gateway</artifactId> <version>2.2.5.RELEASE</version> </dependency>
升级到
<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-gateway</artifactId> <version>2.2.8.RELEASE</version> </dependency>
重启,问题解决!