前言
jvm添加以下参数,发生OOM时自动导出内存溢出文件
-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/opt
内存分析工具: MAT, 下载地址:Eclipse Memory Analyzer Open Source Project | The Eclipse Foundation, 注意工具地址要跟你的jdk匹配,至少你的jdk要比MAT的需要的高
参考使用地址:JVM 内存分析工具 MAT 的深度讲解与实践——入门篇 - 掘金
生产业务简单描述
小程序注册用户推送,需要发布一个注册事件进行上报处理,逻辑需要设备的数据,而这部分数据发生在用户注册以后才会生成,可能隔个几秒才会出来,所以才需要借助延时队列进行处理。10s后再进行发布
之所以会有这种并发问题是因为这个小程序在有广告投放的时候会瞬间很多流量打进来,从而引起这种问题。
分析dump文件
主界面如下
Histogram方式
然后选择如下信息
可以看到byte[]的第一个引用是com.zxc.movie.main.bo.movie.ScheaTest$ZxcUser,到此就能找到源头了,可以全局搜索该类的引用情况
dominator_tree方式
也可以很容易定位到com.zxc.movie.main.bo.movie.ScheaTest$ZxcUser引用的问题
模拟代码如下
package com.zxc.movie.main.bo.movie;
import java.util.concurrent.ScheduledThreadPoolExecutor;
import java.util.concurrent.TimeUnit;
public class ScheaTest {
public static void main(String[] args) throws Exception{
ScheduledThreadPoolExecutor executor = new ScheduledThreadPoolExecutor(1);
// TimeUnit.SECONDS.sleep(20);
System.out.println("come");
while (true) {
Thread.sleep(100);
executor.schedule(new ZxcRunner(), 1000, TimeUnit.SECONDS);
}
}
public static class ZxcRunner implements Runnable {
private ZxcUser zxcUser = new ZxcUser();
public ZxcUser getZxcUser() {
return zxcUser;
}
@Override
public void run() {
System.out.println(zxcUser);
}
}
public static class ZxcUser {
private byte[] bytes = new byte[1024 * 1024];
}
}
确实是com.zxc.movie.main.bo.movie.ScheaTest$ZxcUser出现了问题
总结
这里是我模拟的一个情况,可能比较好定位,真实的业务情况可能稍微复杂点,但是业务就是这么个事,延时任务里面对象一瞬间过多导致内存溢出了
解决方案
真实的业务情况不会推迟1000s才执行任务,大概在10s内就可以发出去了,这里只是为了更好的看到这个问题,也就是说生产上在10s内进入了很多事件,导致发生了OOM的问题,改进如下
package com.zxc.movie.main.bo.movie;
import java.util.concurrent.ScheduledThreadPoolExecutor;
import java.util.concurrent.TimeUnit;
public class ScheaTest {
public static void main(String[] args) throws Exception{
ScheduledThreadPoolExecutor executor = new ScheduledThreadPoolExecutor(1);
// TimeUnit.SECONDS.sleep(20);
while (true) {
Thread.sleep(100);
if(executor.getQueue().size() < 5) {
executor.schedule(new ZxcRunner(), 1000, TimeUnit.SECONDS);
} else {
System.out.println("队列满了,待释放");
}
}
}
public static class ZxcRunner implements Runnable {
private ZxcUser zxcUser = new ZxcUser();
public ZxcUser getZxcUser() {
return zxcUser;
}
@Override
public void run() {
System.out.println(zxcUser);
}
}
public static class ZxcUser {
private byte[] bytes = new byte[1024 * 1024];
}
}
改为了判断队列的大小超过指定值就不放进去了,这样生产10s出现很多内容也不会有问题了,解决完效果如下
当队列小于指定的大小便可以正常加入,超出的时候就把任务丢了,防止内存异常,这里把任务丢了是因为业务允许,如果业务不允许那么就需要把这部分任务给存储起来后续再进行操作
备注
之所以这样做是因为生产这方面的数据是允许丢失的,如果你的数据比较重要的话那可以先临时存到其他地方,然后再拿出来去处理,或者数据不要用这种内存的方式来异步了,可以借助MQ的延时队列去处理