问题说明
springBoot 微服务项目,生产环境突然CPU和内存使用率都100%,导致接口请求超时。
初步排查
- 接口慢首先排除数据库和慢sql的影响,本次问题是所有接口同事慢,不是单个接口,所以不是数据库问题。
- 大面积接口慢很可能是CPU负载高,生产环境都有服务器监控,查看监控。
- 如果CPU很高,内存正常,很可能是那一段程序消耗cpu。首先使用阿里的arthas工具,thread -n命令查看cpu高的堆栈,然后再解决。
我们遇到的是内存也很高,很可能是垃圾回收占用CPU,先用命令行快速排查一遍。
jstat查看堆内存使用情况:jstat -gcutil 1 1000
1000ms输出一次,线程pid=1的内存使用情况
jmap查看存活对象:jmap -histo:live 1
统计pid=1的程序,存活对象使用情况,发现两百多万个业务对象。
总结:以上排查都是现有监控和简单命令行,进入服务器就可以快速得到结论。由于业务对象有几十个地方都用到了,不确定那个方法引起的,所以需要进一步深度排查,dump内存进行分析
使用MAT工具分析dump内存
-
保留事故现场,dump内存
jmap -dump:format=b,file=/test/jmap_dump_all.hprof
我们服务器内存比较大,dump文件7G,先zip压缩再下载到本地进行分析。zip压缩后大小1G。 -
安装和调试mat工具
- 我用的mac,下载mac最新版本 : https://www.eclipse.org/mat/previousReleases.php
- 由于国内主流是java8,mat工具打开会报错,最新版本需要java11启动。
下载解压jdk11(不用配置环境变量) 进入Oracle 官网:https://www.oracle.com/java/technologies/downloads/#java11 - 配置jdk
step1. 在应用列表,找到mat应用,然后右键单击后,选择“显示包内容”
step2. 进入Contents目录,找到Info.plist文件
step3. 打开Info.plist文件
step4. 编辑-vm配置,将解压的jdk11目录配置上
- 默认只能打开1024M的文件,7G文档打开会报错OOM
- 使用mat工具
- 用mat工具打开dump文件
- 点击dominator_tree
- 查看内存占用高的详情,根据堆栈找到入口接口
最后
mat工具找到占用内存的入口堆栈和具体对象,最后就是根据业务去优化了