内存溢出问题排查

news2024/12/23 7:34:14

一、问题背景

下午突发服务器CPU频繁撑爆,服务启动后不久就挂掉。一周前系统有一次投产,之后再没有更新过系统。同时在日志中看到大量的dubbo服务调用失败。

二、排查问题产生原因

1.查看JVM崩溃日志hs_err_pid.log

JVM崩溃时会生成hs_err_pid_xxx.log日志文件,记录堆栈信息、线程情况、系统信息等,可以通过-XX:ErrorFile 指定该日志文件输出路径。

首先看日志中的线程情况,存在大量的dubbo线程阻塞:

崩溃日志的堆栈部分可以看到GVM堆内存老年代已经达到99%,新生代内存也所剩不多:

结合日志中10次垃圾回收情况,可以看到老年代接近满负荷基本无法被回收,在这种情况下年轻代的内存对象无法放入老年代,随着几次YoungGC就会导致堆内存溢出。

结合以上情况基本可以判定是内存溢出导致服务宕机,线程无法释放,将CPU撑爆。

2.代码排查

  1. 排查最近上线代码是否存在以下情况:

死循环:未发现。

慢SQL:经分析dump文件发现一个可疑SQL,只有140万条数据,但查询需要5分钟。

大数据量查询:未发现。

高并发请求:未发现。

  1. 排查下游系统调用是否正常

在日志中发现POST请求异常,但不至于导致系统崩溃,可排除该情况,未发现其他调用三方异常。

3.内存溢出dump文件分析

在JVM参数中配置以下参数 XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath,当内存溢出时输出Dump文件,dump文件名格式为xxx.hprof。

下载Eclipse Memory Analyzer对dump文件进行分析,下载地址:https://www.eclipse.org/mat/previousReleases.php

最新版要求jdk11+,这里我选择1.9.0,可以支持jdk8。

打开MAT,File--->open dump file--->选择本次输出的dump文件,可以看到如下总览页面,点击Leak Suspects查看内存泄露分析。

进入Leak Suspects可以看到,有2处可疑的内存泄露问题,占用了绝大部分内存,接下来分析这2处问题。

这里先说一下结论,堆内存总共3.1G,Suspect1问题指向一个慢SQL,间接导致1.7G内存无法回收,Suspect2 由com.mysql.jdbc.ByteArrayRow导致1.2G内存无法回收,原始sql指向与Suspect1同样的慢SQL,这样就基本可以确定是这一条慢SQL导致的内存溢出。

点击Suspect1 details,展示如下页面:

这里很明显地标出了一个业务实体类占用了大量内存,从图片最下方可以看到,该类有116万个对象存活,占用148965Kb内存,100多M也不算多,但看后一项Retained Heap Size是1873201Kb,高达1.7G。

Retained Heap Size是本身占用的内存+间接引用的对象的大小,JVM垃圾回收是当对象不再被引用时才能会回收,那么很明显这个业务实体类间接导致1.7G内存无法回收。

然后继续往下看,Tread Stack线程栈部分,明确地给出了该业务实体类代码位置,在一个Service方法中该实体类作为返回值列表返回,同时该Service方法的底层就是调用上面提到的慢SQL。

回到Leak Suspect页面,点击Suspect2---》details,查看第二个疑似泄漏点。

从支配树 Dominator Tree可以看到,问题指向Mybatis SQL执行,但从这里看不到问题的源头。

接下来看Shortest Paths To the Accumulation Point(应该是最近接GC Root的聚集点),这里有一个JDBC4PrepareStatement,很明显这是预处理SQL,点击左侧栏Attribute-originalSql,可以看到这里有一个select语句,与Suspect1中的慢SQL相同。

4.问题原因定位

最终定位到问题原因是慢SQL导致内存无法回收,然后导致线程阻塞,CPU被撑爆。

但仍有一个疑点,如果是慢SQL问题为什么一周之后才爆发?

经排查是因为一笔特殊业务传参不全,导致SQL查询缺少条件,就变成慢SQL了。但一百多万调数据查询几分钟仍不合理。

根据排查情况来看,当出现内存溢出时,业务日志基本上无法用于定位问题根源,因为系统崩溃连锁反应会阻塞所有线程和数据库SQL执行,无法从海量的报错里找出引发崩溃的源头。

建议先排查GC日志和线程情况,确定内存溢出问题的话,直接拿dump文件分析问题源头,同时复盘最近提交的代码是否存在可疑的内存泄露。不过根据这次排查发现导致问题的原因并不是最近提交的代码,所以还是建议优先分析dump文件定位泄露源。

三、解决方案

1.由于该慢SQL并非正常业务产生,所以要在业务层进行限制,保证按正常查询条件执行。

2.解决慢SQL查询问题,杜绝之后出现类似情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/144683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面经分享|2022年秋招斩获7个规控算法工程师offer

该面经来自深蓝学院用户投稿,作者为东北大学自动化专业硕士。 作者2022年秋招情况:投递的岗位包括决策规划,规划控制和控制岗位。本人累计投递70家自动驾驶公司,最终收获10多家公司的笔试或面试反馈。最终拿到的offer包括主机厂、…

抖音短视频运营中的六大定位法

抖音六大定位法 1年龄反转法年龄反转法的秘诀就是指,所设定的人物、性格与实际的年龄并不是特别符合,从而让用户产生比较强烈的差异感。比如之前很火的北海爷爷,是一位有着七十多岁高龄的先生,但他依然很有精神,举止优…

【Mybatis-plus 入门教程】

🌈博客主页:屠一乐的博客 📅 发文时间:2023.1.6 🎈 一定存在只有你才能做成的事 🌹 博主水平有限,如有错误,欢迎指正 欢迎各位👍收藏💎评论✉ MyBatisPlus …

舆情监测技术手段有哪些,网络舆情监测监测技术应用到哪些方面?

随着网络舆情的快速发展,舆情影响到方方面面,大多数企业将网络舆情监测纳入其日常工作。对于舆情监测上如何做到全面监测,那些技术上可以实现,接下来TOOM舆情监测小编带您简单了解舆情监测技术手段有哪些,网络舆情监测…

C语言 文件处理

文件操作 为什么使用文件 什么是文件 程序文件 数据文件 文件名 文件的打开和关闭 文件指针 只要没打开一个文件就会有一个文件信息区,只要一更改文件信息区也会跟着更改 **FILE *fopen( const char filename, const char mode ); filename 文件名 *char mode 打…

疑难杂症之vscode--During startup program exited with code 0xc0000139.--缺失重要文件(杂记)

问题展示在vscode中,只要用了STL容器,就会出现这样的提示发现自己的 vscode 不能运行带有部分 stl 库的程序,编译不会报错,运行也不会报错但是也没有结果,调试的话会有下图中报错。拿一个以前的程序做测试,…

Java 集合系列:Vector源码深入解析

概论 学完ArrayList和LinkedList之后,我们接着学习Vector。学习方式还是和之前一样,先对Vector有个整体认识,然后再学习它的源码;最后再通过实例来学会使用它。 第1部分 Vector介绍 Vector简介 Vector 是矢量队列,…

java服装商城购物商场项目源码

简介 Java基于ssm开发的服装商城,用户可以浏览商品和特价商品,加入购物车,直接下单支付,在我的个人中心里可以管理自己的订单,收货地址,编辑资料等。管理员可以发布商品,上下架商品&#xff0c…

Neo4j详细介绍及使用教程

文章目录一、Neo4j介绍1.Neo4j简介2.图数据库简介3.Neo4j的优缺点4.Neo4j的常见应用场景二、使用教程1.下载安装2.数据插入和查询(1)基本概念(2)基本语法Ⅰ.CREATE操作——创建Ⅱ.MERGE——创建或更新Ⅲ.Match操作——查找指定的图数据Ⅳ.DELETE操作——删除节点3.JAVA实战一、…

FPGA之VGA/LCD数字时钟显示

文章目录前言一、LCD显示控制1.LCD显示一个字符2.LCD显示多个字符二、数字时钟输出1.数字时钟2.十进制数据拆分BCD码三、按键检测及LCD驱动1.按键检测2.LCD驱动四、总结前言 软件实现了在4.3寸LCD左上角显示一个数字时钟,效果如下图所示。本文针对VGA/LCD控制时许有…

leetcode:2103. 环和杆(python3解法)

难度:简单 总计有 n 个环,环的颜色可以是红、绿、蓝中的一种。这些环分布穿在 10 根编号为 0 到 9 的杆上。 给你一个长度为 2n 的字符串 rings ,表示这 n 个环在杆上的分布。rings 中每两个字符形成一个 颜色位置对 ,用于描述每个…

makefile 入门

make常用选项 # make 默认在当前目录中寻找GUNmakefile,makefile,Makefile的文件作为make的输入文件 # -f 可以指定默认的输入文件名,如: -f MyMakefile # -v 显示make版本号 # -n 只输出命令,但不执行,一般用于测试 # -s 只执行命令,但不显示具体命令,与在命令中使用作用一样…

第四十四讲:神州防火墙双机热备配置

两台防火墙硬件型号和软件版本都完全相同,为了避免防火墙不堪重负而宕机引起网络中断,可以考虑应用双机热备(HA)解决方案。双机热备能够把两台防火墙构成一个工作组,一主一备,保证数据通信畅通,…

【实际开发01】- 单元测试 ( 追求正确性 )

目录 0. 单元测试 概念 / 解析 1. 为什么要进行单元测试 1. JUnit ~ Test 2. IDEA 中使用 junit 单元测试 , 不能使用 Scanner 的解决方法 3. Junit 测试 Tutorial 1. daiding 4. Test 修饰的方法必须 public 1. validatePublicVoidNoArgMethods(Test.class, false, er…

功率二极管的损耗分析和选型原则

功率二极管的损耗分析和选型原则 tip:参考网上资料,学习为主 1.二极管的分类 2.二极管的损耗组成 3.二级管的损耗分析 4.应用实例1.Flyback电源电路二极管损耗计算 5.实例应用2.BOOST电路二极管损耗计算 6.实例应用3.大功率整流桥二极管参数计算 7.选型…

sqli-labs 5~6 多命通关攻略

sqli-labs 5~6 多命通关攻略描述判断注入类型正常输入不正常输入错误输入判断 SQL 查询结果的列数猜测 SQL 查询结果中的列数为两列猜测 SQL 查询结果中的列数为三列猜测 SQL 查询结果中的列数为四列爆破方式的可行性函数 UpdateXML()爆破(报错注入)爆破…

农业智能化进入“刚需时代 ” ,维视智造机器视觉实验室赋能新农科人才培养

1、传统农业数字化转型 新农科人才急需紧缺数千年来,农业是我国立国基础,农业兴衰关系到国家的命运。在大力推动乡村振兴的背景下,高校作为强农兴农的“国之重器”,在培育“农”的传人、新农科建设方面扮演着不可替代的角色。世界…

C++入门——内联函数、extern “C“

一. 内联函数 1.概念及分析 以inline修饰的函数叫做内联函数,编译时C编译器会在调用内联函数的地方展开,没有函数调 用建立栈帧的开销,内联函数提升程序运行的效率。 int Add(int a, int b) {int c a b;return c; }int main() {int re…

聚焦技术创新实力,时序数据库 TDengine 荣登中国技术先锋年度评选两大榜单

2023 年 1 月 5 日,中国技术先锋年度评选 | 2022 中国最受开发者欢迎的技术活动榜单正式发布。作为中国领先的新一代开发者社区,SegmentFault 思否依托社区活动板块及全站数百万开发者用户行为数据,及活动规模、内容好评度、行业综合影响力指…

Go语言设计与实现 --调度器(详细介绍)

GMP和GM模型 先来一张图: G(Goroutine):代表Go 协程Goroutine,存储了 Goroutine 的执行栈信息、Goroutine 状态以及 Goroutine 的任务函数等。G的数量无限制,理论上只受内存的影响,创建一个 G 的初始栈大小为2-4K&…