线上服务Java进程假死快速排查、分析

news2024/10/7 12:25:28

线上服务Java进程假死快速排查、分析

最近我们有一台服务器上的Java进程总是在运行个两三天后就无法响应请求了,具体现象如下:

  1. 请求业务返回状态码502,查看进程还在,意味着Java进程假死,无法响应请求了;
  2. 该Java进程占比CPU较高,高达132.8%。

所以再次发生的时候我摘了这台服务器,保留现场排查该Java应用程序存在什么问题。

使用top命令查看服务器整体运行情况:

可以看到PID为14760的Java进程CPU占比132.8%,内存占用37.6%,内存倒是在合理范围内,但是这个CPU就太高了。

接下来我们就根据线上的真实情况来一步一步排查出所运行程序的问题代码。

建议大家收藏此文,以便大家遇到类似问题后可以参考排查步骤快速排查服务性能问题。

查看进程14760的线程堆栈信息

执行命令:

top -Hp 14760

打印出当前进程的所有线程的运行情况:

发现PID为14767和14768的两个线程的CPU占比分别为47.8%和47.5%,而且TIME+占比较大,说明这两个线程一直在运行。

继续使用jstack命令来查看这两个线程的堆栈信息,jstack的基本命令格式如下:

jstack <pid> | grep '16进制的线程Id'

可以通过如下命令获取14767这个线程的16进制数值:

printf '%x\n' 14767

输出:740f,执行jstack相关命令:

jstack 14760 | grep -a 0x39af -C20 --color

其中这个-C20是显示当前行的上下20行 ,如果没有这个命令就只有孤零零的当前行,看不出更多有效的信息,输出内容如下:

通过上图就可以看到线程为什么吃CPU了,如果显示的是大家自己开发的业务代码,相信大家直接就可以review代码找出问题所在了。

但是有时候我们并不能根据线程Id就能查出有问题的代码在哪里,比如上图这种情况,红框里的两个线程是GC task Thread,说明线程一直在进行GC,而上面的其他线程则是出于WAITING等待状态,也就是说造成Java服务进程假死的原因是因为JVM的长时间GC导致的Stop The World!

所以我们要找出来到底是什么原因导致的进程一直在GC,而无法响应业务请求。

jstat命令排查GC信息

既然是GC有问题,那么我们继续使用jstat命令来查看JVM heap的信息。

先来快速了解一下jstat命令的介绍和用法。

jstat命令格式如下:

jstat -<option> [-t] [-h<lines>] <vmid> [<interval> [<count>]]

相关参数:

  • -class:显示加载class的数量以及所占空间信息
  • -compiled:显示VM实时编译的数量信息
  • -gc:显示gc的信息,查看gc的次数、时间
  • -gccapacity:显示VM内存中三代(young、old、perm)对象的使用和占用大小
  • -gcutil:统计gc信息
  • -gcnew:统计VM年轻代信息
  • -gcnewcapacity:VM年轻代对象的信息及占用量
  • -gcold:VM年老代信息
  • -gcoldcapacity:VM年老代对象的信息及占用量
  • -gcpermcapacity:VM中永久代的信息及占用量
  • -printcompilation:当前VM执行的信息。

执行命令:

jstat -gcutil  14760 1000

得出的GC Heap数据如图所示:

其中:

  • S0:幸存1区当前使用比例
  • S1:幸存2区当前使用比例
  • E:伊甸园区使用比例
  • O:老年代使用比例
  • M:元数据区使用比例
  • CCS:压缩使用比例
  • YGC:年轻代垃圾回收次数
  • FGC:老年代垃圾回收次数
  • FGCT:老年代垃圾回收消耗时间
  • GCT:垃圾回收消耗总时间

从图中的数据可以发现E(Eden区)和O(Old区)的内存已经被耗尽了,占比高达100%,FGC(Full GC)的次数高达23133次,FGCT(Full GC Time)总时间高达36221.931秒,每次FGC耗时36221.931/23133≈1.6秒,很显然Java进程都把时间花在FGC上了。

jmap命令拿到dump日志文件

通过以上数据分析,可以初步定为问题发生在程序的内存泄漏上。这时候就需要使用到jmap的命令了,我们可以通过jmap命令输出指定Java进程的dump二进制文件:

jmap -dump:format=b,file=heap.bin <pid>

导出的heap二进制文件大小竟然高达1.2G!

接下来开始用MAT工具分析拿到的dump文件,关于如何使用MAT(Memory Analyzer Tools)分析dump文件,可以查阅我的另一篇文章:

MAT(Memory Analyzer Tool)-Java内存分析入门实践

由于文件超过1个G,Mac下MAT的默认Xmx是1024m,所以我们需要加大MAT的最大可用内存,否则无法分析这么大的文件。

打开MAT找到MAT在mac中的安装位置:

 

 

编辑MemoryAnalyzer.ini文件里面的xmx1024m为4096m:保存后重启MAT,查看原来的位置可以看见内容已经更改了:

开始分析dump文件!分析后得到的结果如图所示:

 

可以看到
org.hibernate.internal.SessionFactoryImpl这个实例占用了853,310,632 (92.24%) 字节,共813.3MB!目前可以知道的是在Hibernate数据查询这块有问题,具体点击Details继续跟进去找问题代码:]

图中可以看到有问题的对象好几个,占用的内存也比较大。再来看下面一张图:

Accumulated Objects by Class in Dominator Tree是支配树中按类累积对象,可以看到BoundedConcurrentHashMap只有32个对象示例,其对象树却占据了853241512字节的堆大小。我们点击进去看看这个HashMap里面都存储了什么数据:

把这个value拷贝出来,是我们业务的sql,看到这个sql我就惊讶了,这个sql传了91976个参数!

至此,我们便找出了造成Java进程假死的代码在这个SQL上。

毋庸置疑,这个SQL存在两个大问题:

  1. SQL本身是慢SQL,不能迅速查出来;
  2. SQL本身查出来的数据需要分配更多的内存。

内存不足,需要回收对象,但是查询SQL有需要更多的对象空间来存储。因此这边一直在GC,但是有回收不出来有效的空间,那就需要继续GC。所以进程一直在FULL GC,导致一直stop the world。

以上就是本次线上生产环境关于Java进程假死的问题排查分析的步骤。

大家在遇到这种问题的时候,建议大家在不影响业务正常服务的情况下,保存好现场,把握住机会,然后迅速的找到本篇文章,按照上述排查步骤快速排查出问题代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/51983.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

React18 基础入门API、JSX语法糖

文章目录一、react的一次使用react.development.jsreact-dom.development.jsReact.createElement()二、三个APIReact.createElement()ReactDOM.createRoot()root.render() 渲染页面三、JSX&#xff08;JavaScript Syntax Extension&#xff09;、babelbabelJSX使用注意事项一、…

mysql与磁盘的关系

1.如今一直在说mysql存储方式和磁盘的关系&#xff0c;但是现在都是硬盘存储啊 磁盘分为硬盘和软盘 硬盘结构&#xff08;机械硬盘和固态硬盘&#xff09;详解 硬盘的大小是使用"磁头数 x 柱面数 x 扇区数 x 每个扇区的大小 如下&#xff1a; 每个扇区的大小是固定的…

javaEE高阶---Spring MVC

一 : 什么是Spring MVC ? 1.1 概述 Spring MVC全称Spring Web MVC,又称为Spring Web,它是一个原始的基于Servlet API 的 web 框架.Q : 经典问题 : Spring/Spring Boot/Spring MVC 有什么区别 ? A : Spring&#xff0c;一般指代的是Spring Framework&#xff0c;它是一个开源…

业务数据分析-常见业务指标

目录 1、什么是指标&#xff1f; 2、以互联网电商数据为例分析常用的指标 3、如何选择指标 4、电商指标体系详细介绍 1、什么是指标&#xff1f; 我们说过分析的最终目的就是为了通过客观的数据去发现公司业务存在的问题&#xff0c;那怎么通过什么数据呢&#xff1f;业务…

连接MySQL问题的错题小集

目录 一. 连接不上数据库 踩坑 解决过程 二. Can‘t connect to MySQL server on ‘localhost:3306‘ (10061) 排查1&#xff1a;数据库没有启动 排查2&#xff1a;判断数据库是否存在 排查3&#xff1a;数据库没有启动 ​编辑 过程&#xff1a; 报错了&#xff0c;排…

12.Java 技术栈中间件优雅停机方案设计与实现全景图

Java 技术栈中间件优雅停机方案设计与实现全景图 本系列 Netty 源码解析文章基于 4.1.56.Final 版本 本文概要 在上篇文章 中笔者为大家详细介绍了 Netty 在处理连接关闭时的完整过程&#xff0c;并详细介绍了 Netty 如何应对 TCP 连接在关闭时会遇到的各种场景。 在连接关闭…

软件压力测试有哪些测试流程?软件测试报告收费情况

软件压力测试是一种基本的质量保证行为&#xff0c;它是每个重要软件测试工作的一部分。通过给软件系统不断施压&#xff0c;强制其在极限条件下运行&#xff0c;以观察软件系统可运行到哪种程度&#xff0c;从而发现系统性能缺陷。测试人员根据测试过程进行总结和分析&#xf…

[附源码]Python计算机毕业设计Django个性化产品服务管理系统论文

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

电脑重装系统后序列号怎么查

最近很多网友都在问怎么看桌面操作系统序列号&#xff0c;我们安装系统的时候是需要知道&#xff0c;其实想要知道自己电脑的序列号非常简单的&#xff0c;网友们看看下面操作就知道了。 工具/原料&#xff1a; 系统版本&#xff1a;win10 型号&#xff1a;联想小新Air 13 Pro…

【矩阵论】4. 矩阵运算——广义逆——减号逆

4.5 减号逆 若 AAmnAA_{m\times n}AAmn​ 与 XXnmXX_{n\times m}XXnm​ &#xff0c;有 AXAAAXAAAXAA &#xff0c;则称 XXnmXX_{n\times m}XXnm​ 为A的减号逆(一号逆)&#xff0c;记为 XA−A(1)XA^{-}A^{(1)}XA−A(1) 全体 A−A^{-}A− 的集合记为 A{1}{X∣AXAA}A^{\{1\}}\…

【自然语言处理概述】百度百科数据爬取

【自然语言处理概述】百度百科数据爬取 作者简介&#xff1a;在校大学生一枚&#xff0c;华为云享专家&#xff0c;阿里云专家博主&#xff0c;腾云先锋&#xff08;TDP&#xff09;成员&#xff0c;云曦智划项目总负责人&#xff0c;全国高等学校计算机教学与产业实践资源建设…

氮化镓(GaN)功率半导体之预测

前言 氮化镓&#xff08;GaN&#xff09;是一种非常坚硬且在机械方面非常稳定的宽带隙半导体材料。由于具有更高的击穿强度、更快的开关速度&#xff0c;更高的热导率和更低的导通电阻&#xff0c;氮化镓基功率器件明显比硅基器件更优越。 氮化镓晶体可以在各种衬底上生长&…

充分利用自动化测试的 10 个最佳实践

你试过吃带壳的坚果吗&#xff1f;如果是&#xff0c;我想这不是一次非常成功的经历。 虽然大家都知道坚果是非常健康和有营养的。矛盾的是&#xff0c;许多公司在实施测试自动化时没有考虑细微差别。每个人都知道它对身体有好处&#xff08;就像吃坚果对我们健康有益一样&…

线上环境不要使用console.log,会导致页面卡顿,内存泄漏的原因

在我的这篇文章中分享了一个经验&#xff0c;就是vite打包之后会自动屏蔽所有的console.log打印的日志。 那么&#xff0c;在线上环境中不要使用 console.log 打印日志&#xff0c;已经成为共识&#xff0c;你知道是为什么么&#xff1f; 原因当然在于这个罪魁祸首 console 方…

深拷贝、浅拷贝的方法

目录 浅拷贝 深拷贝 与浅拷贝概念&#xff1a; 深浅拷贝出现的前提&#xff1a; 应用类型的数据&#xff08;对象和数组&#xff09; 深拷贝就是把目标对象里面的数据一个一个都复制下来&#xff0c;创建出一个一模一样的&#xff0c;存放地 址不一样&#xff0c;互不影响。…

【白嫖】如何底价续费服务器

目录 背景 问题 缓解方案 背景 现在各大云服务商的学生价服务器都已经关闭了&#xff0c;华为云、阿里云、百度云&#xff0c;以前都有学生价服务器&#xff0c;一年只要99。现在我找半天都没找到入口&#xff0c;而原价的一年得500块起步。。。 但是&#xff01;&#xff0…

MySQL事务详解

目录 引例 什么是事务 一个完整事务所具有的四大属性 为什么会出现事务 事务常见操作方式 事务隔离级别 为什么要存在隔离级别 一致性 引例 如下图&#xff0c;是一个火车售票系统&#xff0c;当客户端A发现还有一张票时&#xff0c;将票卖掉&#xff0c;还没执行更新…

C++实现UDP可靠传输(二)

声明&#xff1a;禁止以任何形式转载本文章。本文章仅供个人学习记录与交流探讨&#xff0c;文章中提供的思路只是一种解决方案&#xff0c;代码也并非完整代码&#xff0c;如有需要&#xff0c;请自行设计协议并完成编程任务。 食用本文章之前&#xff0c;推荐阅读&#xff…

RKMEDIA--VENC/VDEC使用

前面两篇已经介绍了VI和VO的使用&#xff0c;本章节来介绍rkmedia且也是瑞芯微平台重点部分&#xff1a;编解码。 目录 一、简介 二、编解码能力 三、编码 编码初始化&#xff1a; 在初始化VENC时需要注意几点&#xff1a; venc编码帧率控制&#xff1a; 编码添加osd位图…

软件设计师考试重点1 计算机组成与体系结构

软件设计师考试重点1 计算机组成与体系结构一、 数据的表示1. 进制转换2. 原码/反码/补码/移码3. 数值表示范围4. 浮点数的运算二、运算器与控制器1. 计算机结构2. 计算机五大组成部分&#xff1a;3. CPU组成部分&#xff1a;4. 控制器组成部分&#xff1a;5. 运算器组成部分&a…