如何排查java程序的宕机和oom?如何解决宕机和oom?

news2025/3/31 20:55:33

排查oom

用jmap生成我们的堆空间的快照Heap Dump(堆转储文件),来分析我们的内存占用

用可视化工具,例如java中的jhat分析Heap Dump文件 ,它分析完会通过一个浏览器打开一个可视化页面展示分析结果

根据oom的类型来调整我们的内存配置

java.lang.OutOfMemoryError: Java heap space:堆内存不足。

java.lang.OutOfMemoryError: Metaspace:元空间(类元数据)不足。

java.lang.OutOfMemoryError: Direct buffer memory:直接内存(NIO)不足。

java.lang.OutOfMemoryError: Unable to create new native thread:线程数超出限制。

java.lang.OutOfMemoryError: GC overhead limit exceeded:GC 频繁且回收效率低

调整jvm参数

堆内存不足:

-Xms512m -Xmx4g  # 初始堆和最大堆大小
-XX:+UseG1GC      # 使用 G1 垃圾回收器(适合大堆)

metaspace元空间不足:

-XX:MaxMetaspaceSize=512m  # 限制元空间大小
-XX:+CMSClassUnloadingEnabled  # 启用类卸载(CMS GC)

直接内存不足:

-XX:MaxDirectMemorySize=256m  # 调整直接内存上限


排查宕机(JVM Crash)

1.查看崩溃日志

JVM 崩溃时会生成 hs_err_pid<pid>.log 文件,包含关键信息:

崩溃原因:如 SIGSEGV(非法内存访问)、EXCEPTION_ACCESS_VIOLATION。

堆栈信息:崩溃时的线程堆栈、本地库调用链

2.实时监控工具

jstat:查看 GC 统计信息

jstat -gcutil <pid> 1000  # 每秒打印 GC 情况

jstack:生成线程快照,分析死锁或线程阻塞

jstack <pid> > thread_dump.txt

Prometheus + Grafana:监控 JVM 内存、GC、线程等指标

启用 GC 日志

-Xloggc:/path/to/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps

JNI问题是什么?

JNI(Java Native Interface) 是 Java 提供的一种机制,允许 Java 代码与 C/C++ 等本地(Native)代码交互。例如,调用操作系统底层 API 或使用高性能计算库时,可能会用到 JNI。

为什么 JNI 容易出问题?

JNI 是 Java 和本地代码的“桥梁”,但需要手动管理内存和资源

常见问题包括:

内存泄漏:本地代码分配的内存未释放(如 malloc 后未 free)

越界访问:操作数组时越界(如 GetIntArrayElements 后越界写数据)

悬空指针:Java 对象被垃圾回收后,本地代码仍访问其指针

线程安全问题:本地代码未正确处理多线程(如未绑定 JNIEnv 到线程)

兼容性问题:编译的本地库与操作系统或 JVM 版本不兼容(如 32/64 位不匹配)

JNI 问题导致的典型现象

JVM 崩溃:日志中出现 SIGSEGV(段错误)、EXCEPTION_ACCESS_VIOLATION。

内存逐渐耗尽:本地代码内存泄漏,但 Java 堆内存正常。

应用行为异常:数据损坏、随机崩溃(如错误处理指针)。

如何排查 JNI 问题?

查看崩溃日志:JVM 崩溃时生成的 hs_err_pid<pid>.log 文件,定位崩溃的本地方法和线程

本地代码调试:

使用 GDB(Linux)或 WinDbg(Windows)调试本地库。

用 Valgrind(Linux)检查内存泄漏或越界访问。

代码审查:

确保本地代码正确释放资源(如 ReleaseArrayElements)。

避免跨线程使用 JNIEnv(每个线程需通过 AttachCurrentThread 获取)。

简化复现:隔离 JNI 调用部分,编写最小测试用例验证问题


GC日志

什么是GC日志?有什么用?

GC 日志(Garbage Collection Log) 是 JVM 垃圾回收过程的详细记录,用于分析内存管理和 GC 性能。

GC 日志的作用

诊断内存问题:

发现频繁 Full GC(可能内存泄漏)

观察对象晋升到老年代的速度(过早晋升导致 OOM)

优化 GC 性能:

分析 GC 暂停时间(Stop-The-World)是否影响应用响应

调整堆大小或选择更合适的 GC 算法(如 G1、ZGC)。

验证配置效果:

确认 JVM 参数(如 -Xmx、-XX:NewRatio)是否生效。

观察分代内存分配是否合理


GC 日志包含哪些信息?

时间戳:GC 发生的时间。

GC 类型:GC(Minor GC)、Full GC。

触发原因:如 Allocation Failure(分配失败)。

内存变化:各分代(YoungGen、OldGen)回收前后的内存大小。

耗时:user(CPU 用户态时间)、real(实际暂停时间)

GC 日志的典型分析场景

频繁 Young GC:

现象:每秒多次 Young GC。

可能原因:新生代太小或短生命周期对象过多。

解决:增大 -Xmn(新生代大小)。

长时间 Full GC:

现象:Full GC 耗时长(如超过 1 秒)。

可能原因:老年代内存不足或内存泄漏。

解决:分析堆转储(Heap Dump)检查大对象


JVM奔溃日志一般会记录什么信息?

1. 基本信息

时间戳:记录崩溃发生的具体时间,精确到毫秒甚至更细的粒度,有助于定位问题出现的时间点。

JVM 版本信息:包括 JVM 的供应商、版本号、构建号等,不同版本的 JVM 可能存在不同的特性和已知问题,这些信息对于分析问题很重要。

操作系统信息:如操作系统的名称、版本、架构(32 位或 64 位)等,因为 JVM 与操作系统的交互可能会影响其稳定性,某些问题可能与特定的操作系统环境相关

2. 崩溃原因信息

错误类型:明确指出 JVM 崩溃的错误类型,如 OutOfMemoryError(内存溢出错误)、StackOverflowError(栈溢出错误)等,这些错误类型为问题的初步定位提供了方向。

异常信息:如果是由异常导致的崩溃,会详细记录异常的类型、消息以及异常发生的调用栈信息。调用栈信息能够显示出异常是在哪些方法中被抛出的,帮助开发人员追踪代码执行路径,找到引发问题的具体代码位置

3. 内存信息

堆内存使用情况:记录 JVM 堆内存的大小、已使用的堆内存量、剩余的堆内存量等信息。通过这些数据可以判断是否存在内存泄漏或内存使用不合理的情况。

非堆内存使用情况:对于 JVM 中的非堆内存,如方法区、本地方法栈等,也会有相应的使用情况记录,有助于全面了解 JVM 的内存占用情况。

垃圾回收信息:包括垃圾回收的次数、不同代(新生代和老年代)的垃圾回收情况、垃圾回收所花费的时间等。垃圾回收如果出现异常,可能导致内存无法及时释放,进而引发 JVM 崩溃,这些信息可以帮助分析垃圾回收是否正常工作


我们一开始什么都不知道的时候,我怎么知道这个是oom还是宕机

一、观察现象:快速区分 OOM 和宕机

特征

OOM(内存溢出)

JVM 宕机(Crash)

进程是否存活

进程可能仍在运行(但无法处理请求)

进程直接退出(JVM 崩溃)

日志中的关键字

OutOfMemoryError

java.lang.OOM

hs_err_pid<pid>.log

(崩溃日志)

直接表现

抛出异常,可能部分功能不可用,但进程未退出

应用突然消失(如终端打印 Segmentation Fault

是否生成堆转储文件

如果配置了 -XX:+HeapDumpOnOutOfMemoryError

,会生成 .hprof

文件

不会生成堆转储文件,但会生成崩溃日志文件

二、实操步骤:快速定位问题类型
1. 第一步:检查进程是否存在

进程还在 → 可能是 OOM 或普通错误(如线程阻塞)。

进程消失 → 可能是 JVM 宕机


2. 第二步:查看应用日志

快速搜索日志中的关键字:

# 查看最近的应用日志(替换为实际路径)
tail -n 100 /path/to/application.log | grep -i "outofmemoryerror"

关键日志示例

OOM

java.lang.OutOfMemoryError: Java heap space

JVM 宕机

没有 OOM 错误,但进程消失。

可能在系统日志中看到 Segmentation fault(Linux)或 EXCEPTION_ACCESS_VIOLATION(Windows)


3.第三步:检查崩溃日志(仅宕机)

如果进程消失,JVM 会生成崩溃日志 hs_err_pid<pid>.log

存在 hs_err_pid.log → JVM 宕机(需分析崩溃原因)。

不存在该日志 → 可能是 OOM 或其他问题


4.第四步:验证 OOM 的堆转储文件

如果配置了 -XX:+HeapDumpOnOutOfMemoryError,OOM 时会生成 .hprof 文件

结论:

存在 .hprof 文件 → OOM。

不存在 → 可能是未配置参数,或非堆内存问题(如 Metaspace OOM)


快速总结

进程活着 + 日志有 OOM 错误 → OOM

进程消失 + 存在 hs_err_pid.log → JVM 宕机

进程消失 + 无崩溃日志 → 可能是系统杀死(如 OOM Killer)或其他原因


面试问答:如果我们的java程序出现了宕机或oom我们该怎么排查

我们一开始并不知道我们的程序出现错误是因为宕机了还是oom?

是因为服务器资源紧张还是java程序配置不合理的原因?

所以我们首先先用top命令去看看服务器整体的内存占用百分比,看看内存是否紧张,我们一般用top命令去查看,但一般都会有现成的监控工具和报警工具,例如普罗米修斯

如果服务器资源不紧张的话,那可能才是java程序本身出了问题

我们要查看java程序是否存活

进程活着 + 日志有 OOM 错误 → OOM

进程消失 + 存在 hs_err_pid.log → JVM 宕机

进程消失 + 无崩溃日志 → 可能是系统杀死(如 OOM Killer)或其他原因

启动Java应用时添加 JVM 参数:

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dump.hprof

OOM 发生时,JVM 会自动生成堆转储文件到指定路径

如果java程序仍然存活,说明出错是因为oom,我们内存oom的话我们会生成一个headdump转储文件

然后我们查看我们的oom的类型

java.lang.OutOfMemoryError: Java heap space:堆内存不足。

java.lang.OutOfMemoryError: Metaspace:元空间(类元数据)不足。

java.lang.OutOfMemoryError: Direct buffer memory:直接内存(NIO)不足。

java.lang.OutOfMemoryError: Unable to create new native thread:线程数超出限制。

java.lang.OutOfMemoryError: GC overhead limit exceeded:GC 频繁且回收效率低

Metaspace属于非堆内存,它的OOM可能和堆OOM表现类似,即JVM进程可能仍然存在,但无法继续加载类,导致应用无法正常运行

我们根据错误类型来调整我们的堆内存的空间配置

如果java程序没有存活,说明就是宕机或者崩溃了

我们的JVM崩溃的时候会生成崩溃日志 hs_err_pid<pid>.log,里面会记录着我们的jvm的崩溃原因信息,jvm信息,内存信息等,然后我们进行分析

这个都是出问题的时候我们根据文件排查的,但是有时候出了问题我们从文件排查不出来,我们就要用jvm工具来排查oom了

我们可以用jmap来手动生成当前堆内存的转储文件headdump,然后用jhat来打开我们的dump文件来分析结果

通过jconsole和普罗米修斯等可视化实时监控工具来查看堆内存,线程,类信息等

jstack分析线程,检查线程是否阻塞在某个对象分配上(例如等待锁导致内存无法释放)

启用gc日志:

-Xloggc:/path/to/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps

通过可视化gc日志GCViewer来查看gc回收相关信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

26_ajax

目录 了解 接口 前后端交互 一、安装服务器环境 nodejs ajax发起请求 渲染响应结果 get方式传递参数 post方式传递参数 封装ajax_上 封装ajax下 了解 清楚前后端交互就可以写一些后端代码了。小项目 现在写项目开发的时候都是前后端分离 之前都没有前端这个东西&a…

Kafka中的消息是如何存储的?

大家好&#xff0c;我是锋哥。今天分享关于【Kafka中的消息是如何存储的&#xff1f;】面试题。希望对大家有帮助&#xff1b; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Kafka 中&#xff0c;消息是通过 日志&#xff08;Log&#xff09; 的方式进行存储的。…

Altium Designer——同时更改多个元素的属性(名称、网络标签、字符串标识)

右键要更改的其中一个对象&#xff0c;选择查找相似… 进入到筛选界面&#xff0c;就是选择你要多选的对象的共同特点&#xff08;名字、大小等等&#xff09;&#xff0c;我这里要更改的是网络标签&#xff0c;所以我选择Text设置为一样。 点击应用就是应用该筛选调节&#…

当模板方法模式遇上工厂模式:一道优雅的烹饪架构设计

当模板方法模式遇上工厂模式&#xff1a;一道优雅的烹饪架构设计 模式交响曲的实现模板方法模式搭建烹饪骨架&#xff08;抽象类&#xff09;具体菜品&#xff08;子类&#xff09; 工厂模式 模式协作的优势呈现扩展性演示运行时流程控制 完整代码 如果在学习 设计模式的过程中…

企业级知识库建设:自建与开源产品集成的全景解析 —— 产品经理、CTO 与 CDO 的深度对话

文章目录 一、引言二、主流产品与方案对比表三、自建方案 vs. 开源产品集成&#xff1a;技术路径对比3.1 自建方案3.2 开源产品集成方案 四、结论与个人观点 一、引言 在当今数据驱动的商业环境中&#xff0c;构建高质量的知识库已成为企业数字化转型的关键一环。本博客分别从…

vue3项目配置别名

vue3项目配置别名 src别名的配置TypeScript 编译配置如果出现/别名引入报找不到的问题 src别名的配置 在开发项目的时候文件与文件关系可能很复杂&#xff0c;因此我们需要给src文件夹配置一个别名&#xff01;&#xff01;&#xff01; // vite.config.ts import {defineCon…

[ C语言 ] | 从0到1?

目录 认识计算机语言 C语言 工欲善其事必先利其器 第一个C语言代码 这一些列 [ C语言 ] &#xff0c;就来分享一下 C语言 相关的知识点~ 认识计算机语言 我们说到计算机语言&#xff0c;语言&#xff0c;就是用来沟通的工具&#xff0c;计算机语言呢&#xff1f;就是我们…

[Mac]利用Hexo+Github Pages搭建个人博客

由于我这台Mac基本没啥环境&#xff0c;因此需要从零开始配置&#xff0c;供各位参考。 注意⚠️&#xff1a;MacBook (M4)使用/bin/zsh作为默认Shell&#xff0c;其对应的配置文件为~/.zshrc 参考文档&#xff1a; HEXO系列教程 | 使用GitHub部署静态博客HEXO | 小白向教程 文…

Qt在IMX6ULL嵌入式系统中图片加载问题排查与解决

Qt在IMX6ULL嵌入式系统中图片加载问题排查与解决&#xff08;保姆级教学&#xff01;&#xff09; 在使用Qt开发IMX6ULL嵌入式系统的过程中&#xff0c;我遇到了图片加载的常见问题。本文将分享问题排查的详细过程和解决方案&#xff0c;希望能帮助遇到类似困难的开发者。 问题…

界面控件Telerik和Kendo UI 2025 Q1亮点——AI集成与数据可视化

Telerik DevCraft包含一个完整的产品栈来构建您下一个Web、移动和桌面应用程序。它使用HTML和每个.NET平台的UI库&#xff0c;加快开发速度。Telerik DevCraft提供完整的工具箱&#xff0c;用于构建现代和面向未来的业务应用程序&#xff0c;目前提供UI for ASP.NET MVC、Kendo…

pycharm终端操作远程服务器

pycharm项目已经连接了远程服务器&#xff0c;但是打开终端&#xff0c;却依旧显示的是本地的那个环境&#xff0c;也就是说没有操作远程的那个环境。只能再使用Xshell去操作远程环境&#xff0c;很麻烦&#xff0c;找了下教程。 来源&#xff1a;https://blog.csdn.net/maolim…

接口测试中数据库验证,怎么解决?

在接口测试中&#xff0c;通常需要在接口调用前后查询数据库&#xff0c;以验证接口操作是否正确影响了数据库状态。​这可以通过数据库断言来实现&#xff0c;PyMySQL库常用于连接和操作MySQL数据库。​通过该库&#xff0c;可以在测试中执行SQL语句&#xff0c;查询或修改数据…

Playwright从入门到实战:比Selenium更快的数据爬取案例实战

摘要 Playwright 是微软开源的下一代浏览器自动化工具&#xff0c;凭借其高性能、跨浏览器支持和现代化设计&#xff0c;迅速成为 Web 自动化领域的热门选择。本文将从 安装配置 开始&#xff0c;通过 实战演练 展示其核心功能&#xff0c;并与 Selenium 深度对比&#xff0c;…

day1_Flink基础

文章目录 Flink基础今日课程内容目标为什么要学Flink技术更新迭代市场需求 流式计算批量计算概念特点 批量计算的优势和弊端流式计算生活中流场景流式计算的概念 Flink简介Flink历史Flink介绍 Flink架构体系已学过的框架技术Flink架构 Flink集群搭建Flink的集群模式Standalone模…

使用FastExcel时的单个和批量插入的问题

在我们用excel表进行插入导出的时候&#xff0c;通常使用easyexcel或者FastExcel&#xff0c;而fastexcel是easy的升级版本&#xff0c;今天我们就对使用FastExcel时往数据库插入数据的业务场景做出一个详细的剖析 场景1 现在我们数据库有一张组织表&#xff0c;组织表的字段…

交换技术综合实验

一、实验拓扑 二、实验要求 内网IP地址使用172.16.0.0/16分配。 SW1和SW2之间互为备份。 VRRP/STP/VLAN/Eth-trunk均使用。 所有PC通过DHCP获取IP地址。 ISP只能配置IP地址。 所有电脑可以正常访问ISP路由器。 三、实验步骤 基于172.16.0.0/16进行划分 172.16.2.0/24&…

记录Jmeter 利用BeanShell 脚本解析JSON字符串

下载org.json包(文档说明) #下载地址 https://www.json.org/ # github 地址 https://github.com/stleary/JSON-java # api 文档说明 https://resources.arcgis.com/en/help/arcobjects-java/api/arcobjects/com/esri/arcgis/server/json/JSONObject.htmlBeanShell脚本 import…

深入解析音频:格式、同步及封装容器

物理音频和数字音频 物理音频 定义&#xff1a;物理音频就是声音在自然界中的物理表现形式&#xff0c;本质上是一种机械波&#xff0c;通过空气或其他介质传播。例如&#xff0c;当我们说话、乐器演奏或物体碰撞时&#xff0c;都会产生振动&#xff0c;这些振动会引起周围介…

RPCGC阅读

24年的MM 创新 现有点云压缩工作主要集中在保真度优化上。 而在实际应用中&#xff0c;压缩的目的是促进机器分析。例如&#xff0c;在自动驾驶中&#xff0c;有损压缩会显着丢失户外场景的详细信息。在三维重建中&#xff0c;压缩过程也会导致场景数据中语义信息(Contour)的…

医疗CMS高效管理:简化更新维护流程

内容概要 医疗行业内容管理系统&#xff08;CMS&#xff09;的核心价值在于应对医疗信息管理的多维复杂性。面对诊疗指南的动态更新、科研数据的快速迭代以及多机构协作需求&#xff0c;传统管理模式往往面临效率瓶颈与合规风险。现代化医疗CMS通过构建结构化权限管理矩阵&…