一次OOM故障分析

news2025/1/10 23:43:22

一、前言

昨天门店POS系统发生了一次因为OOM引起的Down机事件,本文我们就来讲一下故障排查和解决问题过程。

二、故障发生

吃完中饭正在休息,业务方说POS的后台管理系统进行库存盘点出错,截图过来的报错信息里有:连接POS前台系统的HTTP请求报Readtime Out,第一反应是澳洲的网络出问题了,然后让业务方把条码给我自己操作了一下也不行,紧接着业务方又发信息过来说所有门店POS系统都无法下单,这时候人就紧张起来了,马上登录到机器上执行Top命令查Load状况,机器负载没有什么问题,处于低水位运行,这时候就猜想极有可能是JVM OOM了,不管3721重启应用再说吧,一般重启应用能解决99%的问题,重启后系统恢复正常。

注:在处理故障的时候都是先解决问题再说,很难有时间去考虑保留现场,所以需要通过监控或者日志保存数据都应该事先做好。

三、事后分析过程

1、查看JVM内存变化情况以及FuLLGC的状况。

使用自己写的一个小工具查看机器监控数据,小工具的代码可以看  《Linux Shell + MySQL实现一个简单监控》

在05:23的时候 堆内存老年代占用空间猛增,并且开始触发频繁FullGC,通过该小工具故障发生时间可以明确定位出来。Gc日志因为重启已经丢失。

注:发生时间点的定位是很重要的事情,这在你排查日志时知道越准确的时间越容易定位。

2、定位access.log日志,查看当时时间节点有哪些接口请求

 主要是怀疑有大量的请求或代码不严谨,造成请求数据库返回的结果集太大造成OOM,但发现那个时间点调用的接口很多,一时难定位具体是哪个接口造成问题。

3、查看JVM 崩溃日志  hs_err_pid19369.log

JVM崩溃会生成一个Log文件

只发现了Out of Memory Error,没有更具体能直接定位的的输出。

4、分析OOM时dump出来的堆内存日志

首先需要在启动应用时添加如下的JVM参数,在JVM发生OOM时才会将当时堆内存情况DUMP出来。

然后把日志文件Down到自己电脑,jvisualvm打开分析

四、真正定位问题

一般造成OOM常见原因有如下这些

  • 超出预期的访问量/返回数据量,比如促销活动造成业务峰值,但我们门店POS系统流量相对平稳,不太可能有这种事情发生。

    SQL返回的数据量,一般SQL请求批量返回数据都是分页查询,统计数据也不会有大量的数据返回,存在一种情况就是根据某个字段去查,但符合条件的数据记录数量很大。

  • 创建一个超大对象,大数组。

  • 内存泄露,造成大量对象的引用没有被回收,这种在Android客户端开发经常会发生,这与Android对象的生命周期有关,服务端相对来讲要好很多。

根据我们业务场景分析最大的怀疑还是在偶然情况下触发了SQL返回大量的数据,那如何定位哪条SQL呢,druid监控的SQL日志因为JVM重启也已经丢失。然后发现我们的日志有输出SQL执行结果影响的行数。

但直接去那个时间段异常的数据SQL也很难,这时候我们就可以使用AWK来分析日志了。

cat tmp.log | awk '{print $1,$2,$7,$8}'  > tmp.log,就可以查到有一个DAO接口返回了 2274条数据,这个就比较异常了,日志如下:

2022-04-11 05:22:57 DEBUG com.vanmilk.store.dao.order.OrderDao.getOrd[159] - <==      Total: 2274

根据接口查调用栈分析后,然后发现我们有一些老订单(从另外一个系统导过来)没有发票号,在订单列表点击发送邮件或者打印小票(想不通这种几年前的老订单门店的人为什么还要去瞎操作),会根据发票号去查询订单数据,,造成大量数据直接返回,内存占用马上就飚上了,然后触发了几十次FullGC。FullGC后老年代还没有被释放,然后内存无法分配,直接就OOM了,找到问题了就好解决了在发送邮件或打印小票请求接口加一下requrie=true就可以,另外在做SQL查询的时候当不确定返回的数据量是否会过大时可以考虑加一下Limit 限制一下。

OOM发生时JVM其实并没有挂掉,而是假死,无法响应请求了,发生OOM时会把抛出这个异常的线程给杀掉,但抛出OOM那个线程并一定是造成内存溢出的大头。所以发生OOM时一般都需要手工重启一下JVM,靠他自己恢复基本上是不太可能的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1122852.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《向量数据库》——向量数据库Milvus Cloud 和Dify比较

Zilliz Cloud v.s. Dify Dify 作为开源的 LLMs App 技术栈&#xff0c;在此前已支持丰富多元的大型语言模型的接入&#xff0c;除了 OpenAI、Anthropic、Azure OpenAI、Hugging face、Replicate 等全球顶尖模型及模型托管平台&#xff0c;也完成了国内主流的各大模型支持&#…

1024 CSDN 程序员节-知存科技-基于存内计算芯片开发板验证语音识别

前言 在今年的 CSDN 程序员节上&#xff0c;我参与了这次知存科技举办的一个 AI Workshop 小活动——“基于存内计算芯片开发板验证语音识别”&#xff0c;并且有幸成为完成任务的学习者之一XD。上一次参与类似的活动是算能公司举办的“千校万里行”AIGC 大模型编译部署活动&a…

logging日志改造---自定义参数传递到格式中

目录 一&#xff1a;需求二&#xff1a;实现方式三&#xff1a;存在的问题3.1: 问题描述3.2: 源码分析3.3: 解决方案 四&#xff1a;相关链接 一&#xff1a;需求 需求&#xff1a;将自定义的参数&#xff0c;放在日志的指定格式中。 二&#xff1a;实现方式 例如&#xff1…

三维模型表面积计算方法

【版权声明】 本文为博主原创文章&#xff0c;未经博主允许严禁转载&#xff0c;我们会定期进行侵权检索。 更多算法总结请关注我的博客&#xff1a;https://blog.csdn.net/suiyingy&#xff0c;或”乐乐感知学堂“公众号。 本文章来自于专栏《Python三维模型处理基础》的系列文…

【RocketMQ系列十】RocketMQ的核心概念说明

您好&#xff0c;我是码农飞哥&#xff08;wei158556&#xff09;&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f4aa;&#x1f3fb; 1. Python基础专栏&#xff0c;基础知识一网打尽&#xff0c;9.9元买不了吃亏&#xff0c;买不了上当。 Python从入门到精…

【计网 DNS】计算机网络 DNS协议详解:中科大郑烇老师笔记 (六)

目录 0 引言1 DNS概述1.1 定义1.2 DNS域名结构1.2 域名解析步骤 &#x1f64b;‍♂️ 作者&#xff1a;海码007&#x1f4dc; 专栏&#xff1a;计算机四大基础专栏&#x1f4dc; 其他章节&#xff1a;网络快速入门系列、计算机网络&#xff08;一&#xff09;、计算机网络&…

初始Redis 分布式结构的发展演变

目录 Redis的特点和使用场景 分布式系统的引入 单机系统 分布式系统 应用服务器的增多&#xff08;处理更多的请求&#xff09; 数据库读写分离&#xff08;数据服务器的增多) 引入缓存 应对更大的数据量 业务拆分&#xff1a;微服务 Redis的特点和使用场景 我们先来…

使用 Rust 和 cURL 库下载程序

以下是一个使用 Rust 和 cURL 库的下载器程序&#xff0c;用于下载 图像。此程序使用了 https://www.duoip.cn/get_proxy 的代码。 extern crate curl; ​ use std::io::{self, Read}; use std::error::Error; ​ fn main() {let url "https://www.baidu.com";let …

04-HotSpot 垃圾收集器

HotSpot 垃圾收集器 HotSpot 虚拟机提供了多种垃圾收集器&#xff0c;每种收集器都有各自的特点&#xff0c;虽然我们要对各个收集器进行比较&#xff0c;但并非为了挑选出一个最好的收集器。我们选择的只是对具体应用最合适的收集器。 新生代垃圾收集器 Serial 垃圾收集器&…

如何将表格内容拆分至多列内容

如何将表格内容拆分至多列内容 需求示例步骤1.找到“分列”2.选择“分隔符号&#xff08;D&#xff09;”3.设置分隔符号4.完成5.分隔后的内容 总结 需求 表格的某一列里有很多内容&#xff0c;想将该列内容拆分到多列里&#xff0c;并能准确的显示拆分后的每一列内容 示例 …

【Java 进阶篇】Java XML约束:确保数据一致性和有效性

XML&#xff08;可扩展标记语言&#xff09;是一种常用的数据交换格式&#xff0c;用于存储和交换数据。然而&#xff0c;为了确保数据的一致性和有效性&#xff0c;通常需要定义XML约束。XML约束是一种规则集&#xff0c;定义了XML文档的结构、元素、属性和数据类型。本篇博客…

RobotRules 和UserAgent来下载文件

以下是一个使用WWW::RobotRules和LWP::UserAgent来下载文件的Perl程序&#xff1a; #!/usr/bin/perl ​ use strict; use warnings; use WWW::RobotRules; use LWP::UserAgent; use HTTP::Request; use HTTP::Response; ​ my $url http://www.people.com.cn/; my $agent LW…

结构体学习

struct是结构体关键字 我们用C语言中通常都是用关键字来定义类型变量。例如我们的整型变量&#xff0c;int book;是用整型关键字定义出来的。同样的&#xff0c;struct book同样是一个类型&#xff0c;不过我们叫他结构体。我认为的结构体的作用&#xff0c;无外乎是将一些毫…

APU的Vsense引脚的作用

开关电源PCB布局注意事项 开关电源PCB布线注意事项 一.Sense电压检测(FB) “Sense+”和“Sense-”,就是四线制中的电压检测线,high-sense 和low-sense分别连接远端负载的正负极,监测电源电压,抵消长距离传输线引起的电压损耗。这两个Sense接线端的作用简而言之就是调整Ou…

centos如何根据端口号查询程序路径

centos如何根据端口号查询程序路径 如果是半路接受的应用&#xff0c;上个人只给你说了程序的端口号&#xff0c;别的都没&#xff0c;那怎么找程序的路径哪&#xff1f;一是给上上个人要&#xff0c;二是自己找&#xff08;我是自己找的&#xff09; 小白教程&#xff0c;一…

链表的中间结点-力扣

1、题目描述 给你单链表的头结点 head &#xff0c;请你找出并返回链表的中间结点。 如果有两个中间结点&#xff0c;则返回第二个中间结点。 题目链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台备战技术面试&#xff1f;力扣提供海…

【STM32】标准库与HAL库对照学习系列教程大全

【STM32】标准库与HAL库对照学习系列教程大全 一、前言二、准备工作三、基础篇四、进阶篇五、特别篇六、外设篇 一、前言 前言&#xff1a;开始工作后&#xff0c;学习的时间变少了很多&#xff0c;但是今年的1024节&#xff0c;还是打算送个福利给大家&#xff0c;将之前的STM…

PR BeatEdit 节奏卡点神器 的报错 beat detection error: IBT failed 和解决路径

环境&#xff1a;DELL Latitude 笔记本 16G内衬&#xff0c;Win10&#xff0c;PR 2021&#xff0c;BeatEdit Pr 2.1.003 安装PR BeatEdit 节奏卡点神器没有问题&#xff0c;可以调出。 导入音频时报错&#xff1a;beat detection error: IBT failed 根据 BeatEdit for Premi…

【Unity程序技巧】 资源加载管理器

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;Uni…

ScrapeKit 和 Swift 编写程序

以下是一个使用 ScrapeKit 和 Swift 编写的爬虫程序&#xff0c;用于爬取 图片。同时&#xff0c;我们使用了proxy 这段代码来获取代理。 import ScrapeKit ​ class PeopleImageCrawler: NSObject, ScrapeKit.Crawler {let url: URLlet proxyUrl: URL ​init(url: URL, proxy…