每日10亿数据的日志分析系统OOM

news2025/1/8 11:58:01

背景

一个每日10亿数据的日志清洗系统,主要工作就是从消息队列中消费各种各样的日志,然后对日志进行清洗,例如:用户敏感信息(姓名、手机号、身份证)进行脱敏处理,然后把清理完的数据交付给其他系统使用。
我们项目中,推荐系统、营销系统,大数据分析系统,都会使用清洗好的数据。

在这里插入图片描述

现场

收到线上的报警,发现日志清洗系统发生了OOM
查看日志发现是java.lang.OutOfMemoryError: java heap space
通过异常日志,能看到如下信息:

xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()

这里能够发现,同一个方法XXClass.process() 被反复调用了,最终导致了堆内存溢出的问题。
初步定位是,某处有不合理的递归调用,接下来使用MAT分析内存快照。

分析

  1. 通过MAT去分析的时候,我们就发现了一个问题,因为有大量的XXClass.process()方法的递归执行,每个XXClass.process()中都创建了大量的char数组!导致大量的char[] 数组,耗尽了内存。
  2. 此时,我们发现了一个问题,递归的次数不是很多,也就十几次到几十次递归。我们也观察了一下,所有创建的char[],占用的内存也就1G,这就有一个问题了,这次oom不全是代码的问题,可能是我们的jvm参数设置的不对,分配的堆内存空间太小了。
  3. 因为我们要分析是不是堆内存设置的太小了,就要分析jvm运行时的内存使用模型,只能去看jvm启动参数中加入的自动记录GC日志,在日志中,我们发现JVM启动时的核心参数:
    -Xmx1024m -Xms1024m -XX:+PrintGCDetails -XX:+PrintGC() -XX:+HeapDumpOnOutOfMemoryError -
    Xloggc:/opt/logs/gc.log -XX:HeapDumpPath=/opt/logs/dump
  4. 观察日志可以发现,jvm参数里指定了gc的日志路径,以及内存溢出时要导出的内存快照地址,还有给堆分配的内存-Xmx1024m -Xms1024m,这台机器是4 core 8G的,只分配1G内存太小了
  5. 接下来详细看下gc.log:
    [Full GC (Allocation Failure) 866M->654M(1024M)]
    [Full GC (Allocation Failure) 843M->633M(1024M)]
    [Full GC (Allocation Failure) 855M->621M(1024M)]
    [Full GC (Allocation Failure) 878M->612M(1024M)]
    在日志中发现,allocation failure触发的Full GC很多,也就是堆内存无法分配内存给新的对象了,然后触发GC,根据数据发现,每次full gc只能回收一点对象,而且日志中显示,是每秒full gc一次,很可怕。导致一直full gc的原因有两个,一个是老年代内存满了,每秒钟执行young gc之前,会发现老年代可用空间不够,就会提前触发full gc;另外一个可能是young gc之后,存活的对象无法放入到survivor区,都要进入老年代,放不下,就会触发full gc;
  6. 我们重启了系统,利用jstat分析了一下当时jvm运行时的内存模型,发现如下情况:
    S0 S1 E O YGC FGC
    0 100 57 69 36 0
    0 100 57 69 36 0
    0 100 65 69 37 0
    0 100 0 99 37 0
    0 100 0 87 37 1

jstat解析
YGC 从36 -> 37 表示发生一次young gc,但是我们发现old区从69 -> 99 ,表示young gc之后,survivor区放不下,直接进入lod区,紧接着发生了一次FGC,但是发现old区并没有回收掉多少内存,几次循环之后,内存就堆满了,直接触发oom。

优化

  1. 增加堆内存大小
    给堆内存加大空间,直接给了堆内存5G的内存。
  2. 改代码
    改写代码,让他不要占用过多的内存。当时代码之所以递归,就是因为在一条日志中,可能会出现很多用户的信息,一条日志也许会合并包含了十几个到几十个用户的信息。
    这个时候代码中就是会递归十几次到几十次去处理这个日志,每次递归都会产生大量的char[]数组,是切割了日志用来处理的。
    其实这个代码写的完全没有必要,因为对每一条日志,如果发现包含了多个用户的信息,其实就对这一条日志切割出来进行处理就可以
    了,完全没有必要递归调用,每次调用都切割一次日志,生成大量的char[]数组。
    所以把这一步代码优化了之后,一下子发现线上系统的内存使用情况降低了10倍以上。

总结

今天这个案例,大家会发现,我们先是通过OOM的排查方法去分析,发现主要是内存太小导致的问题。然后用gc日志和jstat分析,明显发现是内存不够用了,最后加大系统内存,并且优化代码就可以了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1665348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有奖调查!!!!!

老子云平台https://www.laozicloud.com/ 如果老子云3D可视化综合服务平台的AMRT展示框架(包含SDK、模型优化处理API)免费开放给大家,大家愿意。。。。。。。 填写调查问卷,注册老子云账号,调查结束后您将获得100元平台…

2024HW Linux应急响应基础学习

首先展示关于Linux的关键目录,这是应急响应查看的关键: 常用命令 top //查看进程资源的占用情况 ps -aux //查看进程 直接写ps aux也可以 netstat -antpl //查看网络连接 ls -alh /proc/pid //查看某个pid对应的可执行程序 pid记得修改 lsof /…

检测服务器环境,实现快速部署。适用于CRMEB_PRO/多店

运行效果如图: 最近被好多人问,本来运行的好好的,突然swoole就启动不了了。 本工具为爱发电,如果工具正好解决了您的需求。我会很开心 代码如下: """本脚本为爱发电by:网前雨刮器 """…

共享云桌面如何助力企业信息化和数字化?

随着科技的飞速发展,信息化和数字化已经成为企业转型的重要方向。共享云桌面作为一种新兴的信息化工具,正以其独特的优势助力企业实现信息化和数字化的目标。本文将详细探讨共享云桌面如何助力企业信息化和数字化的过程,以及它所带来的效益。…

学习网络安全现在还有前景吗?行业分析报告

如果你现阶段选择入行网络安全,就相当于10年前学IT,当它发展起来的时候,你刚好遇到行业红利期。 网络安全这个职业完全可以改变很多人的人生轨迹。 因为它是个不需要你有多强大的情商,不需要你去学习更多复杂的职场和人际关系技…

2024年618值得安利的数码好物有哪些?年度值得入手的数码清单分享

随着2024年618购物节的到来,各类数码好物纷至沓来,为消费者提供了丰富多样的选择,在这个充满诱惑的购物狂欢中,哪些数码产品值得我们重点关注和入手呢?接下来就让我们一起探索这份年度值得入手的数码清单,分…

图鸟模板-官网:基于Vue 3的前端开发新篇章

一、引言 随着前端技术的飞速发展,企业对于官网的需求也从简单的展示型网站向功能丰富、交互体验良好的方向转变。在这样的背景下,图鸟模板-官网以其基于Vue 3的纯前端开发特性,以及支持微信小程序、支付宝小程序、APP和H5的跨平台能力&…

【贪心算法】哈夫曼编码Python实现

文章目录 [toc]哈夫曼编码不同编码方式对比前缀码构造哈夫曼编码哈夫曼算法的正确性贪心选择性质证明 最优子结构性质证明 总结 Python实现时间复杂性 哈夫曼编码 哈夫曼编码是广泛用于数据文件压缩的十分有效的编码方法,其压缩率通常为 20 % 20\% 20%到 90 % 90\%…

RK3568 学习笔记 : Linux emmc 内核启动 rootfs 根文件系统无法正常挂载问题的分析

问题描述 平台 : NanoPi-R5C 开发板 RK3568 平台。 手动编译的 Linux 内核,结果发现大概率 emmc 无法正常初始化,导致 rootfs 根文件系统无法正常挂载 Linux 内核版本: 6.1 Linux 内核代码位置: https://github.com…

Github图片显示不出来?两步解决!

很多同学可能和我一样,在GitHub中找一些项目或者资料的时候;总是会看到一些图片显示不出来,或者数学公式乱码: 比如这样 还有这样 其实这个主要是因为DNS污染导致的,具体大家可以百度,这边不详细介绍。 解决…

Java入门基础学习笔记4——开发Helloworld入门程序

Java程序开发的三个步骤: 1)编写代码 2)编译代码 3)运行代码 注意事项: 第一个java程序建议使用记事本来编写。 建议代码文件名全英文、首字母大写、满足驼峰模式,源代码文件的后缀必须是.java 注意&a…

37 | 什么时候会使用内部临时表?

union 执行流程 (select 1000 as f) union (select id from t1 order by id desc limit 2);key=PRIMARY,说明第二个子句用到了索引 id。 Extra 字段,表示在对子查询的结果集做 union 的时候,使用了临时表 (Using temporary)。 执行流程 创建一个内存临时表,这个临时表只有…

OpenAI 人工智能搜索产品即将推出,文本和图像都支持?!

OpenAI 人工智能搜索产品即将推出 OpenAI 计划于下周一(5 月 13 日)正式公布其人工智能搜索产品,不过报道中强调具体公告日期可能发生变化。OpenAI 拒绝对路透社的报道置评。外媒 The Information 在今年 2 月的报道中指出,OpenAI 一直在秘密开发其自家网络搜索服务,并将获…

LeetCode例题讲解:844.比较含退格的字符串

给定 s 和 t 两个字符串,当它们分别被输入到空白的文本编辑器后,如果两者相等,返回 true 。# 代表退格字符。 注意:如果对空文本输入退格字符,文本继续为空。 示例 1: 输入:s "ab#c&qu…

网站实现微信扫码登录(利用微信开放平台实现)

第一步:微信开放平台账户申请 网址:微信开放平台 1.首先我们要做的就是进入到微信开放平台申请一个开放平台账户,获得资质! :注册需要准备营业执照、1-2个工作日审批、300元认证费 :注册之后&#xff0…

Window逆向基础之逆向工程介绍

逆向工程 以设计方法学为指导,以现代设计理论、方法、技术为基础,运用各种专业人员的工程设计经验、知识和创新思维,对已有产品进行解剖、深化和再创造。 逆向工程不仅仅在计算机行业、各行各业都存在逆向工程。 计算机行业逆向工程 计算…

裸金属服务器与云服务器有什么区别?

近年来,随着云计算技术的迅速发展,裸金属和云服务器已成为企业部署业务的两种主要方式。 裸金属是指提供基础设施硬件环境,但不包含操作系统和中间件的计算资源服务。 而云服务器则是通过虚拟化技术将计算资源划分为多个虚拟机,可…

JDK1.8 安装并配置环境变量

一、Windows 配置 1 安装文件 jdk-8u401-windows-i586.exe 2 环境变量 JAVA_HOME C:\Program Files (x86)\Java\jdk-1.8 CLASSPATH .;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar; Path %JAVA_HOME%\bin 说明:Win7/Win8 中 Path 可能需要写成 ;%JAVA_HO…

【excel】统计单元格内数字/字符串的数量

文章目录 一、问题二、步骤(一)将A1中的数字分解出来,在不同的单元格中显示(二)统计每个数字出现的个数(三)去重 三、尾巴 一、问题 单元格中有如下数值:12345234534545&#xff0c…

01 背包(从二维数组到一维滚动数组)

问题描述: 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品只能用一次,求解将哪些)物品装入背包里物品价值总和最大。 二维dp数组01背包 1. 确定dp数组以及下标的含义 dp[i][j] 表…