记一次线程堵塞(挂起)导致消息队列积压

news2024/11/19 1:36:46

1 背景

A服务作为生产者,每天发送上千万的mq消息,每一个消息包含500个用户ids数据。B服务作为消费者,接受MQ消息并通过http调用第三方请求进行业务处理,消费组启用了rabbitmq的多线程消费组,一个实例并发40个mq消费者线程,每个线程一次获取10个消息进行消费。

Mq消费者配置如下:

# mq配置
  rabbitmq:
    connection-timeout: 15000
    cache:
      channel:
        size: 200
    # 消息发送到rabbitmq broker cluster需要回调
    publisher-confirms: true
    # 交换机将消息投递至队列失败时需要回调
    publisher-returns: true
    listener:
      # 手动确认消息已被消费
      simple:
        acknowledge-mode: manual
        # consumer的并发数
        concurrency: 40
        max-concurrency: 50
        # 每个消息者每次取10条
        prefetch: 10

Mq挤压消息如下

2 排查

2.1 复制rabbitmq挤压消息数据进行模拟复现

找出rabbitmq挤压的消息,在本地模拟消费,找出没有进行消息确认的原因,通过rabbitmq控制台的Get messages功能

复制payload的消息进行base64转码,转出来的消息是乱码不完整的,怀疑
是rabbitmq还结合了其他加密处理,放弃这种排查思路

2.2 检查报错日志

rabbitmq的unack消息挤压,那就是消费者没有进行ack确认,怀疑消费者代码有异常导致没能执行到ack的代码。
查询服务器日志,没发现有报错的日志,梳理业务代码,消费者使用了spring aop around机制进行消息确认,所以不管代码有没有报错,按理说都会手动进行mq消息ack确认

2.3 检查服务是否宕机

消费组实例数量符合服务器大小配置,因此服务器应用没有宕机

2.4 检查java线程

使用IBM的TMDA工具进行分析线程堆栈,工具下载地址
TMDA工具下载地址

TMDA工具简介

TMDA分析线程堆栈结果如下

通过分析图,看到大量park线程,确实是符合现状,应用的线程挂起了

3 分析和解决

通过stack深度高到底排序,业务代码存在线程等待情况,具体代码CountDownLatch.await

3.1 结合业务代码分析

通过上图stack提示,找到关联的业务代码

伪代码如下:

// new一个CompletableFuture
public CompletableFuture<Integer> httpCall(String tokenData){
        CompletableFuture<Integer> completableFuture = CompletableFuture.supplyAsync(() -> {
            long time = 3000L;
            try {
                Thread.sleep(time);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            return Integer.parseInt(tokenData);
        });
        return completableFuture;
    }

httpCall(tokenData).whenCompleteAsync((returnValue, ex)->{
		// do business
		// ex.getMessage()
		// 其中ex对象为空,使用ex.getMessage()报了空指针,导致没能执行如下的countDown
		countDownLatch.countDown();
	})

消费者服务通过http调用第三方服务,为了提高并发,使用了多线程,每一组(数十个为一组)http请求批量调用完成后再把请求响应结果异步存入数据库,
主线程使用了countDownLatch.await进行等待,
其中whenCompleteAsync方法存在空指针问题,导致没能执行如下的countDown方法。

这里有人会问, 上面错误日志检查步骤,不是说日志没有空指针异常吗?
对,子线程报了空指针,因为CompletableFuture执行每次都是new 一个新的CompletableFuture对象,并把结果作为下一个CompletableFuture执行的入参,
通过伪代码可以发现,执行whenCompleteAsync后,没有新的CompletableFuture方法执行,所以异常没有抛出来,使得排查变得困难

3.2 解决

因为存在whenCompleteAsync报错的情况,添加多一个新的异常捕获处理方法,捕获异常也进行countDown的操作。

代码如下:

    httpCall(tokenData).whenCompleteAsync((returnValue, ex)->{
        // do business
        // ex.getMessage()
        // 其中ex对象为空,使用ex.getMessage()报了空指针,导致没能执行如下的countDown
        countDownLatch.countDown();
    }).exceptionally(e ->{
        log.info("exceptionally捕获到异常,tokenData={}, e={}", tokenData, e.getMessage());
        countDownLatch.countDown();
        return null;
    });

4 结论

  • 熟练CompletableFuture的使用,要看源码的实现(实现原理cas + 多个future采用入stack,每次把前一个future的结果作为参数传入下一个future去执行)

  • 使用多线程需要考虑异常、超时等情况

  • 熟练使用jvm stack分析工具

5 文章参考

CompletableFuture流程图

CompletableFuture参考文章如下

CompletableFuture 原理浅析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1001345.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

索尼mp4变成rsv修复案例(ILME-FX3)

索尼mp4的修复案例讲过很多&#xff0c;这次是索尼的ILME-FX3也算是一个畅销的机型&#xff0c;一般索尼没有封装的文件是RSV文件&#xff0c;但是极少遇到有多个RSV文件的&#xff0c;下边我们来讲下这个特殊案例。 故障文件:4个RSV文件&#xff0c;大小在1.78G~28G多 故障现…

(测评补单)Lazada、Shopee、Zalora:探索东南亚电商市场

随着互联网的发展&#xff0c;电子商务在东南亚地区迅速崛起。在这个充满活力和潜力的市场中&#xff0c;Lazada、Shopee和Zalora成为了三大领先的电商平台。它们以其独特的商业模式和创新的服务&#xff0c;吸引了数百万用户。本文将深入探讨这三家电商巨头的发展历程、核心竞…

一文讲透机器学习超参数调优!

公众号&#xff1a;尤而小屋作者&#xff1a;Peter编辑&#xff1a;Peter 大家好&#xff0c;我是Peter~ 本文的主题&#xff1a;机器学习建模的超参数调优。开局一张图&#xff1a; 文章很长&#xff0c;建议直接收藏~ 一、什么是机器学习超参数&#xff1f; 机器学习超参数…

代码随想录训练营 打家劫舍

代码随想录训练营 dp 198. 打家劫舍&#x1f338;code 213. 打家劫舍 II&#x1f338;分析code 337.打家劫舍 III&#x1f338; 198. 打家劫舍&#x1f338; 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷窃的唯一制约因素…

FastChat工作原理解析

在了解FastChat如何完成大模型部署前&#xff0c;先了解下Huggingface提供的Transformer库。Hugggingface提供的Transformer库 Hugging Face 的 Transformers 库是一个用于自然语言处理&#xff08;NLP&#xff09;任务的 Python 库&#xff0c;旨在简化和加速使用预训练语言模…

Vue3 中的几个坑,你都见过吗?

Vue3 目前已经趋于稳定&#xff0c;不少代码库都已经开始使用它&#xff0c;很多项目未来也必然要迁移至 Vue3。本文记录我在使用 Vue3 时遇到的一些问题&#xff0c;希望能为其他开发者提供帮助。 1. 使用 reactive 封装基础数据类型 传统开发模式中&#xff0c;数据声明很简…

[论文阅读]Visual Attention Network原文翻译

[论文链接]https://arxiv.org/abs/2202.09741 摘要 虽然一开始是被设计用于自然语言处理任务的&#xff0c;但是自注意力机制在多个计算机视觉领域掀起了风暴。然而&#xff0c;图像的二维特性给自注意力用于计算机视觉带来了三个挑战。&#xff08;1&#xff09;将图像视作一…

怎样获取字符串数组的长度_使用sizeof(array) / sizeof(array[0])

使用sizeof() C、C中没有提供直接获取数组长度的函数&#xff0c;对于存放字符串的字符数组提供了一个strlen函数获取长度&#xff0c;那么对于其他类型的数组如何获取他们的长度呢&#xff1f; 其中一种方法是使用sizeof(array) / sizeof(array[0]), 在C语言中习惯上在使用时…

Unity 性能优化之Shader分析处理函数ShaderUtil.HasProceduralInstancing: 深入解析与实用案例

Unity 性能优化之Shader分析处理函数ShaderUtil.HasProceduralInstancing: 深入解析与实用案例 点击封面跳转到Unity国际版下载页面 简介 在Unity中&#xff0c;性能优化是游戏开发过程中非常重要的一环。其中&#xff0c;Shader的优化对于游戏的性能提升起着至关重要的作用。…

redis缓存详解

一、Redisson分布式锁存在问题 1、基于redis实现的分布式锁&#xff0c;如果redis集群出现master宕机&#xff0c;而从节点没有接收到锁对应的key&#xff0c;被选举成新的master就可能存在被其它线程加锁成功则存在加锁问题 2、 基于上面的问题&#xff0c;可以把redis分为多…

SpringBoot国际化配置组件支持本地配置和数据库配置

文章目录 0. 前言i18n-spring-boot-starter1. 使用方式0.引入依赖1.配置项2.初始化国际化配置表3.如何使用 2. 核心源码实现一个拦截器I18nInterceptorI18nMessageResource 加载国际化配置 3.源码地址 0. 前言 写个了原生的SpringBoot国际化配置组件支持本地配置和数据库配置 背…

口袋参谋:99.99%商家都学的防骗技巧!

​99%的淘宝天猫商家&#xff0c;必然都要解决一个问题&#xff01;&#xff01;&#xff01; 如何让自己不被敲诈勒索且骗钱&#xff01; 直接看真实案例 看这个骗子&#xff0c;是如何赤裸裸诈骗商家的&#xff01; 如果你不想再当冤大头&#xff0c;告诉你一个99.99%有效…

SSM - Springboot - MyBatis-Plus 全栈体系(六)

第二章 SpringFramework 四、SpringIoC 实践和应用 3. 基于 注解 方式管理 Bean 3.1 实验一&#xff1a;Bean 注解标记和扫描 (IoC) 3.1.1 注解理解 和 XML 配置文件一样&#xff0c;注解本身并不能执行&#xff0c;注解本身仅仅只是做一个标记&#xff0c;具体的功能是框…

分类预测 | MATLAB实现基于SVM-Adaboost支持向量机结合AdaBoost多输入分类预测

分类预测 | MATLAB实现基于SVM-Adaboost支持向量机结合AdaBoost多输入分类预测 目录 分类预测 | MATLAB实现基于SVM-Adaboost支持向量机结合AdaBoost多输入分类预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于SVM-Adaboost支持向量机结合Ada…

Python 图形化界面基础篇:理解 Tkinter 主事件循环

Python 图形化界面基础篇&#xff1a;理解 Tkinter 主事件循环 引言什么是 Tkinter 主事件循环&#xff1f; Tkinter 主事件循环的使用步骤1&#xff1a;导入 Tkinter 模块步骤2&#xff1a;创建 Tkinter 窗口对象步骤3&#xff1a;设置窗口标题和添加 GUI 元素步骤4&#xff1…

router-link 和 router-view的区别

router-link 实现路由之间的跳转 router-view&#xff08;路由出口组件 -> 渲染路径匹配到的视图组件&#xff09; 当你访问的地址与路由path相符时&#xff0c;会将指定的组件替换该router-view router-link router-link 点击实现路由跳转&#xff0c;to属性指向目标地址&…

期权开户需要多长时间?一天可以开好吗?

期权开户一般需要一天到一个月的时间不等。根据不同券商的要求&#xff0c;开户流程和时间可能会有所不同。一些券商会要求客户进行验资&#xff0c;考试&#xff0c;仿真交易等环节&#xff0c;因此需要花费一定的时间来审核和激活账户&#xff0c;下文介绍期权开户需要多长时…

Mybatis-Plus 批量插入数据时报错 java.lang.Object Not Found TableInfoCache

文章目录 前言问题回溯排查过程总结 前言 报错堆栈信息如下&#xff0c;基本是mybatis-plus源码中的一些东西&#xff1a; com.baomidou.mybatisplus.core.exceptions.MybatisPlusException: java.lang.Object Not Found TableInfoCache.at com.baomidou.mybatisplus.core.to…

安装wps后,回收站右键菜单出现“恢复误删文件”,通过注册表的方式去掉。

免费的才是最贵的。垃圾流氓软件。 这个东西点开会给你下载一个叫金山数据恢复大师的看起来不知道多少年的老古董。 win R 输入regedit打开注册表按照路径寻找&#xff1a;HKEY_CLASSES_ROOT\CLSID{645FF040-5081-101B-9F08-00AA002F954E}\shellex\ContextMenuHandlers 大功…

黑马JVM总结(五)

&#xff08;1&#xff09;方法区 它是所有java虚拟机 线程共享的区&#xff0c;存储着跟类的结构相关的信息&#xff0c;类的成员变量&#xff0c;方法数据&#xff0c;成员方法&#xff0c;构造器方法&#xff0c;特殊方法&#xff08;类的构造器&#xff09; 方法区在虚拟机…