Spring 长事务导致connection closed,又熬了一个大夜!

news2025/1/23 5:01:50

大家好,我是不才陈某~

是的,今早一到公司就收到了机器人的告警,从异常日志来看是数据库连接已关闭,然后我在解决这个问题的过程中发现了几个问题,不急,听我一一道来

异常被try后没有继续抛出,导致继续执行后续操作

我们看到前文示例代码会发现我们在 try 之后只是 rollback 了,对于异常也只是打印一下并没有继续抛出。

那么就会导致一种情况:假设你在 Service 层中调用多个调用数据库的修改方法,那么第一个操作失败后异常没有抛出,Service 层不知道,就会继续向后面执行,修复很简单,只需要将异常抛出即可:

// 案例1:参考MybatisPlus的com.baomidou.mybatisplus.extension.toolkit.SqlHelper##executeBatch()实现
batchSqlSession.rollback();
Throwable unwrapped = ExceptionUtil.unwrapThrowable(e);
if (unwrapped instanceof RuntimeException) {
    MyBatisExceptionTranslator myBatisExceptionTranslator
            = new MyBatisExceptionTranslator(sqlSessionFactory.getConfiguration().getEnvironment().getDataSource(), true);
    throw Objects.requireNonNull(myBatisExceptionTranslator.translateExceptionIfPossible((RuntimeException) unwrapped));
}
throw new CommonException(unwrapped);

// 案例2:简单来说,只要能把异常抛出去即可,并不定需要像上面这么复杂
batchSqlSession.rollback();
throw new CustomException(e);

大事务/长事务导致 connection closed

代码场景

我们来看一段业务功能的伪代码,大致如下:

@Transactional(rollbackFor = Exception.class)
@Override
public Integer billCheck() {
    // 获取对应的策略
    策略 = getStrategy();
    // 前置参数校验
    if (必要参数是否存在){
        return false;
    }
    try {
        // 解析文件
        文件里的数据集合 = 策略.parseFile(file);
        // 将文件里的数据插入数据库表
        影响的行数 = 策略.handleFileData(文件里的数据);
        if (影响的行数 > 0) {
            // 将文件里的数据和本地的数据进行对比操作
            对比后的数据 = 策略.doBillCheck(参数);
            // 将对比的结果分开插入到数据库中
            batchUtils.batchUpdateOrInsert(成功的数据,
                    某Mapper.class,
                    (billErr, mapper) -> mapper.insert(data));
            batchUtils.batchUpdateOrInsert(失败的数据,
                    某Mapper.class,
                    (billErr, mapper) -> mapper.insert(data));
            batchUtils.batchUpdateOrInsert(需要更新的数据,
                    某Mapper.class,
                    (billErr, mapper) -> mapper.update(data));
        }
        // 发送企业微信机器人通知
        策略.sendRobotMessage();
        log.info("耗时:{}毫秒", 耗时);
    } catch (Exception e) {
        log.error("对账出错", e);
        throw new CommonException("对账出错");
    }
    return 影响的行数;
}

我们梳理一下,这是一个普通的模板方法 + 策略模式的应用,因为业务场景中不管是哪个通道的文件都会必经如下几个步骤,所以就将其抽象了。我们可以发现这个方法里面做了很多数据库操作,并且使用了声明式事务注解,然后里面大致有如下几个步骤:

  1. 解析文件

  2. 将文件里的数据插入数据库表

  3. 将文件里的数据和本地的数据进行对比操作

  4. 将对比的结果分开插入到数据库中

然后我们再来看一段配置,它来自 druid 连接池框架,如下:

spring:
  datasource:
    druid:
      remove-abandoned: true
      ## 单位:秒
      remove-abandoned-timeout: 60
      log-abandoned: true

以上三条属性一般是用来防止连接泄露的,说明如下:

  • removeAbandoned:要求获取到连接后,如果空闲时间超过 removeAbandonedTimeoutMillis 秒后没有 close,druid 会强制回收,默认false;

  • logAbandoned:如果回收了连接,是否要打印一条 log,默认 false;

  • removeAbandonedTimeoutMillis:连接回收的超时时间,默认5分钟;

看到这里我想大部分同学可能已经知道是什么问题了,没错,肯定是因为拿到了连接,但拿的时间超过了这个限制,导致 druid 直接强制回收了该连接,但是知根知底方能百战百胜,这么好的机会怎么能不深入了解一下?关注公号:码猿技术专栏,回复关键词:1111 获取阿里内部性能调优手册~

什么时候获取的连接?

是的,既然是连接超时被关闭,那我们肯定要先找到是什么时候拿到的连接,是方法中第一次操作数据库【将文件里的数据插入数据库表】的时候?那当然不是,我们知道 Mybatis 有一个 Executor_ _接口,感兴趣的可以自行了解,它定义了数据库操作的基本方法,它才是SQL语句幕后的执行者,我们直接来看获取连接的地方 org.apache.ibatis.executor.BaseExecutor##getConnection

protected Connection getConnection(Log statementLog) throws SQLException {
    Connection connection = transaction.getConnection();
    if (statementLog.isDebugEnabled()) {
        return ConnectionLogger.newInstance(connection, statementLog, queryStack);
    } else {
        return connection;
    }
  }

我们可以看出来,我们是通过 Transaction 去获取连接的,但如果我们是第一次操作的时候才去获取的连接,那怎么会连接超时呢?所以我初步推断是开启事务的时候可能就已经获取连接了,那我们来求证一下,来到 Spring 的事务管理器 PlatformTransactionManager,Mybatis 用的是它的实现类 DataSourceTransactionManager, 然后我们一路跟 getTransaction 方法来到 AbstractPlatformTransactionManager##getTransaction,再到 DataSourceTransactionManager##doBegin

public final TransactionStatus getTransaction(@Nullable TransactionDefinition definition) throws TransactionException {
    // 省略无关代码 ...
    doBegin(transaction, definition);
    // 省略无关代码 ...
}

@Override
protected void doBegin(Object transaction, TransactionDefinition definition) {
    DataSourceTransactionObject txObject = (DataSourceTransactionObject) transaction;
    Connection con = null;

    try {
        // 如果数据源事务对象的ConnectionHolder为null或者是事务同步的  
        if (!txObject.hasConnectionHolder() ||
                txObject.getConnectionHolder().isSynchronizedWithTransaction()) {
            // 获取当前数据源的数据库连接  
            Connection newCon = obtainDataSource().getConnection();
            if (logger.isDebugEnabled()) {
                logger.debug("Acquired Connection [" + newCon + "] for JDBC transaction");
            }
            txObject.setConnectionHolder(new ConnectionHolder(newCon), true);
        }
}

就是这!它其实在进入方法的最开始,开启事务的时候就已经获取了连接,然后由于【解析文件】耗时过长,导致整个方法的执行时间超过了 60s 被强制回收连接,但你以为这就结束了?没错,当时出现这个问题的时候,我还手动触发了一次,结果第二次通过了,你说诡异不诡异?两次执行的时间都是 90s。

druid removeAbandoned 背后的秘密

所以我们继续看一下 druid 是怎么强制回收连接的,Druid每隔 timeBetweenEvictionRunsMillis(默认1分钟)会调用DestroyTask,在这里会判断是否可以回收泄露的连接,就是因为它是1分钟执行一次,所以可能第二次正好它执行的时候还没超过 60s,所以这次简直就是玄学了啊。

public class DestroyTask implements Runnable {
    public DestroyTask() {

    }

    @Override
    public void run() {
        shrink(true, keepAlive);
        // 判断removeAbandoned是否为true,默认是false
        if (isRemoveAbandoned()) {
            removeAbandoned();
        }
    }

}

然后我们看到 removeAbandoned 方法,这里面有一段代码如下:

for (; iter.hasNext();) {
    DruidPooledConnection pooledConnection = iter.next();

    // 判断该连接是否还在运行,只回收不运行的连接
    // Druid会在连接执行query,update的时候设置为正在运行,
    // 并在回收后设置为不运行
    if (pooledConnection.isRunning()) {
        continue;
    }

    long timeMillis = (currrentNanos - pooledConnection.getConnectedTimeNano()) / (1000 * 1000);

    //判断连接借出去的时间大小
    if (timeMillis >= removeAbandonedTimeoutMillis) {
        iter.remove();
        pooledConnection.setTraceEnable(false);
        abandonedList.add(pooledConnection);
    }
}

//判断是否要记录连接回收日志,这个很重要,可以及时发现项目中是否有连接泄露
if (isLogAbandoned()) {
    StringBuilder buf = new StringBuilder();
    buf.append("abandon connection, owner thread: ");
    buf.append(pooledConnection.getOwnerThread().getName());
    buf.append(", connected at : ");
    buf.append(pooledConnection.getConnectedTimeMillis());
    buf.append(", open stackTrace\n");
}

是的,如果你的连接被强制回收了的话,你只需要将 LogAbandoned 设置为 true,就可以通过日志看到相关信息了

解决方案

到这,问题就基本都发现了,那么我最后是怎么解决的呢?原本我是想的把不需要事务的动作抽离出来新建一个方法,后面我发现这样子好像模板方法并不好使了,我就采用了编程式事务,感兴趣的可以自己在了解一下,最后伪代码如下:

@Autowired
private TransactionTemplate transactionTemplate;

@Transactional(rollbackFor = Exception.class)
@Override
public Integer billCheck() {
    // 获取对应的策略
    策略 = getStrategy();
    // 前置参数校验
    if (必要参数是否存在){
        return false;
    }
    try {
        // 解析文件
        文件里的数据集合 = 策略.parseFile(file);
        // 编程式事务
        影响的行数 = transactionTemplate.execute(transactionStatus -> {
            // 将文件里的数据插入数据库表
            return 策略.handleFileData(文件里的数据);
        });
        if (影响的行数 > 0) {
            // 将文件里的数据和本地的数据进行对比操作
            对比后的数据 = 策略.doBillCheck(参数);
            // 编程式事务
            transactionTemplate.execute(transactionStatus -> {
                // 将对比的结果分开插入到数据库中
                batchUtils.batchUpdateOrInsert(成功的数据,
                        某Mapper.class,
                        (billErr, mapper) -> mapper.insert(data));
                batchUtils.batchUpdateOrInsert(失败的数据,
                        某Mapper.class,
                        (billErr, mapper) -> mapper.insert(data));
                batchUtils.batchUpdateOrInsert(需要更新的数据,
                        某Mapper.class,
                        (billErr, mapper) -> mapper.update(data));
                return Boolean.TRUE;
            });
        }
        // 发送企业微信机器人通知
        策略.sendRobotMessage();
        log.info("耗时:{}毫秒", 耗时);
    } catch (Exception e) {
        log.error("对账出错", e);
        throw new CommonException("对账出错");
    }
    return 影响的行数;
}

这样子,我们将解析文件和对比数据(只是查询)这种耗时操作放在了事务外,并且将原本一个事务里的操作拆成了两个小事务,这样子基本就避免了大事务的问题了,完结撒花~

大事务/长事务可能造成的影响

  • 并发情况下,数据库连接池容易被撑爆

  • 锁定太多的数据,造成大量的阻塞和锁超时

  • 执行时间长,容易造成主从延迟

  • 回滚所需要的时间比较长

  • undo log膨胀

所以在业务涉及中,你一定要对大事务特别对待,比如业务设计时,把大事务拆成小事务。

总结

声明式事务有一个局限,那就是他的最小粒度要作用在方法上!所以大家在用的时候要格外格外注意大事务的问题,尽量避免在事务中做一些无关数据库的操作,比如RPC远程调用、文件解析等,都是血泪的教训啊!!

来源:https://juejin.cn/post/7089346387925696520

最后说一句(别白嫖,求关注)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/67045.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CN_广域网WAN@PPP协议

文章目录WAN和LANPPP协议PPP协议有三个组成部分:LCPNCP成帧方法PPP帧的格式信息部分范围工作过程PPP协议特点透明传输WAN&InternetWAN和LAN WAN:广域网(全写为 wide area network) 广 域 网局 域 网覆盖范围很广,通常跨区域较小,通常在一个区域内连…

Ubuntu内核OverlayFS权限逃逸漏洞(CVE-2021-3493)

文章目录前言关于linux kernel一、漏洞介绍二、漏洞原理三、漏洞影响版本四、漏洞复现五、修复方法前言 关于linux kernel Linux Kernel 一般指Linux内核。Linux是一种开源电脑操作系统内核。它是一个用C语言写成,符合POSIX标准的类Unix操作系统。 一、漏洞介绍 …

如何掌握HEC-RAS建模方法与涉河建设项目防洪评价报告编制

随着社会经济的快速发展,我国河道周边土地开发利用率不断增大,临河建筑物与日俱增,部分河道侵占严重,导致防洪压力增大。迫切需要对全国从事防洪评价咨询类的技术人员开展防洪评价技术方面的学习,为了让相关工程技术人…

深度学习-支持向量机(SVM)

1. 简介 在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类(异常值检测)以及回归分析。SVM算法中,我们将数据绘制在n维空间中(n代表数据的特征数),…

C++ 函数指针探幽

首先看下面两个声明代表什么意思? double* (*(*pf)[2])(double*,int); double* (*pa[2])(double*,int);要搞清楚这两个式子,则先要清楚 指向指针的指针指针数组与指向数组的指针函数指针 指向指针的指针 指针的指针特殊点在于指向的是一个指针而已&am…

栈与队列2:用队列实现栈

主要是我自己刷题的一些记录过程。如果有错可以指出哦,大家一起进步。 转载代码随想录 原文链接: 代码随想录 leetcode链接:344. 反转字符串 题目: 请你仅使用两个队列实现一个后入先出(LIFO)的栈&#x…

计量经济学复习

计量经济学 习题(史浩江版) 习题一 一. 单项选择题 1、横截面数据是指(A)。 A 同一时点上不同统计单位相同统计指标组成的数据 B 同一时点上相同统计单位相同统计指标组成的数据 C 同一时点上相同统计单位不同统计指标组成的…

GPT-Chinese 复现

github 环境准备 conda -create gpt_cn python3.7 conda activate gpt_cnconda install pytorch1.10.0 torchvision0.11.0 torchaudio0.10.0 -c pytorch pip install -r requirements.txt错误 module distutils has no attribute version解决方案: pip uninstal…

[附源码]计算机毕业设计基于Springboot游戏交易平台

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

MinIO实战

1.简介 MinIO 是一款基于Go语言发开的高性能、分布式的对象存储系统。客户端支持Java,Net,Python,Javacript, Golang语言。 2.部署 2.1单机器单节点(docker) 官网教程:https://min.io/docs/minio/container/index.html mkdir -p ~/minio/dat…

Node.js编程

Node.js编程 一、实验目的与要求 实验任务 用户信息增删改查 掌握数据库软件的安装了解集合、文档的概念掌握使用mongoose创建集合的方法创建集合掌握对数据库中的数据进行增删改查操作 二、实验任务和步骤 实验1. 用户信息增删改查 需求说明 (1)搭建网站服务器&#xf…

第十章 降维与度量学习

10.1 k近邻学习 k近邻学习(kNN)是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。 k近邻学习似乎与…

2022 计网复习计算题【太原理工大学】

期末复习汇总,点这里!https://blog.csdn.net/m0_52861684/category_12095266.html?spm1001.2014.3001.5482 三、计算题 1. 假定 1km 长的 CSMA/CD 网络的数据率为 1Gb/s,设信号在网络上的传播速率为 200000km/s。求能够使用此协议的最短帧长…

java swing(GUI) MySQL实现的学生选课成绩管理系统源码+运行教程

今天给大家演示一下由Java swing mysql实现的一款学生选课成绩信息管理系统,主要实现的功能有:学生教师信息管理、年级班级信息管理、课程信息管理、选课、成绩录入功能、成绩统计功能,实现学生、教师、管理员三个角色的登录,三个…

【计算机图形学入门】笔记1:图形学概述

前言:今天开始开启一个新篇章的学习,那就是games101闫令琪老师讲的《现代计算机图形学入门》课程,我会根据闫老师每节课讲的内容记录重点笔记,每节课都会整理一篇发布出来,希望自己可以坚持下去,从图形学小…

可视化音视频分析工具:好用工具大集锦,快转发给你兄弟看看丨音视频工具

(本文基本逻辑:音画原始数据分析工具介绍 → 编码数据分析工具介绍 → 封装格式分析工具介绍) 工欲善其事,必先利其器。在音视频开发中,为了方便、快捷、直观的分析音视频数据,最好能有一些可视化的分析工…

《爱在 ZStack Cube 超融合》三部曲

一、始于初识:很高兴见到你 这一天东川路最靓的仔打开了 ZStack Cube 宝盒 ,这可能是我们的第一次相遇,我们相谈甚欢,相遇恨晚。 我的名字是 ZStack Cube,一个基于超融合架构的云平台。我拥有3300、5300、7300、7300…

Acwing_98

题目链接 考察知识点: 坐标变换、递归、分治。 核心问题:计算出点的坐标。 策略是递归算出子图形中的坐标,再进行平移得到当前图形中的坐标。 采用下图方式建立坐标系:原点在中心。 前置知识: (x,y)(x,y)(x,y) 逆时…

ResNet18实现——MNIST手写数字识别(突破0.995)

1.简单CNN改进 简单的CNN实现——MNIST手写数字识别 该部分首先对我前面的工作进行了改进,然后以此为基础构建ResNet18去实现MNIST手写数字识别。 1.改进要点: 1.利用nn.Sequential()自定义块结构,增加可读性和方便…

Spring - 什么是spring?

好久没更新博客了,今天小更一波。 学习java已经有一段时间了,今天将接触Spring框架技术。 什么是Spring? spring 中文意思就是 春天,实际上spring 是真的给软件行业带来了春天。 使用spring的好处? spring可以解决企业级开发…