线上问题——学习记录幂等判断失效问题分析

news2025/1/19 10:18:33

一、业务流程

image.png
上图是对save和saveScore两个接口的流程抽象,save是上传答题数据,saveScore则是上传答题分数,为保证幂等和防止并发调用,这两个接口都加了分布式锁(还是两层哦)。第一层使用的是不同的锁,因为处理的是不同的表,第二层处理的是相同的表,为了保证数据在某个维度上的唯一,所以使用了相同的锁。本篇文章则主要记录下表C中的逻辑唯一键出现重复数据的问题排查过程,该问题包含了对锁、事务及Mybatis框架的综合运用和理解。

二、问题分析

ROUND 1

问题分析

最开始只看到了第二层锁的逻辑,始终无法想通,两个接口获取的同一把锁,且加锁后都做了幂等判断,查询缓存和数据库,没有再插入,有则更新,C表的重复数据是怎么来的呢?从链路上分析,save先获取到第二层锁,插入了数据;释放锁后,saveScore开始执行,这时候查询数据库返回的结果居然是null!
这时候首先想到的是save的事务没有提交,但查看代码,事务是在获取锁3后才开启的,因此save释放锁3前,事务必定也是提交了的,而saveScore也是在获取锁3后才开启的事务。
image.png
image.png
我想大部分同学到这里会定义为玄学问题,但作为一个资深码农,要相信一切问题必有根因(除非真的是玄学)。最终,终于在saveScore的入口找到了罪魁祸首。
image.png
问题很简单,在锁3的调用入口处已经开启了事务,当save执行第二层逻辑提交事务之前,saveScore已经开启了事务,由于事务的隔离性(可重复读),在获取到锁3时,查询的是事务开始时的快照,即使save的事务已经提交,对于saveScore来说也是不可见的。

解决方案

这里修改方法目前想到以下几种:

  • 让save和saveScore串行化,但这两个接口是主链路上的核心接口,并发量很高,这样会导致性能降低,除非必要不会考虑。
  • 去掉saveScore第一层逻辑的事务,但这样无法保证这几个表的一致性。
  • 将saveScore第二层逻辑也改为异步,那每次调用时都会新启一个事务,同时还能提高接口的并发度,但是这要取决于业务,改动影响较大。
  • 设置saveScore的第二层事务传播级别为REQUIRED_NEW,这样也是每次会开启一个新的事务,也就能读取到save提交的数据了。

综合考虑,设置传播级别是影响最小的(有其它想法的欢迎补充),如果业务方能接受saveScore异步处理,那么这种方法则是最优的。
问题分析到这就结束了?当然没有。

ROUND 2

从流程图上可以看到,表C、D、E是在一个事务里的,那为什么只有表C有重复,表D、E数据却是正常的呢?
先说表E,这个比较简单,首先该表有唯一索引,不像前两个表只有普通索引,其次,业务上该表存放的数据粒度更粗,也就是前面两个表多次插入,这个表只会插入一次,其余都是更新,所以就算没有唯一索引,出现重复记录的概率也远比前两个表小很多。
再看表D,这个表可真的是让我一度以为是自己对事务理解没到位,经过反复验证,证明自己理解是没有问题的。那真的是玄学?于是请教了大佬。
经过大佬分析,事实证明我想的太简单了,最后得到一个推翻上面所有分析的结论。首先我们数据库事务隔离级别设置的read committed,不是repeatable read(是我太想当然,先入为主了)。那么表D、E没有重复数据就能解释了(事实上表D还是有重复数据存在,只是不是当前分析的链路,不过那又是另外一个问题,稍后分析);但是为啥表C的幂等判断失效了呢?
image.png
对表C采用的是双重校验,从链路上看两次查询C都是没有查到数据的,所以才会新增一条,但能获取到锁3说明另一个事务已经提交,当前事务由于是read committed一定也能查询到数据才对,那说明只有一种可能,锁内的查询C是从缓存查的,不是从数据库查的l。
image.png
从阿里云的sql洞察上也能验证这个猜想,按照代码逻辑,saveScore应该有两次查询才对,但实际上只有一条,说明有一次查询(结合skywalking分析得到是第二次没有查数据库)没有到达数据库。我们这个链路上的表都是做了redis缓存的,但是如果是第一次查询是null值,根本不会缓存到redis,那还有什么缓存会拦截到查询SQL呢?还有一个我们平时可能都忽略了的,那就是Mybatis的一二级缓存,一级缓存是默认开启的。先来复习一下Mybatis的一级缓存:
image.png
我们这里的两次查询是完全一样的,且是在同一个sqlSesson极短时间内重复查询,中间没有更新,完全符合一级缓存的使用条件,就是这玩意儿搞得鬼,我以前也没遇到过这个问题,所以也忽略了Mybatis的这个机制,还一直认为这玩意儿就是个摆设,这次算是给我上了一课。

ROUND 3

最后再回头来看看为啥D表也有重复的数据,下图是统计的部分重复数据:
image.png
这个其实很简单,上文细心的朋友可以发现我的分析都是按照save先执行,saveScore后执行的逻辑来分析的,但这两个接口执行时序其实不是固定的,当saveScore先执行,再获取到锁二时就已经开启了事务,即使锁3释放了,内层事务2也不会提交,因为和外层事务是同一个事务,那么save获取到锁3开始执行时也查不到数据,就会重复插入了。这里要解决的话也可以把内层事务传播级别声明为REQUIRED_NEW即可,对业务也没有影响。

三、总结

这次的问题好在对业务没有什么影响,但代码确实写的有问题,考验了对锁、事务以及框架的总和运用和理解。另外在分析问题时不要想当然,先入为主,一定要大胆猜想、亲手验证,只要有发现一点疑点就不应该发放过,因为很有可能就这一个疑点就推翻之前所有的分析。
最后附上链路:F947DF6DC8C94E339ED1BAC5AF5E9812(edu-study、edu-study-async),感兴趣的看官可自行分析验证,有问题欢迎指出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1492094.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx使用—基础知识

Nginx简介 Nginx优点 高性能、高并发 支持很高的并发,在处理大量并发的情况下,比其他web服务器要高效 轻量且高扩展 功能模块少(源代码仅保留http与核心模块代码,其余不够核心代码会作为插件来安装) 代码模块化(易读&#xff0…

【开源】SpringBoot框架开发固始鹅块销售系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 鹅块类型模块2.3 固始鹅块模块2.4 鹅块订单模块2.5 评论管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 鹅块类型表3.2.2 鹅块表3.2.3 鹅块订单表3.2.4 鹅块评论表 四、系统展示五、核心代码5.…

计算文件大小时容易忽略的问题

计算文件大小时容易忽略的问题 1、概述2、问题背景3、解决方案4、结论 1、概述 大家好,我是欧阳方超,可以关注我的公众号“欧阳方超”,后续内容将在公众号首发。 在处理文件大小时,经常需要将其转换为KB并进行适当处理。然而&…

cuda python torch 虚拟环境配置

以下是Pytorch和CUDA对应的版本 以下是Pytorch和Python对应的版本 检查cuda与Python版本是否匹配 import torch print(torch.__version__) print(torch.cuda.is_available()) print(torch.empty(3,4,devicecuda))cuda 删除cuda conda uninstall cudatoolkit --forceconda u…

稀碎从零算法笔记Day5-LeetCode:轮转数组

题型:数组、数学、双指针 前言:LC说你得用三种方法做出来(悲) 链接:189. 轮转数组 - 力扣(LeetCode) 来源:LeetCode 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 …

操作系统概念概述

软件设计师11--操作系统 考点1:操作系统的作用操作系统概述例题: 考点2:特殊的操作系统例题: 考点1:操作系统的作用 操作系统概述 管理系统的硬件、软件、数据资源控制程序运行人机之间的接口应用软件与硬件之间的接口…

289页初中级前端题助你拿下Offer,web前端开发面试技巧

HTML面试题部分 1.H5的新特性有哪些 2.Label的作用是什么?是怎么用的? 3.HTML5的form如何关闭自动完成功能 4.dom如何实现浏览器内多个标签页之间的通信? 5.实现不使用 border 画出1px高的线,在不同浏览器的标准模式与怪异模式下都 能保持一…

详解C#之WinForm版利用RichTextBox 制作文本编辑器【附源码】

在Windows应用程序开发中,刚刚介绍了WPF版的利用RichTextBox实现文本编辑器,今天继续推出WinForm版的利用RichTextBox实现文本编辑器。本文利用一个简单的小例子,简述如何在WinForm开发中,利用RichTextBox开发文本编辑器&#xff…

数据传输的同步技术包含哪些?如何高效安全传输数据?

在数字化时代,数据传输的同步技术对于确保信息的一致性和通信质量至关重要。本文将探讨数据传输同步技术的种类、如何实现高效安全的数据传输,以及企业在数据迁移中常用的几种方式。最后,我们将重点介绍镭速大数据迁移工具的优势。 数据传输同…

论文:万卡集群训练大模型(by字节跳动)

论文:MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs(https://arxiv.org/pdf/2402.15627.pdf) 结论: 1,字节跳动提出了万卡集群大模型训练架构MegaScale,并在12288个GPU上训练…

118页Vue面试题总结,就是这么简单

问:BFC 与 IFC 区别 BFC 是块级格式上下文,IFC 是行内格式上下文: 内部的 Box 会水平放置水平的间距由 margin,padding,border 决定 问:BFC会与float元素相互覆盖吗?为什么?举例说…

人事档案转出需要注意哪些方面

人事档案转出是指将员工的人事档案从一个部门、公司或组织转移到另一个部门、公司或组织的过程。这个过程需要注意以下几个方面: 1.法律合规:在进行人事档案转出前,要确保遵守相关的法律法规和公司内部规定。例如,要确保有合法的授…

web组态--新一代全流程低代码物联网平台

先上图,实际完成效果: 1.添加应用图纸 登录by组态后台:http://www.byzt.net:90 ​ 点击组态管理-画面管理,先新建一个组态画面,填写画面名称,保存,进入组态画面。 ​ 选择画面管理&#xff…

Linux——网络基础

计算机网络背景 网络发展 独立模式: 计算机之间相互独立 在早期的时候,计算机之间是相互独立的,此时如果多个计算机要协同完成某种业务,那么就只能等一台计算机处理完后再将数据传递给下一台计算机,然后下一台计算机再进行相应…

《 前端 vs. 后端:挑战与机遇的对决》

前言 前端开发和后端开发是构建网站、应用程序和其他软件的两个主要方面。它们各自负责不同的任务和功能。 前端开发: 定义:前端开发是指构建用户直接与之交互的网站或应用程序的过程。前端开发主要关注于用户界面和用户体验。技术栈:前端开发通常涉及使用 HTML、CSS 和 Ja…

基于带时间窗口的电动汽车路由问题的精英对立学习的多群PSO(2022)

英文:Multi-swarm PSO based on Elite Opposite Learning on Electric Vehicle Routing Problem with Time Window 摘要: 带时间窗口的电动汽车路由问题(EVRPTW)是交通领域的一个新问题,用传统的精确求解方法很难解决…

电商网站数据采集配合socks5代理ip怎么进行?

电商网站数据采集是一项重要的任务,可以帮助企业了解市场需求、竞品分析、用户行为等方面。在进行电商网站数据采集时,有时需要配合使用socks5代理IP。本文将介绍如何进行电商网站数据采集配合socks5代理IP。 一、代理IP介绍 代理IP是一种可以隐藏用户真…

大模型笔记:RAG(Retrieval Augmented Generation,检索增强生成)

1 大模型知识更新的困境 大模型的知识更新是很困难的,主要原因在于: 训练数据集固定,一旦训练完成就很难再通过继续训练来更新其知识参数量巨大,随时进行fine-tuning需要消耗大量的资源,并且需要相当长的时间LLM的知识是编码在数百亿个参数中…

95页初级前端模块笔记分享,开发web前端学习

简历 首先肯定是要准备一份自己的简历,简历经常是给面试官的第一印象。 简历一般包括个人基础信息,专业技能,项目经验,其他模块。 个人基础信息模块就不说了,太基础。 **专业 戳这里领取完整开源项目:【…

UE5 C++ TPS开发 学习记录(九

p20 首先我们现在有一个多人游戏的系统类MultiplayerSessionsSubsystem 在这个系统内提供了很多会话系统的接口SessionInterface 当现在我们有一些SessionInterfaceDelegates的委托,这个委托的来源是SessionInterface,所以我们使用的委托可以接收到来自SessionInterface的消息(…