深入浅出MySQL事务实现底层原理

news2024/10/6 20:26:12

重要概念

事务的ACID

  • 原子性(Atomicity):即不可分割性,事务中的操作要么全不做,要么全做
  • 一致性(Consistency):一个事务在执行前后,数据库都必须处于正确的状态,满足完整性约束
  • 隔离性(Isolation):多个事务并发执行时,一个事务的执行不应影响其他事务的执行
  • 持久性(Durability):事务处理完成后,对数据的修改就是永久的,即便系统故障也不会丢失

脏读、幻读、不可重复读

  • 脏读,读取了未提交的数据
  • 不可重复读,事务A期间读取多次b,b被其他事务影响,导致值不可重复
  • 幻读,幻读和不可重复读有点像,它是事务A期间统计多次同一批数据,统计结果不一样。原因是被其他事务影响。它们的区别主要在于前者读取精确的某几条数据,后者则是范围统计——多版本不好控制

主从复制的原理

  • 主数据库有个bin log记录了所有sql语句
  • 把主数据库的bin log的语句复制到从数据库
  • 从数据库在relay log重做日志中再执行一遍这些sql

具体而言,
在这里插入图片描述

  • 主数据库启用输出线程,输出bin log
  • 从数据库IO线程,负责从主数据库里拉取bin log,写入到relay log
  • sql线程,将relay log重做

三大日志

bin log、redo log和undo log

bin log是归档日志,用于主从复制、数据备份等。
redo log是重做日志,用于实现事务持久性。在事务在提交时断电重启后,可以正常从中恢复。
undo log为回滚日志,用于实现事务的原子性,即当事务失败时,可以全部操作都取消。

bin log和undo log都是MySQL里边服务层的概念,它记录的是逻辑记录,例如完成了什么SQL。而redo log是存储层的物理操作日志,例如“在某个数据页上做了更改”。
在执行更新语句过程,会记录 redo log 与 binlog 两块日志,以基本的事务为单位,redo log 在事务执行过程中可以不断写入,而 binlog 只有在提交事务时才写入,所以 redo log 与 binlog 的写入时机不一样。

buffer与同步

既然是日志,那就躲不开缓存和落盘策略,这当然也是很通用的一些解决实践。这里以redo log为例:
在这里插入图片描述

落盘时机,可以通过配置来指定:

  • 0,事务提交不落盘,根据异步同步线程的时间来定(通常是1s)
  • 1,每次事务提交都落盘
  • 2,写入pagecache,介于0和1之间

日志提交的事务

在进行数据库操作的时候,需要同时操作多个日志,这个时候如何保证事务性呢?例如,宕机之后,如何确保binlog和redo log的数据是一致的?
这和[[分布式事务]]做的事情基本是一样的。MySql中采用两阶段进行日志的事务提交。
在这里插入图片描述

将redo log拆成两个阶段,最终提交阶段在binlog完成之后再提交。故障恢复的时候,不管在什么阶段,一切认准binlog的提交记录。即使在redolog commit期间出错,那么只要binlog落库成功,说明redolog一定parepare完成,可以恢复提交。

这又侧面印证了一个想法:分布式事务,其实本质上是把一件很大的、多阶段的过程,拆解,细分,尽可能把最终这个影响数据一致的过程缩小到最小粒度,尽管无法完全消除,尽可能减少出错的可能性。例如上述例子,就是把耗时的redolog写入过程拆出去,缩小到最终redo log的提交这个更短、更细粒度的过程上。

MVCC如何实现

copy on write

MVCC其实体现的是copy on write的一种思想——追求数据不变性,那么就直接复制一份快照。
数据库这么大的数据量,当然不可能是真的复制一整个库、一整个表,只需要复制相应的行就可以了。那么MySQL到底是怎么实现的呢?
这是必然是一个非常复杂的机制,涉及到并发SQL复杂操作、多版本数据、各个事务之间实时的可见性管控。
核心的有两点:
数据库通过两个核心隐藏列来完成多版本记录:

  • DB_TRX_ID,当前事务ID。单调递增,因而可以通过大小确定当前事务和其他事务的可见性——对比事务ID大小即可。例如,事务ID小于它的就可见,大于它的就不可见。你可以理解,这个就是版本。
  • DB_ROLL_PTR。回滚指针,指向对应的redo log记录。上边记录了“版本号”,那么,我们就会好奇,copy on write中的精髓,copy又是怎么体现的呢?答案就是,通过回滚指针。它不会直接复制一行出来,而会在原行上边修改,如果需要找到上一个版本,就通过回滚指针找到redo log,从而找到上一个版本。

从插入和更新来分析实际分析一下:
insert,由于是新增数据,所以不需要redo log指针,只需要记录事务id。
在这里插入图片描述

update,更上边分析一样,除了记录事务ID还得记录回滚指针。
在这里插入图片描述

第二次修改,这里重点来了,多版本如何copy呢?答案是拉链:
在这里插入图片描述

可见性保证

事务之间可见性的如何保证,这个也是一大难题。
大致描述一下我的理解:MySQL在开启事务的时候,会收集当前活跃的事务列表,于是它就可以通过事务ID,加上上边的多版本数据,去分析当前存在的数据变更,自己可见的是哪些,不可见的是哪些。
下边是当前可视视图的声明。

class ReadView {
private:
  trx_id_t m_low_limit_id;      /* 目前出现最大的事务ID,大于等于这个 ID 的事务均不可见 */
  trx_id_t m_up_limit_id;       /* 小于这个 ID 的事务均可见 */
  trx_id_t m_creator_trx_id;    /* 创建该 Read View 的事务ID */
  trx_id_t m_low_limit_no;      /* 事务 Number, 小于该 Number 的 Undo Logs 均可以被 Purge */
  ids_t m_ids;                  /* 创建 Read View 时的活跃事务列表 */
  m_closed;                     /* 标记 Read View 是否 close */
}

处于最大、最小ID之间的,就是活跃但不可见的事务列表。
在这里插入图片描述

事务的实现

好了,这下我们有充足的知识可以来讨论如何实现事务了。

整体方案

  • 原子性,undo log,事务中断恢复
  • 持久性,redo log,同步写回磁盘,提交断电时可恢复
  • 隔离性,通过读写锁和MVCC来实现的
  • 一致性,通过上述三者来实现的。

隔离性,对应四种隔离级别

READ UNCOMMITTED

在这里插入图片描述

读不加锁,不排斥写。

  • 优点:读写并行,性能高
  • 缺点:造成脏读

READ COMITTED

在这里插入图片描述

读不加锁,读写分离。但这里MVCC的方式,是每次读的时候,都会读取不同版本,这会造成不可重复读问题。

当然,也有幻读问题。

REPEATABLE READ(Mysql默认隔离级别)

最简单的方式,读写锁实现,让读写串行:

在这里插入图片描述

  • 优点:实现起来简单
  • 缺点:无法做到读写并行

MVCC

在这里插入图片描述

通过版本控制,解决版本不同问题产生不可重复读的问题

  • 优点:读写并行
  • 缺点:实现的复杂度高,依然存在幻读的问题

InnoDB是可以解决幻读的,大致的思想也很简单, Next-key Lock对查询间隙进行加锁,不让插入自然也就不会有幻读问题。

SERIALIZABLE

在这里插入图片描述

注:
可线性化和可串行化,听起来很像,感觉也很像。其实不太一样,两者是分布式数据库中的一致性模型,但后者主要指事务中的一种隔离级别。
我的理解是,最大的区别在于,可线性化要求对于所有事件,都必须满足所有时刻的先后可见性。而可序列化仅需要保证多个并行的事务和某个事务序列结果一致即可。
这非常像Java中重排和happen-before的理念。

参考

  1. https://blog.csdn.net/weixin_36380516/article/details/107572412
  2. https://javaguide.cn/database/mysql/innodb-implementation-of-mvcc.html#readview

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1698898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

构建智慧科技园区的系统架构:数字化驱动未来创新

随着科技的不断进步和数字化转型的加速推进,智慧科技园区已成为当今城市发展的重要组成部分。在智慧科技园区建设中,系统架构的设计和实施至关重要,对于提升园区管理效率、优化资源利用、促进创新发展具有重要意义。 一、智慧科技园区系统架构…

文心智能体大赛:百度文心智能体平台初体验

写在前面 博文内容涉及:文心智能体大赛:文心智能体初体验理解不足小伙伴帮忙指正 😃,生活加油 我徒然忘记了热闹,却来不及悟透真正的清冷(《四喜忧国》) 前言 徒然忘记了热闹,却来不及悟透真正的清冷(《四喜忧国》),在…

【论文阅读|cryoET】ICE-TIDE

简介 三维cryoET重建的保真度进一步受到采集过程中物理扰动的影响。这些扰动以各种形式表现出来,例如连续采集之间的样本漂移,导致连续投影未对准,或者由于未散射的电子而导致二维投影中的局部变形。 传统的冷冻电子断层扫描工作流程需要对…

贪心题目总结

1. 最长递增子序列 我们来看一下我们的贪心策略体现在哪里??? 我们来总结一下: 我们在考虑最长递增子序列的长度的时候,其实并不关心这个序列长什么样子,我们只是关心最后一个元素是谁。这样新来一个元素之后&#xf…

深入了解 Golang 多架构编译:交叉编译最佳实践

随着软件开发领域的不断发展,我们面临着越来越多的挑战,其中之一是如何在不同的平台和架构上部署我们的应用程序。Golang(Go)作为一种现代化的编程语言,具有出色的跨平台支持,通过其强大的多架构编译功能&a…

需求开发和管理

人们对需求术语的困惑甚至延伸到整个学科的称谓上。有些作者将整个范围都称为“需求工程”。有些人统称为“需求管理”。还有些人认为这些活动属于广义上的业务分析的一个分支。我们发现,最好将需求工程分为需求开发和需求管理,如图所示。不管项目遵循什…

C++笔记之Unix时间戳、UTC、TSN、系统时间戳、时区转换、local时间笔记

C++笔记之Unix时间戳、UTC、TSN、系统时间戳、时区转换、local时间笔记 ——2024-05-26 夜 code review! 参考博文 C++笔记之获取当前本地时间以及utc时间

网络统一监控运维管理解决方案(ppt原件方案)

网络统一监控运维管理解决方案 1. 构建完善的网络运维体系:通过组织、流程、制度的完善、支撑手段的建设,构建低成本高效率的IT运营体系,推动IT运营工作自动化、智能化、一体化化发展。 2. 构建网络一体化监控能力:构建从设备、…

QT之常用控件

一个图形化界面当然需要有各种各样的控件,QT也不例外,在QT designer中就有提供各种各样的控件,用以开发图形化界面。 而想使用好一个QT控件,就需要了解这些控件。 QWidget 在QT中,所有控件都继承自 QWidget 类&…

基于Python Selenium web测试工具 - 基本用法详解

这篇文章主要介绍了Selenium(Python web测试工具)基本用法,结合实例形式分析了Selenium的基本安装、简单使用方法及相关操作技巧,需要的朋友可以参考下 本文实例讲述了Selenium基本用法。分享给大家供大家参考,具体如下: Seleni…

2010-2022年各省新质生产力数据(含原始数据+测算代码+计算结果)

2010-2022年各省新质生产力数据(含原始数据测算代码计算结果) 1、时间:2010-2022年 2、范围:31省 3、指标:gdp(亿元)、在岗职工工资:元、第三产业就业比重、人均受教育平均年限、…

App推广新境界:Xinstall助你轻松突破运营痛点,实现用户快速增长!

在移动互联网时代,App已经成为企业营销不可或缺的一部分。然而,如何有效地推广App,吸引并留住用户,成为了众多企业面临的难题。今天,我们将为您揭秘一款神奇的App推广工具——Xinstall,它将助您轻松突破运营…

idea2023的git从dev分支合并到主分支master

1.本地项目切换到主分支master 右键项目-git-Branches 依次点击项目-Remote-Origin-master-CheckOut 现在你的idea中的这个项目就是远程master分支的代码了。 2.合并dev分支到master 右击项目-git-Merge 选择origin-dev 点击Merge按钮,此时只是合并到本地的maste…

Neural Filters:风景混合器

Ps菜单:滤镜/Neural Filters/创意/风景混合器 Neural Filters/CREATIVE/Landscape Mixer 风景混合器 Landscape Mixer滤镜通过与另一个图像混合或改变诸如时间和季节等属性,神奇地改变景观。 “风景混合器”滤镜利用人工智能和机器学习技术,首…

MySQL--备份恢复

目录 一、备份恢复的工作职责 1.备份的时间周期 2.备份的方式 3.恢复方案 4.检查备份 5.定期恢复演练 6.故障恢复策略 7.迁移升级 二、逻辑备份工具--mysqldump 1.介绍 2.使用场景 3.mysqldump命令的参数介绍 1)全备: 2)单库或…

Kafka 安装教程和基本操作

一、简介 Kafka 是最初由 Linkedin 公司开发,是一个分布式、分区的、多副本的、多订阅者,基于 zookeeper 协调的分布式日志系统(也可以当做 MQ 系统),常见可以用于 web/nginx 日志、访问日志,消息服务等等…

【数据结构】快速排序详解!

文章目录 1. 快速排序的非递归版本2. 快速排序2.1 hoare 版本一2.2 挖坑法 🐧版本二2.3 前后指针 版本三2.4 调用以上的三个版本的快排 3. 快速排序的优化 1. 快速排序的非递归版本 🆒🐧关键思路: 🍎① 参数中的begin…

安装mamba时报错bare_metal_version

原因:缺少cuda118的环境版本,直接安装 nvidia/label/cuda-11.8.0 可解决,代码如下: conda install -c "nvidia/label/cuda-11.8.0" cuda-nvcc

八种单例模式

文章目录 1.单例模式基本介绍1.介绍2.单例模式八种方式 2.饿汉式(静态常量,推荐)1.基本步骤1.构造器私有化(防止new)2.类的内部创建对象3.向外暴露一个静态的公共方法 2.代码实现3.优缺点分析 3.饿汉式(静态…

Shell字符串变量

目标 能够使用字符串的3种方式 掌握Shell字符串拼接 掌握shell字符串截取的常用格式 能够定义Shell索引数组和关联数组 能够使用内置命令alias,echo,read,exit,declare操作 掌握Shell的运算符操作 Shell字符串变量 介绍 字符串(String)就是一系…