【MySQL事务篇】MySQL事务日志

MySQL事务日志

文章目录

MySQL事务日志
- 1. 概述
- 2. redo 日志
- - 2.1 概述
  - 2.2 redo log的好处、特点
  - 2.3 redo的组成
  - 2.4 redo的整体流程
  - 2.5 redo log的刷盘策略
  - 2.6 redo log file 参数设置相关
- 3. undo 日志
- - 3.1 概述
  - 3.2 Undo日志的作用
  - 3.3 undo的存储结构
  - - 1. 回滚段与undo页
    - 2. 回滚段与事务
    - 3. 回滚段中的数据分类
  - 3.4 undo的类型
  - 3.5 undo log的生命周期
  - - 1. 简要生成过程
    - 2. 详细生成过程
    - 3. undo log的回滚流程
    - 4. undo log的删除
- 4. 小结

1. 概述

事务有4种特性：原子性、一致性、隔离性和持久性。那么事务的四种特性到底是基于什么机制实现呢？

事务的隔离性由 锁机制 实现。
而事务的原子性、一致性和持久性由事务的 redo 日志和 undo 日志来保证。
- redo log 称为 重做日志 ，提供再写入操作，恢复提交事务修改的页操作，用来保证事务的持久性。
- undo log 称为 回滚日志 ，回滚行记录到某个特定版本，用来保证事务的原子性、一致性。

undo 不是 redo 的逆过程。REDO 和 UNDO 都可以视为是一种 恢复操作 ，但是：

redo log: 是存储引擎层(innodb)生成的日志，记录的是 物理级别 上的页修改操作，比如页号xxx、偏移量yy写入了’zzz数据。主要为了保证数据的可靠性;
undo log: 是存储引擎层(innodb)生成的日志，记录的是 逻辑操作 日志，比如对某一行数据进行了INSERT语句操作，那么 undo log就记录一条与之相反的DELETE操作。主要用于事务的回滚 (undo log 记录的是每个修改操作的 逆操作)和 一致性非锁定读 undo log 回滚行记录到某种特定的版本–MVCC，即多版本并发控制。

2. redo 日志

2.1 概述

InnoDB引擎的事务采用了WAL技术 (Write Ahead Log)，这种技术的思想就是先写日志，再写磁盘，只有日志写入成功，才算事务提交成功，这里的日志就是redo log。当发生宕机且数据未刷到磁盘的时候，可以通过redo log来恢复，保证ACID中的D，这就是redo log的作用。

在这里插入图片描述

2.2 redo log的好处、特点

好处

redo日志降低了刷盘频率
redo日志占用的空间非常小

存储表空间ID、页号、偏移量以及需要更新的值，所需的存储空间是很小的，刷盘快

特点

redo日志是顺序写入磁盘的
- 在执行事务的过程中，每执行一条语句，就可能产生若干条redo日志，这些日志是按照 产生的顺序写入磁盘的，也就是使用顺序IO，效率比随机IO快
事务执行过程中，redo log不断记录
- redo log 跟bin log 的区别，redo log 是 存储引擎层 产生的，而bin log是 数据库层 产生的。假设一个事务，对表做10万行的记录插入，在这个过程中，一直不断的往redo log顺序记录，而bin log不会记录，直到这个事务提交，才会一次写入到bin log文件中

2.3 redo的组成

重做日志的缓冲 (redo log buffer) ：保存在内存中，是易失的
- innodb_log_buffer_size：redo log buffer 大小，默认 16M ，最大值是 4096M，最小值为1M
- 服务器启动时就申请称为 redo log buffer的 连续内存 空间。这片空间被划分成若干个连续的 redo log block。一个redo log block占用 512字节
重做日志文件 (redo log file) ：保存在硬盘中，是持久的
- 默认在数据目录文件

2.4 redo的整体流程

以一个更新事务为例，redo log 流转过程，如下图所示：

在这里插入图片描述

先将原始数据从磁盘中读入内存中来，修改数据的内存拷贝
生成一条重做日志并写入redo log buffer，记录的是数据被修改后的值
当事务commit时，将redo log buffer中的内容刷新到 redo log file，对 redo log file采用追加写的方式
定期将内存中修改的数据刷新到磁盘中

Write-Ahead Log(预先日志持久化)：在持久化一个数据页之前，先将内存中相应的日志页持久化

2.5 redo log的刷盘策略

redo log buffer刷盘到redo log file的过程并不是真正的刷到磁盘中去，只是刷入到 文件系统缓存（page cache）中去（这是现代操作系统为了提高文件写入效率做的一个优化），真正的写入会交给系统自己来决定（比如page cache足够大了）。那么对于InnoDB来说就存在一个问题，如果交给系统来同步，同样如果系统宕机，那么数据也丢失了（虽然整个系统宕机的概率还是比较小的）

针对这种情况，InnoDB给出 innodb_flush_log_at_trx_commit 参数，该参数控制 commit提交事务时，如何将 redo log buffer 中的日志刷新到 redo log file 中。它支持三种策略：

设置为0 ：表示每次事务提交时不进行刷盘操作。（系统默认master thread每隔1s进行一次重做日志的同步）
- 如果MySQL挂了，可能会丢失1秒内的数据
设置为1 ：表示每次事务提交时都将进行同步，刷盘操作（ 默认值 ）
- 只要事务提交成功，redo log记录一定在硬盘中，不会有任何数据丢失；建议用默认值，虽然操作系统宕机概率很小，但是用了事务，一般数据安全相对来说更重要
设置为2 ：表示每次事务提交时都只把 redo log buffer 内容写入 page cache，不进行同步。由os自己决定什么时候同步到磁盘文件
- 系统挂了，可能会丢失1秒内的数据；MySQL挂了的话，还是会将page cache中的数据刷盘到磁盘中

虽然可以通过设置参数innodb_flush_log_at_trx_commit为0或2来提高事务提交的性能，但需清楚，这种设置方法丧失了事务的ACID特性

2.6 redo log file 参数设置相关

1. 相关参数设置

innodb_log_group_home_dir ：指定 redo log 文件组所在的路径，默认值为 ./ ，表示在数据库的数据目录下。MySQL的默认数据目录（ var/lib/mysql ）下默认有两个名为 ib_logfile0 和 ib_logfile1 的文件，log buffer中的日志默认情况下就是刷新到这两个磁盘文件中。此redo日志文件位置还可以修改
innodb_log_files_in_group：指明redo log file的个数，命名方式如：ib_logfile0，iblogfile1…iblogfilen。默认2个，最大100个
innodb_flush_log_at_trx_commit：控制 redo log 刷新到磁盘的策略，默认为1
innodb_log_file_size：单个 redo log 文件设置大小，默认值为 48M 。最大值为512G，注意最大值指的是整个 redo log 系列文件之和，即（innodb_log_files_in_group * innodb_log_file_size ）不能大于最大值512G

根据业务修改其大小，以便容纳较大的事务。编辑my.cnf文件并重启数据库生效，如下所示

innodb_log_file_size=200M

2 . 日志文件组

在这里插入图片描述

总共的redo日志文件大小其实就是： innodb_log_file_size × innodb_log_files_in_group

采用循环使用的方式向redo日志文件组里写数据的话，会导致后写入的redo日志覆盖掉前边写的redo日志。所以InnoDB的设计者提出了checkpoint的概念。

3 . checkpoint

write pos 是当前记录的位置，一边写一边后移
checkpoint 是当前要擦除的位置，也是往后推移

在这里插入图片描述

如果 write pos 追上 checkpoint ，表示日志文件组满了，这时候不能再写入新的 redo log记录，MySQL 得停下来，清空一些记录，把 checkpoint 推进一下

3. undo 日志

redo log是事务持久性的保证，undo log是事务原子性的保证。在事务中 更新数据 的 前置操作 其实是要先写入一个 undo log 。

3.1 概述

MySQL把为了回滚而记录的内容称为 撤销日志 或者 回滚日志 即( undo log )。对于更改语句操作都记录了将更改语句还原的操作。

undo log的产生会伴随着redo log的产生，这是因为undo log也需要持久化。

3.2 Undo日志的作用

作用1：回滚数据
- undo是 逻辑日志，因此只是将数据库逻辑地恢复到原来的样子。所有修改都被逻辑地取消了，但是数据结构和页本身在回滚之后可能大不相同
作用2：MVCC
- 在InnoDB存储引擎中MVCC的实现是通过undo来完成。当用户读取一行记录时，若该记录已经被其他事务占用，当前事务可以通过undo读取之前的行版本信息，以此实现非锁定读取。

3.3 undo的存储结构

1. 回滚段与undo页

InnoDB对undo log的管理采用段的方式，也就是 回滚段（rollback segment） 。每个回滚段记录了1024 个 undo log segment ，而在每个undo log segment段中进行 undo页的申请。

从1.1版本开始InnoDB支持最大 128个rollback segment ，故其支持同时在线的事务限制提高到了 128*1024，可通过下列语句查看

show variables like 'innodb_undo_logs';

2. 回滚段与事务

每个事务只会使用一个回滚段，一个回滚段在同一时刻可能会服务于多个事务;
当一个事务开始的时候，会制定一个回滚段，在事务进行的过程中，当数据被修改时，原始的数据会被复制到回滚段
在回滚段中，事务会不断填充盘区，直到事务结束或所有的空间被用完。如果当前的盘区不够用，事务会在段中请求扩展下一个盘区，如果所有已分配的盘区都被用完，事务会覆盖最初的盘区或者在回滚段允许的情况下扩展新的盘区来使用
回滚段存在于undo表空间中，在数据库中可以存在多个undo表空间，但同一时刻只能使用一个undo表空间
当事务提交时，InnoDB存储引擎会做以下两件事情：
- 将undo log放入列表中，以供之后的purge操作
- 判断undo log所在的页是否可以重用，若可以分配给下个事务使用

3. 回滚段中的数据分类

未提交的回滚数据(uncommitted undo information)：该数据所关联的事务并未提交，用于实现读一致性，所以该数据不能被其他事务的数据覆盖
已经提交但未过期的回滚数据(committed undo information)：该数据关联的事务已经提交，但是仍受到undo retention参数的保持时间的影响
事务已经提交并过期的数据(expired undo information)：事务已经提交，而且数据保存时间已经超过undo retention参数指定的时间，属于已经过期的数据。当回滚段满了之后，会优先覆盖"事务已经提交并过期的数据”

事务提交后并不能马上删除undo log及undo log所在的页。这是因为可能还有其他事务需要通过undo log来得到行记录之前的版本。故事务提交时将undo log放入一个链表中，是否可以最终删除undo log及undo log所在页由purge线程来判断。

3.4 undo的类型

insert undo log

insert undo log是指在insert操作中产生的undo log。因为insert操作的记录，只对事务本身可见，对其他事务不可见(这是事务隔离性的要求)，故该undo log可以在事务提交后直接删除。不需要进行purge操作
update undo log

update undo log记录的是对delete 和update操作产生的undo log。该undo log可能需要提供MVCC机制，因此不能在事务提交时就进行删除。提交时放入undo log链表，等待purge线程进行最后的删除

3.5 undo log的生命周期

1. 简要生成过程

以下是undo+redo事务的简化过程

假设有2个数值，分别为A=1和B=2，然后将A修改为3，B修改为4

1. start transaction;
2. 记录 A=1 到 undo log;
3. update A = 3;
4. 记录 A=3 到 redo log;
5. 记录 B=2 到 undo log;
6. update B= 4:
7. 记录B = 4到redo log;
8. 将redo log刷新到磁盘
9. commit

在1-8步骤的任意一步系统宕机，事务未提交，该事务就不会对磁盘上的数据做任何影响
如果在8-9之间宕机，恢复之后可以选择回滚，也可以选择继续完成事务提交，因为此时redo log已经持久化
若在9之后系统宕机，内存映射中变更的数据还来不及刷回磁盘，那么系统恢复之后，可以根据redo log把数据刷回磁盘

只有Buffer Pool的流程：

在这里插入图片描述

有了Redo Log和Undo Log之后：

在这里插入图片描述

在更新Buffer Pool中的数据之前，需要先将该数据事务开始之前的状态写入Undo Log中。假设更新到一半出错了，就可以通过Undo Log来回滚到事务开始前

2. 详细生成过程

对于InnoDB引擎来说，每个行记录除了记录本身的数据之外，还有几个隐藏的列（前面文章行格式中有介绍）：

DB_ROW_ID：如果没有为表显式的定义主键，并且表中也没有定义唯一索引，那么lnnoDB会自动为表添加一个row_id的隐藏列作为主键
DB_TRX_ID：每个事务都会分配一个事务ID，当对某条记录发生变更时，就会将这个事务的事务ID写入trx_id中
DB_ROLL_PTR：回滚指针，本质上就是指向 undo log 的指针

在这里插入图片描述

当执行INSERT时：

begin;
INSERT INTO user (name) VALUES ("tom");

插入的数据都会生成一条insert undo log，并且数据的回滚指针会指向它。undo log会记录undo log的序号、插入主键的列和值…，那么在进行rollback的时候，通过主键直接把对应的数据删除即可

在这里插入图片描述

当执行UPDATE时：

对于更新的操作会产生update undo log，并且会分更新主键的和不更新主键的，假设现在执行：

UPDATE user SET name='Sun' WHERE id=1:

这时会把老的记录写入新的undo log，让回滚指针指新的undo log，它的undo no是1，并且新的undo log会指向老的undo log (undo no=0)

在这里插入图片描述

假设现在执行更新主键的语句：

UPDATE user SET id=2 WHERE id=1;

对于更新主键的操作，会先把原来的数据deletemark标识打开，这时并没有真正的删除数据，真正的删除会交给清理线程去判断，然后在后面插入一条新的数据，新的数据也会产生undo log，并且undo log的序号会递增。

在这里插入图片描述

可以发现每次对数据的变更都会产生一个undo log，当一条记录被变更多次时，那么就会产生多条undo log。undo log记录的是变更前的日志，并目每个undo log的序号是递增的，那么当要回滚的时候，按照序号 依次向前推，就可以找到我们的原始数据了

3. undo log的回滚流程

以上面的例子来说，假设执行rollback，那么对应的流程应该是这样：

通过undo no=3的日志把id=2的数据删除
通过undo no=2的日志把id=1的数据的deletemark还原成0
通过undo no=1的日志把id=1的数据的name还原成Tom
通过undo no=0的日志把id=1的数据删除

4. undo log的删除

针对于insert undo log

因为insert操作的记录，只对事务本身可见，对其他事务不可见。故该undo log可以在事务提交后直接删除，不需要进行purge操作。
针对于update undo log

该undo log可能需要提供MVCC机制，因此不能在事务提交时就进行删除。提交时放入undo log链表，等待purge线程进行最后的删除。

补充：

purge线程两个主要作用是: 清理undo页和清除page里面带有Delete_Bit标识的数据行。在InnoDB中，事务中的Delete操作实际上并不是真正的删除掉数据行，而是一种Delete Mark操作，在记录上标识Delete_Bit，而不删除记录。是一种“假删除”，只是做了个标记，真正的删除工作需要后台purge线程去完成。