1. 什么是MVCC
MVCC(Multiversion Concyrrency Contril),多版本并发控制。顾名思义,MVCC是通过数据行的多个版本来管理实现数据库的 并发控制。这项技术使得在innodb的事务隔离级别下执行 一致性读 操作有了保证。换言之,就是为了查询一些正在被另一个事务更新的行,并且可以看到他们被更新之前的值,这样在做查询的时候就不用等待另一个事务释放锁。
MVCC没有正式的标准,在不同的DBMS中MVCC的实现方式可能是不同的,也不是普遍使用。
2. 快照读与当前读
MVCC在mysql innodb中的实现主要是为了提高数据库并发性能,用更好的方式去处理 读写的冲突,做到即使有读写冲突时,也能做到 不加锁,非阻塞并发读,而这个读指的就是 快照读,而非当前读。当前读实际上是一种加锁的操作,是悲观锁的实现。而MVCC本质是采用乐观锁思想的一种方式。
2.1 快照读
快照读又叫一致性读,读取的是快照数据。不加锁的简单的select都属于快照读,即不加锁的非阻塞读;比如这样
select * from tables where id =1 ;
之所以出现快照读的情况,是基于提高并发性能的考虑,快照读的实现是基于MVCC,他在很多情况下,避免了加锁操作,降低了开销。
既然是基于多版本,那么快照读可能读到的并不一定是数据的最新版本,而有可能是之前的历史版本。
快照读的前提是隔离级别不是串行级别,串行级别下的快照读会退化成当前读。
2.2 当前读
当前读读取的是记录的最新版本(最新数据,而不是历史版本的数据),读取时还要保证其他并发事务不能修改当前记录,会对读的记录进行加锁。加锁的select,或者对数据进行增删改都会进行档当前读。比如:
select * from student lock in share mode;# 共享锁
select * from student for udpate;# 排它锁
insert into student values...;# 排它锁
delete from student where ...;# 排它锁
update student set ...; # 排它锁
3. 复习
3.1 再谈隔离级别
我们直到事务有4种隔离级别,可能存在三种并发问题:
在mysql中,默认的隔离级别时不可重复读,可以解决脏读和不可重复读的问题,如果仅从定义的角度来看,它并不能解决幻读的问题。如果我们想要解决幻读的问题,就需要采用串行化的方式,也就是将隔离级别提升到最高,但是这样一来就会大幅降低数据库的事务并发能力。
MVCC可以不采用锁机制,而是通过乐观锁的方式来解决不可重复读和幻读的问题!它可以在大多数情况下替代行级锁,降低系统的开销。
3.2 隐藏字段,undo log版本链
回顾下undo日志的版本链,对于使用innodb存储引擎来说,他的聚簇索引记录中都包含两个必要的隐藏列。
~ trx_id:每次一个事务对某条聚簇索引记录进行改动时,都会把该事务的事务id赋值给trx_id隐藏列。
~ roll_pointer:每次对某条聚簇索引记录进行改动时,都会把旧的版本写入到undo日志中,然后这个隐藏列就相当于一个指针,可以通过它来找到该记录修改之前的信息。
假设之后两个事务id分别为10,20的事务对这条记录进行了update操作,操作流程如下:
发生时间顺序 | 事务10 | 事务20 |
---|---|---|
1 | begin | |
2 | begin | |
3 | update student set name = '里斯' wehre id = 1 | |
4 | update student set name = '王五“ where id = 1 | |
5 | commit | |
6 | update student set name = '前期' where id = 1 | |
7 | update student set name = '宋把' where id = 1 | |
8 | commit |
能不能在两个事务中交叉更新同一条记录呢?不能!这不就是一个事务修改了另一个事务未提交事务修改过的数据,脏写。
innodb使用锁来保证不会有脏写情况的发生,也就是在一个事务更新了某条数据,就会给这条记录加锁,另一个事务再次更新时就需要等待第一个事务提交,把锁释放掉才可以继续更新。
每次对记录进行改动,都会记录一条undo日志,每条undo日志也都有一个roll_pointer属性(insert操作对应的undo日志没有该属性,因为该记录并没有更早的版本),可以将这些undo日志都连起来,串成一个链表:
对该记录每次更新后,都会将旧值放到一条undo日志中,就算是该记录的一个旧版本,随着更新次数的增多,所有的版本都会被roll_pointer属性连接成一个链表,我们把这个链表称之为 版本链,版本链的头节点就是档期那记录最新的值。
每个版本中还包含生成该版本时对应的事务id。
4. MVCC实现原理值ReadView
MVCC的实现依赖于:隐藏字段,undo log, read view。
4.1 什么时ReadView
在MVCC机制中,多个事务对同一个行记录进行更新会产生多个历史快照,这些历史快照保存在undo log里。如果一个事务想要查询这个行记录,需要读取哪个版本的行记录呢?这是就需要用到ReadView了,它帮助我们解决了行的可见性问题。
ReadView就是事务在使用MVCC机制进行快照读操作时产生的读视图。当事务启动时,会生成数据库系统当前的一个快照,innodb为每个事务构造了一个数组,用来记录并维护系统当前 活跃事务 的ID(‘活跃’指的就是,启动了但还没有提交的事务)。
4.2 设计思路
使用 READ UNCOMMITTED 隔离级别的事务,由于可以读到未提交事务修改过的记录,所以直接读取记录的最新版本就好了。
使用SERIZLIZABLE隔离级别的事务,innodb规定使用加锁的方式来访问记录。
使用READ COMMITTED 和 REPEATABLE READ 隔离级别的事务,都必须保证读到 已提交了的 事务修改过的记录。假如另一个事务已经修改了记录但是尚未提交,是不能直接读取最新版本的记录的,核心为题就是需要判断一下版本链中的哪个版本是当前事务可见的,这是ReadView要解决的主要问题。
这个ReadView中主要包含4个比较重要的内容,分别如下:
1. creator_trx_id,创建这个ReadView的事务ID。
说明:只有对表中的记录做改动时,才会为事务分配事务id,否则在一个只读事务中的事务id值默认为0。
2. trx_ids,表示在生成ReadView时当前系统中活跃的读写事务的 事务id列表。
3. up_limit_iud,活跃的事务中最小的事务id
4. low_limit_id,表示生成ReadView时系统中应该分配给下一个事务的id值。low_limit_id是系统最大的事务id值,这里要注意是系统的事务id,需要区别于正在活跃的事务id。
4.4 MVCC整体操作流程
了解了这些概念后,我们来看下当前查询一条记录的时候,系统如何通过MVCC找到它:
1. 首先获取事务自己的版本号,也就是事务id
2. 获取ReadView;
3. 查询得到的数据,然后与ReadView中的事务版本号进行比较
4. 如果不符合ReadView规则,就需要从undo log中获取历史快照
5. 最后返回符合规则的数据
如果某个版本的数据对当前事务不可见的话,那就顺着版本链找下一个版本的数据,继续按照上边的步骤判断可见性,依次类推,直到本本链中的最后一个版本。如果最后一个版本也不可见的话,那么就意味着该条记录对该事务玩全不可见,查询结果就不包含该记录。
在隔离级别为读已提交时,一个事务中的每一次select查询都会重新获取一次Read View。
如表所示:
事务 | 说明 |
---|---|
begin | |
select * from student where id>2; | 获取一次Read View |
.... | |
select * from student where id >2; | 获取一次Read View |
commit |
注意,此时同样的查询语句都会重新获取一次ReadView,这时候如果ReadView不同,就可能产生不可重复读或者幻读的情况。
当隔离级别为可重复读的时候,就避免了不可重复读,这是因为一个事务只在第一次select的时候会获取一次ReadView,而后面的所有select都会服用这个ReadView,如下图所示:
5. 总结
MVCC在 READ COMMIT,REPEATABLE READ 这两种隔离级别的事务在执行快照读操作访问记录的版本链的过程。这样使不同的事务 读写,写读操作并发执行,从而提升系统性能。
核心点在于ReadView的原理,READ COMMIT,REPEATABLE READ 这两个隔离级别的一个很大不同就是生成ReadView的时机不同:
~ READ COMMIT 在每一次进行普通select操作前都会生成一个ReadView
~ REPEATABLE READ 只在第一次进行普通select操作前生成也给ReadView,之后操作都是复用这个ReadView。
通过MVCC我们可以解决:
1. 读写之间的阻塞问题。通过MVCC可以让读写互相不阻塞,即读不阻塞写,写不阻塞读,这样就可以提升事务并发处理的能力。
2. 降低了死锁的概率。这是因为MVCC采用了乐观锁的方式,读取数据时并不需要加锁,对于写操作,也只锁定必要的行。
3. 解决快照读的问题。当我们查询数据库在某个时间点的快照时,只能看到这个时间点之前事务提交更新的结果,而不能看到这个时间点之后事务提交的更新结果。