技术主题
在mysql世纪使用中,经常涉及到MVCC的概念(Multi-Vsersion Concurrency Control),即多版本并发控制,一种并发控制方法,根本目的是主为了提升数据库的并发性能。
mvcc为什么产生
数据库最原生的锁:
最原生的锁,锁住一个资源后禁止其他任何线程访问同一个资源。但是很多应用的一个特点都读多写少的场景,很多数据的读取次数远大于修改的次数。
读写锁的出现:
读锁和读锁之间不互斥,而写锁和写锁、读锁都互斥,这样很大提升系统的并发能力。
mvcc概念出现:
能不能让读写之间也不冲突的方法,就是读取数据时通过一种类似快照的方式将数据保存下来,这样读锁和写锁不冲突了,不同的事物session看到自己特定版本的数据。
总结:
MVCC就是因为大佬们,不满意让数据库采用悲观锁性能不佳的形式去解决读-写冲突问题,而提出的解决方案,就在数据库中加上MVCC。形成下面两个组合:
MVCC + 悲观锁
MVCC解决读写冲突,悲观锁解决写写冲突
MVCC+乐观锁
MVCC解决读写冲突,乐观锁解决写写冲突
普及常见锁
读锁:
也叫共享锁、S锁,若事物T对数据对象A加上S锁,则事物T可以读但不能修改A,其他事务只能再对A加S锁,而不能加X锁,直到T释放A上的S锁。
写锁
又称排他锁、X锁。若事物T对数据对象A加上X锁,其他事物不能对A加任何锁
表锁:
操作对象是数据表。mysql大多数锁策略都支持,是系统开销最低但并发性能最低的一个锁策略。事务t对整个表加读锁,则其他事务可读不可写,若加写锁,则其他事务增删改都不行
行级锁:
操作对象是数据表中的一行,是mvcc技术用的最多的。
技术MVCC适用于事务隔离级别
MVCC只在读取已提交,可重复读,两个隔离级别下工作。其他两个隔离级别够和MVCC不兼容, 因为 READ UNCOMMITTED (读取未提交) 总是读取最新的数据行, 而不是符合当前事务版本的数据行。而 SERIALIZABLE (可串行化) 则会对所有读取的行都加锁。
MVCC实现原理
MVCC的目的就是多版本并发控制,在数据库中的实现,就是为了解决读写冲突,它的实现原理主要依赖记录中的3个隐式字段,undo日志,Read View来实现的。
3个隐式字段
DB_TRX_ID, DB_ROLL_PTR, DB_ROW_ID
简单来说:第一个事务id(每处理一次加一),第二个是指向undolock的一个指针,第三个是用于存在聚集索引中的id。
DB_TRX_ID,6个字节,插入或更新行的最后一个事务的事务标识符。(删除视为更新,将其标记为已删除)
DB_ROLL_PTR,7个字节,写入回滚段的撤消日志记录(若行已更新,则撤消日志记录包含在更新行之前重建行内容所需的信息)
DB_ROW_ID,6个字节,行标识,隐藏单调自增id
DB_ROW_ID 是数据库默认为该行记录生成的唯一隐式主键,DB_TRX_ID 是当前操作该记录的事务 ID ,而 DB_ROLL_PTR 是一个回滚指针,用于配合 undo日志,指向上一个旧版本
事务A:对数据进行了修改(将name中的张三改为李四)
第一步:用排他锁锁定这一条记录
第二步:undolog会记录日志,作为旧记录,既在undo log 中有当前行的的拷贝副本
第三步:将回滚指针的值copy到undolog中
第四步:修改当前的name值并且修改隐藏字段的事务id作为当前事务1的id。默认是从1开始,之后递增,回滚指针指向拷贝到undo log的副本记录,表示上一个版本。
事务B:事务A修改但未提交,同时对事务B也对这行数据做了修改
undo日志
undo日志
insert undo log
代表事务在 insert 新记录时产生的 undo log, 只在事务回滚时需要,并且在事务提交后可以被立即丢弃
update undo log
事务在进行 update 或 delete 时产生的 undo log ; 不仅在事务回滚时需要,在快照读时也需要;所以不能随便删除,只有在快速读或事务回滚不涉及该日志时
当前读和快照读
当前读:
像select语句:lock in share mode(共享锁),select 语句for update;insert,delete这些操作都是一种当前读,就是读取的是记录的最新版本。读取加锁
快照读:
像不加锁的select * from 操作就是快照读,即不加锁的非阻塞读,不涉及其他锁之间的冲突;快照读的前提是隔离级别不是串行级别,串行级别下的快照读会退化成当前读;之所以出现快照读的情况,是基于提高并发性能的考虑,快照读的实现是基于多版本并发控制,即MVCC,可以认为MVCC是行锁的一个变种,但它在很多情况下,避免了加锁操作,降低了开销;既然是基于多版本,即快照读可能读到的并不一定是数据的最新版本,而有可能是之前的历史版本。
ReadView
ReadView说白了就是一个数据结构,在sql开始的时候被创建,是事务进行快照读(select * from) 操作的时候生产的读视图。
ReadView{low_trx_id, up_trx_id, trx_ids}
1)low_trx_id表示该SQL启动时,当前事务链表中最大的事务id编号,也就是最近创建的除自身以外最大事务编号;
2)up_trx_id表示该SQL启动时,当前事务链表中最小的事务id编号,也就是当前系统中创建最早但还未提交的事务;
3)trx_ids表示所有事务链表中事务的id集合。
最后,至于位于(up_trx_id, low_trx_id)中间的事务是否可见,这个需要根据不同的事务隔离级别来确定。对于RC的事务隔离级别来说,对于事务执行过程中,已经提交的事务的数据,对当前事务是可见的,也就是说上述图中,当前事务运行过程中,trx1~4中任意一个事务提交,对当前事务来说都是可见的;而对于RR隔离级别来说,事务启动时,已经开始的事务链表中的事务的所有修改都是不可见的,所以在RR级别下,low_trx_id基本保持与up_trx_id相同的值即可。
作用
MVCC(Multi-Version Concurrency Control)是MySQL实现读写并发控制的一种机制。它主要的原理是通过创建多个版本来实现并发读,从而避免了加锁的方式所带来的潜在问题,如死锁、阻塞等。具体来说,当一个事务开始时,MySQL 会为其创建一个事务 ID,同时在其所要访问的每个表上创建一个新的快照版本号。每个快照版本号都包含了该表上所有已经提交的修改。也就是说,对于读操作,只会读取当前事务开始前已经存在的版本数据,而对于写操作,MySQL会在写操作前先检查所有已提交的事务中是否有对其操作的数据版本,如果有,则会阻塞写操作,直到当前事务提交后重新检查并进行写操作。这样可以保证在同一时间点只有一个事务对同一数据进行写操作,从而避免了幻读的发生。这样的方式下可以提高并发性能和数据一致性,同时也避免了一些潜在问题。