事务隔离级别的历史
ANSI SQL-92定义的隔离级别和异常现象确实对数据库行业影响深远,甚至30年后的今天,绝大部分工程师对事务隔离级别的概念还停留在此,甚至很多真实的数据库隔离级别实现也停留在此。但后ANSI92时代对事物隔离有许多讨论甚至批评,针对隔离级别和异常现象的论文、博客、文章、讨论非常多,这里概况一下事务的比较重要发展历史:
-
1992年,由于数据库行业处于混沌的事务状态,美国国家标准学会定义ANSI SQL-92标准。也就是广泛流传的4种隔离级别和4种异常现象
-
1995年,snapshot isolation等隔离级别提出和更多的异常现象。微软工程师等提出snapshot isolation隔离级别,并对ANSI SQL-92做出批判,92标准定义模糊,而且有许多隔离级别和异常现象未定义。参考《对ANSI SQL隔离级别的批判》.
此时隔离级别已不止4个,异常现象也更多,其中也包括写偏序异常。
-
1999年 ,由于锁模式的不同发展出过多的隔离级别,Atul Adya的论文整理了这些现象,并根据异常现象和功能将众多隔离级别回溯到ANSI SQL92标准进行对应。
-
2005年 ,由于绝大部分数据库声称他们是可串行化的,但他们实际上是快照隔离, Alan Fekete et al 提出“使快照隔离可序列化”。在snapshot isolation级别基础上实现可序列化,消除快照隔离的异象。
-
2008年 ,Fekete 扩展了可序列化,并提出数据库层面实现“使快照隔离可序列化”,称之为快照隔离可序列化SSI (Serializable Snapshot Isolation)
-
2012年 ,postgresql第一个在数据库中实现SSI ,参考postgresql数据库实现SSI的论文
其中,95年《对ANSI SQL隔离级别的批判》中的隔离级别和异常现象
各种数据库支持的隔离级别
很多数据库的声称他们”完全支持ACID“特性,但是没有可串行化是不能完全实现ACID的(特别是一致性)。然而许多数据库在不支持可串行化级别下声称他们支持ACID。其实他们绝大部分都没有完全实现,包括数据库老大哥oracle。
可串行化
人们对可串行化存在许多误解。
可串行化的含义:如果每个事务本身是正确的,即满足某些完整性条件,那么包括这些事务的任何串行执行的时间表是正确的(其事务仍然满足其条件):“串行”意味着事务在时间上不重叠,并且不能相互干扰,即彼此之间存在完全隔离。
1970年代可串行化(serializable)通过严格两阶段锁(SS2PL)实现,读写相互阻塞,直到事务结束。SS2PL丢失高可用性但消除了异常现象。
除了SS2PL实现可串行化,还有其他方式,比如可串行化快照隔离(SSI)。
为了保证没有异常,可串行化会丢失一些并发性(不同实现方式有所不同),但可以真正保证数据的一致性(ACID中的consistency)。也就是说没有实现串行化的数据库,其实没有完全支持ACID特性
可串行化在数学上已经证明可以实现,但是真实的数据库世界有点”不正常“。实际上,可串行化是事务隔离级别中最高级的,也是所有学者和大佬强力推荐的隔离级别,不过绝大部分数据库在RC或快照隔离级别上运行
为什么弱隔离级别在学术上有问题,实际上没出现严重问题?
1.非可串行化隔离级别的异常现象,一般都需要再高并发情况下才会发生,一般低并发数据库不太会出现问题
2.异常现象真的发生的时候,有些应用可能没发现异常现象或没检查到异常对他们不重要。
3.有可能数据异常了,但应用只是返回报错,并进入数据异常处理程序。
4.成本过高。不仅是数据库序列化隔离级别开发成本高,应用对可序列化也需要适应成本。光是理解这部分复杂的理论就不是一件容易的事
5.高级别的隔离会丢失一些性能。大量的改造工作可能是吃力不讨好的,应用需要在“高并发”和“无异常现象”间做抉择
6.业务基于机制开发,而不是规则开发。业务多少有点适应弱隔离级别的异常现象,特别是RC或快照隔离级别
快照隔离
ANSI SQL92并未定义快照隔离snapshot isolation(SI),这个隔离级别随着数据库行业发展才出现。
引自wiki定义:在快照隔离下执行的事务是在事务开始时拍摄的数据库的快照上操作的。当事务结束时,只有当事务更新的值自快照拍摄以来没有外部更改时,它才会成功提交。这样写冲突将导致事务中止。
快照隔离级别顾名思义就是就是使用了快照,存在于使用了MVCC的数据库中,多版本并发机制支持用户并发执行事务。
1992年 ANSI SQL92标准基于数据库的锁而定义,所以没有快照隔离级别这个定义。直到1995年《批判》的出现才被提出。
快照隔离串行化
由于快照隔离的广泛应用,而可序列化是学术上的数据库需要达到的隔离级别目标,可序列化快照隔离Serializable Snapshot Isolation (SSI) 随即产生。顾名思义,在快照隔离的基础上实现可序列化。
由于ANSI92标准的模糊性,虽然没有定义快照隔离,但许多数据库实际上就是使用的快照隔离。而快照隔离同样存在一些异常现象(包括写偏序),SSI的出现就是为了解决这些异常现象。
主流数据库通过基于S2PL或MVCC实现并发控制。在S2PL下写操作会阻塞其他事务读写,因此不会有写偏序异常问题。而MVCC实现了读写互不阻塞,只有写写冲突。在并发RW模式模式下会导致写偏序问题。SSI在pg9.1开始已经嵌入快照隔离SI中(pg只有快照隔离,哪怕是在可序列化级别下),解决了写偏序等异常。
写偏序
由于某些冲突构成环,会出现串行化异常**。**其中比较容易理解的一个就是写偏序(write skew)。
写偏序只发生在rw模型,ww、wr均不会发生写偏序,并且事务必须在并发条件下才会出现。前一个事务写入依赖后一个事务写入才会形成依赖环。
有许多现实案例可以出现写偏序异常,我们用一个经典的黑白球问题来理解写偏序
袋中有10个球,5个白球和5个黑球。此时有两个事务,P和Q。P将所有黑球改成白球,Q将所有白球改成黑球。此时可以有两个串行执行,P,Q或Q,P。在这两种情况下,最终结果是袋中有10个白球或者10个黑球。但是,快照隔离允许另一种结果:
- 事务 P 拿出5个黑球
- 事务 Q 拿出5个白球
- 事务 P 将手中所有黑球改成白球,放回袋中
- 事务 Q 将手中所有白球改成黑球,放回袋中
此时袋中还是5个黑球和5个白球,这在任何一个串行执行中都是不可能的。但这在快照隔离中是有效:每个事务都维护数据库的一致视图,并且其写集不与任何并发事务的写集重叠,如此白球黑球发生交换。
黑白球问题说明:快照隔离执行结果与串行化执行结果不一致,快照隔离下发生写偏序异常,数据结果与预期不一致。
pg中的SSI
postgresql数据库是首个在数据库中实现SSI的数据库。
引用wiki的黑白球代码示例
create table dots
(
id int not null primary key,
color text not null
);
insert into dots
with x(id) as (select generate_series(1,10))
select id, case when id % 2 = 1 then 'black'
else 'white' end from x;
set default_transaction_isolation = ‘serializable’; | set default_transaction_isolation = ‘serializable’; |
---|---|
begin; update dots set color = ‘black’ where color = ‘white’; | |
begin; update dots set color = ‘white’ where color = ‘black’; | |
commit | |
commit | |
(pg SSI先提交者成功提交,后提交者抛出报错 ) | ERROR: could not serialize access due to read/write dependencies among transactions DETAIL: Reason code: Canceled on identification as a pivot, during commit attempt. HINT: The transaction might succeed if retried. |
(已提交读和可重复读级别,均不会出现报错,黑白球颜色交换,不再展示测试结果)
严格两阶段提交(S2PL)也可以实现可串行化,但S2PL需要很重的读写锁,直到事务提交为止。S2PL会极大的影响并发性能,而且用户一般不会接受读写互相阻塞的情况,所以pg没有采用S2PL。
SSI是可序列化的另一种方案。它仍然会使用快照隔离,只是会额外检查是否有异常现象发生。
两个方案的处理方式也不同:在异常现象发生时,S2PL会阻塞事务,而SSI会中断事务以打破循环。
人们没有使用可串行化,原因之一有可串行化会降低数据库性能。这其实可以理解,因为有”检查异常现象“的SSI必定比什么检查都没有的弱隔离级别性能低。不过经过SSI实现理论的发展和pg本身对只读事务的优化,SSI的性能已于SI相差无几。
可序列化能极大的简化应用对一致性的担心,而pg9.1已实现ssi并加以优化。期待应用有一天真的能使用可串行化隔离级别。
事务隔离级别参考
https://wiki.postgresql.org/wiki/SSI
https://en.wikipedia.org/wiki/Serializability
https://en.wikipedia.org/wiki/Snapshot_isolation
https://justinjaffray.com/what-does-write-skew-look-like/
http://www.bailis.org/blog/when-is-acid-acid-rarely/
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-95-51.pdf 95年SI隔离级别以及对SQL92标准的批评
https://www.cse.iitb.ac.in/infolab/Data/Courses/CS632/2009/Papers/p492-fekete.pdf SSI论文
https://drkp.net/papers/ssi-vldb12.pdf postgresql实现SSI
https://ristret.com/s/f643zk/history_transaction_histories 事务隔离级别的历史