MySQL逻辑架构
MySQL 服务器逻辑架构图
最上层的服务并不是MySQL所独有的,大多数基于网络的客户端/服务器的工具或者服务都有类似的架构,比如连接管理、授权认证、安全等等。
大多数MySQL的核心服务都在第二层,包括查询解析、分析、优化、缓存一级所有内置函数,所有跨存储引擎的功能都在这一层实现:存储过程、触发器、视图等。
第三层包含了存储引擎,存储引擎负责MySQL中数据的存储和提取。服务器通过API与存储引擎进行通信。这些接口屏蔽了不同存储引擎之间的差异,使得这些差异对上层的查询过程透明。
连接管理与安全性
每个客户端连接都会在服务器进程中拥有一个线程,这个连接的查询只会在这个单独的线程中执行,该线程只能轮流在某个CPU核心中运行。服务器会负责缓存线程,因此不需要为每一个新建的连接创建或者销毁线程。
当客户端连接到MySQL服务器时,服务器需要对其进行认证,一旦客户端连接成功,服务器会继续验证该客户端是否拥有执行某个特定查询的权限。
优化与执行
MySQL会解析查询,并创建内部数据结构,然后对其进行优化,包括重写查询、决定表的读取顺序、选择合适的索引等。
对于Select语句,在解析查询之前,服务器会先检查查询缓存,如果能够在其中找到对应的查询,服务器就不必再次执行查询解析、优化和执行的整个过程,而是直接返回查询缓存中的结果集
。
并发控制
读写锁
读锁是共享的,或者说是相互不阻塞的
。多个客户在同一时刻可以同时读取同一个资源,互不干扰。
写锁是排他的,只要有一个写锁存在就会阻塞其他的写锁和读锁
,这是出于安全策略的考虑,只有这样,才能确保在给定的时间里,只有一个用户能执行写入,并防止其他用户读取正在写入的同一资源。
在实际的数据库系统中,每时每刻都在发生锁定,当某个用户在修改某一部分数据时,MySQL会通过锁定防止其他用户读取同一数据。大多数时候,MySQL锁的内部管理都是透明的。
锁粒度
一种提高共享资源并发性的方式就是让锁定对象更有选择性。尽量只锁定需要修改的部分数据,而不是所有资源。任何时候,在给定的资源上,锁定的数据量越少,则系统的并发程度越高,只要相互之间不发生冲突即可。
问题是加锁也需要消耗资源,锁的各种操作,包括获得锁、检查锁是否已经解除,释放锁等,如果系统花费大量的时间来管理锁,而不是存取数据,那么系统的性能反而受到影响。
所谓的 锁策略,就是在锁的开销和数据的安全性之间寻求平衡
。MySQL主要提供了两种最重要的锁策略。
1. 表锁
表锁是MySQL中最基本的锁策略,并且是开销最小的策略。他会锁定整张表,一个用户在对表进行写操作前,需要先获得写锁,这会阻塞其他用户对该表的所有读写操作,只有没有写锁时,其他读取的用户才能获取到锁,读锁之间不相互阻塞。
尽管存储引擎可以管理自己的锁,MySQL本身还是会使用各种有效的表锁来实现不同的目的。例如,服务器会为alter table之类的语句使用表锁,而忽略存储引擎的锁机制。
2. 行级锁
行级锁可以最大程度的支持并发处理(同时也带来了最大的锁开销)。行级锁只在存储引擎层实现。
事务
一个运行良好的事务处理系统,必须具备这些标准特征。
- 原子性:一个事务必须被视为一个不可分割的最小工作单元,整个事务中所有操作要么全部提交成功,要么全部失败。
对于一个事务,不可能只执行其中一部分操作,这就是事务的原子性
。 - 一致性:数据库总是
从一个一致性状态转换到另一个一致性状态
。 - 隔离性:一个事务所做的修改在最终提交以前,对其他事务是不可见得。
- 持久性:一旦事务提交,则其所做的修改就会永久保存到数据库中。即使系统崩溃,修改的数据也不会丢失。持久性是相对的概念,不可能做到100%的持久型保证的策略。
一致性:
数据完整性
:在事务执行前后,需要满足所有的规则和约束。业务逻辑正确性
:事务执行结果符合预定的业务逻辑。状态一致性
:多个事务并发执行,事务的一致性要保证并发执行的结果与这些事务按照某种顺序串行执行的结果是一样的。持久性一致性
:即使再系统发生故障后,通过恢复机制,数据库也能恢复到一个一致的状态。
隔离级别(重要)
在SQL标准中定义了四种隔离级别,每一种级别都规定了一个事务中所做的修改,哪些在事务内和事务间是可见的,哪些是不可见的。较低级别的隔离通常可以执行更高的并发,系统的开销也更低
。
- READ UNCOMMITED(未提交读):
事务中的修改,即使没有提交,对其他事务都是可见的
,事务可以读取未提交的数据,这也被称为脏读。从性能上来说,READ UNCOMMITED也不会比其他级别好太多。 - READ COMMITTED (提交读): 大多数系统的默认隔离级别都是READ COMMITED,但MySQL不是,
READ COMMITTED 满足隔离性的简单定义:一个事务开始时,只能“看见”已经提交的事务所做的修改,这个级别有时候也叫“不可重复读”,因为两次执行同样的查询,可能会得到不同的结果
。 - REPEATABLE READ (可重复读):该
级别保证了在同一个事务中多次读取同样记录的结果是一致的。但无法解决幻读问题
。所谓幻读,指的是当某个事务在读取某个范围内的记录时,另一个事务在该范围内插入新的记录,当之前的事务在此读取,行数会增多。InnoDB存储引擎通过多版本并发控制(MVCC)解决了幻读问题。 - SERIALIBZABLE (可串行化):最高的隔离级别,通过强制事务串行执行,避免了前面说的幻读问题。
死锁
死锁指两个或者多个事务在同一个资源上相互占用,并请求锁定对方占用的资源,从而导致恶性循环的现象。
例如:
如果凑巧,两个事务都执行了第一条update语句,同时也锁定了该行的数据,接着两个事务都尝试去执行第二条update语句,发现该行已经被对方锁定,然后两个事务都等待对方释放锁,同时又持有对方需要的锁,则陷入死循环。除非有外部因素介入才能解除死锁。
事务日志
事务日志可以帮助提高事务的效率。使用事务日志,存储引擎在修改表的数据时只需要修改其内存拷贝,再把修改行为记录到硬盘上的事务日志中,而不用每次都将修改的数据本身持久到磁盘
。事务日志采用的是追加的方式,因此写日志的操作是磁盘上一小块区域的顺序IO,而不像随机IO需要在磁盘的多个地方移动磁头。所以,采用事务日志的方式相对来说要快很多。事务日志持久以后,内存中被修改的数据在后台可以慢慢的刷回磁盘。通常称为预写式日志,修改数据需要写两次磁盘。
多版本并发控制
MVCC主要用于提高数据库的并发性能并减少读写操作之间的锁争用。
1. 核心概念
- 数据行的多个版本:MVCC通过保存数据的多个版本来实现,
当一个事务修改数据时,InnoDB不会直接修改原数据,而是创建一个新的版本,并保留旧版本。这样,不同事务可以“看到”同一行数据的不同版本,从而减少了读写冲突
。 - 隐藏列:InnoDB为每行数据额外添加了几个隐藏列。
- Undo Log:Undo Log记录了数据的旧版本信息,当事务需要回滚或者为某个事务生成一致的读视图时,会用到Undo日志中的信息。
- Read View(读视图):在可重复读的隔离级别下,为每个事务生成一个读视图,这个读视图决定了事务能看到哪些数据版本。
2. 可见性规则
- 事务只能看见在自己开始之前已经提交事务做的修改
- 事务看不见在自己开始之后才提交的事务所做的修改
- 如果一个事务可以看见某个数据行的一个版本,那么该事务也能看见这个数据行的所有旧版本。
3.在REPEATABLE READ隔离级别下,MVCC工作流程
- SELECT
InnoDB会根据以下两个条件检查每行记录
- a. InnoDB只查找版本早于当前事务版本的数据行(也就是,行的系统版本号小于或等于事务的系统版本号)这样可以确保事务读取的行,要么是在事务开始前已经存在的,要么是事务自身插入或者修改过的。
- b.行的删除版本要么未定义,要么大于当前事务版本号,这样可以确保事务读取到的行,在事务开始之前未被删除。
只有符合上述两个条件的记录,才能返回作为查询结果。
- INSERT
InnoDB为新插入的每一行保存当前系统版本号作为行版本号。
DELETE
InnoDB为删除的每一行保存当前系统版本号作为行删除标识。
UPDATE
InnoDB插入一行新纪录,保存当前系统版本号作为行版本号,同时保存当前系统版本号到原来的行作为行删除标识
。
保存这两个额外系统版本号,使大多数读操作都可以不用加锁,这样设计使得读数据操作很简单,性能很好。并且也能保证只会读取到符合标准的行。MVCC只在REPEATABLE READ 以及READ COMMITED两个隔离级别下工作。