B+树索引及其原理

MySQL索引的底层结构是B+树，为什么它会选择这个结构？联合索引是怎么实现的？最左侧匹配原则的原理是什么？本文将一一解答这些疑惑。

1 前置知识

在学习B+树之前，我们先了解下其他的树形结构：二叉树、平衡二叉树及B-树。将以循序渐进的方式来学习它们并比较它们的优缺点。

下面我们将在不同的树形结构上按顺序分别插入数字：5，9，6，33，14，7，8，10，22。

性质：左子树的键值小于根的键值，右子树的键值大等于根的键值。

图二叉树按照不同顺序插入数字后的形态

插入算法：自根向下插入，将会与根节点比较，如果大等于根节点则插入到右子树，否则插入到左子树。二叉树插入算法非常简单。

从上图，我们发现如果按照不同顺序插入数字，二叉树到形态会不一样的；同时，会发现上图右边两个二叉树的查询效率会比较低，因为它们“失衡”了，左子树和右子树高度不一致，将导致查询效率降低。

简称AVL Tree。自平衡二叉树。本质上还是一棵二叉树，其特点是：每个节点的左右子树高度差的绝对值（平衡因子）最多为1。

平衡二叉树的关键点是维持平衡。分为两步施行：

1）确定失衡姿态。先找到最小不平衡子树，从最小不平衡子树的根向插入节点数两步，即可确定。有四种失衡姿态：

LL	Left Left,左左。根节点的左子树的左子树的非空节点，导致根节点的左子树高度比右子树高2。
RR	Right Right,右右。插入或删除一个节点，根节点的右子树的右子树的非空节点，导致根节点的右子树的高度比左子树高2。
LR	Left Right,左右。根节点的左子树的右子树的非空节点，导致根节点的左子树的高度比右子树高2。
RL	Right Left,右左。根节点的右子树的左子树的非空节点，导致根节点的右子树的高度比左子树高2。

表平衡二叉树失衡的四种姿态

图平衡二叉树失衡的四种姿态

2）根据失衡姿态做相应调整来维持平衡。

LL	右单旋。	RR	左单旋。
LR	先左旋，使其成为LL姿态，然后再右旋。	RL	先右旋，使其成为RR姿态，然后再左旋。

表平衡二叉树不同失衡姿态下的平衡策略

图 LR姿态调整到平衡状态的过程

缺陷：1）平衡二叉树在插入和删除过程中很容易失衡，因此需要频繁的重新保持平衡。2）当插入到平衡二叉树的数字极多时，二叉树将非常的高。而查询效率和树的高度成反比。

首先，这个读B树，不是读B减树。全名为平衡多路查找树。M阶B树表示其最多可以有M个子树（实际应用中，M的值非常大，这样的好处就是即使存储大量的数据，B树的高度仍然比较小）。

数据库的数据是存储在磁盘上的，要提高查询效率，就需要减少系统与磁盘交互的次数。

系统从磁盘读取数据到内存时是以磁盘块为基本单位，位于同一磁盘块中的数据会被一起读取。InnoDB中的页是其磁盘管理的最小单位，默认大小是16KB（磁盘块往往没这么大）。InnoDB每次申请磁盘空间时都会是若干个连续地址的磁盘块来达到16KB（通常是整数倍）。

图 B树结构下的磁盘块逻辑图

在查询数据时，可以通过磁盘块中的信息连接到其他的磁盘块查找数据。当一个磁盘块下的子树越多，意味着系统访问的磁盘块数量越少。

M阶B树有有以下性质：

1）根节点最少拥有两棵子树。

2）非根节点关键字个数n满足：ceil(m/2) -1<= n <= m-1; (ceil表示向上取整)。

3）有n棵子树的分支节点则一定存在n-1个关键字。关键字按照递增顺序进行排序。（n>0）

4）所有的叶子节点都在同一层。

B树的节点上存储了数值及指向子树的指针。

B树在插入与删除过程中，需要保持一直它的性质。在这过程中破坏B树结构的主要因素是：节点的关键字数量不符合要求。

插入时先插入，后调整。

1	根据要插入的key值，找到叶子节点并插入。
2	判断当前节点的关键字个数是否满足要求，满足则操作结束，否则进行下一步。
3	以节点中间的key为中心分裂成左右两部分，然后将中间的key插入到父节点中，这个key的左子树指向分裂后的左部分，右子树指向分裂后的右部分。如果key所在的节点关键字不符合要求，则在这个节点上继续执行这一步。