mysql的B+树索引结构介绍

news2026/2/14 7:14:50

一、B+树

特性：

所有的叶子结点中包含了全部关键字的信息，非叶子节点只存储键值信息，及指向含有这些关键字记录的指针，且叶子结点本身依关键字的大小自小而大的顺序链接，所有的非终端结点可以看成是索引部分，结点中仅含有其子树根结点中最大（或最小）关键字。
所有叶子节点之间都有一个链指针。
数据记录都存放在叶子节点中。
树的高度相对较低，IO次数相对较少。

树高度的影响：

树的深度与I/O次数的关系：在B+树中，每次从根节点到叶子节点的查找都需要进行一次I/O操作。如果树的高度增加，意味着需要进行更多的I/O操作才能访问到数据。因此，树的高度越低，访问数据所需的I/O次数越少。
节点存储容量： B+树的节点可以存储更多的键值，这意味着每个节点可以包含更多的数据，从而减少了树的深度。例如，如果一个节点可以存储1000个键值，而B树的节点只能存储100个键值，那么B+树的高度将是B树的十分之一左右。

由于B+Tree的非叶子节点只存储键值信息，假设每个磁盘块能存储3个键值及指针信息，则变成B+Tree后其结构如下图所示：

可能上面例子中只有22条数据记录，看不出B+Tree的优点，下面做一个推算：

I InnoDB存储引擎中页的大小为16KB，一般表的主键类型为INT（占用4个字节）或BIGINT（占用8个字节），指针类型也一般为4或8个字节，也就是说一个页（B+Tree中的一个节点）中大概存储16KB/(8B+8B)=1K个键值（因为是估值，为方便计算，这里的K取值为1000。也就是说一个深度为3的B+Tree索引可以维护1000 * 1000 * 50(最后一层每个磁盘块存多少数据节点，假设是50个) = 5千万条记录。深度一般是三到四层。

实际情况中每个节点可能不能填充满，因此在数据库中，B+Tree的高度一般都在2-4层。mysql的InnoDB存储引擎在设计时是将根节点常驻内存的，也就是说查找某一键值的行记录时最多只需要1~3次磁盘I/O操作。

二、B树

B-树允许每个内部节点有多个子节点，这通常被称为树的“度”或“阶”。这意味着B-树的每个节点可以有多条路径到达子节点。

B-树和B+树都是自平衡的多路搜索树，它们在很多方面有相似之处，但也有一些关键的结构差异。以下是B-树和B+树的主要结构对比：

数据存储位置：
- B-树：数据记录既可以存储在内部节点，也可以存储在叶子节点。
- B+树：数据记录仅存储在叶子节点，内部节点仅存储键值和子节点的引用。
节点键值数量：
- B-树：每个节点的键值数量可以是其子节点数减一或加一。
- B+树：每个内部节点的键值数量是其子节点数减一，而叶子节点的键值数量是其子节点数。
叶子节点的连接方式：
- B-树：叶子节点之间没有直接的链接。
- B+树：所有叶子节点通过指针相互连接，形成一个有序的链表，便于顺序访问和范围查询。
树的高度：
- 由于B+树的内部节点可以存储更多的键值，B+树通常比相同条件下的B-树具有更少的高度，这意味着在B+树中进行查找、插入和删除操作可能需要更少的I/O次数。
范围查询效率：
- B-树：虽然可以执行范围查询，但效率不如B+树，因为B-树的叶子节点之间没有直接的链接。
- B+树：由于叶子节点形成了有序链表，执行范围查询和顺序访问非常高效。
插入和删除操作：
- B-树：在插入和删除操作中，B-树可能需要在内部节点和叶子节点之间移动数据。
- B+树：在B+树中，插入和删除操作通常只影响叶子节点，内部节点的键值仅用于导航。
分裂和合并操作：
- B-树：当节点满时，分裂操作可能涉及到将键值提升到父节点，并可能需要调整多个节点。
- B+树：分裂操作通常只影响当前节点和其兄弟节点以及它们的父节点，因为B+树的内部节点不存储数据记录。
存储密度：
- B-树：由于内部节点也存储数据记录，B-树的存储密度可能不如B+树。
- B+树：B+树的内部节点只存储键值和子节点的引用，因此具有更高的存储密度。
应用场景：
- B-树：适用于需要在内部节点和叶子节点都存储数据的场景。
- B+树：由于其高效的范围查询性能和顺序访问性能，B+树通常用于数据库索引和文件系统。