MYSQL索引详解和优化

news2026/2/12 14:59:42

索引的定义

我们在看书的时候，都知道有目录，我们可以通过目录快速的找到书中的内容，而书中的目录就是充当书的索引。在数据库中的索引也是一样的。

索引的定义：

索引是帮助存储引擎快速获取数据的一种数据结构，即数据目录

索引的优缺点

索引的优点:

索引最大的优点就是提高查询速度

索引的缺点:

1. 要占据物理空间

2. 创建和维护索引都需要耗时，数据量越大越耗时

3. 会降低表的增删改效率，因为每次增删改都会动态维护索引

所以索引的使用也要根据具体情况而定，一般只会在这些这段下建立索引：有唯一性限制的字段，经常在where语句出现的字段，经常在GROUP BY 和 ORDER BY 出现的字段。

而不建议建立索引的字段：

1. 不经常在where语句，GROUP BY 和 ORDER BY 语句的字段，不建索引

2. 大量重复数据的字段，不建索引

3. 表数据太少，不建索引

4. 经常更新的字段，不建索引

索引分类

数据结构分类

在MYSQL中，从数据结构进行索引分类：

B+tree索引：把所有的数据都存储在叶子结点上面，非叶子结点只存储索引，这样可以保证最少次数的IO提高索引查询的性能

Hash索引：就是根据给定的字段，进行创建Hash值。可以很快的进行单个匹配度查询，但是无法做到范围查询

Full-text索引：一个比较特殊的索引，一般用的也很少。它查找的是文本中的关键词，而不是比较索引中的值。全文索引更类似于搜索引擎做的事

但是每种存储引擎所支持的索引是不相同的，下面我们对MYSQL中的常见存储引擎 Innodb和MyISAM进行对比：

从对比中我们知道每一种存储引擎支持的索引类型不一定相同。而下面我们重点讲的是Innodb存储引擎中B+Tree 索引类型，也是MYSQL5.5之后的默认存储引擎。

B+Tree 索引

在创建表的时候，Innodb存储引擎会根据具体场景设计索引：

1. 有主键，那么主键做聚簇索引的key

2. 没有主键，就选择第一个不包含 NULL 值的唯一列作为聚簇索引的key

3. 以上都不符合，那就主动生成一个隐式自增 id 列作为聚簇索引的key

除了聚簇索引，其他索引都属于辅助索引，也被称为二级索引或非聚簇索引。创建的主键索引和二级索引默认使用的是 B+Tree 索引。

那么 B+Tree 索引在存储是什么样子的呢？

B+Tree 是一种多叉树，叶子点才存放数据，非叶子点只存放索引，而且每个节点里的数据是按主键顺序存放的。每一层父节点的索引值都会出现在下层子节点的索引值中，因此在叶子节点中，包括了所有的索引值信息，并且每一个叶子节点都指向下一个叶子节点，形成一个链表。如下图：

假如我们要查找主键值为30的数据，查找过程如下：

1. 将 30 与根节点的索引数据 (15，56，77) 比较，30 在 15 和 56 之间，所以根据 B+Tree的搜索逻辑，找到第二层的索引数据 (15，20，49)；

2. 在第二层的索引数据 (15，20，49)中进行查找，因为 30 在 20 和 49 之间，所以找到第三层的索引数据（20, 30）；

3. 在叶子节点的索引数据（20, 30）中进行查找，然后我们找到了主键值为 30 的行数据。

从例子中我们知道，我们总共走了3个节点找到数据，其实也就是说我们进行了3次I/O操作。因为所有数据（索引和数据）都是存在磁盘里的，我们没读取一个节点就会就行一次I/O操作。

而且B+Tree存储千万级别的数据也就3-4层就可以满足，也就是说查询千万级别的数据也就进行了3,4次I/O操作。所以B+Tree 相比于 B 树和二叉树来说，最大的优势在于查询效率很高，因为即使在数据量很大的情况，查询一个数据的磁盘 I/O 依然维持在 3-4次。

如果是二级索引（非聚簇索引），那是不是跟主键索引（聚簇索引）一样呢？

肯定是不一样的。它们的区别如下：

1. 聚簇索引的 B+Tree 的叶子节点存放的是实际的数据记录，而且实际的数据记录只会存在这里。

2. 非聚簇索引的 B+Tree 的叶子节点存放是主键值和索引值，没有实际数据记录。

所以说，如果要通过非聚簇索引找到一条完整的实际数据记录，那么它得也通过非聚簇索引找到叶子节点，然后获取主键值，再根据这个主键值在主键索引的B+Tree中找到对应的叶子节点，拿到完整的实际数据记录。而这个过程就是做回表，也就是进行了两次B+Tree搜索找到数据。如果我们通过非聚簇索引一次搜索就得到想要的数据结果，那么久叫做覆盖索引。下面说明非聚簇索引的过程，如下：

上面有两个问题：

B+Tree的3-4层高能存储千万级别的数据,怎么计算的？

详细了解的这个问题可以看这篇：

为什么 MySQL InnoDB 选择 B+tree 作为索引的数据结构？

详细了解的这个问题可以看这篇：

物理存储分类

在MYSQL中，从物理存储进行索引分类：

主键索引（聚簇索引）

二级索引（非聚簇索引/辅助索引）

这两个区别在上面有说过，区别在于叶子节点存储的数据。

字段特性分类

在MYSQL中，从字段特性进行索引分类：

主键索引

唯一索引

普通索引

前缀索引

主键索引

主键索引就是建立在主键上的索引，通常在创建表格的时候一起创建，一张表只能有一个主键，而且不能为空。

创建方法：

CREATE TABLE table_name (

....

PRIMARY KEY (index_column_1)

);

唯一索引

唯一索引就是建立在 UNIQUE 字段上的索引，一张表可以有多个唯一索引，但索引列的值必须唯一，但是允许有空值。

创建方法：

方法一：

CREATE TABLE table_name (
....
UNIQUE KEY(index_column_1,index_column_2,...)
);

方法二：

CREATE UNIQUE INDEX index_name ON table_name(index_column_1,index_column_2,...);

普通索引

普通索引就是建立在普通字段上的索引。

创建方法：

方法一：

CREATE TABLE table_name (
....
INDEX(index_column_1,index_column_2,...)
);

方法二：

CREATE INDEX index_name ON table_name(index_column_1,index_column_2,...);

前缀索引

前缀索引是指对字符类型字段的前几个字符建立的索引，而不是在整个字段上建立的索引，前缀索引可以建立在字段类型为 char、 varchar、binary、varbinary 的列上。使用前缀索引的目的是为了减少索引占用的存储空间，提升查询效率.

创建方法：

方法一：

CREATE TABLE table_name (
column_list,
INDEX(column_name(length))
);

方法二：

CREATE INDEX index_name ON table_name(column_name(length));

字段个数分类

在MYSQL中，从字段个数进行索引分类：

单列索引

联合索引（复合索引）

单列索引

建立在单列上的索引称为单列索引, 比如主键索引

联合索引

联合索引就是将多个字段组合成一个索引。联合索引的遵循的规则：

最左匹配原则，即按照最左优先的方式进行索引的匹配。所以建立联合索引时的字段顺序，对索引效率也有很大影响。越靠前的字段被用于索引过滤的概率越高，实际开发工作中建立联合索引时，要把区分度大的字段排在前面，这样区分度大的字段越有可能被更多的 SQL 使用到。区分度就是某个字段 column 不同值的个数「除以」表的总行数，即区分度 = distinct（columnn）/ count（*）

例如，我们有个（a,b,c）联合索引，符合联合索引的：