一.知识回顾
前面的文章我们一起学习了数据库的事务、事务以及并发来的问题、数据库锁机制、数据库中CURD的SQL语句底层执行流程、数据库SQL优化专题,如果你一步一步的跟下来,一定会帮助你建立一个知识体系。接下来我们再一起学习数据库索引专题,当让之前的文章中我也大致的总结了数据库的索引,可以和本篇文章结合起来一起进行学习。【Mysql面试之索引常见的面试问题】,接下来,我们再来总结一下数据库的索引专题,检测一下你掌握的怎么样?话不多说,直接开整。
二.索引的基本概念以及基本原理
2.1 基本概念
- 索引是一种特殊的文件(InnoDB数据表上的索引是表空间的一个组成部分),它们包含着对数据表里所有记录的引用指针。 索引是一种数据结构。
- 数据库索引,是数据库管理系统中一个排序的数据结构, 以协助快速查询、更新数据库表中数据。
- 索引的实现通常使用B树及其变种 B+树。 更通俗的说,索引就相当于目录。为了方便查找书中的内容,通过对内容建立索引形成目录。
- 索引是一个文件,它是要占据物理空间的。一般来说索引本身也很大,不可能全部存储在内存中,因此索引往往是存储在磁盘上的文件中。
2.2 基本原理
- 索引用来快速地寻找那些具有特定值的记录。如果没有索引,一般来说执行查询时遍历整张表。
- 索引的原理很简单,就是把无序的数据变成有序的查询,把创建了索引的列的内容进行排序,对排序结果生成倒排表,在倒排表内容上拼上数据地址链,在查询的时候,先拿到倒排表内容,再取出数据地址链,从而拿到具体数据。
2.3 创建使用方式
这个地方不做过多描述了,之前的文章中有,大家直接点击链接,跳转学习即可。
【Mysql面试之索引常见的面试问题】
三.索引的优点和缺点
3.1 优点
- 可以提高数据检索的效率,降低数据库的IO成本。
- 通过索引列对数据进行排序,降低数据排序的成本,降低了CPU的消耗。被索引的列会自动进行排序,包括单列索引和组合索引,但是组合索引的排序比我们的单列索引要复杂一些。如果按照索引列的顺序进行排序,对应order by语句来说,效率会更高。
3.2 缺点
-
一般来说索引本身也很大,不可能全部存储在内存中,因此索引往往是存储在磁盘上的文件中的,索引会占据磁盘空间。
-
索引虽然会提高查询效率,但是会降低更新表的效率。每次对表进行增删改操作的时候,不仅要更新数据,还需要进行更新对应的索引文件。
四.索引的数据结构
4.1 Hash表
- Hash表,以键值对的方式存储数据;
- 使用Hash表存储表数据Key可以存储索引列,Value可以存储行记录或者行磁盘地址;
- Hash表在等值查询时效率很高,时间复杂度为O(1);
- Hash表是基于内存的,当有大量数据的时候效率就不高了;
- Hash表不支持范围快速查找,范围查找时还是只能通过扫描全表方式;
4.2 二叉搜索树
- 二叉树有父子节点,每个节点最多有俩个节点。
- 左子树的值小于根节点的值,根节点的值小于右子树的值。
- 每次进行查找的时候直接进行折半查找,从而减少IO的次数,这是整个操作的时间复杂度是O(logN)。
- 但是二叉树存在最明显的问题就是当所有的节点都在左子树或者都在右子树的时候,那么这个时候整个BST就会退化成一个链表,时间复杂度也会急剧下降,由之前的O(logN)退化为O(N)。
4.3 平衡二叉树
-
为了解决二叉搜索数链化的问题,此时我们在原来的基础上再次进行改进,加上平衡调整的操作,保证整个二叉搜索树是平衡的,不会出现链化的问题。
-
平衡二叉搜索树继承了二叉搜索树的基本特点,同样我们通过左旋和右旋操作来维持整个二叉树的平衡,保证左右两个子树的层级最多相差1。在插入删除数据时通过左旋/右旋操作保持二叉树的平衡,不会出现左子树很高、右子树很矮的情况。
-
使用平衡二叉查找树查询的性能接近于二分查找法,时间复杂度是 O(log2n)。
-
虽然平衡二叉树解决了上述我们提到的问题,但是还存在一些问题:
问题1:时间复杂度和树的高度紧密相关。树的高度就等于每次查询数据时磁盘 IO 操作的次数。当有海量的数据的时候,查询性能会非常的差。
问题2:不支持指定区间范围检索。平衡二叉树不支持范围查询快速查找,范围查询时需要从根节点多次遍历,查询效率不高。
4.4 B树
通过上面的分析,我们知道虽然平衡二叉搜索树性能很优秀了,但是还依然存在一些问题,饭要一口一口吃,问题也要一个一个解决,所以,我们先来解决第一个问题。那么怎么解决这个问题呢?既然时间复杂度和树的高度有关,那么我们就直接降低树的高度不就可以了吗?问题又来了,怎么降低树的高度呢?那将原来的二叉树变成多叉树不就解决了,确实是,接下来我们一起来看一下具体的一些细节。
- B树是一种多叉平衡查找树;
- B树的节点中存储着多个元素,每个节点有多个分叉;
- 节点中的元素包含键值和数据,节点中的键值从大到小排列。也就是说,在所有的节点都储存数据。
- 父节点当中的元素不会出现在子节点中。
- 所有的叶子结点都位于同一层,叶节点具有相同的深度,叶节点之间没有指针连接。
4.5 B+树
通过上面的分析,我们知道B树已经解决了第一个问题,但是还存在第二个问题,就是如何进行范围检索,如果检索范围的数据呢。那么怎么解决这个问题呢?我们在原来的B树的基础上继续更新迭代,B+树很好的帮我们解决了这个问题。
- B+树作为B树的加强版,具备了B树所有的基本特征。
- B+树:只有叶子节点才会存储数据,非叶子节点至存储键值。叶子节点之间使用双向指针连接,最底层的叶子节点形成了一个双向有序链表。
- 获取整个数据库以及表的效率更高。如果我们要对表进行全表扫描,只需要遍历叶子节点就可以了,不需要遍历整棵 B+树拿到所有的数据。
- B+树的磁盘读写能力相对于 B Tree 来说更强,同数据量下磁盘I/0次数更少。所有的数据都被保存在叶子节点中,一次磁盘加载的数据更多。
- 最核心的是帮我们解决了范围查询的问题,因为叶子节点上有下一个数据区的指针,数据形成了链表。
- B+树效率更加稳定,B+树永远是在叶子节点拿到数据,所以 IO 次数是稳定的。
五.索引的类型
5.1 普通索引
MySQL中基本索引类型,允许在定义索引的列中插入重复值和空值。
5.2 主键索引
索引列中的值必须是唯一的,不允许有空值。
5.3 唯一索引
索引列中的值必须是唯一的,但是允许为空值。
5.4 全文索引
- 只能在文本类型CHAR,VARCHAR,TEXT类型字段上创建全文索引。
- 字段长度较大时,如果使用普通索引,在进行like模糊查询时效率比较低,可以创建全文索引。
5.5 前缀索引
在文本类型如CHAR,VARCHAR,TEXT类列上创建索引时,可以指定索引列的长度,但是数值类型不能指定。
5.6 索引个数(单列索引、组合索引)
- 只包含一个字段的索引叫做单列索引;
- 两个或以上字段的索引叫做复合索引。建立复合索引时,字段的顺序极其重要。组合索引的使用,需要遵循最左匹配原则。
5.6.1 最左匹配原则
- 在建立索引的时候,尽量在多个单列索引判断下是否可以使用联合索引。
- 联合索引不仅可以节省空间,还可以更容易的使用到索引覆盖。
- MySQL会一直向右匹配直到遇到范围查询 (>,<,BETWEEN,LIKE)就停止匹配。
5.6.2 联合索引的创建原则
- 在创建联合索引的时候因该把频繁使用的列、区分度高的列放在前面,频繁使用代表索引利用率高,区分度高代表筛选粒度大。
- 可以在常需要作为查询返回的字段上增加到联合索引中。
- 索引列不能参与计算,否则整个效率会降低。
5.6.3 联合索引的使用
- 考虑当前是否已经存在多个可以合并的单列索引,如果有,那么将当前多个单列索引创建为一个联合索引。
- 当前索引存在频繁使用作为返回字段的列,可以考虑当前列是否可以加入到当前已经存在索引上,使其查询语句可以使用到覆盖索引。
5.7 空间索引
MySQL在5.7之后的版本支持了空间索引,而且支持OpenGIS几何数据模型。MySQL在空间索引这方面遵循OpenGIS几何数据模型规则。
六.创建索引的原则
这个地方也不做过多描述了,之前的文章中有,大家直接点击链接,跳转学习即可。
【Mysql面试之索引常见的面试问题】
七.请你说说聚簇索引和非聚簇索引
7.1 主要区别
两者主要区别是数据和索引是否分离。
7.2 聚簇索引
- 聚簇索引是将数据与索引存储到一起,找到索引也就找到了数据;
- 在InnoDB中,一个表有且仅有一个聚簇索引,并且该索引是建立在主键上的,即使没有指定主键,也会特殊处理生成一个聚簇索引;其他索引都是辅助索引,使用辅助索引访问索引外的其他字段时都需要进行二次查找。
7.3 非聚簇索引
- 非聚簇索引是将数据和索引存储分离开,索引树的叶子节点存储了数据行的地址。
- 在MyISAM中,所有索引都是非聚簇索引,叶子节点存储着数据的地址,对于主键索引和普通索引在存储上没有区别。
7.4 总结
- 在InnoDB存储引擎中,可以将B+树索引分为聚簇索引和辅助索引(非聚簇索引)。
- 无论是何种索引,每个页的大小都为16KB,且不能更改。
- 聚簇索引是根据主键创建的一棵B+树,聚簇索引的叶子节点存放了表中的所有记录。
- 辅助索引是根据索引键创建的一棵B+树,与聚簇索引不同的是,其叶子节点仅存放索引键值,以及该索引键值指向的主键。如果通过辅助索引来查找数据,那么当找到辅助索引的叶子节点后,很有可能还需要根据主键值查找聚簇索引来得到数据,这种查找方式又被称为书签查找,又叫回表。
- 因为辅助索引不包含行记录的所有数据,这就意味着每页可以存放更多的键值,因此其高度一般都要小于聚簇索引。
八.回表与索引下推
8.1 回表的基本概念
一般数据库建表时,会创建索引,以普通索引为例,创建的索引结构中包含的是聚簇索引的值(一般就是主键id),在根据此普通索引进行查询时,首先会查到普通索引的位置,比如下标是110,那么会从110处取出聚簇值,也就是id值,再拿id值取表中取数据,这个过程就叫做回表。
8.2 覆盖索引
- 非聚簇索引可能会需要回表查找数据的操作,那我们怎么能做到不回表呢?自己的索引上就查到需要的数据,不需要去主键索引查了。
- 由于覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段。
8.2 索引下推
MySQL 5.6及其以后的版本引入的索引下推优化(index condition pushdown), 可以在索引遍历过程中,对索引中包含的字段先做判断,直接过滤掉不满足条件的记录,减少回表次数。
九.总结
关于MySQL的索引专题本篇文章就先介绍到这里,每一个专题、每一个知识点、毫不夸张的说,我们都可以展开一篇文章详细的学习,后续我还会不断的补充完善相关的知识。大家敬请期待。
我是硕风和炜,我们下篇文章见哦。