索引概述
索引是帮助MySQL高效获取数据的数据结构(有序)。
在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。
下图演示有索引和无索引的区别:
备注:上述二叉树索引结构的只是一个示意图,并不是真实的索引结构
优缺点
优势:
1、提高数据检索的效率,降低数据库的I/O成本。
2、通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗。
劣势(基本忽略):
1、索引列也是要占用空间的(但是现在磁盘很便宜)
2、索引大大提高了查询效率,同时也降低了更新表的速度,如对表进行插入、删除、更新时,效率降低。
索引结构
MYSQL的索引是在存储引擎层实现的,不同的存储引擎有不同的索引结构主要包含以下几种:
索引结构 | 描述 |
---|---|
B+Tree索引 | 最常见的索引类型,大部分引擎都支持B+树索引 |
Hash索引 | 底层数据结构是用哈希表实现的,只有精确匹配索引列的查询才生效,不支持范围查询 |
R-tree(空间索引) | 空间索引是MYISAM引擎的一个特殊索引类型,用于地理空间数据类型,通常使用比较少 |
Full-text(全文索引) | 是一种通过建立倒排索引,快速匹配文档的方式 |
B+Tree索引
二叉树
左边的节点的值比父节点值小,右边节点的值比父节点值大
二叉树缺点:顺序插入时,会形成一个链表,查询性能大大降低。在大多数情况下层级较深检索速度慢。
红黑二叉树(自平衡二叉搜索树)
红黑树是一种高效的自平衡二叉查找树,用于存储有序的数据,并在插入和删除操作时能够快速地进行调整以保持其性质。
B-Tree树(多路平衡查找树)
以一颗最大数(max-degree)为5(5阶)的b-tree为例(每个节点最多存储4个key,5个指针)
注意:树的度数指的是一个节点的子节点个数。
插入:100 65 169 368 900 556 780 35 215 1200 134 888 158 90 1000 88 120 268 250
具体动态变化过程参考网站:https://www.cs.usfca.edu/~galles/visualization/BTree.html
B+Tree树
插入:100 65 169 368 900 556 780 35 215 1200 234 888 158 90 1000 88 120 268 250
动态变化过程参考网站:https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html
相较于B-Tree区别:
1、所有数据都会出现在叶子节点
2、叶子节点形成一个单向链表
MySQL中B+Tree树
MYSQL索引数据结构对经典的B+Tree树进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点的链表指针,就形成了带有顺序指针的B+Tree,提高了访问性能。
Hash
哈希索引就是采用一定的哈希算法,将键值换算成对应的哈希值,映射到对应的槽位上,然后存储在哈希表中。
如果两个(或多个)键值,映射到一个相同的槽位上,他们就会产生哈希冲突(也称哈希碰撞),可以通过链表来解决。
哈希索引特点
1、哈希索引只能用于对等比较(=,in),不支持范围查询(between,>,<)
2、无法利用索引完成排序操作
3、查询效率高,通常只需要一次检索就可以了,效率高于B+Tree索引
存储引擎支持
在MySQL中,支持hash索引的是MEMORY引擎,而InnoDB中具有自适应的哈希功能,哈希索引是存储引擎根据B+Tree索引在指定条件下自动构建的。
面试题:为什么InnocentDB存储引擎选择使用B+Tree索引结构?
1、相较于二叉树,层级更少,搜索效率高;
2、对于b-tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储的键值减少,指针也跟着减少,要同样保存大量数据,只能增加树的高度,导致性能下降;
3、相较于哈希索引,B+Tree支持范围匹配和排序操作