【MySQL】深入了解索引的底层逻辑结构

news2024/11/28 13:38:02

文章目录

  • 主键排序
  • 一. InnoDB的索引结构
    • 1. 单个page
    • 2. 多个page
  • 二. 为什么选择B+树
  • 三. 聚簇索引和非聚簇索引
  • 结束语

主键排序

我们创建一个user表,并乱序插入数据

mysql> create table if not exists user(
    -> id int primary key,
    -> age int not null,
    -> name varchar(16) not null
    -> );

mysql> insert into user (id,age,name )values(3,18,'杨过'),
											(4,16,'小龙女'),
											(2,26,'黄蓉'),
											(5,36,'郭靖'),
											(1,56,'欧阳锋');
Query OK, 5 rows affected (0.00 sec)
Records: 5  Duplicates: 0  Warnings: 0

mysql> select * from user;
+----+-----+-----------+
| id | age | name      |
+----+-----+-----------+
|  1 |  56 | 欧阳锋    |
|  2 |  26 | 黄蓉      |
|  3 |  18 | 杨过      |
|  4 |  16 | 小龙女    |
|  5 |  36 | 郭靖      |
+----+-----+-----------+
5 rows in set (0.00 sec)

我们发现,虽然是乱序插入,但是显示出来却是排好序的。这是MySQL做的吗?让我们带着这个疑问开始本章的学习

一. InnoDB的索引结构

MySQL的基本单位是Page,Page存储着数据,而一个数据表文件因其数据量多少由一个或多个Page构成

1. 单个page

在这里插入图片描述
不同的Page,在MySQL中,都是16KB大小,使用page_prev和page_next互相链接,构成双向链表

上面构建的user表,因为有主键,所以MySQL会默认按照主键对数据进行排序,让Page内的数据是有序且彼此关联的

排序同时也可以提高查询速度
Page内部存放数据,实质是使用了链表,链表是增删快,查询慢,所以需要优化查询效率。
而有序,可以保证每次查询都是有效查询,当前值一定比前面的值大,比后面的值小。

2. 多个page

  • Page的作用是在查询数据时,直接将一整页的数据加载到内存中,以减少IO次数,从而提高性能。但Page内部采用了链表的结构,还是需要线性遍历的,效率太低

MySQL使用页目录进一步提高查询效率


页目录

我们在看一本书时,前几页是整本书的目录,如果我们想查看其中的某一章节,那么就可以根据目录中那一章节的页数,跳跃查找
但存储目录同样需要纸张,所以目录是一种以空间换时间的做法


单页情况

我们在单页Page中加入目录

在这里插入图片描述

通过引入目录,如果我们要查询id=4的数据,之前需要线性遍历4次,但现在可以先通过目录2[3],直接进行定位新的起始位置,提高了效率。

所以,为什么MySQL要自动排序呢?
因为方便引入目录


多页情况

Page的大小为16KB,当数据量不断增大时,势必需要多个Page存储数据
在单表数据不断被插入的情况下,MySQL会在容量不足时,自动开辟新的Page来保存新的数据,使用指针的方式,将所有的Page组织起来

在这里插入图片描述

而当Page越来越多时,Page之间也是使用指针连接,整体是双向链表结构,Page之间仍是线性查询
如何解决呢?其实是一样的,给这些Page也带上目录就好了

  • 使用一个目录来指向某一页,而这个目录项存放的是指向的Page中存放的最小的数据的键值
  • 和Page内目录不同的地方在于,这种目录管理的级别是Page页内目录管理级别是行
  • 其中,每个目录项的构成是:键值+指针(下图没画指针的地址)

在这里插入图片描述
存在一个目录页来管理页目录,目录页中的数据存放的就是指向的那个Page中最小的数据。有数据,就可以通过比较,找到该访问那个Page,进而通过指针,找到下一个Page

目录页的本质也是页,普通页中存放的是用户数据,目录页存放的是普通页的地址

即使数据量变大,页目录变大,我们依然可以再在上方添加管理页目录的页目录来加快检索效率
在这里插入图片描述

这种结构其实就是B+树
此时,随便查找一个id值,查找的Page数减少,意味着IO次数也减少了,那么效率也就提高了

总结一下

  • Page分为目录页数据页,目录页只放各个下级Page的最小键值
  • 查找的时候,自顶向下查找,只需要加载部分目录页到内存中,即可以完成算法的整个查找过程,大大减少了IO次数

二. 为什么选择B+树

  • 链表or线性表
    链表和线性表肯定是不行的,线性查找的效率太低了

  • 二叉搜索树
    二叉搜索树,如果插入的值一直比起始都大或者小,就会出现退化的问题,变成线性结构

  • AVL树&&红黑树
    虽然AVL树是平衡树,红黑树是接近平衡,但是毕竟是二叉结构,相比较多阶B+,意味着树整体过高。都是自顶向下查找,层高越低,意味着查找次数越少,系统与硬盘的IO次数更少

  • Hash
    官方的索引实现中,MySQL是支持Hash的,不过InnoDB和MyISAM并不支持Hase跟进其算法特征,决定了虽然有时候也很快O(1),不过,在面对范围查找就明显不行,另外还有其他差别,有兴趣可以查一下

在这里插入图片描述
图中的BTREE是B+树

  • B树

数据结构演示链接:数据结构可视化

B树
在这里插入图片描述

B+树
在这里插入图片描述

  • B树的节点,既有数据,又有Page指针,而B+树,只有叶子节点有数据,其他目录页只有键值和Page指针

  • B+树的叶子节点是相连的,而B树没有

之所以选择B+树,是因为目录页不存储数据,只存储指针,可以存储更多的key,可以使得树更矮,所以IO次数更少
叶子节点相连,也更便于进行范围查找

三. 聚簇索引和非聚簇索引

先介绍一下MyISAM的存储结构
MyISAM同样使用B+树,但不同的是叶节点的数据存放的是数据记录的地址。
如下图所示:CoI1为主键
在这里插入图片描述

MyISAM最大的特点,是将索引Page和数据Page分离,也就是叶子节点没有数据,只有对应数据的地址

相较于InnoDB索引,InnoDB是将索引和数据放在一起的

用MyISAM为存储引擎创建表会形成三个文件

.frm后缀表示表结构数据
.MYD后缀表示用户数据
.MYI后缀表示主键索引数据

其中,MyISAM这种用户数据与索引数据分离的索引方案,叫做非聚簇索引

用InnoDB为存储引擎创建表会形成两个文件

.from后缀表示表结构数据
.ibd后缀表示主键索引和用户数据

InnoDB这种用户数据与索引数据放在一起的索引方案,叫做聚簇索引

MySQL除了默认会建立主键索引以外,用户也可能按照需求用其他列信息建立索引,一般这种索引叫做普通(辅助)索引

对于MyISAM建立普通索引和主键索引没有什么差别,无非是主键不能重复,而非主键可以重复

下图是基于MyISAM的Col2建立的索引,和主键索引没有差别
MyISAM建立索引,会建立一个新的B+树页目录和叶子结点所存储的指针改变,不会建立新的数据表

在这里插入图片描述

同样,InnoDB除了主键索引,用户也会创建普通索引,以上表的Col3建立普通索引,如下图
在这里插入图片描述
可以看到,InnoDB的非主键索引中叶子节点并没有数据,而只有对应记录的key值,存储的是主键索引的键值

所以通过普通索引,找到目标记录,需要两遍索引
首先检索普通索引获得主键
然后用主键在主键索引中检索获得数据。
这个过程,叫作回表查询

结束语

感谢你的阅读

如果觉得本篇文章对你有所帮助的话,不妨点个赞支持一下博主,拜托啦,这对我真的很重要。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1096450.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AI视野·今日NLP 自然语言处理论文速览 第五十四期】Fri, 13 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 13 Oct 2023 Totally 75 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Tree-Planner: Efficient Close-loop Task Planning with Large Language Models Authors Mengkang Hu, Yao M…

比特听命:补码的产生过程与整数在计算机中的存储

文章目录 参考环境声明八位二进制加法器八进制数值 原码概念正负数与零正数与负数的运算 反码概念一步之遥 补码概念唯一的零加法运算 补码的优缺点优点简化算术运算一眼辨别正负性运算过程中无需对符号位进行处理 缺点不易阅读 参考 项目描述搜索引擎Bing、GoogleAI 大模型文…

c#设计模式-行为型模式 之 访问者模式

🚀简介 封装一些作用于某种数据结构中的各元素的操作,它可以在不改变这个数据结构的前提下定义作用于这些元素的新的操作。 访问者模式包含以下主要角色 : 抽象访问者(Visitor)角色:定义了对每一个元素 (E…

英语——语法——从句——句型和句子成分——笔记

老师导言:易于理解。 三种句型:1、主系表;2.主谓*;3.there be 句型:句子构成的形式。句子用于相互沟通,需要表达自己意思,句子中就存在一个主语,一般对主语(主要描述对象…

4.Mask R-CNN/YOLOV8/RTMDET三种实例分割方法推理逻辑对比

文章目录 Mask R-CNN/YOLOV8/RTMDET三种实例分割方法推理逻辑对比Mask R-CNNYOLOV5/8实例分割方法RTMDet中的实例分割 欢迎访问个人网络日志🌹🌹知行空间🌹🌹 Mask R-CNN/YOLOV8/RTMDET三种实例分割方法推理逻辑对比 实例分割是同…

CLIP模型原理与代码实现详解

文章目录 前言一、CLIP模型原理1.背景介绍2.对比训练方式3.prompt推理方式4.图像与文本编码结构5.特征CLS token结构vit划分patch原理cls token原理 二、CLIP环境安装1.官方环境安装2.CLIP环境安装3.CLIP运行结果 三.CLIP的Transformer结构代码解读四、CLIP模型主函数代码解读五…

相似性搜索:第 4 部分--分层可导航小世界 (HNSW)

SImilarity 搜索是一个问题,给定一个查询的目标是在所有数据库文档中找到与其最相似的文档。 一、介绍 在数据科学中,相似性搜索经常出现在NLP领域,搜索引擎或推荐系统中,其中需要检索最相关的文档或项目以进行查询。在大量数据中…

从0开始学go第八天

gin获取URL路径参数 package main//获取path(URL)参数 import ("net/http""github.com/gin-gonic/gin" )func main() {r : gin.Default()r.GET("/:name/:age", func(c *gin.Context) {//获取路径参数name : c.Param(&quo…

15 | JPA 对 Web MVC 开发者做了哪些支持

我们使用 Spring Data JPA 的时候,一般都会用到 Spring MVC,Spring Data 对 Spring MVC 做了很好的支持,体现在以下几个方面: 支持在 Controller 层直接返回实体,而不使用其显式的调用方法;对 MVC 层支持标…

如何通过Photoshop将视频转换成GIF图片

一、应用场景 1、将视频转有趣动图发朋友圈 2、写CSDN无法上传视频,而可以用GID动图替代 3、其他 二、实现步骤 1、打开Photoshop APP 2、点击文件——导入——视频帧到图层 3、选择视频文件 4、配置视频信息,按照图片提示配置完毕之后,…

gma 2.0.2 (2023.10.15) 更新日志

安装 gma 2.0.2 pip install gma2.0.2新增 0.1、矢量提取(重要更新) (见简单示例)   现在,你可以像 numpy 或 pandas 一样直接对 Layer 进行切片提取。 0.2、修改属性表(重要更新) &#xff…

数电第一次实验

四选一,信号选择器 三位4选1多路选择器 要求输入信号有4个,且每个信号宽3位 如果是直接根据选择信号选 选择的是信号,选择的是编号,与信号具体是什么内容无关,信号的内容与其是否被选择无关,信号的编号…

E034-服务漏洞利用及加固-利用CVE-2016-5195漏洞实现Linux系统本地提权

实验等级: 中级 任务场景: 【任务场景】 小王接到磐石公司的邀请,对该公司内部网络进行渗透测试,经过对局域网被操作系统进行全面的维护中,发现了一台内核版本为4.2.0-27的Linux服务器,低权限用户利用该漏洞技术可以在全版本L…

【笔记整理】软考-软件设计师

一、计算机系统 计算机基本单位 单位名称简称换算位bitb字节byteB1B8b千字节KB1KB1024B兆字节MB1MB1024KB吉字节GB1GB1024MB太字节TB1TB1024GB 带宽单位Mbps的b是指Bit(位) 速度单位MB/s的B是指Byte(字节) 1MB/s=8M…

Android 10.0 禁止弹出系统simlock的锁卡弹窗功能实现

1.前言 在10.0的系统开发中,在一款产品中,需要实现simlock锁卡功能,在系统实现锁卡功能以后,在开机的过程中,或者是在插入sim卡 后,当系统检测到是禁用的sim卡后,就会弹出simlock锁卡弹窗,要求输入puk 解锁密码,功能需求禁用这个弹窗,所以就需要看是 哪里弹的,禁用…

04-React脚手架

04-React脚手架 1. react脚手架入门 1).脚手架的介绍 xxx脚手架: 用来帮助程序员快速创建一个基于xxx库的模板项目 包含了所有需要的配置(语法检查、jsx编译、devServer…)下载好了所有相关的依赖可以直接运行一个简单效果 react提供了一个用于创建rea…

R/d2及S/C4估计总体标准差,比较其CPK及规格限概率的差异

R/d2 和 S/C4 是用于估计总体标准差的无偏估计方法,通常用于控制图中。这些估计方法的主要目的是通过样本数据来估计总体标准差,以便监测过程的稳定性和变异性,而不需要收集整个总体的数据。 具体来说: R图中的 R/d2 和 S图中的…

【JAVA】有关包的概念

个人主页:【😊个人主页】 系列专栏:【❤️初识JAVA】 前言 Java包是用于组织和管理Java类的方式。它们提供了一种命名空间,以避免名称冲突,并使程序的组织更加有效和可维护。今天我们接着来学习有关包的概念。 包 …

faster lio 回环 加入GTSAM优化的记录

首先感谢这位博主的文章:https://blog.csdn.net/weixin_41281151/article/details/125371285,其中部分代码参考于改博主中的github: https://github.com/kahowang/FAST_LIO_SAM 不同的是,我使用的是faster lio进行更改&#xff0c…

vscode键盘输入不进去

二话不说,直接把输入切换到终端输出即可! 打开设置,搜索terminal,切换到run in terminal 即可!