Mysql(一):深入理解Mysql索引底层数据结构与算法

news2025/1/12 18:14:01

众所众知,MySql的查询效率以及查询方式,基本上和索引息息相关,所以,我们一定要对MySql的索引有一个具体到数据底层上的认知。

这一次也是借着整理的机会,和大家一起重新复习一下MySql的索引底层。

本节也主要有一下的几个内容:

  1. 索引数据结构红黑树,Hash,B+树详解
  2. 千万级数据表如何用B+树索引快速查找
  3. 聚集索引&非聚集索引到底是什么
  4. 为什么总推荐使用自增主键做索引
  5. 联合索引底层数据结构又是怎样的
  6. Mysql最左前缀优化原则是怎么回事

各位看官可以各取所需,希望能够对大家有所帮助。

一句话总结:索引是帮助MySQL高效获取数据的排好序数据结构

为什么需要索引

在这里插入图片描述

各位都知道,对一个没有索引的表来说,我们只能按行查找。

这似乎看起来也不会慢嘛,一个个往下找嘛。

但是问题在于,对于MySql来讲,数据是存在磁盘的,数据存在磁盘是逻辑上的连续,而不是物理上的连续。
假设我们要执行以下的Sql

select * from t where t.col2 = 89

那我们需要进行多次I/O到磁盘中找我们所需要的数据,那这就会导致我们的查询速度很慢。

注意:和磁盘进行I/O是一件很慢的事情。

索引的数据结构

我们知道,索引的存在,是为了帮助我们能够快速的获取数据的排好序数据结构

有这种功能的,我们平时学的数据结构中,主要有下面几个:

  • 二叉树
    • 二叉排序树
    • 平衡二叉树
  • 红黑树
  • Hash表
  • B-Tree
  • B+ Tree

对于二叉树和红黑树来说,两个的区别在各位学习HashMap的时候,就应该都知道了,这里我们就直接跳过。

但是,对于这两者来说,都有一个很严重的问题

  • 随着数据量的增大,树的高度会逐渐增大。

在这里插入图片描述

就比如上面这棵红黑树,你要找这个0007,你是不是要进行4次I/O,这肯定是没办法接受的。

所以我们的目标,是能够尽可能的把更多的数据一起放到树的每一层,来减少我I/O的次数

B-Tree

B树是一种多路平衡树,用这种存储结构来存储大量数据,它的整个高度会相比二叉树来说,会矮很多

在这里插入图片描述

B树的每一个节点,其实可以理解成一个K-V

相比于红黑树,由于每一层能够存储的数据量多了,高度肯定是变低了,磁盘I/O次数少了,性能就提升了。

看似不错,但是几个问题:

  • 首先我们要知道,MySql为了能够更快速的查询数据,会将数据通过内存页的方式读入到内存中,一个页是16K。可以通过以下语句查看

    SHOW GLOBAL STATUS like 'Innodb_page_size';
    

    在这里插入图片描述

  • 我们的每一个节点都存了数据,如果这个数据稍微的打了一点,那我这一页才能存多少数据啊,这种方式就会导致我们的B树的高度会有问题。

  • 还有一个问题,如果是进行范围查找呢,B树似乎并不是很方便。

所以,MySql并不是以B树作为我们索引的数据结构

B+ Tree

基于上面的问题,我们引出了B+树

在这里插入图片描述

B+树相比于B树,有两个特点:

  • B+树的只有叶子节点存储数据,其他节点只存储索引(冗余)
  • B+树的叶子节点是一个双向链表。

我们先看看第一个特点,其实B+树的非叶子节点,和我们的跳表差不多, 每个节点都不存储数据,只是为了构建这个B+树。那这样带来了什么好处呢?

前面我们说的,mysql的内存页是16KB,也就是说,每次我们一个节点最多存储16KB的索引,假设我们用bigint作为索引值,也就是8个字节,加上向下的指针,大概是6个字节

在这里插入图片描述

算出来,16KB / 14B = 1170。

下面的带数据的叶子节点,正常也不会太大,我们就算一个1KB,算出来就是16个

1170 * 1170 * 16 = 21,902,400

可以看到,当树的高度为3的时候,就可以通过3次查询覆盖2000万的数据。

所以,对于B+树来说,相比于B树,更加的矮壮。

同时,因为下面是一个双向链表,对于范围查询来说,是不是能够更加快速的查出结果。

Hash

在这里插入图片描述

默认来说,mysql都是使用B Tree来存储索引的,但是你仔细看,其实是可以选择Hash的

对于Hash的话,其实大家都不会陌生。

在这里插入图片描述

Hash的特点,就是查的够快,只要一次就能查出来

缺点也很明显,Hash冲突啊,不支持范围查找。

索引是怎么存储的

因为现在MyISAM基本上没遇到过,所以这里只对InnoDB进行介绍

注意:存储引擎是基于表的,而不是数据库

在这里插入图片描述

我们打开mysql对应的文件位置,进入到里面的data,由于我目前是在test库,所以点进去test文件

在这里插入图片描述

我们可以看到,对应的表有这两个文件

  • .frm:表结构信息
  • .ibd:数据和索引

.ibd文件其实就是存储我们整张表的所有数据,他会通过B+树的方式进行存储

换句话说,表数据文件本身就是按B+Tree组织的一个索引结构文件,其实也就是我们的聚集索引

这里可以简单的说明这个聚集的概念:

  • 聚集索引,其实就是将索引和文件放在同一个文件里,像InnoDB就都放在.ibd文件中

  • 而相对应的,叫做非聚集索引,也就是索引和文件不放在同一个文件里,在MyISAM中就是这么设计的,索引在.MYD文件,数据在.MYI文件中。

    在这里插入图片描述

  • 而对于InnoDB的二级索引,其实也是非聚集索引

建议InnoDB表必须建主键

知道了索引是怎么存储的,那我们也就能知道,为什么建议InnoDB表必须建主键

如果有了主键,我们可以直接根据主键生成一个聚集索引,来保存我们的数据。

所以在大多数情况下,聚集索引 = 主键索引

没有主键是怎么存储的

InnoDB表没有主键,也是可以建表的

如果没有主键,它会从第一列开始找,如果第一列所有数据都不相等,他就会直接拿第一列来组织B+树

如果第一列没选到,就继续往后,如果都没选到,它会帮你建一个隐藏列,隐藏列给每一行一个唯一的ID,然后通过这个隐藏列来构建B+树

但是,对于MySql来说,这其实不应该由它来做的。这纯属浪费资源

推荐使用整型的自增主键

整型

首先我们知道,我们通过索引找数据的过程,其实就是一个数据比大小的过程。

所以,相比于整型,其他的肯定没有它快

就那字符串来说,字符串比较是要逐位进行比较的,特别是越长的字符串,比较的次数越多,速度肯定越慢。虽然影响没有那么大,毕竟是在内存中比较的,但是肯定是有影响的。

同时,字符串的空间占用,一般要比整型的大

  • 一方面,存储的成本提高了;
  • 另一方面,按照我们上面的分析,B+树的矮壮性肯定是会受影响的。

自增

首先,我们要先知道,对于B+树来说,非顺序的插入,会增加B+树的工作,具体的话,大家可以通过数据结构网址来模拟这个过程,在这里我就不再说了。

但是,如果是顺序插入,那B+树就会一直往后去增加,这种效率肯定要比非顺序的效率高。

非主键索引(二级索引)

在这里插入图片描述

非主键索引,也成为二级索引,非聚集索引,和主键索引一样,也是才用B+树来进行存储。

不一样的是,二级索引下面的值,是存储主键的值。

这样是为了能够节省空间保持一致性

节省空间很好理解,如果把所有数据都丢进来,占用的空间太大

保持一致性也很好理解,如果把所有数据丢进来,那修改数据的时候,主键索引和非主键索引都要改,这就很麻烦。

当然,这样的索引也有一个问题,就是由于数据和索引不是在一起的,所以往往我们查出来数据之后,就需要进行回表,根据主键索引找到对应的数据。

联合索引

联合索引就是多个字段共同构成的索引

在这里插入图片描述

最左匹配原则

各位可以先想一想,如果让你来设计,你要怎么存储,来做到有序呢?

是不是就是一个字段一个字段的排序,先第一个有序,然后在考虑第二个。

那这也就引出了我们的最左匹配原则

就拿我们上面的例子,他会先比较name,然后比较age,最后比较position

SELECT * FROM employees WHERE name='Bill' and age=31;
SELECT * FROM employees WHERE age =30 AND position='dev';

从上面的图我们可以知道,第一条Sql肯定能走索引,但是第二条呢?

是不是发现了,走不了了,因为出去name了之后,这个索引已经不是有序的了

这就是我们的最左匹配原则。

那我们继续往下走,如果遇到范围查询(>,<,like左匹配)呢?

SELECT * FROM employees WHERE name='Bill' and age > 30 and position='dev';

前面两个,走索引大家应该没什么疑问,但是到了第三个呢,从上面的图看,好像没问题,

但如果是这样呢

在这里插入图片描述

是不是发现,又是无序的了

但是,这里有一个比较有意思的,如果是>=、<=、between等这些带等于的,他其实是走了索引的。

SELECT * FROM employees WHERE name='Bill' and age >= 30 and position='dev';

虽然在符合 age>= 30 条件的二级索引记录的范围里,position 字段的值是「无序」的,但是对于符合 age = 30 的二级索引记录的范围里,position 字段的值是「有序」的(因为对于联合索引,是先按照 age 字段的值排序,然后在 age 字段的值相同的情况下,再按照 position 字段的值进行排序)。

于是,在确定需要扫描的二级索引的范围时,当二级索引记录的 age 字段值为 30 时,可以通过 position = ‘dev’ 条件减少需要扫描的二级索引记录范围(position 字段可以利用联合索引进行索引查询的意思)。也就是说,从符合 age = 30 and position = ‘dev’ 条件的第一条记录开始扫描,而不需要从第一个 age 字段值为 30 的记录开始扫描。

所以,这条查询语句都用到了联合索引进行索引查询。

这其实也用到了我们另一个知识点:索引下推

索引下推,可以在索引遍历过程中,对索引中包含的字段先做判断,直接过滤掉不满足条件的记录,减少回表次数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1805399.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【马琴绿绮】马维衡古琴之马氏汉风 明代杉木制;周身髹朱红色漆

【马琴绿绮式】马维衡古琴之马氏汉风 明代杉木制&#xff1b;琴体周身髹朱红色漆&#xff0c;鹿角霜灰胎&#xff1b;形体壮硕、风格高古&#xff1b;音色松透、浑厚&#xff0c;音质纯净&#xff0c;按弹舒适&#xff0c;手感丝滑。

【vue实战项目】通用管理系统:图表功能

目录 前言 1.概述 2.数据概览页 2.1.柱状图 2.2.折线图 2.3.地图 前言 本文是博主前端Vue实战系列中的一篇文章&#xff0c;本系列将会带大家一起从0开始一步步完整的做完一个小项目&#xff0c;让你找到Vue实战的技巧和感觉。 专栏地址&#xff1a; https://blog.csd…

Vue3【十三】watch监视

Vue3【十三】watch监视 Vue3 中的watch祝你能监视以下四种数据 ref 定义的数据reactive定义的数据函数返回一个值一个包含上述内容的数组 案例截图 目录结构 案例代码 Person.vue <template><div class"person"><!-- <h1>Watch情况1&#xff…

遗址博物馆ar互动展示软件提供丰富的趣味化体验

在自然博物馆的每一个角落&#xff0c;都隐藏着大自然的奥秘与魅力。为了让每一位参观者都能深入体验、探索这些奥秘&#xff0c;我们引入了前沿的AR技术&#xff0c;为您带来一场前所未有的沉浸式自然之旅。 步入博物馆&#xff0c;您手中的AR相机将成为您的更佳向导。自然博物…

如何合并pdf文件?告别软件,教你用python轻松解决

首先安装相关库文件&#xff1a; pip install PyPDF2, tkinter 接着&#xff0c;定义合并pdf函数&#xff0c;使用了PdfMerger构建对象&#xff0c;输入pdf文件路径列表&#xff0c;以及输出文件夹路径 from PyPDF2 import PdfMergerdef merge_pdf(file_paths, output_dir…

【leetcode--30.串联所有单词的子串】

有没有一样喜欢看示例的&#xff0c;&#xff0c;看题目就觉得很难懂。大致就是words要进行排列组合&#xff0c;返回s中所有包含这个排列组合的首标。 顺完逻辑蛮好懂的&#xff0c;应该不算困难题&#xff0c;只是不知道用什么模块实现。 class Solution:def findSubstring…

python数据分析-连云港石化基地2023年用电量分析

接下来对连云港石化基地2023年用电量进行分析&#xff0c;首先导入数据分析基本的包&#xff1a; import pandas as pd import matplotlib.pyplot as plt# Load the data from the provided Excel files file_path1 data1.xlsx file_path2 data2.xlsxdata1 pd.read_excel(f…

网络学了点socket,写个聊天室,还得改进

目录 第一版: common 服务端: 客户端 第一版问题总结: 第二版 服务端: 客户端: 改进: Windows客户端 一些小问题 还可以进行的改进 这篇文章我就先不讲网络基础的东西了,我讲讲在我进行制作我这个拉跨聊天室中遇到的问题,并写了三版代码. 第一版: common #pragm…

使用 Keras 的 Stable Diffusion 实现高性能文生图

前言 在本文中&#xff0c;我们将使用基于 KerasCV 实现的 [Stable Diffusion] 模型进行图像生成&#xff0c;这是由 stable.ai 开发的文本生成图像的多模态模型。 Stable Diffusion 是一种功能强大的开源的文本到图像生成模型。虽然市场上存在多种开源实现可以让用户根据文本…

Linux磁盘分区使用情况查询

一、磁盘分区使用情况查询 1. 查询磁盘整体使用情况使用 df -h进行查询 如图我们可以了解到磁盘的一些大致的使用情况&#xff0c;注意当已用部分有超过80%使用的分区就意味着你需要进行磁盘的清理了。 2.查询指定的磁盘使用情况 使用指令 du -h 当不指定目录时&#xff0c;默…

Vivado时序报告之Datasheet详解

目录 一、前言 二、Datasheet配置选项说明 2.1 Options 2.2 Groups 2.3 Timer Settings 2.4 Common Options 三、Datasheet报告 3.1 General Information 3.2 Input Ports Setup/Hold 3.3 Output Ports Clock-to-out 3.4 Setup between Clocks 3.5 Combinational…

物联网实战--平台篇之(十四)物模型(用户端)

目录 一、底层数据解析 二、物模型后端 三、物模型前端 四、数据下行 本项目的交流QQ群:701889554 物联网实战--入门篇https://blog.csdn.net/ypp240124016/category_12609773.html 物联网实战--驱动篇https://blog.csdn.net/ypp240124016/category_12631333.html 物联网…

基于Python的AI动物识别技术研究

基于Python的AI动物识别技术研究 开发语言:Python 数据库&#xff1a;MySQL所用到的知识&#xff1a;Django框架工具&#xff1a;pycharm、Navicat、Maven 系统功能实现 系统的登录模块设计 本次设计的AI动物识别系统为了保证用户的数据安全&#xff0c;设计了登录的模块&…

明天15点!如何打好重保预防针:迎战HVV经验分享

在当今数字化时代&#xff0c;网络攻击日益猖獗&#xff0c;各行各业面临的网络安全威胁不断升级。从钓鱼邮件到复杂的APT攻击&#xff0c;网络犯罪分子的手法层出不穷&#xff0c;给各行各业的信息安全带来了前所未有的挑战。 在这样的背景下&#xff0c;"HVV行动"应…

免费,C++蓝桥杯等级考试真题--第7级(含答案解析和代码)

C蓝桥杯等级考试真题--第7级 答案&#xff1a;D 解析&#xff1a;步骤如下&#xff1a; 首先&#xff0c;--a 操作会使 a 的值减1&#xff0c;因此 a 变为 3。判断 a > b 即 3 > 3&#xff0c;此时表达式为假&#xff0c;因为 --a 后 a 并不大于 b。因此&#xff0c;程…

如何远程连接Linux服务器?

远程连接Linux服务器是通过网络连接到位于远程位置的Linux服务器&#xff0c;以进行服务器管理和操作。远程连接使得系统管理员可以方便地远程访问服务器&#xff0c;进行配置、维护和故障排除等操作&#xff0c;而不必亲自在服务器前工作。以下是一些常用的远程连接方法&#…

使用小黄鸟(HttpCanary)、VMOS Pro虚拟机对手机APP进行抓包(附带软件)

老规矩先看&#xff0c;效果图&#xff1a; 文章很详细&#xff0c;希望可以耐心看完&#xff0c;保证可以学会抓包&#xff0c;不再走冤枉路&#xff0c;小编在之前看过太多类似文章&#xff0c;折腾了太久才搞懂的&#xff0c;写这篇文章就是不想希望你们像小编一样再花时间…

qmt量化交易策略小白学习笔记第15期【qmt编程之获取龙虎榜数据】

qmt编程之获取龙虎榜数据 qmt更加详细的教程方法&#xff0c;会持续慢慢梳理。 也可找寻博主的历史文章&#xff0c;搜索关键词查看解决方案 &#xff01; 获取龙虎榜数据 获取指定日期区间内的龙虎榜数据 内置python C.get_longhubang(stock_list, startTime, endTime)参…

十八、【源码】二级缓存

源码地址&#xff1a;https://github.com/mybatis/mybatis-3/ 仓库地址&#xff1a;https://gitcode.net/qq_42665745/mybatis/-/tree/18-second-levelcache 二级缓存 二级缓存&#xff0c;namespace级别&#xff0c;默认关闭&#xff0c;需要手动开启&#xff0c;在xml加入…

论文阅读《SELECTIVE DOMAIN-INVARIANT FEATURE FOR GENERALIZABLE DEEPFAKEDETECTION》

作者&#xff1a;Yingxin Lai、 Guoqing Yang1、Yifan He2、Zhiming Luo、Shaozi Li 期刊&#xff1a;ICASSP-2024 目的&#xff1a;解决泛化性的问题&#xff0c;提出了3个模块 论文整体的架构图&#xff1a;&#xff08;挑选域特征不变&#xff0c;减少对图像内容或者风格…