联合索引该如何选择合适的列?

news2024/10/7 8:29:43

前面一篇文章,松哥和大家聊了 MySQL 中的索引合并,虽然 MySQL 提供了索引合并机制来提升 SQL 执行的效率,然而在具体实践中,如果能避免发生索引合并是最好的,毕竟这是没办法的办法,是一个下下策。发生索引合并大概率是因为我们索引在设计的时候就有问题,设计好联合索引,我们就能在一定程度上避免发生索引合并问题。

1. 联合索引

1.1 什么是联合索引

联合索引就是数据表中的多个字段,共同组成一个索引。由于 InnoDB 中索引的数据结构是一个 B+Tree,当是一个联合索引的时候,排序的时候会首先按照联合索引的第一个字段排序,如果第一个字段的值相同,则按照第二个字段排序,如果第二个字段的值也相同,则按照第三个字段排序,以此类推。

举一个简单的例子,假设我有如下数据:

idusernameageaddressgender
1ab99深圳
2ac98广州
3af88北京
4bc80上海
5bg85重庆
6bw95天津
7bw99海口
8cc92武汉
9ck90深圳
10cx93深圳

现在我给 username 和 age 字段建立联合索引,那么 B+Tree 在排序的时候,会首先按照 username 排序,当 username 相同的时候,再按照 age 进行排序。画出来的 B+Tree 如下图:

如上图,bw 相同的时候,按照 age 进行排序。

如果我们想要在 MySQL 中,让联合索引发挥最大作用,就要充分考虑到联合索引中各字段的顺序。

1.2 联合索引顺序要考虑哪些因素?

在设计联合索引的时候,我们最容易想到的原则是查询条件影响了联合索引中各个字段的顺序,要根据查询条件来设计联合索引中各个字段的顺序。

实际上,除了上面提到的查询条件之外,联合索引的顺序还会影响到查询的排序和分组等,所以,设计联合索引的顺序可以算是一个真真正正的技术活。

2. 案例分析

松哥这里还是使用官方的案例吧,小伙伴们在公众号后台回复 mysql官方案例 可以获取到这个数据库脚本的下载地址。

在 MySQL 的官方案例中,有一个支付表 payment,如下图:

小伙伴们从图中可以看到,这个表中有一个 customer_id 和一个 staff_id,现在假设我想要按照这两个来进行搜索,例如执行如下 SQL:

select * from payment where customer_id=1 and staff_id=2;

查询条件有两个,我想建立一个联合索引,那么究竟是把 customer_id 放在前面还是把 staff_id 放在前面呢?

一个比较常用的法则是看字段的选择性,选择性高的字段应该是放在前面。有的小伙伴可能还不清楚什么是字段的选择性,可以参考松哥之前的文章:前缀索引,在性能和空间中寻找平衡。

那么怎么获取各个字段的选择性呢?这个很好计算,一个 SQL 搞定,如下:

select count(distinct customer_id)/count(1) as c,count(distinct staff_id)/count(1) as s from payment;

执行结果如下:

可以看到,customer_id 的选择性为 0.0373,而 staff_id 的选择性为 0.0001,那么在建立联合索引的时候,将 customer_id 放在第一列显然更合适一些,因为它的选择性更高(意味着字段里边重复的值相对来说会少一些),根据 customer_id 更容易锁定一行,查询效率要更高一些。

不过需要注意,上面的法则并非放之四海而皆准,还是要具体问题具体分析。在一些特别极端的情况下,索引选择性非常之低,那个时候就没有必要建立联合索引了。特殊情况甚至需要我们从业务逻辑上去解决。

松哥举一个例子来说明这个问题。

在我第一版的 vhr 中,当时有一个系统通知的功能,就是管理员可以给所有的用户群发消息。用户之间也可以互发消息,如果发送消息的时候,用户不在线,就需要先把消息存到数据库中,等用户上线了再推给用户,那么就需要一张表来保存消息。这个表中有一个字段就是消息发送者,由于网站经常需要发送通知,就导致这个字段的值分布非常不均,大约有 50% 的值都是 admin,剩下的 50% 则是其他普通用户,那么查询的时候,据此字段建立的联合索引,如果查询条件不是 admin,则过滤效果不错,如果查询条件是 admin,则过滤效果就非常差。对于这样的问题,我们就需要从业务上去解决,例如禁止根据 admin 去查询等等。总之,建立联合索引时,我们前面所所说的字段选择性最高的原则,并不是放之四海而皆准的,小伙伴们还是要具体情况具体分析。

3. 注意事项

由于联合索引也是存储在 B+Tree 中,如 1.1 小节图示,username 在整棵 B+Tree 中是有序的,但是从整体上来看,age 是无序的,所以对于联合索引在搜索的时候,需要满足最左匹配原则才是有效的,否则会失效。举例来说,如果查询条件里只有 age,则索引就会失效,因为顺着索引的 B+Tree 去查询满足条件的记录,得一个一个找,还不如直接遍历主键索引。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/502636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Wikidata 模型分析+实体抽取+数据处理

Wikidata 数据分析与处理 需求:Wikidata 数据描述了很多实体,以及实体属性。比如某一个公司/组织/机构名称是:阿里巴巴,对数据内该组织的相关属性进行观察、分析、治理、抽取等,最后用图数据库进行存储和展示其关系&am…

为什么半导体FAB生产线需要EAP系统?

在半导体制造中,设备自动化系统EAP(Equipment Automation Program)是不可或缺的重要软件,它是连接MES、RMS、APC、FDC等上层系统和设备层的桥梁,用于管控生产线上的所有机台,并实现设备运行的自动化。 作为…

QT+OpenGL高级数据和高级GLSL

QTOpenGL高级数据和高级GLSL 本篇完整工程见gitee:QtOpenGL 对应点的tag,由turbolove提供技术支持,您可以关注博主或者私信博主 高级数据 OpenGL中的缓冲区 对象管理特定的GPU内存 在将缓冲区绑定到特定的缓冲区目标时候赋予它意义 OpenGL在内部会保…

项目环境配置、不知晓问题自己搜索后得到的解答

目录 Anolis OS龙蜥操作系统 Kernel Selection 4.18.0(RHCK) Compatible with RHEL (kernel-4.18.0) 4.19.91(ANCK) Support Anolis OS verified platform (kernel-4.19.91) 这两个内核选择哪个比较好呢? 我的C盘有些满,我该如何删除一些我需要的东西…

docker网络访问和端口映射

docker网络访问和端口映射 文章目录 docker网络访问和端口映射1.docker容器网络1.1.创建一个centos7的容器1.2.docker网络原理图 2.端口映射2.1.创建一个新的IP2.2.多个IP端口映射2.3.随机端口命令 1.docker容器网络 指定映射(docker 会 自动添加一条iptables规则来…

wisp5.0 学习日记2

学习日记 昨天的报错尝试1,在CCS中设置USB FET尝试2 csdn解决方案1尝试3 查看仿真器的驱动是否安装成功 昨天的报错 MSP430: Error initializing emulator: No USB FET was found 尝试1,在CCS中设置USB FET 打开CCS,选择“Window” -> …

在线文档编辑工具哪个更好?

在线文档编辑工具相当于一个轻量级、跨平台、多途径的Office。使用在线文档编辑工具,首先我们不用安装Office软件;其次在电脑网页上、手机小程序里我们都可以使用在线文档进行简单的编辑;最后我们编辑的文档可以实时更新、分享、协作等。今天…

供应商标准化管理难?云时通助力国药器械成功打造医疗器械行业SRM管理平台!

中国医疗器械有限公司(CMDC,简称“国药器械”),始建于1966年,隶属于国药集团,是其医疗器械板块的主力军。国药器械有分子公司300家左右,年销售额300多亿,国内最大的医疗器械商业流通企业,产品覆盖医疗器械所…

软件测试简历?面试题?企业面试官想要什么?我不再和offer失之交臂...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 软件测试面试题简历…

vivado跨时钟域路径分析

若要查看跨时钟域路径分析报告,可选择以下内容之一来查看: A, Reports > Timing > Report Clock Interaction B, Flow Navigator > Synthesis > Report Clock Interaction C, Flow Navigator > Implementation > Report Clock Inte…

【网络安全】--win提权

win提权 提权目的提权常用命令提权实战常见的payload利用1. 安装虚拟机win2008和kali2. 创建普通用户3. 切换用户4. kali生成木马并发送到被攻击服务器上5. 被攻击方运行生成的木马文件7. 查看可利用漏洞8. 尝试利用exp提权 at/sc/ps命令提权at命令提权sc命令提权ps命令提权 提…

换个花样玩C++(8)吃不透内存布局,坑的是自己,万字经验告诉你类的内存布局

C++内存布局是老生常谈的话题,无论是笔试面试,都会涉及到该类问题,那么这一章节,我们就聊聊内存布局到底是怎么布局的,聊完之后我保证你仍然会回味无穷,并且我提供的几个例子也会让你再一步步踩入雷区。 C++程序的内存布局 C++的内存布局区域我们大体上分为四个:全局数据…

SubMain CodeIt.Right 2022.2 Crack

CodeIt.Right,从源头上提高产品质量,在编写代码时获取有关问题的实时反馈,支持最佳实践和合规性,自动执行代码审查,轻松避免与您的群组无关的通知,一目了然地了解代码库的运行状况 自动执行代码审查 使用自…

ICMP协议和NAT技术

文章目录 ICMP协议ICMP功能NAT技术NAT技术背景 ICMP协议 ICMP协议是一个网络层协议 一个新搭建好的网络, 往往需要先进行一个简单的测试, 来验证网络是否畅通; 但是IP协议并不提供可靠传输. 如果丢包了, IP协议并不能通知传输层是否丢包以及丢包的原因 ICMP功能 ICMP正是提…

K8s常见面试题19问

K8s常见面试题19问 收集了一些K8s常见问题和同学们面试常被问到的问题. 如果有新的面试题私聊或者留言给我 1. Docker和虚拟机有那些不同 虚拟化环境下每个 VM 是一台完整的计算机,在虚拟化硬件之上运行所有组件,包括其自己的操作系统。 容器之间可以共…

什么叫用空间换时间,用时间换空间

什么叫做用空间换时间 用空间换时间是指为了提高程序或算法的效率,将计算机程序中的时间复杂度转化为空间复杂度,即通过使用更多的空间来减少程序运行所需的时间。这种技术在某些情况下可以大幅缩短程序的执行时间,但也会导致程序需要更大的…

【软件开发】大规模分布式系统的容错架构设计

大规模分布式系统的容错架构设计 假设有一个数据库,数据库里有一张特别大的表,里面有几十亿,甚至上百亿的数据。更进一步说,假设这一张表的数据量多达几十个 TB,甚至上百个 TB,那么如果用 MySQL 之类的数据…

功率信号源的作用是什么意思

功率信号源是指集信号发生器与功率放大器为一体的电子测量仪器,它具有高电压、大功率的特点,在电子实验室中能够帮助用来驱动压电陶瓷、换能器以及电磁线圈等,可以有效的帮助电子工程师解决驱动负载和放大功率的问题。同时,功率信…

使用python实现背单词功能,单词本存放在txt文件中,最后统计出回答的正确题数和错误题数。

一、编程题目 编程题目:使用python实现背单词功能,单词本存放在txt文件中,最后统计出回答的正确题数和错误题数。 单词本的内容如下: danciben.txt内容如下(按照格式,可自行定义单词本的内容)&a…

创建 Node REST API 文档

为自己开发的 Node REST API 生成文档,基本有两种方法: 1 极简版 此方法就是自己写一个文件,记录 API,不需要安装额外的 package,然后 app.js 增加一个 route 然后从浏览器查看这个文件就可以。 步骤如下&#xff1a…