Mysql:根据查询语句来建立最佳索引【翻译】

news2024/11/22 2:10:51

Mysql:根据查询语句来建立最佳索引

译文仅供参考,很多不是原句照搬

The Problem问题

你有一个select语句并且想为它建立一个最佳的索引。这篇文章就像是一本如何实现这个目标的“cookbook”。
本cookbook将包含:

  • 一个很简单的算法适用于很多简单的select查询,并且同样适用一些高级查询
  • 很多算法样例,加上一些题外话,例外案例和变题
  • 最后会有一长串的其他案例

Algorithm算法

下面是一个达到创建索引的方法,给定一个select,按照下面给出的步骤,将所有的列按照顺序放进索引中,当你遍历完下面给出的步骤时,通常你将得到一个“最佳”索引。

  • 给定一个由一堆AND连接的where语句:所有的列,无论是什么顺序,都在跟一个参数比较并且没有藏在一个方法里
  • 你有好几个机会来添加索引,哪个先满足条件就优先安排哪个为索引
  • 2a. 有某列使用了range – BETWEEN, >, LIKE 没有前置通配符 (给索引
  • 2b. 所有group_by的列,按照顺序(给索引
  • 3c. 所有order_by的列,按照顺序(给索引

Digression题外话

这篇文章假设你已经知道很多创建索引背后的基本逻辑,下面回顾几个关键点加深一下印象。
通常,所有MySQL的索引都是B树结构
B树在这些方面会很有效率

  • 给定一个key,找到对应的row(s)
  • “Range scans(范围查找)” – 指从一个值开始依次重复查找下一行或者上一行

PRIMARY KEY 主键
SECONDARY KEY 副键
UNIQUE KEY 唯一键
INDEX 索引

A PRIMARY KEY is a UNIQUE KEY; a UNIQUE KEY is an INDEX. (KEY == INDEX.)

InnoDB 将PRIMARY KEY的数据聚集在一起,给定PRIMARY KEY的值,在扫描了整个B树后找到了索引的入口,你将在那获得目标行下所有列的数据。secondary key (any UNIQUE or INDEX other than the PK) 在InnoDB里先是扫描B树拿到secondary key本身,得到的是PK的拷贝,然后你再去扫描PK从而找到目标行。

每一个InnoDB 的table都有一个PRIMARY KEY。如果你不指定,那就会默认一个。最好是能明确给出PK。
补充一下:MyISAM则完全不同,所有的索引(包括pk)都隶属于不同的B树,这类B树的叶子节点都有一个指针 (usually a byte offset) 指向数据集。

以上所有的讨论都是基于InnoDB的tables,但是大部分陈述也适用于其他引擎。

First, some examples首先,一些举例

假设有一组名字,按last_name排序,然后是first_name. 你肯定见过这样的数组,通常它们还包含了一些其他的信息,比如地址或者是电环号码。假设你想做一次查询。如果你记得我的全名(‘James’ and ‘Rick’), 那么你很容易找到我的(数据)入口。如果你只记得我的last_name(‘James’) 和first_name是从一个“R”字母开始的单词。你可以快速定位到很多包含James的并且找到last_name开头为R的数据。因此你可以专注‘Rick’而忽略掉‘Ronald’。但是,如果你记得我的first_name(‘Rick’),last_name是从‘J’开头。那么你就麻烦了,你得把所有Js的数据都扫描一遍-- Jones, Rick; Johnson, Rick; Jamison, Rick; 等等等等.这样效率就会低很多。

上面的距离转换成语句:

INDEX(last_name, first_name) -- the order of the list.
WHERE last_name = 'James' AND first_name = 'Rick'  -- best case
WHERE last_name = 'James' AND first_name LIKE 'R%' -- pretty good
WHERE last_name LIKE 'J%' AND first_name = 'Rick'  -- pretty bad

下面算法讨论“=”跟“range”的对比的时候可以继续想想这个案例。

Algorithm, Step 1 (WHERE “column = const”)

WHERE aaa = 123 AND ... -- an INDEX starting with aaa is good.WHERE aaa = 123 AND bbb = 456 AND ... -- an INDEX starting with aaa and bbb is good. In this case, it does not matter whether aaa or bbb comes first in the INDEX.
⚈  xxx IS NULL -- this acts like "= const" for this discussion.WHERE t1.aa = 123 AND t2.bb = 456 -- You must only consider columns in the current table.

要注意表达式必须是column_name=(constant).
这些表述是不适用于step1的:

DATE(dt) = '...', 
LOWER(s) = '...', 
CAST(s ...) = '...', 
x='...' 
COLLATE...

“column都藏在了function中”。用不到索引。
如果where语句中没有“=”相连接的话,可以移步到step2去寻找你的索引。

Algorithm, Step 2

从2a / 2b / 2c 找到第一条适用的,然后建立索引,然后退出。如果没有任何一条适用,那么你也完成了索引的收集。
在某些情况下,最好的策略是把step1(全是等式连接)和step2c(order by)都用上。

Algorithm, Step 2a (one range)

A “range” shows up as

    ⚈  aaa >= 123 -- any of <, <=, >=, >; but not <>, !=, IS NOT NULL
    ⚈  aaa BETWEEN 22 AND 44
    ⚈  sss LIKE 'blah%' -- but not sss LIKE '%blah'
    ⚈  xxx IS NOT NULL

把做了range查询的column都加入到索引待选里。

如果where语句中还有更多的条件,那么寻找索引也必须停止了。

完整的样例(假设这些语句后没有任何多的片段)

WHERE aaa >= 123 AND bbb = 1INDEX(bbb, aaa) (WHERE order does not matter; INDEX order does)WHERE aaa >= 123INDEX(aaa)WHERE aaa >= 123 AND ccc > 'xyz'INDEX(aaa) or INDEX(ccc) (only one range) (See ICP, below)WHERE aaa >= 123 ORDER BY aaa   ⇒ INDEX(aaa) -- Bonus: The ORDER BY will use the INDEX.WHERE aaa >= 123 ORDER BY aaa   ⇒ INDEX(aaa) DESC -- Same Bonus.

(某些情况下同一列可能会有多个range查询,这样的情况也是适用的)

Algorithm, Step 2b (GROUP BY)

如果有GROUP BY,所有GROUP BY的列都应该被添加(到索引),按照一定的顺序(不知道如果其中一列本身已经是索引会发生什么)
如果需要GROUP BY一个表达式(包括方法调用),那么不适用于添加索引,stop。
完整的样例(假设这些语句后没有任何多的片段)

WHERE aaa = 123 AND bbb = 1 GROUP BY ccc   ⇒ INDEX(bbb, aaa, ccc) or INDEX(aaa, bbb, ccc) (='s first, in any order; then the GROUP BY)WHERE aaa >= 123 GROUP BY xxx   ⇒ INDEX(aaa) (You should have stopped with Step 2a)GROUP BY x,y   ⇒ INDEX(x,y) (if there is no WHERE)WHERE aaa = 123 GROUP BY xxx,(a+b)INDEX(aaa) -- expression in GROUP BY, so no use including even xxx.

如果GROUP BY和ORDER BY 有相同的列和同样的顺序,调整索引进行适配。那样,GROUP BY和ORDER BY 的规则可以同时适用。这样可以避免额外的排序。

Algorithm, Step 2c (ORDER BY)

如果有ORDER BY,所有ORDER BY的列都应该被添加(到索引),按照一定的顺序。
如果ORDER BY里有多个列,并且混合了AES和DESC,不要把这些列添加到索引里;这样做没有任何帮助。(在8.0版本里有一个例外,如果你声明了一个索引是混合了ASE和DESC,那么ORDER BY的列是可以用索引的)
如果不关心结果的顺序的话,将顺序都改成AS或DESC。
如果ORDER BY的是一个表达式(包含方法调用),那么不适用于添加索引,stop。

完整的样例(假设这些语句后没有任何多的片段)

WHERE aaa = 123 GROUP BY ccc ORDER BY ddd   ⇒ INDEX(aaa, ccc) -- should have stopped with Step 2bWHERE aaa = 123 GROUP BY ccc ORDER BY ccc   ⇒ INDEX(aaa, ccc) -- the ccc will be used for both GROUP BY and ORDER BYWHERE aaa = 123 ORDER BY xxx ASC, yyy DESCINDEX(aaa) -- mixture of ASC and DESC.

下面这些是特别好的样例。通常情况下索引下的LIMIT都很难有收益,除非已经收集了很多行数据并且进行ORDER BY排序。但是,如果恰好进行ORDER BY的时候,只有(OFFSET + LIMIT)的数据被收集,这些情况下,你新建立的index会得到额外的效果提升。

WHERE aaa = 123 GROUP BY ccc ORDER BY ccc LIMIT 10INDEX(aaa, ccc)WHERE aaa = 123 ORDER BY ccc LIMIT 10INDEX(aaa, ccc)ORDER BY ccc LIMIT 10INDEX(ccc)WHERE ccc > 432 ORDER BY ccc LIMIT 10INDEX(ccc) -- This "range" is compatible with ORDER BYWHERE ccc < 432 ORDER BY ccc LIMIT 10INDEX(ccc) -- also works

(在没有ORDER BY的情况下做LIMIT好像没有什么道理,所以也就不讨论这种情况)

Algorithm end

你已经收集了几列,把它们都放到table的索引选项里。通常这些列都是帮助执行select的好的索引。下面是一些其他相关的建议。

一个在算法上可能是错误的示例:

SELECT ... FROM t WHERE flag = true;

这种情况(根据算法)会调用索引index(flag)。但是,如果对一列只有两个(或者很小数量)不同值的列做索引几乎是无效的。
这被称为low cardinality(低基数)。优化器更愿意去做一次全表扫描而不是一直在索引和数据之前来回切换。

另一种情况下,这个算法就是对的

SELECT ... FROM t WHERE flag = true AND date >= '2015-01-01';

这种情况下会调用一个聚合索引,并且flag顺序在前INDEX(flag,date). 这样的索引很有可能会有增益,而且肯定会比index(date)更加有效。

甚至在加上LIMIT后更有效果

SELECT ... FROM t WHERE flag = true AND date >= '2015-01-01' LIMIT 10;

在找了10行数据后index(flag,date)会停下来,而Index(date) 则不会。
如果添加索引的列有可能需要更新的话,那么更新可能会耗费额外的工作量,在b树中移除一行又新增一行,比如:

INDEX(x)
UPDATE t SET x = ... WHERE ...;

是要添加索引还是移除索引,实在是有太多变量要说了。
…(待续)

引用

index_cookbook_mysql

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2245033.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

凸函数与深度学习调参

问题1&#xff1a;如何区分凸问题和凹问题&#xff1f; 问题2&#xff1a;深度学习如何区分调参&#xff1f;

DBeaver MACOS 安装 并连接到docker安装的mysql

官网下载&#xff1a;Download | DBeaver Community 网盘下载&#xff1a;链接: https://pan.baidu.com/s/15fAhbflHO-AGc-uAnc3Rjw?pwdbrz9 提取码: brz9 下载驱动 连接测试 报错 null, message from server: "Host 172.17.0.1 is not allowed to connect to this M…

php:使用socket函数创建WebSocket服务

一、前言 闲来无事&#xff0c;最近捣鼓了下websocket&#xff0c;但是不希望安装第三方类库&#xff0c;所以打算用socket基础函数创建个服务。 二、构建websocket服务端 <?phpclass SocketService {// 默认的监听地址和端口private $address 0.0.0.0;private $port 8…

@RequestBody、@Data、@Validated、@Pattern(regexp=“?“)(复习)

目录 一、注解RequestBody。 二、注解Data。 三、注解Validated、Pattern(regexp"?")。 1、完成实体参数&#xff08;对象属性&#xff09;校验。 2、NotNull、NotEmpty、Email。 一、注解RequestBody。 &#xff08;如&#xff1a;JSON格式的数据——>Java对象&…

基于YOLOv8深度学习的医学影像骨折检测诊断系统研究与实现(PyQt5界面+数据集+训练代码)

本论文深入研究并实现了一种基于YOLOV8深度学习模型的医学影像骨折检测与诊断系统&#xff0c;旨在为医学影像中的骨折检测提供高效且准确的自动化解决方案。随着医疗影像技术的快速发展&#xff0c;临床医生需要从大量复杂的医学图像中精确、快速地识别病灶区域&#xff0c;特…

69.x的平方根-力扣(LeetCode)

题目&#xff1a; 解题思路&#xff1a; 解决本题主要运用的方法是二分法&#xff0c;二分法是一种在有序数组中查找某一特定元素的搜索算法。鉴于本题满足整个序列是有序的&#xff0c;并且可以通过比较来改变区间&#xff0c;满足二分法的应用条件&#xff0c;所以采用二分法…

Notepad++--在开头快速添加行号

原文网址&#xff1a;Notepad--在开头快速添加行号_IT利刃出鞘的博客-CSDN博客 简介 本文介绍Notepad怎样在开头快速添加行号。 需求 原文件 想要的效果 方法 1.添加点号 Alt鼠标左键&#xff0c;从首行选中首列下拉&#xff0c;选中需要添加序号的所有行的首列&#xff…

新兴数据仓库设计与实践手册:从分层架构到实际应用(二)

本手册将分为三部分发布&#xff0c;以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述&#xff1b;第二部分深入讨论ETL在数仓中的应用理论&#xff0c;ODS层的具体实现与应用&#xff1b;第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体…

java八股-SpringCloud微服务-Eureka理论

文章目录 SpringCloud架构Eureka流程Nacos和Eureka的区别是&#xff1f;CAP定理Ribbon负载均衡策略自定义负载均衡策略如何实现&#xff1f;本章小结 SpringCloud架构 Eureka流程 服务提供者向Eureka注册服务信息服务消费者向注册中心拉取服务信息服务消费者使用负载均衡算法挑…

MySQL —— explain 查看执行计划与 MySQL 优化

文章目录 explain 查看执行计划explain 的作用——查看执行计划explain 查看执行计划返回信息详解表的读取顺序&#xff08;id&#xff09;查询类型&#xff08;select_type&#xff09;数据库表名&#xff08;table&#xff09;联接类型&#xff08;type&#xff09;可用的索引…

input file结合vue3和vant实现上传图片效果,并显示上传进度百分比%

这里写自定义目录标题 采用的dom结构是input file&#xff0c;label事件绑定&#xff0c;一下为代码传入参数为uploadNum实现效果如图上传中&#xff0c;图片1上传成功&#xff0c;图片2 采用的dom结构是input file&#xff0c;label事件绑定&#xff0c;一下为代码 传入参数为…

CSS优化file控件样式

<div class"file-box"><input type"button" class"btn" value"选择文件" /><inputtype"file"class"file"id"upimg"change"previewFiles"multiple/></div><!-- Vu…

AJAX笔记 (速通精华版)

AJAX&#xff08;Asynchronous Javascript And Xml&#xff09; 此笔记来自于动力节点最美老杜 传统请求及缺点 传统的请求都有哪些&#xff1f; 直接在浏览器地址栏上输入URL。点击超链接提交 form 表单使用 JS 代码发送请求 window.open(url)document.location.href urlwi…

某校园网登录界面前端加密绕过

前言 尝试对学校校园网登录框进行爆破&#xff0c;发现密码在前端被加密了 Burp抓包 抓包信息 DDDDD2022***&upass3d5c84b6fb1dc75987884f39c05b0e6a123456782&R10&R21&para00&0MKKey123456&v6ip From表单提交上来的文本这些参数&#xff0c;DDDD是…

《生成式 AI》课程 第3講 CODE TASK执行文章摘要的机器人

课程 《生成式 AI》课程 第3講&#xff1a;訓練不了人工智慧嗎&#xff1f;你可以訓練你自己-CSDN博客 任务1:总结 1.我们希望你创建一个可以执行文章摘要的机器人。 2.设计一个提示符&#xff0c;使语言模型能够对文章进行总结。 model: gpt-4o-mini,#gpt-3.5-turbo, import…

Github客户端工具github-desktop使用教程

文章目录 1.客户端工具的介绍2.客户端工具使用感受3.仓库的创建4.初步尝试5.本地文件和仓库路径5.1原理说明5.2修改文件5.3版本号的说明5.4结合码云解释5.5版本号的查找 6.分支管理6.1分支的引入6.2分支合并6.3创建测试仓库6.4创建测试分支6.5合并分支6.6合并效果查看6.7分支冲…

python实战案例----使用 PyQt5 构建简单的 HTTP 接口测试工具

python实战案例----使用 PyQt5 构建简单的 HTTP 接口测试工具 文章目录 python实战案例----使用 PyQt5 构建简单的 HTTP 接口测试工具项目背景技术栈用户界面核心功能实现结果展示完整代码总结 在现代软件开发中&#xff0c;测试接口的有效性与响应情况变得尤为重要。本文将指导…

JavaScript的类型转换

类型转换 &#xff1a; 隐式转换和显示转换 一般的&#xff0c;默认单选框和多选框传过来的值都是字符串 JavaScript是弱数据类型&#xff1a;JavaScript不知道变量属于哪种类型&#xff0c;需要赋值了才清楚。 缺点&#xff1a;使用表单、prompt获取过来的数据默认是字符串类…

Spring Boot中使用AOP和反射机制设计一个基于redis的幂等注解,简单易懂教程

由于对于一些非查询操作&#xff0c;有时候需要保证该操作是幂等的&#xff0c;该帖子设计幂等注解的原理是使用AOP和反射机制获取方法的类、方法和参数&#xff0c;然后拼接形成一个幂等键&#xff0c;当下一次有重复操作过来的时候&#xff0c;判断该幂等键是否存放&#xff…

一文详细深入总结服务器选型

1. 题记&#xff1a; 服务器选型工作是项目规划检讨的一项非常重要的工作&#xff0c;本文详细深入总结服务器选型。 2. 服务器基础知识概览 2.1 服务器的定义与功能 2.1 .1 定义 服务器是一种高性能计算机&#xff0c;其设计目的是在网络中提供服务。它可以处理来自多个客…