一条SQL如何被MySQL架构中的各个组件操作执行的?

news2025/1/9 18:41:17

文章目录

  • 1. 单表查询SQL在MySQL架构中的各个组件的执行过程
  • 2. SELECT的各个关键字在哪里执行?
  • 3. 表关联查询SQL在MySQL架构中的各个组件的执行过程
  • 4. LEFT JOIN将过滤条件放在子查询中再关联和放在WHERE子句上有什么区别?
  • 5. 聚集索引和全表扫描有什么区别呢?

1. 单表查询SQL在MySQL架构中的各个组件的执行过程

简单用一张图说明下,MySQL架构有哪些组件,接下来给大家用SQL语句分析

SQL语句是这样

SELECT * FROM student WHERE name = 'lcy' AND age > 18 GROUP BY class_no

其中name为索引,我们按照时间顺序来分析一下

  1. 客户端:客户端(如MySQL命令行工具、NavicatMySQL Workbench或其他应用程序)发送SQL查询到MySQL服务器。

  2. 连接器:连接器负责与客户端建立连接、管理连接和维护连接。当客户端连接到MySQL服务器时,连接器验证客户端的用户名和密码,然后分配一个线程来处理客户端的请求。

  3. 查询缓存:查询缓存用于缓存先前执行过的查询及其结果。当收到新的查询请求时,MySQL首先检查查询缓存中是否已有相同的查询及其结果。如果查询缓存中有匹配的查询结果,MySQL将直接返回缓存的结果,而无需再次执行查询。但是,如果查询缓存中没有匹配的查询结果,MySQL将继续执行查询。查询缓存在MySQL 8.0中已被移除,不详细解释。

  4. 分析器:

    • 解析查询语句,检查语法。
    • 验证表名和列名的正确性。
    • 生成查询树。
  5. 优化器:分析查询树,考虑各种执行计划,估算不同执行计划的成本,选择最佳的执行计划。在这个例子中,优化器可能会选择使用name索引进行查询,因为name是索引列。

  6. 执行器:根据优化器选择的执行计划,向存储引擎发送请求,获取满足条件的数据行。

  7. 存储引擎(如InnoDB):

    • 负责实际执行索引扫描,如在student表的name索引上进行等值查询,因查询全部列,涉及到回表访问磁盘。
    • 在访问磁盘之前,先检查InnoDB的缓冲池(Buffer Pool)中是否已有所需的数据页。如果缓冲池中有符合条件的数据页,直接使用缓存的数据。如果缓冲池中没有所需的数据页,从磁盘加载数据页到缓冲池中。
  8. 执行器:

    • 对于每个找到的记录,判断记录是否满足索引条件name。这是因为即使数据页是基于索引条件加载到内存中的,数据页中也有可能包含不满足索引条件的记录,如果满足则继续判断age > 18过滤条件。
    • 根据class_no对满足条件的记录进行分组。
    • 执行器将处理后的结果集返回给客户端。

  在整个查询执行过程中,这些组件共同协作以高效地执行查询。客户端负责发送查询,连接器管理客户端连接,查询缓存尝试重用先前查询结果,解析器负责解析查询,优化器选择最佳执行计划,执行器执行优化器选择的计划,存储引擎(如InnoDB)负责管理数据存储和访问。这些组件的协同作用使得MySQL能够高效地执行查询并返回结果集。

  根据索引列判断数据是否满足并加载索引的数据页到内存这个操作是存储引擎做的。加载到内存中之后,执行器会进行索引列和非索引列的过滤条件判断。


2. SELECT的各个关键字在哪里执行?

根据执行顺序,如下:

(1)FROMFROM子句用于指定查询所涉及的数据表。在查询执行过程中,执行器需要根据优化器选择的执行计划从存储引擎中获取指定表的数据。

(2)ONON子句用于指定连接条件,它通常与JOIN子句一起使用。在查询执行过程中,执行器会根据ON子句中的条件从存储引擎获取满足条件的记录。如果连接条件涉及到索引列,存储引擎可能会使用索引进行优化。

(3)JOINJOIN子句用于指定表之间的连接方式(如INNER JOIN, LEFT JOIN等)。在查询执行过程中,执行器会根据优化器选择的执行计划,从存储引擎中获取需要连接的表的数据。然后,执行器根据JOIN子句的类型和ON子句中的连接条件,对数据进行连接操作。

(4)WHERE:执行器对从存储引擎返回的数据进行过滤,只保留满足WHERE子句条件的记录。部分过滤条件如果涉及到索引,在存储引擎层就已经进行了过滤。

(5)GROUP BY:执行器对满足WHERE子句条件的记录按照GROUP BY子句中指定的列进行分组。

(6)HAVING:执行器在进行分组后,根据HAVING子句条件对分组后的记录进行进一步过滤。

(7)SELECT:执行器根据优化器选择的执行计划来获取查询结果。

(8)DISTINCT:执行器对查询结果进行去重,只返回不重复的记录。

(9)ORDER BY:执行器对查询结果按照ORDER BY子句中指定的列进行排序。

(10)LIMIT:执行器根据LIMIT子句中指定的限制条件对查询结果进行截断,只返回部分记录


3. 表关联查询SQL在MySQL架构中的各个组件的执行过程

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM student s
JOIN score sc ON s.id = sc.student_id
WHERE s.age > 18 AND sc.subject = 'math' AND sc.score > 80;

这个例子中,student_idsubject是联合索引,age是索引。
我们按照时间顺序来分析一下

  1. 连接器:当客户端连接到MySQL服务器时,连接器负责建立和管理连接。它验证客户端提供的用户名和密码,确定客户端具有相应的权限,然后建立连接。

  2. 查询缓存:MySQL服务器在处理查询之前,会先检查查询缓存。如果查询缓存中已经存在相同的查询及其结果集,服务器将直接返回缓存中的结果,而不再执行后续的查询处理。由于查询缓存在MySQL 8.0中已被移除,我们在这个示例中不再详细讨论。

  3. 解析器:解析器的主要任务是解析SQL查询语句,确保查询语法正确。解析器会将查询语句分解成多个组成部分,例如表、列、条件等。在这个示例中,解析器会识别出涉及的表(studentscore)以及需要的列(id、name、age、subject、score)。

  4. 优化器:优化器的职责是根据解析器提供的信息生成执行计划。它会分析多种可能的执行策略,并选择成本最低的策略。在这个示例中,优化器可能会分析各种表扫描和索引扫描的组合,最终选择一种成本最低的执行计划。

  5. 执行器:根据优化器生成的执行计划处理查询,向存储引擎发送请求,获取满足条件的数据行。

  6. 存储引擎(如InnoDB):存储引擎负责管理数据的存储和检索。

    • 存储引擎首先接收来自执行器的请求。请求可能包括获取满足查询条件的数据行,以及使用哪种扫描方法(如全表扫描或索引扫描)。
    • 假设执行器已经决定使用索引扫描。在这个示例中,存储引擎可能会先对student表进行索引扫描(使用age索引),然后对score表进行索引扫描(使用student_idsubject的联合索引)。
    • 存储引擎会根据请求查询相应的索引结构。在student表中,存储引擎会找到满足age > 18条件的记录。在score表中,存储引擎会找到满足subject = 'math' AND score > 80条件的记录。
    • 一旦找到了满足条件的记录,存储引擎需要将这些记录所在的数据页从磁盘加载到内存中。存储引擎首先检查缓冲池(InnoDB Buffer Pool),看这些数据页是否已经存在于内存中。如果已经存在,则无需再次从磁盘加载。如果不存在,存储引擎会将这些数据页从磁盘加载到缓冲池中。
    • 加载到缓冲池中的记录可以被多个查询共享,这有助于提高查询效率。
  7. 执行器:处理连接、排序、聚合、过滤等操作。

    • 在内存中执行连接操作,将student表和score表的数据行连接起来。
    • 对连接后的结果集进行过滤,只保留满足查询条件(age > 18、subject = 'math'、score > 80)的数据行。
    • 将过滤后的数据行作为查询结果返回给客户端。

前面说过,根据存储引擎根据索引条件加载到内存的数据页有多数据,可能有不满足索引条件的数据,如果执行器不再次进行索引条件判断, 则无法判断哪些记录满足索引条件的,所以这里会有索引条件age > 18、subject = 'math'、score > 80的判断。


4. LEFT JOIN将过滤条件放在子查询中再关联和放在WHERE子句上有什么区别?

先看例子

查询1

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM student s
LEFT JOIN score sc ON s.id = sc.student_id
WHERE s.age > 18 AND sc.subject = 'math' AND sc.score > 80;

查询2

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM (SELECT id, name, age FROM student WHERE age > 18) s
LEFT JOIN (SELECT student_id, subject, score FROM score WHERE subject = 'math' AND score > 80) sc 
ON s.id = sc.student_id

查询3

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM student s
LEFT JOIN score sc ON s.id = sc.student_id AND s.age > 18 AND sc.subject = 'math' AND sc.score > 80;

  先给出结论: 查询23是一样的,也就是过滤条件放在子查询中和放在on上面是一样的,后面就只讨论查询1、2,查询1和查询2是不一样的,过滤条件放在where子句中和放在子查询再关联查询出的结果也是有区别的。

分析一下

从运行结果来看,对于查询1

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM student s
LEFT JOIN score sc ON s.id = sc.student_id
WHERE s.age > 18 AND sc.subject = 'math' AND sc.score > 80;

  在这个查询中,首先执行LEFT JOIN,将student表和score表连接起来。连接操作是基于s.id = sc.student_id条件进行的。LEFT JOIN操作会保留左表(student表)中的所有行,即使它们在右表(score表)中没有匹配的行。如果右表中没有匹配的行,那么右表的列将显示为NULL

  然后,WHERE子句会过滤连接后的结果集,只保留那些满足s.age > 18 and sc.subject = 'math' and sc.score > 80条件的行。这意味着,即使student表中的某些行在score表中没有匹配的行,虽然它们满足age > 18条件,仍然被排除在查询结果之外,因为sc.subject = 'math'sc.score > 80条件不满足。(右表为NULL的记录被排除了)

对于查询2

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM (select id, name, age from student where age > 18) s
LEFT JOIN (select subject, score from score where subject = 'math' AND score > 80) sc 
ON s.id = sc.student_id

  在这个查询中,我们首先执行两个子查询。第一个子查询从student表中选择所有age > 18的行,而第二个子查询从score表中选择所有subject = 'math' and score > 80的行。这意味着,在进行连接操作之前,我们已经对两个表分别进行了过滤。

  接下来,执行LEFT JOIN操作,将过滤后的ssc子查询的结果集连接起来,基于s.id = sc.student_id条件。因为LEFT JOIN操作会保留左表(s子查询的结果集)中的所有行,即使它们在右表(sc子查询的结果集)中没有匹配的行。这样,查询结果会包含所有age > 18的学生,即使没有满足subject = 'math' and score > 80的记录。(右表为NULL的记录包含了)

结果差异:

  查询1和查询2的主要区别在于WHERE子句和子查询的使用。查询1在连接操作后应用过滤条件,这可能导致右表为NULL的关联记录因为右表的过滤条件而被排除在外。而查询2在连接操作之前就已经过滤了表中的数据,这意味着查询结果会包含所有左表年龄大于18的学生,以及右表满足条件的记录和NULL的记录。

如果查询1想保留右表为NULL的记录,只需要改为WHERE s.age > 18 AND (sc.student_id is null or (sc.subject = 'math' AND sc.score > 80));这样查询12会有相同的结果集。

我们根据这两个查询,再逐一分析MySQL架构中各个组件的作用

对于查询1

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM student s
LEFT JOIN score sc ON s.id = sc.student_id
WHERE s.age > 18 AND sc.subject = 'math' AND sc.score > 80;
  1. 连接器:客户端与服务器建立连接。

  2. 查询缓存:检查缓存是否存在此查询的结果。如果有,直接返回结果。否则,继续执行。

  3. 解析器:解析查询语句,检查语法是否正确。

  4. 优化器:对查询进行优化,生成执行计划,决定连接和过滤条件的顺序等。

  5. 执行器:开始执行查询。

  6. 存储引擎(InnoDB):从磁盘或者缓冲池读取满足条件的数据行(s.id = sc.student_id),因为是left join,所以即便sc.student_idnull也会被关联。

  7. 执行器:将从存储引擎获取的数据行进行左连接,应用过滤条件s.age > 18 and sc.subject = 'math' and sc.score > 80进行过滤,将结果集返回给客户端。

  当查询包含索引列的条件时,MySQL的存储引擎会首先利用索引在磁盘上定位到满足索引条件的记录。接着,将这些索引数据对应的数据页加载到内存中的缓冲池。然后,执行器在内存中对这些记录进行进一步的过滤,根据索引条件和非索引列的条件来过滤数据。

  当查询涉及到非聚集索引时,需要回表的操作会导致聚集索引和非聚集索引都被加载到内存中。但是,如果查询只涉及到聚集索引(如主键查询),那么只需要加载聚集索引的数据页即可。

对于查询2

SELECT s.id, s.name, s.age, sc.subject, sc.score
FROM (SELECT id, name, age FROM student WHERE age > 18) s
LEFT JOIN (SELECT student_id, subject, score FROM score WHERE subject = 'math' AND score > 80) sc 
ON s.id = sc.student_id
  1. 连接器:客户端与服务器建立连接。

  2. 查询缓存:检查缓存是否存在此查询的结果。如果有,直接返回结果。否则,继续执行。

  3. 解析器:解析查询语句,检查语法是否正确。

  4. 优化器:决定使用哪些索引进行查询优化,以及确定连接顺序。

  5. 执行器:开始执行子查询。

  6. 存储引擎(InnoDB):首先,对student表进行扫描,将满足条件s.age > 18的记录对应的数据页加载到缓冲池(如果缓冲池没有这个页的数据)。然后,使用subject = 'math' AND score > 80score表进行扫描,将满足条件的记录对应的数据页加载到缓冲池(如果缓冲池没有这个页的数据)。

  7. 执行器:对从存储引擎获取的数据应用所有的过滤条件,过滤后的结果存入临时表,执行主查询,从临时表中获取数据,将ssc进行左连接,根据s.id = sc.student_id组合结果。将连接后的结果返回给客户端。

  从这里我们可以看出,查询2是先过滤后连接,每张表的索引都很重要,如果没设置好索引,单表过滤会全表扫描。

写SQL的时候,查询1和查询2到底采用哪种方式呢?

  根据不同情况各有应用场景,需要注意的是,对于查询2,子查询的结果集被存储在一个临时表中,临时表不会继承原始索引,包括聚集索引和非聚集索引,所以刚刚的例子中,临时表中s.idsc.student_id已经不是任何索引列了。对于查询1,最终满足关联条件s.id = sc.student_id的所有记录都会被加载到内存后再进行过滤。

  1. 当单表过滤后的数据量较小时,查询2可能是一个更好的选择,因为它可以减少关联操作的数据量,从而提高查询效率。子查询阶段,MySQL依然会利用原始表上的索引进行过滤。子查询执行完成后,将过滤后的数据存储在临时表中。所以查询2的方式可以优化的点就是在单表查询时尽可能的利用索引。

  2. 当单表过滤后的数据量较大时,查询1可能更合适,因为它可以更好地利用索引进行关联操作。这样可以减少关联操作的时间开销,查询2因为临时表不继承索引,表关联的时间开销比较大。


5. 聚集索引和全表扫描有什么区别呢?

  走 PRIMARY索引(聚集索引)和全表扫描有什么区别 呢?准确来说,使用InnoDB存储引擎的情况下,全表扫描的数据和聚集索引的数据在InnoDB表空间中的存储位置是相同的,也就是说它们的内存地址也是相同的。所以你也可以理解为,他们其实都是在聚集索引上操作的(聚集索引B+树的叶子结点是根据主键排好序的完整的用户记录,包含表里的所有字段),区别就在于

  全表扫描将聚集索引B+树的叶子结点从左到右依次顺序扫描并判断条件。

  聚集索引是利用二分思想将聚集索引B+树到指定范围区间进行扫描,比如select * from demo_info where id in (1, 2)这种条件字段是主键id,可以很好的利用PRIMARY索引进行二分的快速查询。

在以下几种情况会走全表扫描:

  • select * from demo_info这种无条件的查询语句
  • select * from demo_info where common_field != 'a'这种条件字段common_field没有建索引的情况
  • select * from demo_info order by key1 limit 10000, 1条件字段key1建了索引但是MySQL认为走二级索引的成本比全表扫描成本高的情况。

  在MyISAM中,全表扫描的数据和索引数据的存储位置是分开的。然而MyISAM已经被InnoDB取代,不再是MySQL的推荐存储引擎,从MySQL5.5开始,InnoDB就成了MySQL的默认存储引擎。

  默认情况下,InnoDB使用一个名为ibdata1的共享表空间文件存储所有的数据和索引,包括聚集索引和二级索引(又称非聚集索引或辅助索引)。



欢迎一键三连~

有问题请留言,大家一起探讨学习

blog地址:https://liuchenyang0515.blog.csdn.net/


----------------------Talk is cheap, show me the code-----------------------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/444955.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

推动开发者平台本土化,高通加速中国XR内容生态发展

随着VR和AR技术快速发展,产品不断成熟,体验也变得越来越优秀。据悉,Meta Quest系列VR头显出货量超2000万台,基本证明了VR开始在消费类电子产品中占据一席之地。与此同时,近两年AR眼镜也在逐渐升温,成为了创…

day17_异常

今日内容 零、 复习昨日 一、作业 二、异常 三、自定义异常 零、 复习昨日 见晨考,重点是String类的方法 StringBuffer和StringBuiler面试问 日期解析和格式化 int i Integer.parseInt(“111”); 一、作业 略,见答案二、异常 2.1 介绍 异常,就是程序出现的不正常的情况. 2.2…

RPA流程自动化技术在金融机构的落地方案详解

金融机构在面向数字化运营的转型过程中,需将智能流程自动化技术整合到数字化转型战略中,规划建设统一的企业流程自动化处理平台,作为数字化运营的辅助支撑类系统,明确流程治理方法和运营模式,确保足够的规模弹性&#…

【深度学习】Softmax回归及前馈神经网络

1 实验内容简介 1.1 实验目的 (1)熟练掌握tensor相关各种操作; (2)掌握广义线性回归模型(logistic模型、sofmax模型)、前馈神经网络模型的原理; (3)熟练掌…

第一章: uniapp引入axios异步框架

第一章: uniapp引入axios异步框架 在学习uniapp的过程中,发现uniapp框架默认集成request请求框架存在问题,发送请求时在header中塞入token值,而后台接收不到,也就是说uniapp默认的request请求框架,不支持在…

巨烽数字化采购项目启动,甄云助力医疗影像显示领军企业数智化升级

近日,医疗影像显示行业的领军者深圳市巨烽显示科技有限公司(以下简称“巨烽”)联合甄云科技举办数字化采购管理项目启动会,双方相关部门负责人及项目组成员参加了此次会议。 会上,就巨烽的数字化采购管理系统建设升级…

AI写作机器人-ai文章生成器在线

使用AI续写生成器,让内容创作事半功倍! 随着人工智能技术的不断进步和应用,AI续写生成器的出现为内容创作带来了全新的革命。这种技术可以让你的写作事半功倍,让你轻松生成高质量的文章和内容。在这篇文章中,我们将介绍…

如何伪原创-自媒体伪原创软件

批量文字伪原创的作用 批量文字伪原创是指通过对原文进行修改、改写、调整等方式,生成大量新的类似原文的文本。其作用主要包括以下几个方面: 提高文本的独创性:批量伪原创可以有效地避免大量相似内容的出现,从而提高文本的独创性…

我如何学习使用 Jetpack Compose 开发 Android 应用程序

我如何学习使用 Jetpack Compose 开发 Android 应用程序 Jetpack Compose 和 Android 开发简介 2021 年 7 月,Google 发布了用于为 Android 应用构建原生 UI 的全新工具包 1.0 版。Jetpack Compose 是 Android 开发人员的游戏规则改变者,因为它从通过 X…

C#如何解决项目打开问题 error : 找不到指定的 SDK“Microsoft.NET.Sdk.WindowsDesktop”

错误提示,问题描述 后来发现,直接安装rider还是不能解决解决(会自动配置关联(path等),甚至自动下载的,官方的visual studio反而不会,之后再详细看怎么弄了) VS2022项目…

IDEA 用上这款免费 GPT4 插件,生产力爆表了

大家好,我是一航! 早前给大家分享过GPT的一些玩法,但是依旧有很多铁子没有掌握魔法的奥秘,始终没有用上;前两天,一兄台分享给我一款 IDE 插件:Bito-ChatGPT ,安装就能直接在IDE中使…

如何选择合适的网络自动化工具

通过网络自动化工具实现网络自动化是所有网络组织的关键。如果没有合适的网络自动化工具,拥有由许多设备组成的大型网络环境的组织将无法执行重要操作,例如按时备份配置、实时跟踪不需要的更改以及遵守行业法规。当组织未能使用正确的网络自动化工具来执…

yolov8训练自己的数据集遇到的问题

训练分类模型 1.如何更改模型的类别数nc 根据本地模型配置文件.yaml可以设置nc 但是,这里无法用到预训练模型.pt模型文件,预训练模型的权重参数是在大数据集上训练得到的,泛化性能可能比较好,所以,下载了官方的分类…

Flink+Kafka、Pulsar实现端到端的exactly-once语义

End-to-End Exactly-Once Processing in Apache Flink with Apache Kafka 2017年12月Apache Flink社区发布了1.4版本。该版本正式引入了一个里程碑式的功能:两阶段提交Sink,即TwoPhaseCommitSinkFunction。该SinkFunction提取并封装了两阶段提交协议中的…

【离散数学】测试五 图论

1. n层正则m叉树一共有()片树叶。 A. nm B. mn C. mn 正确答案: B 2. 下图是一棵最优二叉树 A. 对 B. 错 正确答案: B 3. 要构造权为1,4,9,16,25,36,49,64,81,100一棵最优二叉树,则必须先构造权为5,9,16,25,36,49,64,81,100一棵最优二叉树. A. 对 B. 错 …

视频剪辑必备,这6个网站承包你一年的音效素材

视频剪辑中需要用到各种声音、音效素材,这些音效不仅能让你的视频更丰富,还能更好的表达视频内容,传递情绪让观者感到共鸣。很多朋友剪辑过程中为了找到好的配乐、音效,往往会花费大量的时间,找到了还有可能受版权限制…

装机必备(二补充)--Win10系统盘,装Win10系统(无法引导启动问题-找不到任务设备驱动程序。请确保安装介质包含正确的驱动程序)

对于联想的thinkpad,开机时候按F1来更改bios设置,F12是选择U盘引导启动 thinkpad如何进入bios界面_thinkpad怎么进入u盘启动-系统城 1 F1界面1.按→方向键移动到Security,将secure boot改成disabled,关闭安全启动&…

【数据结构】简单快速过一遍红黑树

文章目录 红黑树1 红黑树的概念2 红黑树的性质3 红黑树节点的定义4 红黑树的插入操作5 红黑树的验证6 红黑树与AVL树的比较7.C实现红黑树 红黑树 1 红黑树的概念 ​ 红黑树,是一种二叉搜索树,但在每个结点上增加一个存储位表示结点的颜色,…

记一次oracle入库慢,log file switch (checkpoint incomplete)

AWR报告生成:Oracle AWR报告生成步骤_小百菜的博客-CSDN博客 发现log file switch (checkpoint incomplete) 这里出现了大量的log file switch(checkpoint incomplete)等待事件。 查看redo每个组的大小、状态 select group#,thread#,archived,status, bytes/102…

Python数据结构-----非递归实现快速排序

目录 前言: 非递归快排 1.概念原理 2.示例 Python代码实现 非递归快速排序 前言: 上一期我们学习了通过递归来实现快速排序的方法,那这一期我们就来一起学习怎么去通过非递归的方法来去实现快速排序的功能。(上一期连接Pytho…