数据库系列之MySQL中Join语句优化问题

news2025/1/12 20:45:06

最近使用MySQL 8.0.25版本时候遇到一个SQL问题,两张表做等值Join操作执行很慢,当对Join连接字段添加索引优化后,执行效率反而变得更差,其中的原因值得分析。因此本文介绍下MySQL中常见的Join算法,并对比使用不同Join算法时候的性能情况。


1、SQL中的Join操作

在这里插入图片描述

在关系型数据库中进行多表关联时,通常使用Join连接,常见的Join如图所示,包括七种:

1)左连接LEFT JOIN

左连接是将左表作为主表,右表作为从表。左表中的所有记录作为外层循环,在右表中进行匹配,如果右表中没有匹配的行,则将左表记录的右表项补空值。对应的SQL语句如下:

SELECT * FROM TableA a LEFT JOIN TableB b ON a.KEY = b.KEY

2)左外连接LEFT OUTER JOIN

左外连接是将左表作为主表,右表作为从表,循环遍历右表,查找与条件满足的项,如果在右表中没有匹配的项,则补空值,并且在结果集中选择只在左表中存在的数据。对应的SQL语句如下:

SELECT * FROM TableA a RIGHT JOIN TableB b ON a.KEY = b.KEY WHERE b.KEY IS NULL

3)右连接RIGHT JOIN

右连接是将右表作为主表,左表作为从表。右表中的所有记录作为外层循环,在左表中进行匹配,如果左表中没有匹配的行,则将右表记录的左表项补空值。对应的SQL语句如下:

SELECT * FROM TableA a RIGHT JOIN TableB b ON a.KEY = b.KEY

4)右外连接RIGHT OUTER JOIN

右外连接选择将右表作为主表,左表作为从表,循环遍历左表,查找与join条件满足的项,如果在左表中没有匹配的项,则补空值,并且在结果集中选择只在右表中存在的数据。对应的SQL语句如下:

SELECT * FROM TableA a RIGHT JOIN TableB b ON a.KEY = b.KEY WHERE a.KEY IS NULL

5)内连接INNER JOIN

内连接是将左表和右表对于条件相匹配的项进行组合,返回相关列值相等的结果。对应的SQL语句如下:

SELECT * FROM TableA a INNER JOIN TableB b ON a.KEY = b.KEY

6)全连接FULL JOIN

全连接是将左表和右表的所有记录进行匹配,如果在另外表项中不存在记录,则补空值。对应的SQL语句如下:

SELECT * FROM TableA a FULL OUTER JOIN TableB b ON a.KEY = b.KEY

7)全外连接FULL OUTER JOIN

全外连接是将全连接中表相交的部分去除掉。对应的SQL语句如下:

SELECT * FROM TableA a FULL OUTER JOIN TableB b ON a.KEY = b.KEY WHERE a.KEY IS NULL OR b.KEY IS NULL
2、MySQL中Join算法介绍

MySQL中在多表Join查询时,可以使用多种Join算法,比如Nested Loop Join(嵌套循环连接)、Index Nested-Loop Join(索引嵌套循环连接)、Block Nested-Loop Join(块嵌套循环连接)、Sort-Merge Join(排序合并连接)和Hash Join(哈希连接)。

在MySQL 5.5版本之前,只支持一种关联算法Nested Loop Join,在5.5版本后通过引入Index Nested-Loop Join和Block Nested-Loop Join算法来优化嵌套查询。从MySQL 8.0.18开始,MySQL实现了对于相等条件下的Hash Join,并且join条件中无法使用任何索引。相对于Blocked Nested Loop算法,hash join性能更高,并且两者的使用场景相同,所以从8.0.20开始,Blocked Nested Loop算法已经被移除,使用hash join替代之。

2.1 Nested Loop Join

Nested Loop Join(NLJ)本质上是一个双层for循环,对于外表中的每一行数据,MySQL检查内表中是否满足JOIN条件。如果满足,则将其添加到结果集中。Nested Loop Join的执行流程如下图所示:

在这里插入图片描述

  1. SQL从外表T2中读取一行记录,取出关联字段id到内表T1中逐条查找;
  2. 取出T1表中满足条件的记录与T2表中获取的结果进行合并,并将结果放入结果集中;
  3. 循环上述过程直到无法满足条件,将结果返回给客户端。

Nested Loop Join伪代码实现如下:

    for each row in t1 matching range {
     for each row in t2 matching reference key {
       if(t1.id==t2.id) {
      	//返回结果
       }
      }
     }

Nested Loop Join算法在处理小数据集时可能非常有效,但是对于大型数据集,可能会导致性能下降。通过双层循环来进行比较值获取结果,就是对外表和内表进行笛卡尔积运算,比如t1和t2表的数据量分别为R和S,运算的成本为O(R*S),当表数据量大时候,执行效率会非常低。

2.2 Index Nested-Loop Join

Index Nested-Loop Join(INLJ)是Nested-Loop Join的改进版,其优化思路是通过索引访问减少内层循环的匹配次数,也就是通过外层数据与内存的索引数据进行循环匹配,以减少数据访问提高查询效率。INLJ执行过程如下所示:

在这里插入图片描述

  1. SQL从外表T2中读取一行记录,取出关联字段id到内表T1的索引树中查找;
  2. 从T1表中取出辅助索引树中满足条件的记录查到主键ID,再到主键索引中根据主键ID将剩下字段的数据取出与T2中获取到的结果进行合并,并将结果放入结果集
  3. 循环上述过程直到无法满足条件,将结果返回给客户端。

Index Nested-Loop Join被很多人诟病效率不高,主要是因为在Join过程很多时候用到的不是主键的cluster index而是辅助索引。如果关联字段id在T1表的主键索引字段中,则直接通过主键索引获取到数据,索引查找的开销非常小,并且访问模式也是顺序的;如果关联字段在辅助索引字段中,如果查询需要访问聚集索引上的列,那么必要需要进行回表取数据。辅助索引是随机IO访问、再回表查询又是随机IO访问,因此执行效率会降低。

2.3 Block Nested-Loop Join

Block Nested-Loop Join(BNLJ)也是Nested-Loop Join的优化方法,如果Join的关联字段不是索引或者有一个字段不在索引中,则会采用该算法进行查询。在BNLJ算法中增加一个join_buffer缓存块,在Join操作时候会把外表的数据放入缓存块中,然后扫描内表,把内表每一行取出来跟join_buffer中的数据批量做对比。BNLJ执行过程如下所示:

在这里插入图片描述

  1. 将外表T2中的数据读入到join_buffer中(默认内存大小为256k,如果数据量多,会进行分段存放,然后进行比较)
  2. 把表T1的每一行数据,跟join_buffer中的数据批量进行对比,匹配的数据与T2表中获取的结果进行合并,并将结果放入结果集中;
  3. 循环以上步骤直到无法满足条件,将结果集返回给客户端

Block Nested-Loop Join的优化思路是利用join_buffer减少外表的循环次数,通过一次性缓存多条记录数,将参与查询的列放入join_buffer中,然后拿join buffer里的数据批量与内层表的数据进行匹配,从而减少对外表的访问IO次数。在MySQL 8.0.18版本之前,不使用Index Nested-Loop Join的时候,默认使用的是Block Nested-Loop Join。在8.0.20版本以后,MySQL中不再使用Block Nested-Loop Join,由hash join进行替代优化。

Prior to MySQL 8.0.18, this algorithm was applied for equi-joins when no indexes could be used; in MySQL 8.0.18 and later, the hash join optimization is employed in such cases. Starting with MySQL 8.0.20, the block nested loop is no longer used by MySQL, and a hash join is employed for in all cases where the block nested loop was used previously.

使用Block Nested-Loop Join算法需要开启优化器管理配置的optimizer_switch的设置block_nested_loop为on,默认为开启。

1)查看block_nested_loop配置

Show variables like 'optimizer_switc%';
mysql> show variables like 'optimizer_switch'\G
*************************** 1. row ***************************
Variable_name: optimizer_switch
        Value: index_merge=on,index_merge_union=on,index_merge_sort_union=on,index_merge_intersection=on,engine_condition_pushdown=on,index_condition_pushdown=on,mrr=on,mrr_cost_based=on,block_nested_loop=on,batched_key_access=off,materialization=on,semijoin=on,loosescan=on,firstmatch=on,duplicateweedout=on,subquery_materialization_cost_based=on,use_index_extensions=on,condition_fanout_filter=on,derived_merge=on,use_invisible_indexes=off,skip_scan=on,hash_join=on,subquery_to_derived=off,prefer_ordering_index=on,hypergraph_optimizer=off,derived_condition_pushdown=on

2)查看join_buffer_size参数配置

Show variables like 'join_buffer_size%';
mysql> show variables like 'join_buffer_size';
+------------------+--------+
| Variable_name    | Value  |
+------------------+--------+
| join_buffer_size | 262144 |
+------------------+--------+
2.3.1 Join Buffer特性

Join buffer的大小由参数join_buffer_size控制,默认是256KB,对于一些复杂的SQL语句为了提升性能可以调整该参数值。需要注意的是变量 join_buffer_size 的最大值在MySQL 5.1.22 版本前是4G,而之后的版本才能在64位操作系统下申请大于4G的Join Buffer空间。
在MySQL中Join buffer还有以下特性:

  • Join Buffer的使用条件:Join Buffer只有在join类型为all、index、range的时候才可以使用。也就是join字段没有使用到索引或部分字段不在索引列中会用到。
  • Join Buffer的分配与释放:在join之前就会分配Join Buffer,每个join都会分配一个buffer。在查询执行完毕后就会释放Join Buffer。
  • Join Buffer中保存的数据:Join Buffer中只会保存参与join的列,并非整个数据行。即使通过调整参数使其变大,也并不会加速查询,因为其内部逻辑和数据的排布方式不会因此而改变。

由于每次Join都会分配一个Join Buffer,假设高并发P查询有N张表参与Join,每张表之间使用Block Nested-Loop Join算法,需要分配P*(N-1)个Join buffer。因此Join Buffer的设置需要考量,设置不当有可能会引起内存分配不足导致数据库宕机。

2.4 Sort-merge Join

Sort-Merge Join算法是MySQL中一种用于执行JOIN操作的算法。其原理是先对两个表根据Join列进行全扫描后排序,然后逐行比较它们以找到匹配的行。执行过程如下所示:

在这里插入图片描述

  1. 对两个表T1和T2进行排序,排序可以通过使用索引或执行额外的排序操作来完成。确保两个表中的数据按照连接键(JOIN条件)进行排序。
  2. 排序完成后,对两张表逐行进行比较和归并操作,从每个表中选取若港行并检查是否满足Join条件,如果满足Join条件将匹配的行添加到结果集中。
  3. 继续从每个表中选取下一行,并重复以上步骤直到扫描完所有行。

在这里插入图片描述

以上图为例,两个表T1和T2已经排好序进行等值Join连接查询,并假设内存中buffer能容纳2条记录:

  1. 首先取出T1(1,3)和T2(1,4)进行比较,此时只有(1,1)是匹配的,把记录1放入结果集中
  2. 再依次取出T1和T2表中的其它值,T1中的(5,15)和T2中的(5,10),因为是等值Join,T1中的3和T2中的4被舍弃了。此时匹配到(5,5)并将记录5放入结果集中
  3. 进行新的一轮循环,直到两个表中的记录比对完成

Sort-Merge Join算法在处理大型数据集时可能非常有效,因为它通过排序和逐行比较来减少I/O操作次数。但是需要进行额外的排序操作,可能会增加查询的执行时间,通常情况下CBO模式下优化器不会优先选择该种Join算法。Sort Merge join一般适用于以下场景:

  • RBO模式(基于规则的优化方式)
  • 不等价关联(>,<,>=,<=,<>)
  • HASH_JOIN_ENABLED=false
  • 数据源已排序
2.5 Hash Join

MySQL 8.0.18版本开始增加了对Hash Join算法的支持,以提升Join的性能,在8.0.20版本以后,MySQL中不再使用Block Nested-Loop Join,由hash join进行替代优化。在MySQL 8.0.18中hash join的使用前提条件是表与表之间是等值连接并且连接字段上不使用索引,或者是不包含任何连接条件的笛卡尔连接,否则hash join会退化。

为了支持hash join,mysql在优化器optimizer_switch中新增了hash join开关选项hash_join,默认是ON状态。同时新增了两个hint:HASH_JOIN和NO_HASH_JOIN,用于在SQL级别控制hash join行为。但是从MySQL 8.0.19开始,这两个hint被置为无效,hash join的使用就不受用户控制,由优化器决定。并且在MySQL 8.0.20及更高版本中,取消了对等值条件的约束,可以全面支持non-equi-join,Semijoin,Antijoin,Left outer join/Right outer join。比如非等值join使用hash join算法:

mysql> EXPLAIN FORMAT=TREE SELECT * FROM t1 JOIN t2 ON t1.c1 < t2.c1\G
*************************** 1. row ***************************
EXPLAIN: -> Filter: (t1.c1 < t2.c1)  (cost=4.70 rows=12)
    -> Inner hash join (no condition)  (cost=4.70 rows=12)
        -> Table scan on t2  (cost=0.08 rows=6)
        -> Hash
            -> Table scan on t1  (cost=0.85 rows=6)

Hash join的基本原理是通过Hash的方式降低复杂度,MySQL根据连接条件对外表建立Hash表,对于内表的每一行记录也根据连接条件计算Hash值,只需要验证对应的hash值能否匹配完成连接操作。但是如果外表过大或者hash join可使用的内存过小,外表数据不能全部加载到内存中,优化器会把外表切分为不同的partition,使得切分后的分片能够放入内存,不能放入内存的会写入磁盘的chunk files中。

2.5.1 In-memory Hash-join

在这里插入图片描述

外表数据能够全部放入内存中,称为in-memory hash-join,hash join分为两个过程:build过程构建hash表和probe过程探测hash表。

  1. Build过程:遍历外表,以连接条件”countries.country_id”为hash key,查询需要的列作为value创建hash表。通常优化器优先选择占用内存最小的表作为外表构建hash表。
  2. Probe过程:逐行遍历内表,对于内表的每行记录,根据连接条件”persons.country_id”计算hash值,并在hash表中查找。如果匹配到外表的记录,则输出,否则跳过,直到遍历完成所有内表的记录

上述场景适用于表数据能够存放在内存中的场景,这个内存由参数join_buffer_size控制,并且可以动态调整生效。

2.5.2 On-disk Hash-join

在build阶段如果内存不够,优化器会将外表分成若干个partition执行,这些partition是保存在磁盘上的chunks。优化器会根据内存的大小计算出合适的chunks数,但是在mysql中chunk file数目硬限制为128个。分片的过程如下图所示:

在这里插入图片描述

在build阶段优化器根据hash算法将外表数据存放到磁盘中对应的chunks文件中,在probe阶段对内表数据使用同样的hash算法进行分区并存放在磁盘的chunks文件中。由于使用相同的hash函数,那么key相同(join条件相同)必然在同一个分片编号的chunk文件中。接下来,再对外表和内表中相同分片编号的数据放入到内存中进行Hash Join计算,所有分片计算完成后,整个join过程结束。这种算法的代价是外表和内表在build阶段进行一次读IO和一次写IO,在probe阶段进行了一次读IO。整个过程如下图所示:

在这里插入图片描述

上述算法能够解决内存不足的Join问题,但是如果数据倾斜严重导致哈希后的分片仍然超过内存的大小,MySQL优化器的处理方法是:读满内存中的hash表后停止build过程,然后执行一次probe。待处理这批数据后,清空hash表,在上次build停止的位点继续build过程来填充hash表,填充满再做一趟内表分片完整的probe。直到处理完所有build数据。

2.6 不同Join算法的代价对比

上面介绍了Netsted Loop Join(NLJ)、Index Nested-Loop Join(INLJ)、Block Nested-Loop Join(BNLJ)、Sort-merge Join(SMJ)和Hash Join几种Join算法,不同算法的开销对比如下(其中RN为外表记录数、SN为内表记录数):

在这里插入图片描述

3、不同Join算法性能测试
3.1 环境准备

1)安装MySQL 8.0.25版本

mysql> select version();
+-----------+
| version() |
+-----------+
| 8.0.25    |
+-----------+

mysql> show variables like 'join_buffer_size';
+------------------+--------+
| Variable_name    | Value  |
+------------------+--------+
| join_buffer_size | 262144 |
+------------------+--------+

2)准备数据

##创建表
CREATE TABLE `t1` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `c1` int(11) DEFAULT NULL,
  `c2` varchar(300) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

mysql> create table t2 like t1;

##插入数据到表中
-- 往t1表插入5万行记录
drop procedure if exists insert_t1; 
delimiter ;;
create procedure insert_t1()        
begin
  declare i int;                    
  set i=1;                          
  while(i<=50000)do                 
    INSERT INTO t1 (c1, c2) VALUES (RAND() * 100000, CONCAT('Record ', i));
    set i=i+1;                       
  end while;
end;;
delimiter ;
call insert_t1();
 
-- 往t2表插入1000行记录
drop procedure if exists insert_t2; 
delimiter ;;
create procedure insert_t2()        
begin
  declare i int;                    
  set i=1;                          
  while(i<=1000)do                 
    INSERT INTO t2 (c1, c2) VALUES (RAND() * 100, CONCAT('Record ', i));
    set i=i+1;                       
  end while;
end;;
delimiter ;
call insert_t2();
3.2 不同Join算法对比
3.2.1 使用Hash join
mysql> explain select * from t1 join t2 on t1.c1=t2.c1;
+----+-------------+-------+------------+------+---------------+------+---------+------+-------+----------+--------------------------------------------+
| id | select_type | table | partitions | type | possible_keys | key  | key_len | ref  | rows  | filtered | Extra                                      |
+----+-------------+-------+------------+------+---------------+------+---------+------+-------+----------+--------------------------------------------+
|  1 | SIMPLE      | t2    | NULL       | ALL  | NULL          | NULL | NULL    | NULL |  1000 |   100.00 | NULL                                       |
|  1 | SIMPLE      | t1    | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 50200 |    10.00 | Using where; Using join buffer (hash join) |
+----+-------------+-------+------------+------+---------------+------+---------+------+-------+----------+--------------------------------------------+
2 rows in set, 1 warning (0.00 sec)

Explain format=tree或explain analyze看到hash join关键字

mysql> explain format=tree select * from t1 join t2 on t1.c1=t2.c1;
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                              |
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Inner hash join (t1.c1 = t2.c1)  (cost=5020281.38 rows=5020000)
    -> Table scan on t1  (cost=0.68 rows=50200)
    -> Hash
        -> Table scan on t2  (cost=101.25 rows=1000)
 |
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

测试外连接

mysql> explain format=tree select * from t1 left join t2 on t1.c1=t2.c1;
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                               |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Left hash join (t2.c1 = t1.c1)  (cost=5020219.32 rows=50200000)
    -> Table scan on t1  (cost=5060.25 rows=50200)
    -> Hash
        -> Table scan on t2  (cost=0.01 rows=1000)
 |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

测试不等连接

mysql> explain format=tree select * from t1 join t2 on t1.c1<t2.c1;
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                                                                                                          |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Filter: (t1.c1 < t2.c1)  (cost=5020281.38 rows=16731660)
    -> Inner hash join (no condition)  (cost=5020281.38 rows=16731660)
        -> Table scan on t1  (cost=1.85 rows=50200)
        -> Hash
            -> Table scan on t2  (cost=101.25 rows=1000)
 |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

可以看到在MySQL 8.0.25版本中已经支持非等值连接、外连接等Join。

3.2.2 Join字段添加索引
#t1表添加索引
mysql> create index idx_c1 on t2(c1);
mysql> explain format=tree select * from t1 join t2 on t1.c1=t2.c1;
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                                                                                              |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Nested loop inner join  (cost=179020.65 rows=497030)
    -> Filter: (t1.c1 is not null)  (cost=5060.25 rows=50200)
        -> Table scan on t1  (cost=5060.25 rows=50200)
    -> Index lookup on t2 using idx_c1 (c1=t1.c1)  (cost=2.48 rows=10)
 |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

#清理索引
mysql> alter table t2 drop index idx_c1;

已经变成Index Nested Loop Join

3.2.3 使用hint(BNL和NO_BNL)将hash join启用和关闭

使用NO_BNL(t1,t2)退化为Nested loop inner join

mysql> explain format=tree select /*+ NO_BNL(t1,t2)*/ * from t1 join t2 on t1.c1=t2.c1;
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                                                                 |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Nested loop inner join  (cost=5060351.25 rows=5020000)
    -> Table scan on t2  (cost=101.25 rows=1000)
    -> Filter: (t1.c1 = t2.c1)  (cost=40.75 rows=5020)
        -> Table scan on t1  (cost=40.75 rows=50200)
 |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
3.2.4 几种Join算法性能对比如下:

在这里插入图片描述

T1表记录50000条,T2表记录1000条,各种Join算法执行情况如上表:

  • 使用Hash Join:查询时间0.0299s、Rows_examined记录51000条,为T1+T2表记录和
  • 使用简单Nested loop join:查询时间20.64s、Rows_examined记录50001000条,为T1*T2笛卡尔积
  • Index Nested loop join(小表index):查询时间0.125s、Rows_examined记录50517条
  • Index Nested loop join(大表index):查询时间0.007s、Rows_examined记录1517条
  • Index Nested loop join(两表都有index):查询时间0.0064s、Rows_examined记录1517条

可以看到使用hash join比普通的netsted loop join性能好很多,而index Nested loop join如果索引使用不当或者索引字段过滤系数不高,性能并不能比hash join好。通过explain analyze分析下上面两个场景:

####Hash join结果
mysql> explain analyze select * from t1 join t2 on t1.c1=t2.c1;
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                                                                                                                                                                       |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Inner hash join (t1.c1 = t2.c1)  (cost=5020281.38 rows=5020000) (actual time=1.515..49.142 rows=517 loops=1)
    -> Table scan on t1  (cost=0.68 rows=50200) (actual time=0.039..32.930 rows=50000 loops=1)
    -> Hash
        -> Table scan on t2  (cost=101.25 rows=1000) (actual time=0.051..0.580 rows=1000 loops=1)
 |

####Hash join结果
mysql> explain analyze select * from t1 join t2 on t1.c1=t2.c1;
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                                                                                                                                                                                                                                                                                        |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Nested loop inner join  (cost=179020.65 rows=497030) (actual time=1.964..150.722 rows=517 loops=1)
    -> Filter: (t1.c1 is not null)  (cost=5060.25 rows=50200) (actual time=0.049..31.721 rows=50000 loops=1)
        -> Table scan on t1  (cost=5060.25 rows=50200) (actual time=0.048..25.023 rows=50000 loops=1)
    -> Index lookup on t2 using idx_c1 (c1=t1.c1)  (cost=2.48 rows=10) (actual time=0.002..0.002 rows=0 loops=50000)
 |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

对比看到hash join时候,T1表和T2表进行的是table scan,但是只需要loop一次;而在index Nested loop join时候,虽然T2表走了index lookup,但是需要loops=50000次,也就是对T1表的所有记录循环比对,整个过程下来性能相比较差了很多。如果T2表的索引匹配效率不高,这个执行效率会更差。

4、总结

回到最开始的问题,为什么对Join连接字段添加索引优化后,执行效率反而变得更差。从上文的分析中知道,MySQL 8.0.25版本中当两张表进行等值Join时候,没有索引的情况下默认会使用到hash join算法。当对Join连接字段添加索引后,MySQL优化器使用index Nested loop join算法,但是当小表使用到索引并且过滤系数不高的时候,会进行大量的loop操作,进而导致整个执行效率变差。因此在Join查询优化的时候,加索引并不一定能提升效率,有可能会适得其反,这些都是MySQL优化器控制的。


参考资料:

  1. https://www.cnblogs.com/mlcn-2000/p/14604236.html
  2. https://blog.csdn.net/chuyanju7641/article/details/110524107
  3. MySQL Join算法与调优白皮书,姜
  4. https://blog.csdn.net/orangleliu/article/details/72850659
  5. https://dev.mysql.com/blog-archive/hash-join-in-mysql-8/
  6. https://blog.csdn.net/ddhe9527/article/details/103659977
  7. https://dev.mysql.com/doc/refman/8.1/en/hash-joins.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1099657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MATLAB源码-第47期】基于matlab的GMSK调制解调仿真,输出误码率曲线,采用相干解调。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 GMSK&#xff08;高斯最小移相键控&#xff09;是数字调制技术的一种。下面是关于GMSK调制解调、应用场景以及其优缺点的详细描述&#xff1a; 1. 调制解调&#xff1a; - 调制&#xff1a;GMSK是一种连续相位调制技术&am…

03【彻底掌握Git的底层对象】

上一篇&#xff1a;02【Git的基本使用-快速上手Git】 下一篇&#xff1a;04【彻底掌握Git的底层对象】 目录&#xff1a;【Git系列教程-目录大纲】 文章目录 三、Git底层对象3.1 Blob对象3.1.1 Blob对象简介3.1.2 Blob对象的使用1&#xff09;写入数据2&#xff09;读取数据3…

Excel大量表格选择,快速定位表格

excel有大量表格&#xff0c;快速定位表格方法。 在这个区域电机鼠标右键 出现表格选择。&#xff08;此处方便查看15个表格&#xff09;&#xff0c;如果超过15个表格可以选择其他工资表。 选择其他工作表会弹出列表框如下图 特此记录 anlog 2023年10月12日

红队专题-从零开始VC++远程控制软件RAT-C/S-[4]客户端与服务端连接

红队专题 招募六边形战士队员服务端编写新建工程server函数创建主线程类获取配置信息command 命令startsocket 开始监听win32 类库/头文件 招募六边形战士队员 一起学习 代码审计、安全开发、web攻防、逆向等。。。 私信联系 服务端编写 新建工程 server函数 // FackExec_…

Windows10用Navicat 定时备份报错80070057

直接按照网上的教程配置定时任务发现报错&#xff0c;提示参数非法之类的&#xff0c;80070057。 搜索加自己测试发现是用户权限问题。 设置任务计划的时候&#xff0c;我用了用户组&#xff0c;选了administors&#xff0c;在勾选上run with hightest privileges。 查找用户…

JVM第七讲:JVM 基础 - Java 内存模型详解

JVM 基础 - Java 内存模型详解 本文是JVM第七讲&#xff0c;JVM 基础 - Java 内存模型详解。主要转载自 Info 上深入理解Java内存模型, 作者程晓明。这篇文章对JMM讲的很清楚了&#xff0c;大致分三部分&#xff1a;1、重排序与顺序一致性&#xff1b;2、三个同步原语&#xff…

数据结构复盘——第二章:线性表

文章目录 第一部分:顺序表1、顺序表的定义2、顺序表的操作3、顺序表的优缺点第一部分习题第二部分:单链表1、单链表的定义2、单链表的结点知识3、单链表的操作4、单链表的优缺点第二部分习题第三部分:双链表1、双链表的结构2、双链表的操作第三部分习题第四部分:静态链表1、…

使用 Tkinter Canvas 小部件添加放大镜功能?

一、说明 据我所知&#xff0c;内置的 Tkinter Canvas 类比例不会自动缩放图像。如果您无法使用自定义小部件&#xff0c;则可以缩放原始图像并在调用缩放函数时将其替换在画布上。 二、实现图像放大镜技术细节 我如何将放大和缩小添加到以下脚本中&#xff0c;我想将其绑定到…

OpenCV 笔记(1):图像的读取、显示、创建

Part11. 数字图像的含义 OpenCV 中的图像&#xff0c;其实指的是数字图像。在介绍图像这个概念之前&#xff0c;先介绍几个基础的概念&#xff1a; 像素(Pixel)是图像的基本单元或者基本元素&#xff0c;亦或者是图像最小的单位。图像中的像素点包含不同的像素值。对于灰白图像…

Flume 整合 Kafka

1.背景 先说一下&#xff0c;为什么要使用 Flume Kafka&#xff1f; 以实时流处理项目为例&#xff0c;由于采集的数据量可能存在峰值和峰谷&#xff0c;假设是一个电商项目&#xff0c;那么峰值通常出现在秒杀时&#xff0c;这时如果直接将 Flume 聚合后的数据输入到 Storm 等…

Vue-props配置功能

Vue-props配置功能 props概述 功能&#xff1a;接收从其他组件传过来的数据&#xff0c;将数据从静态转为动态注意&#xff1a; 同一层组件不能使用props&#xff0c;必须是父组件传子组件的形式。父组件传数据&#xff0c;子组件接收数据。不能什么数据都接收&#xff0c;可…

【Spring Cloud】网关Gateway的请求过滤工厂RequestRateLimiterGatewayFilterFactory

概念 关于微服务网关Gateway中有几十种过滤工厂&#xff0c;这一篇博文记录的是关于请求限流过滤工厂&#xff0c;也就是标题中的RequestRateLimiterGatewayFilterFactory。这个路由过滤工厂是用来判断当前请求是否应该被处理&#xff0c;如果不会被处理就会返回HTTP状态码为42…

三相异步电机动态数学模型及矢量控制仿真

三相异步电机动态数学模型及矢量控制仿真 本文带你一步步推倒三相异步电机动态数学模型&#xff0c;按基于转子磁链定向的矢量控制进行 matlab 仿真&#xff0c;实现较好的控制效果。 1、异步电机三相方程 2、坐标变换 3、磁链3/2变换推导 4、两相静止坐标系下的方程 5、…

python 图片下面加边框TK界面

python 对图片增加边框&#xff0c;logo贴图&#xff0c;获取图片exif参数&#xff0c;填写图片文本内容-CSDN博客 import tkinter as tk from tkinter import ttk import os import glob import json import tkinter.messagebox as messagebox # 弹出提示框 from PIL import…

Vue 如何检测 data 中 数组的变化?

Vue 可以使用 watch 和 computed 监听数组的变化。 ① 使用 watch 监听数组 可以通过 deep 选项深度监听数组内部元素的变化 ② 使用 computed 监听数组 创建一个计算属性&#xff0c;返回数组的长度或者某个数组元素的值&#xff0c;当数组发生变化时&#xff0c;计算属性会…

在nodejs中实现调度任务

在nodejs中实现调度任务 node.js帮助开发人员简化了工作流程&#xff0c;创建了高效的应用程序。它的许多有用功能之一是任务调度。本文将探讨在nodejs中调度任务的重要性、各种使用第三方库的代码示例&#xff0c;以及需要遵循的一些有用的操作。 为什么我们需要安排任务 调…

#创作纪念日#我的256天创作纪念日

我的创作256天纪念日 机缘收获日常成就憧憬 机缘 机缘……好像128天的时候已经写过了…… 小升初时&#xff0c;我开始接触编程&#xff0c;进入了一个全新的世界。刚开始学习编程时&#xff0c;我只是对电脑的一些操作比较感兴趣&#xff0c;但慢慢地&#xff0c;我开始对编…

模式植物GO背景基因集制作

一边学习&#xff0c;一边总结&#xff0c;一边分享&#xff01; 写在前面 关于GO背景基因集文件的制作&#xff0c;我们在很早以前也发过。近两天&#xff0c;自己在分析时候&#xff0c;也是被搞了头疼。想重新制作一份GO背景基因集&#xff0c;进行富集分析。但是结果&…

vueday01——ref响应式

特性&#xff1a;持续监控某个响应式变量的属性名变化&#xff0c;可以使用shallowRef来取消这一特性&#xff0c;只监控对象整体的变化 ref测试代码&#xff1a; <template><div :id"idValue" ref"myDiv">打印obj{{ obj }}</div><…

大数据Flink(九十七):EXPLAIN、USE和SHOW 子句

文章目录 EXPLAIN、USE和SHOW 子句 一、EXPLAIN 子句 二、USE 子句