join 语句使用

news2026/2/11 14:33:27

前言

创建数据

知识点补充

Join算法Index Nested-Loop

小结：

Join算法Block Nested-Loop

join_buffer放不下驱动表情况

小结：

小表是什么？

总结：

参考内容

前言

在实际开发中，我们一般会有两类问题，为什么我们 DBA 不让使用 join，使用 join 有什么问题呢？如果有两个大小不同的表做 join，应该用哪个表做驱动表呢？MySQL 执行 join 语句的两种可能算法（Index Nested-Loop Join ，Block Nested-Loop Join），这两种算法是由能否使用被驱动表的索引决定的。

创建数据

首先创建表与数据

CREATE TABLE `high`.`testjoin2` 
( `id` INT NOT NULL, 
`index` INT NULL, 
`num` INT NULL, 
PRIMARY KEY ( `id` ), 
INDEX `index` ( `index` ) );

批量添加数据

PRIMARY KEY ( `id` ), INDEX `index` ( `index` ) );
delimiter ;;
drop procedure idata;
create procedure idata()
begin
  declare i int;
  set i=1;
  while(i<=1000)do
    insert into testjoin2 values(i, i, i);
    set i=i+1;
  end while;
end;;
delimiter ;
call idata();

create table testjoin1 like testjoin2;
insert into testjoin1 (select * from testjoin2 where id<=100)

知识点补充

straight_join ：目的是MySQL 使用固定的连接方式执行查询。

这里简单说明一下，join语句如果可以用上被驱动表的索引的算法是Index Nested-Loop Join，反之使用的Block Nested-Loop Join算法。

join_buffer 的大小是由参数 join_buffer_size 设定的，默认值是 256k。

Join算法Index Nested-Loop

这里我们知道了可以用上被驱动表的索引的算法是Index Nested-Loop Join，已知创建的表的index有索引所以sql如下：

EXPLAIN select * from  testjoin1 straight_join testjoin2 on (testjoin1.index=testjoin2.index);

explain 结果:

从结果可以看出join的过程中使用了testjoin2的index字段索引。

语句执行流程：

从表 testjoin1中读入一行数据A（扫描 100 行）；
从该数据A行中，取出 a 字段到表 testjoin2 里去查找（扫描 100 行）；
取出表 testjoin2中满足条件的行，跟数据A组成一行，作为结果集的一部分；
重复执行步骤 1 到 3，直到表 testjoin1的末尾循环结束（总共扫描200行）。

这个过程就跟我们写的嵌套查询类似，并且可以用上被驱动表的索引，所以我们称之为“Index Nested-Loop Join。同时这个过程中驱动表是走全表扫描，而被驱动表是走树搜索。每次在被驱动表查一行数据，要先搜索索引 a，再搜索主键索引。

小结：

使用 join 语句，性能比强行拆成多个单表执行 SQL 语句的性能要好；

如果使用 join 语句的话，需要让小表做驱动表。

Join算法Block Nested-Loop

我们知道用不上被驱动表的索引时了mysql选择的Block Nested-Loop Join算法，所以我们将sql改一下：

EXPLAIN select * from testjoin1 straight_join testjoin2 on (testjoin1.index=testjoin2.num);

explain 结果:

Extra:Using where; Using join buffer (Block Nested Loop) 可以看出使用的Block Nested Loop算法

sql语句执行流程：

把表 testjoin1的数据读入线程内存 join_buffer 中，因为我们这个语句中写的是 select *，所以是把整个表 testjoin1放入了内存；
扫描表 testjoin2，把表 testjoin2中的每一行取出来，跟 join_buffer 中的数据做对比，满足 join 条件的，作为结果集的一部分返回。

从结果可以看出testjoin1扫描了100行，testjoin2扫描了1000行，因为join_buffer 是以无序数组的方式组织的，因此对表 testjoin2中的每一行，都要做 100 次判断（Block Nested-Loop Join 算法的这 10 万次判断是内存操作），总共需要在内存中做的判断次数是：100*1000=10 万次，(扫描行数=testjoin1.rows*testjoin2.rows)。这时候选择大表还是小表做驱动表，扫描行数、执行耗时是样的。

join_buffer放不下驱动表情况

sql语句执行流程：

把表 testjoin1的数据读入线程内存 join_buffer 中时，放了一部分数据放满了，然后紧接着去扫描testjoin2表 testjoin2中的每一行取出来，跟 join_buffer 中的数据做对比，满足条件的数据放入结果集；
把表 testjoin1的剩下的数据分次放入join_buffer，重复以上操作

所以说testjoin1越小或者是join_buffer越大，分的次数就越小，应该让小表当驱动表