深入理解MySQL慢查询优化(2) -- SQL的执行流程

要优化一条SQL语句，要先理解SQL操作的执行流程

1. 不同SQL操作的执行流程

1.1 order by

order by用于排序，如果用于排序的列上没有索引，就需要把整张表加载进内存进行排序，非常耗时。如果有索引，因为B+树存储的数据本就是有序的，所以MySQL可以通过索引直接顺序读取即可，非常高效

1.2 join

前面以及了解过join是通过两层for循环实现。

如果内存表没有索引，那么对于外层表的每一行数据都要进行一次全表扫描，如果有索引，内层表可以使用索引快速定位到匹配的记录。

1.3 where

没有索引只能对表进行扫描，逐一判断是否满足条件，有索引则可以快速定位到满足条件的数据

1.4 group by

分组操作一般有两种实现方案：hash和排序，MySQL使用的是排序：

如果没有索引:

新建临时表
扫描数据表，并按插入排序的方式插入临时表，这样就保证了group by列的值相同的会排列在一起
在临时表上做处理（使用聚合函数，max/min/count/sum/avg）

如果用于分组的列上有索引，那么前两部就直接省略了

1.5 distinct

在没有索引的情况下，MySQL 主要有以下几种方式来实现 distinct（去重）：

排序 + 去重：当查询数据量不大或内存足够时，MySQL 可能会选择先对数据进行排序，然后去除重复的行。这种方式通常在数据量适中且排序操作成本低时比较有效。
哈希去重：在处理大量数据时，如果内存足够，MySQL 可能会选择哈希去重。数据会加载到内存中的哈希表里，然后进行去重。这种方式在没有显式的排序要求时能有效处理大数据量的去重操作。
临时表：当数据量非常大，或者内存限制导致无法使用哈希表时，MySQL 可能会将结果集写入临时表，然后在临时表中进行去重。这种方式用于处理需要较大内存或存储空间的查询。

有索引则按照索引顺序，不重复的读取即可。

1.6 min/max

没有索引需要逐一对比所有的值，有索引则直接取

1.7 avg/sum/count

没有索引需要扫描全部的数据计算结果，有索引则扫描索引文件（仅包含索引列和主键列）比主数据（全部列）会小一些，速度稍微快些，表的列越多，效果越明显

1.8 in / exists

select * from salaries where emp_no in (10005, 10006, 10007);
select * from salaries where emp_no in (select emp_no from employees);

in会先把in()中的结果全部查出保存在一个结果集中，再查主查询，对主查询的每一行记录在子查询结果集中查找，找到则把当前行加入结果集，直接进行下一行查询，不会再继续比较。

select * from salaries where exists 
(select 1 from employees where employees.emp_no = salaries.emp_no);

exists则先查主查询，对主查询的每一行数据查一次子查询，跟具返回结果决定是否加入结果集

1.9 not in / not exists

select * from salaries where emp_no not in (10005, 10006, 10007);
select * from salaries where emp_no not in (select emp_no from employees);

与使用in类似，not in会先把in()中的结果全部查出保存在一个结果集中，再查主查询，对主查询的每一行记录在子查询结果集中查找，找到则直接进行下一行查询，不会再继续比较，直到比较完not in中的元素，才会把当前行加入结果集.

select * from salaries where exists 
(select 1 from employees where employees.emp_no = salaries.emp_no);

not exists同样先查主查询，对主查询的每一行数据查一次子查询，跟具返回结果决定是否加入结果集

3. explain命令

explain本质上是一个工具，我们使用它是为了辅助理解给定SQL的底层执行策略

以下面这条SQL为例，不使用explain，我们试着描述一下它的执行策略

-- 查询编号大于10005的员工信息，按工资升序排列
SELECT * 
FROM
        employees JOIN salaries 
        ON employees.emp_no = salaries.emp_no 
        AND salaries.from_date = '1992-08-04' 
WHERE
        employees.emp_no > 10005 
        AND salaries.salary > 70000 
ORDER BY
        salaries.salary;

-- employees: PRIMARY KEY(emp_no)
-- salaries: PRIMARY KEY(emp_no, from_date)

根据employees表的主键，直接把主键游标定位到emp_no > 10005的位置
开始读取employees表的记录，针对每条读到的记录（employees[i]，根据employees[i].emp_no和from_date='1992-08-04'去查salaries表，这里刚好可以根据salaries表的主键索引(emp_no, from_date)，唯一定位到一条记录salaries[j]
如果salaries[j].salary > 70000，则把JoinedRow(employees[i], salaries[j])加入join结果
拿到join结果集后，根据salaries.salary排序

Java伪代码：

// 获取表和索引
Table employeesTable = getEmployeesTable();
Table salariesTable = getSalariesTable();
Index empNoIndex = employeesTable.getPrimaryKeyIndex(); // 主键索引 (emp_no)
Index salaryIndex = salariesTable.getPrimaryKeyIndex(); // 主键索引 (emp_no, from_date)

// 结果集
List<JoinedRow> resultSet = new ArrayList<>();

// 从 employees 表的主键索引定位到 emp_no > 10005 的位置
Cursor employeesCursor = empNoIndex.getCursor();
employeesCursor.setPositionGreaterThan(10005);

// 遍历符合条件的员工记录
while (employeesCursor.hasNext()) {
    // 读取一条员工记录
    Employee employee = employeesCursor.next();
    
    // 使用 salaries 表的主键索引查找对应的薪资记录
    Cursor salariesCursor = salaryIndex.getCursor();
    salariesCursor.setPosition(employee.getEmpNo(), "1992-08-04");
    
    if (salariesCursor.hasNext()) {
        // 读取薪资记录
        Salary salary = salariesCursor.next();
        
        // 检查薪资是否大于阈值
        if (salary.getSalary() > 70000) {
            // 创建连接行并加入结果集
            JoinedRow joinedRow = new JoinedRow(employee, salary);
            resultSet.add(joinedRow);
        }
    }
}

// 根据薪资升序排序结果集
resultSet.sort(Comparator.comparingInt(JoinedRow::getSalary));

// 输出或返回结果集
return resultSet;

使用explain:

-- 查询编号大于10005的员工信息，按工资升序排列
SELECT * 
FROM
        employees JOIN salaries 
        ON employees.emp_no = salaries.emp_no 
        AND salaries.from_date = '1992-08-04' 
WHERE
        employees.emp_no > 10005 
        AND salaries.salary > 70000 
ORDER BY
        salaries.salary;

-- employees: PRIMARY KEY(emp_no)
-- salaries: PRIMARY KEY(emp_no, from_date)

输出结果有2行，分别对应emplyees表和salaries表，这个也可以从table这一列看出来

我们了解一下表格中的字段含义：

type：访问类型或连接类型，表示 MySQL 使用的访问方法。例如，ALL（全表扫描）、index（索引扫描）、range（范围扫描）、ref（按索引查找）
key：实际用于查询的索引
key_len：使用的索引的字段长度（字节数）。这里salaries表中同时使用了emp_no和from_date字段所以是7
ref：显示哪些列或常量与索引的列匹配。第二行中表示索引字段与employees数据库中的employees表中的emp_no字段匹配。
rows：预计扫描的行数
filtered：符合条件的数据率
extra：额外的信息，比如是否使用了文件排序、临时表等。

查询employees表时，用了主键索引查找where条件，并且预估通过where条件查询出149667条数据，因为没有其他where条件了，所以100%符合条件，filtered为100，extra中显示使用了where和临时表，以及排序。

查询salaries表时也用了主键索引，这里显示有两个索引，RPIMARY和idx_emp_no都可用，实际使用的是PRIMARY；ref显示用来和索引比较的值有两个，emp_no和一个const（常量值，1992-08-04）emp_no占4个字节，from_data占3个字节，这里都用到了，所以key_len是7；rows表示只会定位到1条数据，这条记录还需要满足salaries.salary > 70000，explain预估满足这个条件的概率为33.33%

有时MySQL的优化器会重写SQL，可以通过show warnings查看重写后的SQL，比如：

explain select * from employees where emp_no in (select emp_no from salaries);
show warnings;

/* select#1 */ select `employees`.`employees`.`emp_no` AS `emp_no`,`employees`.`employees`.`birth_date` AS `birth_date`,`employees`.`employees`.`first_name` AS `first_name`,`employees`.`employees`.`last_name` AS `last_name`,`employees`.`employees`.`gender` AS `gender`,`employees`.`employees`.`hire_date` AS `hire_date` 
from `employees`.`employees` semi join (`employees`.`salaries`) 
where (`employees`.`salaries`.`emp_no` = `employees`.`employees`.`emp_no`)

这里简化一下重写后的sql:

select employees.* from employees semi join salaries on employees.emp_no = salaries.emp_no;

如果感觉执行计划很奇怪，有可能是MySQL优化器重写了SQL，可以执行show warnings，查看重写后的SQL

也可以使用新版本的执行计划：

explain format=tree
SELECT * FROM employees JOIN salaries 
    ON employees.emp_no = salaries.emp_no AND salaries.from_date = '1992-08-04' 
WHERE employees.emp_no > 10005 AND salaries.salary > 70000 
ORDER BY salaries.salary;
-- employees: PRIMARY KEY(emp_no)
-- salaries: PRIMARY KEY(emp_no, from_date)                                
                                
-> Sort: salaries.salary
    -> Stream results  (cost=82354 rows=49884)
        -> Nested loop inner join  (cost=82354 rows=49884)
            -> Filter: (employees.emp_no > 10005)  (cost=29971 rows=149667)
                -> Index range scan on employees using PRIMARY over (10005 < emp_no)  (cost=29971 rows=149667)
            -> Filter: (salaries.salary > 70000)  (cost=0.25 rows=0.333)
                -> Single-row index lookup on salaries using PRIMARY (emp_no=employees.emp_no, from_date=DATE'1992-08-04')  (cost=0.25 rows=1)

阅读顺序是由内到外：