背景：

某天突然发现服务探测接口疯狂告警、同时数据库CPU消耗也告警，最后系统都无法访问；

查看服务端日志，发现大量的报错如下：

CommunicationsException: Communications link failure ：The last packet successfully received from the server was 201,106 milliseconds ago. The last packet sent successfully to the server was 200,106 milliseconds ago.

起先以为服务出现问题，服务重启后现象依旧。

调查：

通过iostat命令观察到cpu的iowait非常高，再加上服务端的日志报错也是和数据库相关的，然后就把怀疑的方向转移到Mysql是否存在慢SQL拖垮了整个服务。

最后查到是我们使用的xxl-job中间件的一个慢SQL阻塞了整个系统的资源

SELECT t.id
FROM xxl_job_log AS t
WHERE t.trigger_code = 200
AND t.handle_code = 0
AND t.trigger_time <= '2023-02-1 23:36:51.57'
AND t.executor_address NOT IN (
SELECT t2.registry_value
FROM xxl_job_registry AS t2
)

查询使用命令如下

1.查看哪些表被锁：show OPEN TABLES where In_use > 0;
2.查询正在执行的SQL，发现大量SQL执行阻塞了几百秒：
select * from information_schema.processlist where db=‘ db_xxx ‘ and info is not null;
3.直接取出索引的进程ID，拼装成kill语句，取出来执行，干掉阻塞中的索引进程:
select concat(‘kill ‘, id,‘;‘) from information_schema.processlist where db=‘db_xxx ‘ and info is not null;

经过在网上的查询也可以发现官方提出了类似的问题

https://gitee.com/xuxueli0323/xxl-job/issues/I57M1Y

https://github.com/xuxueli/xxl-job/issues/596

为什么数据库的慢SQL会导致CPU的IO WAIT升高呢

我们先看一下计算机是怎么管理磁盘IO操作的。计算机发展早期，磁盘和内存的数据传输是由CPU控制的，也就是说从磁盘读取数据到内存中，是需要CPU存储和转发的，期间CPU一直会被占用。我们知道磁盘的读写速度远远比不上CPU的运转速度。这样在传输数据时就会占用大量CPU资源，造成CPU资源严重浪费。

后来有人设计了一个IO控制器，专门控制磁盘IO。当发生磁盘和内存间的数据传输前，CPU会给IO控制器发送指令，让IO控制器负责数据传输操作，数据传输完IO控制器再通知CPU。因此，从磁盘读取数据到内存的过程就不再需要CPU参与了，CPU可以空出来处理其他事情，大大提高了CPU利用率。这个IO控制器就是“DMA”，即直接内存访问，Direct Memory Access。现在的计算机基本都采用这种DMA模式进行数据传输。

通过上面内容我们了解到，IO数据传输时，是不占用CPU的。当应用进程或线程发生IO等待时，CPU会及时释放相应的时间片资源并把时间片分配给其他进程或线程使用，从而使CPU资源得到充分利用。所以，假如CPU大部分消耗在IO等待(wa)上时，即便CPU空闲率(id)是0%，也并不意味着CPU资源完全耗尽了，如果有新的任务来了，CPU仍然有精力执行任务。如下图：

在DMA模式下执行IO操作是不占用CPU的，所以CPU IO等待(上图的wa)实际上属于CPU空闲率的一部分。所以我们执行top命令时，除了要关注CPU空闲率，CPU使用率(us，sy)，还要关注IO Wait(wa)。注意，wa只代表磁盘IO Wait，不包括网络IO Wait。

因为CPU处理数据的速度远远大于IO准备数据的速度。所以再进行“读操作”时，DMA负责将数据从磁盘拷贝到内核空间，注意是拷贝不是移动，然后cpu再从内核空间拷贝到用户空间。所以，cpu等待io就绪，在“读操作”时，等的就是DMA将数据从磁盘拷贝到内核空间。

理论与实际结合

那么反应到我们遇到的这个场景就是：iowait是cpu处于空闲状态，因为服务端要做事情之前一般要查一下库如用户权限之类会查用户权限表，现在mysql那里索引出问题了，io资源全被阻塞住了，达到了磁盘IO的瓶颈，服务端这边又一直等待数据从磁盘拷贝到dma(那个问题SQL对应的表数据达到千万级别)，磁盘的传输效率又很低所以要把所有的查询返回结果拷贝完非常的耗时，所以才会出现上面的SQL执行了几百秒还没有结束，而系统代码只有再获取到数据库的查询结果后，才能走下面的计算逻辑，那可不是cpu空闲着也没啥可做的，就只是傻乎乎地在等着io拷贝结束嘛，而那些问题SQL又一直占据着IO资源迟迟不释放，就导致了整个系统的不可用。

当把这些问题SQL kill掉之后，系统恢复正常，后面我们针对这个场景增加了一个定时任务来清理那些没用的记录。