为什么你的程序跑不满CPU？——简单聊聊多核多线程

news2026/3/22 9:34:22

最近同事测试自己的程序，感觉处理耗时太长，一看CPU使用率，才25%。想要提高CPU使用率降低处理时长，于是向我询问。以此为契机写了这篇，聊聊多核多线程。水平有限，仅供参考。

1.单核单线程

一切开始的前提是，你需要知道，CPU执行的所有代码其实就是一条条指令。

首先来聊聊单核单线程下你的程序是怎么运行的。假如你的程序就两行代码：

b=a+1;

c=b+1;

而你的CPU每运行一行代码需要1秒，那么很明显，对于单核CPU来说，运行你的代码需要2秒。但实际上这往往需要2秒多，因为你的CPU还需要处理很多可能的中断，比如当你的CPU刚执行完b=a+1时，这个时候插入了一台USB设备，它触发了一个中断，中断你可以简单理解为一个函数，这里的USB中断你可以理解为，插入了USB就要执行一个“USB函数”，这个过程不受控制（实际过程复杂的多）。一般来说中断优先级是高于你的用户代码的，所以CPU只能转头去执行USB函数中的代码，这个时候你的代码才执行到了一半，当执行完USB函数后，CPU才会转头回来继续执行你的代码。最终你的代码可能运行了3秒甚至更久。

2.单核多线程

你可能觉得2秒甚至更久的时间对你的程序来说太长了，那是否可以使用多线程优化程序的执行？

其实仔细想一下就知道，无论使用多少个线程，假如CPU每执行一行代码就是1秒，那这两行代码怎么也得要2秒。所以单核情况下，多线程并不会提高代码执行效率。

单核情况下的多线程叫做并发。也就是所谓的单核多线程其实只是在同一个CPU上交替执行多个线程，但实际是，在任意时间点，只能有一个线程执行，只不过CPU切换的速度很快，给你造成一种多个线程同时运行的假象。只有多核才能做到真正意义上的同时运行。更多细节可以搜索并发与并行的区别。

3.多核单线程

假如你有一个四核CPU，每个核还是1秒执行1行代码，而你的代码是：

b=a+1;

c=b+1;

e=d+1;

f=e+1;

如果把这四行代码放在一个mian函数里执行，你会发现CPU在程序执行的时候，只有25%。这是否是因为有3个核压根就没有工作？

其实不然，这种情况下，无论是只使用1个核还是四个核都使用，CPU使用率最多都是25%。为什么？

假如你的程序只放在第一个核上运行，这很好理解：

表1
时间	CPU0使用率	CPU1使用率	CPU2使用率	CPU3使用率
第1秒	100%	0%	0%	0%
第2秒	100%	0%	0%	0%
第3秒	100%	0%	0%	0%
第4秒	100%	0%	0%	0%

4秒内，CPU实际可以执行16行代码，而实际只有CPU0执行了4行，所以CPU在4秒内总的使用率为4/16=25%。

假如你的程序在4个核上运行，则可能是：

表2
时间	CPU0使用率	CPU1使用率	CPU2使用率	CPU3使用率
第1秒	100%	0%	0%	0%
第2秒	0%	100%	0%	0%
第3秒	0%	0%	100%	0%
第4秒	0%	0%	0%	100%

同样的也是25%。你可以能会好奇为何CPU不是按下面的方式运行的：

表3
时间	CPU0使用率	CPU1使用率	CPU2使用率	CPU3使用率
第1秒	100%	100%	100%	100%
第2秒	0%	0%	0%	0%
第3秒	0%	0%	0%	0%
第4秒	0%	0%	0%	0%

在这种情况下，我们统计CPU占用率的周期很重要，如果以4秒为一个周期，那CPU使用率还是25%，如果以1秒为周期则第一秒使用率是100%，后面3秒使用率都是0%。但我们最关心的还是这种情况下可以把程序执行需要4秒给缩短到1秒。但这种情况是不可能发生的，当你使用单线程写了一个程序时，就注定了你的每行代码都要依次执行（这里不考虑CPU乱序执行，且就算乱序也不影响），你的第二行代码就必须等第一行代码执行完毕才能执行，无论第一行代码或是第二行代码在哪个CPU上执行！所以，无论以哪种情况来说，你的CPU从你的代码开始到结束，占用率最多25%，且必须耗时4秒甚至更久才能执行完。

4.多核多线程

按照上面的说法，我们是否可以把4行代码分别放在四个线程中，这样岂不是可以实现表3？

实际是可以实现的，但可惜的是，计算结果是错误的。因为我们可以看到，4行代码里面，数据是有依赖关系的，计算c之前需要保证先计算b，计算b之前，需要保证a是正确的。这就是所谓的线程间同步。所以即使是使用4个线程，为了使计算结果正确，我们也没有办法做到耗时1秒。

在这个例子中，假如我们把四行代码分别放在四个线程中，然后四个线程分别在4个核上运行，比如第一个核上运行线程1，执行的是第一行代码，以此类推。

那我们的代码在实际考虑数据依赖关系后，很可能是：

第一秒，线程1执行，其他线程都等待，也就是虽然其他线程放在其他核上，但是其他核使用率仍然为0%。

第二秒，线程1执行完毕，告诉了线程2，然后线程2开始执行，此时CPU0、2、3核都没在使用。

第三秒，线程2执行完毕，告诉了线程3，然后线程3开始执行，此时CPU0、1、3核都没在使用。

第四秒，线程3执行完毕，告诉了线程4，然后线程4开始执行，此时CPU0、1、2核都没在使用。

其中一个线程如何告诉另一个线程可以搜索线程（进程）间同步方式相关资料。

我们看下来，发现好像使用多线程也并没有缩小耗时，也就是说，如果你的程序执行有数据依赖关系的，多线程并不能优化执行效率，因为你后面的代码即使可以执行，也无法执行，因为它要等待前面的代码计算完成，用前面的计算结果继续计算。

细心的你可能发现，上面例子中第三行代码并不需要等待第二行代码执行完毕，因为c=b+1和e=d+1并没有关系，也就是第二行代码必须等第一行计算完毕，第四行代码必须等第三行计算完毕，但是前两行和后两行并没有一点关系，那我们完全可以把第1、2行代码放在线程1中，运行在其中一个核上，把第3、4行代码放在线程2中，运行在另一个核上，最终CPU使用率是：