概念
我们知道Linux系统分为用户态和内核态,在用户态每发起一次IO请求,就需要进行2次上下文切换(分别是用户态->内核态,内核态→用户态),和一次CPU拷贝(将数据从内核缓存拷贝到用户缓存)。
设想一个最简单的应用场景,即从一个文件读取数据并写入另一个文件,整个过程需要进行四次上下文切换,并且需要2次CPU拷贝和2次DMA拷贝。
无论是上下文切换还是CPU拷贝都是十分消耗CPU资源的行为,而零拷贝就是使用各种技术减少甚至消除这些CPU参与的上下文切换和拷贝动作。
方法
零拷贝的实现共有三大类方法:
- 减少甚至消除内核态到用户态的拷贝:在某些情况下,例如上述的文件读写,其实用户并不需要访问实际的数据,那么数据就无需经过 内核->用户→内核 的两次拷贝过程,让数据只在内核中拷贝一次甚至完全不拷贝。Linux提供了一些特殊的系统调用,例如mmap,sendfile,splice等,可以实现这类操作,整个过程还是以内核为主导。
- 用户绕过内核与硬件直接IO:通过某些方法可以使用户态的进程绕过内核直接与硬件通信,从而避免数据的多次传输,内核在这一过程中只起辅助作用,整个过程以用户态进程为主导。
- 在传统IO架构上优化传输方式。
接下来我们将简单介绍这几种方法的几个具体实现案例。
减少拷贝
mmap
mmap的整个流程如下:
- 首先由用户态进程发起mmap系统调用,切换到内核态
- 内核将指定的内核缓存区映射到用户缓存区
- 内核驱动DMA拷贝相关数据至内核缓存,拷贝完成后切换回用户态
- 用户调用writer系统调用,切换至内核态
- 内核将数据从数据拷贝至套接字缓存区
- DMA讲数据拷贝至实际硬件(网卡、磁盘)
- write返回,切换回用户态
整个流程需要进行4次上下文切换,一次CPU拷贝和两次DMA拷贝,与经典方法相比少了一次CPU拷贝。
但是这种映射也是很消耗CPU资源的,只适合在传输数据量较大时使用,否则反而会更慢。
优点:减少一次CPU拷贝
缺点:不能对数据进行任何操作,in只能是指向文件的fd。系统调用次数没有优化。
sendfile
如果只是想简单的进行数据传输,那么上述流程显然还可以简化,sendfile就是mmap和write函数的结合。
sendfile中可以直接指定想要读取的文件和想要写入的文件,只进行一次系统调用,从而将上下文切换减少至2次。
内核中的实际流程和mmap一致。
在2.4版本之后,Linux又做了一些优化,可以让DMA拷贝到非连续的内存并且可以从非连续内存拷贝数据,因此最后一次CPU拷贝就也可以去掉了,流程如下
优点:系统调用减少至1次,CPU拷贝次数减少至0次。
splice
splice技术是通过一个管道在内核空间传递想要拷贝数据的物理内存地址,从而实现实际数据的0拷贝。
用户在使用时需要先创建一个pipe管道,获取其输入和输出对应的文件描述符,再调用两次splice,分别将数据的物理内存地址写入和pipe和从pipe中读出。
优点:CPU拷贝次数减少至0次
缺点:需要3次系统调用
由于后续sendfile底层使用了splice,因此splice没有额外提供更简便的接口。
只用在数据传输特别频繁时,可以通过该接口重复利用pipe,可以节省内存。
send with MSG_ZEROCOPY
可以将数据从用户态零拷贝的传输到网卡,在传输大包时很有用
if (setsockopt(socket_fd, SOL_SOCKET, SO_ZEROCOPY, &one, sizeof(one)))
error(1, errno, "setsockopt zerocopy");
ret = send(socket_fd, buffer, sizeof(buffer), MSG_ZEROCOPY);
绕过内核直接IO
上文介绍的各种方法都是由内核在内核态中进行操作,尽量较少不必要的拷贝。
那么假如用户可以直接访问硬件,通过DMA讲数据直接拷贝至用户态,岂不是更为理想。
这种方式的优点十分明显,数据全程不经过内核态,较少拷贝,同时用户可以在用户态中任意操作读取到的数据。
但也有一些缺点:
- 破坏了对硬件的抽象,使用繁琐
- 将硬件的操作权下放给用户,增大了风险
- 硬件与用户进程绑定,只能支持特定场景
- 为了防止DMA在拷贝时实际物理内存被其他进程占用,需要提前申请内存池