目录
一. IO的概述
1.1 什么是IO
1.2 IO的效率问题
1.3 同步IO和异步IO的概念
二. 阻塞式IO
三. 非阻塞式IO
四. 信号驱动式IO
五. IO多路复用
六. 异步IO
七. 总结
一. IO的概述
1.1 什么是IO
IO,表示输入输出,即:InPut / OutPut,访问外部设备读取数据或者向外部设备写数据。常见的文件读写操作、网络通信操作,其实都是IO的过程。、
在Linux操作系统下,我们认为一切皆是文件,只有操作系统有权利对文件进行读和写的操作,用户如果要读写文件,本质上都是使用操作系统的文件读写接口来实现的。
这里以阻塞式读取为例,分析IO操作所进行的工作:
- 当read/recv时,如果缓冲区中没有数据,那就阻塞式等待数据就绪 -- 等待。
- 当read/recv时,如果缓冲区中有数据,那么就将数据从缓冲区拷贝到应用层 -- 拷贝。
因此,我们可以认为,IO = 等待 + 拷贝。只要执行流(进程/线程)参与了等待和拷贝其中之一,那么就认为这个执行流进行了IO操作。
图1.1展示了在进行文件写文件操作(input)时系统所进行的工作,可分为三步:
- 将文件的内容和属性信息加载到内存中去。
- CPU在内存中对文件内容进行修改。
- 将内存中被修改后的文件内容写回到内存中。
1.2 IO的效率问题
由于IO要从外设读取数据或者向外设写数据,而在计算机体系中,硬件的效率由高到低的排序是:CPU寄存器 > 高速缓存 > 内存 > 磁盘 > 网卡,对于任意的IO操作,其实大部分时间都是在等待外设数据就绪,因此效率十分低下。
结论:由于IO操作消耗大量时间在等待数据就绪,因此IO的效率很低。
在互联网行业中,提高IO效率是备受关注的,结合上面的分析,高效IO和低效IO的特点为:
- 低效IO:单位时间内,等待时间长,拷贝数据时间短。
- 高效IO:单位时间内,拷贝数据时间长,等待数据时间短。
因此,设法降低等待时间的占比,是提高IO效率的关键所在。
1.3 同步IO和异步IO的概念
在了解同步IO和异步IO之前,首先了解同步和异步的概念:
- 同步:就是指一个调用发出后不直接返回,直到调用完成拿到结果才返回。即:发起调用的执行流(进程/线程)自身来执行调用,在调用完成时由其自身拿到结果。
- 异步:就是指一个调用发出后马上返回,暂时先不获取调用结果。即:调用者发起调用后,其自身不执行调用的方法,而是继续执行自己本身的方法,由被调用者执行调用的方法,当被调用者执行结束后,将结果反馈给调用者。
推而广之,我们这样这样理解同步IO和异步IO:
- 同步IO:发起IO的执行流,其本身会参与到IO的工作,即拷贝数据或等待数据就绪,并且由这个执行流本身获取到IO的结果,这种IO操作称之为同步IO。
- 异步IO:发起IO的执行流本身不参与IO工作,而是有另外一个执行流来进行IO操作,发起IO的线程只需要等待进行IO的执行流反馈回结果即可。
二. 阻塞式IO
阻塞式IO,就是当进行读数据或写数据时,如果外设条件没有就绪,就阻塞式的等待条件就绪。如:在read/recv时,如果缓冲区中没有数据,该进程/线程就自动被添加到特定的等待队列中去等待缓冲区中被写入数据,在等待的过程中,进程/线程 不执行其它的工作。
所有的IO操作,默认都是阻塞式的,非阻塞IO需要人为进行设置。
三. 非阻塞式IO
如果一个进程/线程在进行IO操作时,数据尚未就绪,那么读取接口不会阻塞,先返回执行其他的工作,数据就绪才进行读取。
非阻塞式IO,一般采用轮询检查的方法进行IO操作,即:通过循环,不断检查IO资源是否已经就绪,就绪就读取,不就绪就执行其他的工作。
IO操作默认是阻塞式的,有两种方法可以实现非阻塞式IO:
- 在使用open打开文件/调用socket接口获得fd时,传入O_NONBLOCK/SOCK_NONBLOCK作为参数,实现非阻塞式IO。
- 通过调用fcntl函数,对指定的fd设置非阻塞式IO。
这里重点介绍如图通过调用fcntl函数来设置非阻塞式的IO。
fcntl函数 -- 对特定fd设置非阻塞IO
函数原型:int fcntl(int fd, int cmd, .../*args*/)
函数参数:
- fd:进行操作的文件描述符。
- cmd:F_GETFL -- 获取文件状态、F_SETFL -- 设置文件状态
- 缺省参数:当cmd为F_SETFL时,传入O_NONBLOCK可以设置非阻塞。
返回值:当cmd为F_SETFL时,返回当前的文件状态,当cmd为F_SETFL时,应当返回0,如果函数调用失败,则返回-1。
代码3.1通过提供SetNonBlock接口,对标准输入(fd = 0)进行非阻塞式读取,在SetNonBlock内部调用fcntl函数将指定的fd设置为非阻塞。但在使用read进行非阻塞读取时,有以下几点问题需要注意:
- 如果调用read时底层资源尚未就绪而产生非阻塞,那么read会以读取出错的形式返回。
- read如果出错,不仅会体现在返回值上,也会设置全局错误码errno。
- 当因为数据未就绪而非阻塞时,错误码errno被设置为EWOULDBLOCK || EAGAIN,其余为真正的读取失败。
- 在非阻塞式read读取时,还应当判断错误码是否为EINTR,表示是否因为进程收到信号而造成read终止,如果是,应当尝试再次读取。
其中 EWOULDBLOCK 和 EAGAIN 对应的错误码都是11,描述信息为:Resource temporarily unavailable,就是资源尚未就绪的意思。
代码3.1:非阻塞式IO
#include <iostream>
#include <cerrno>
#include <cstring>
#include <unistd.h>
#include <fcntl.h>
// 设置非阻塞IO函数
bool SetNonBlockIO(int fd)
{
// 获取文件状态
int fd_status = fcntl(fd, F_GETFL);
if(fd_status < 0)
{
// 如果失败返回false,表示设置非阻塞失败
return false;
}
// 在原有的文件状态下添加非阻塞状态
fcntl(fd, F_SETFL, fd_status | O_NONBLOCK);
return true;
}
int main()
{
// 对标准输入设置非阻塞
bool ret = SetNonBlockIO(0);
if(!ret)
{
exit(1);
}
// 开始进行非阻塞IO操作
char buffer[1024] = { 0 };
while(1)
{
ssize_t sz = read(0, buffer, 1024);
// 如果正常读取
if(sz > 0)
{
buffer[sz - 1] = '\0'; // 设置字符串结束标识
std::cout << "echo# " << buffer << ", [errno:" << errno << ", errorMsg:" << strerror(errno) << "]" << std::endl;
}
else // 读取失败
{
// 如果是因为资源没有就绪而读取失败
if(errno == EWOULDBLOCK || errno == EAGAIN)
{
std::cout << "errno:" << errno << ", errorMsg:" << strerror(errno) << std::endl;
}
else if(errno == EINTR) // 因为进程收到信号而终止read
{
std::cout << "Interrupt because of signal, errno:" << errno << ", errorMsg:" << strerror(errno) << std::endl;
}
sleep(1);
}
}
return 0;
}
四. 信号驱动式IO
通过自定义对29号SIGIO信号的处理函数来实现信号驱动式IO,当进程收到SIGIO信号的时候,就调用对应的处理函数来进行IO操作,这样保证在调用IO接口的时候数据一定是就绪的,在没有收到信号时不影响进程进行其他的工作,信号驱动式IO避免了阻塞等待资源就绪,提高了IO效率。
五. IO多路复用
一个进程能够同时等待多个文件描述符的资源是否就绪,只要其中一个文件描述符的资源就绪变为可读,那么进程就会去读取这个文件描述符对应的数据。由于可以同时等待多个文件描述符,只要其中一个资源就绪,就可以进行读取,这样就大大提高了IO的效率。
六. 异步IO
异步IO,就是发起IO的执行流本身不参与IO工作,而是有另外一个执行流来进行IO操作,发起IO的线程只需要等待进行IO的执行流反馈回结果。这样发起IO的执行流就不需要等到,可以处理其他的工作。
七. 总结
- IO就是对外部设备进行输入输出操作的简称,IO的效率是十分低下的。
- IO操作在单位时间内等待资源就绪的时长越短,IO效率就越高。
- 共有5种常见的IO模型:阻塞式IO、非阻塞式IO、信号驱动IO、IO多路复用和异步IO,其中前四种属于同步IO。
- 同步IO和异步IO的区别在于,是否由发起IO的执行流实际执行IO操作。