【Linux I/O】万字长文带思维导图，一文彻底掌握Linux I/O：深入解析操作系统数据交互的艺术

Linux I/O

Linux I/O（输入/输出）是操作系统与外部设备进行数据交互的过程。在Linux系统中，I/O操作的管理和优化对于系统性能有着至关重要的影响。本文将详细介绍Linux中的各种I/O模型，包括它们的工作原理、优缺点以及适用场景，帮助您更好地理解和应用这些技术。
Linux系统提供了多种I/O模型，以满足不同场景下的性能需求。以下是一些主要的Linux I/O模型：

缓存 I/O（Buffered I/O）
直接 I/O（Direct I/O）
I/O 模式（I/O Modes）
- 阻塞I/O（Blocking I/O）
- 非阻塞I/O（Non-blocking I/O）
- 同步I/O（Synchronous I/O）
- 异步I/O（Asynchronous I/O）
- I/O多路复用（I/O Multiplexing）
- 信号驱动I/O（Signal-driven I/O）
DMA I/O（Direct Memory Access I/O）
零拷贝（Zero-copy）

Linux I/O
- 缓存 I/O
- - 工作原理：
  - 优点：
  - 缺点：
- 直接 I/O
- - 工作原理：
  - 优点：
  - 缺点：
  - 使用场景：
- I/O 模式
- - 阻塞I/O（Blocking I/O）
  - 非阻塞I/O（Non-blocking I/O）
  - 同步I/O（Synchronous I/O）
  - 异步I/O（Asynchronous I/O）
  - I/O多路复用（I/O Multiplexing）
  - 信号驱动I/O（Signal-driven I/O）
- DMA I/O
- - 工作原理：
  - 优点：
  - 缺点：
  - 使用场景：
  - DMA传输类型：
- 零拷贝 (Zero-copy)
- - 工作原理：
  - 优点：
  - 缺点：
  - 使用场景：
  - 实现方式：
- 总结

缓存 I/O

在这里插入图片描述

缓存I/O（Buffered I/O）是Linux中最常见的I/O模型。在该模型中，数据在用户空间和内核空间之间通过页缓存（Page Cache）进行传输。
在这里插入图片描述

工作原理：

读取操作：
- 应用程序发起读取请求。
- 如果请求数据已在页缓存中，直接从缓存中读取数据到用户空间，无需访问磁盘。
- 如果数据不在缓存中，操作系统将从磁盘读取数据，并将其存储在页缓存中，然后复制到用户空间。
写入操作：
- 应用程序发起写入请求。
- 数据首先被写入页缓存中。
- 写入操作完成后，应用程序收到确认，但数据可能还没有实际写入磁盘。
- 页缓存中的数据会在适当的时候（如缓存满了或经过一定时间）被写入磁盘。

优点：

减少磁盘访问次数：通过利用缓存，减少了对磁盘的直接访问，提高了I/O性能。
数据本地化：频繁访问的数据更可能存储在缓存中，减少了读取延迟。

缺点：

数据一致性问题：写入操作完成后，数据可能还未实际写入磁盘，如果系统崩溃，可能会丢失数据。
延迟写问题：写入操作可能存在延迟，导致数据在一段时间内未写入磁盘。

缓存I/O是大多数文件系统默认的I/O操作模式，适用于大多数通用场景。

直接 I/O

直接I/O（Direct I/O）是一种绕过操作系统页缓存，直接在用户空间和存储设备之间传输数据的I/O模型。它通常用于数据库管理系统和其他需要精细控制数据传输的应用程序。
在这里插入图片描述

工作原理：

读取操作：
- 应用程序发起直接读取请求，指定DIRECT标志。
- 操作系统直接从磁盘读取数据到用户空间的缓冲区，不经过页缓存。
写入操作：
- 应用程序发起直接写入请求，指定DIRECT标志。
- 数据直接从用户空间的缓冲区写入磁盘，不经过页缓存。

优点：

减少缓存污染：数据不经过页缓存，减少了缓存被不常访问数据污染的情况。
数据传输效率：对于大文件操作，直接I/O可以减少数据在用户空间和内核空间之间的复制次数，提高效率。
控制数据写入时机：应用程序可以更精确地控制数据的写入时机，减少数据丢失的风险。

缺点：

性能开销：由于绕过缓存，每次I/O操作都需要直接与磁盘交互，可能导致更高的磁盘I/O开销。
复杂性：应用程序需要自行管理数据的缓存和同步，这增加了程序设计的复杂性。

使用场景：

数据库系统：数据库管理系统通常使用直接I/O来保证数据的一致性和性能。
文件系统备份：备份工具可能使用直接I/O来避免不必要的数据缓存，确保备份数据的准确性。

直接I/O要求应用程序有足够的缓冲区来处理数据，并且能够处理由于绕过缓存带来的性能影响。

I/O 模式

在这里插入图片描述

Linux提供了多种I/O模式，每种模式都适用于不同的场景和需求。以下是一些主要的I/O模式：

阻塞I/O（Blocking I/O）

定义：在阻塞I/O模式下，当发起I/O请求时，如果资源不可用，应用程序会阻塞直到请求完成。
工作原理：应用程序发起I/O操作后，如果操作不能立即完成，程序会被挂起，直到操作完成或发生错误。
使用场景：适用于对I/O操作响应时间要求不高的简单应用程序。

非阻塞I/O（Non-blocking I/O）

定义：非阻塞I/O允许应用程序在请求I/O操作后立即返回，不必等待操作完成。
工作原理：应用程序需要不断检查操作是否完成，或者使用轮询机制来处理I/O。
使用场景：适用于需要高响应性的应用程序，如网络服务器。

同步I/O（Synchronous I/O）

定义：同步I/O是指应用程序执行I/O操作时，必须等待操作完成才能继续执行。
工作原理：应用程序发起I/O请求，并等待直到操作完成或返回错误。
使用场景：适用于对数据一致性要求高的场景。

异步I/O（Asynchronous I/O）

定义：异步I/O允许应用程序发起I/O请求后继续执行，而不必等待操作完成。
工作原理：操作系统负责处理I/O操作，并在操作完成时通知应用程序。
使用场景：适用于需要高并发处理的场景，如数据库管理系统。

I/O多路复用（I/O Multiplexing）

定义：I/O多路复用允许单个线程同时监视多个文件描述符，等待其中一个或多个变得“就绪”（可读、可写或发生异常）。
工作原理：使用系统调用如select、poll或epoll来监控多个I/O流。
使用场景：适用于需要同时处理多个I/O流的应用程序，如网络服务器。

信号驱动I/O（Signal-driven I/O）

定义：信号驱动I/O是异步I/O的一种形式，应用程序通过设置信号处理程序来通知操作系统进行I/O操作。
工作原理：当文件描述符就绪时，操作系统发送SIGIO信号给应用程序。
使用场景：适用于需要快速响应I/O事件的场景。

每种I/O模式都有其特定的使用场景和优势，选择合适的I/O模式对于提高应用程序的性能和响应性至关重要。

DMA I/O

DMA I/O（Direct Memory Access I/O）是一种允许外设直接访问系统内存而不需要CPU干预的数据传输方式。这种方式可以显著提高数据传输的效率，减少CPU的负担。
在这里插入图片描述

工作原理：

DMA控制器初始化：
- CPU设置DMA控制器，包括传输的数据量、源地址和目标地址等信息。
数据传输：
- DMA控制器接管数据传输过程，直接在内存与外设之间传输数据，无需CPU参与。
传输完成通知：
- 数据传输完成后，DMA控制器通过中断或状态标志通知CPU。

优点：

减少CPU负载：由于数据传输由DMA控制器处理，CPU可以执行其他任务。
提高数据传输速度：DMA传输速度通常比通过CPU快得多。
优化系统资源利用：CPU和I/O操作可以并行进行，提高了系统整体效率。

缺点：

复杂性：DMA传输需要更复杂的硬件和软件支持。
资源竞争：DMA控制器和CPU可能需要访问相同的总线，因此需要有效的资源调度机制。

使用场景：

高速数据传输：如网络接口卡、硬盘控制器等，经常使用DMA进行高速数据传输。
批量数据处理：在进行大量数据传输时，DMA可以大幅提升效率。

DMA传输类型：

单次传输：传输固定大小的数据块后停止。
块传输：传输整个数据块，通常用于批量数据传输。
级联传输：多个DMA操作串联起来，形成一个传输链。

DMA I/O在现代计算机系统中扮演着重要角色，尤其是在处理高速和大量数据传输时。

零拷贝 (Zero-copy)

在这里插入图片描述

零拷贝（Zero-copy）是一种优化数据传输的技术，它减少了在用户空间和内核空间之间以及内核缓冲区和硬件设备之间数据拷贝的次数。这种技术可以显著提高应用程序的性能，尤其是在网络编程和数据存储领域。
在这里插入图片描述

工作原理：

避免用户空间与内核空间的数据拷贝：
- 使用mmap系统调用，将内核缓冲区映射到用户空间，应用程序可以直接访问这些数据，避免了从内核空间到用户空间的拷贝。
利用DMA传输：
- 当数据需要在用户空间和硬件设备之间传输时，使用DMA直接在内核缓冲区和硬件设备之间传输数据，不需要CPU介入。
发送文件内容：
- 使用sendfile系统调用，可以直接在内核空间中从一个文件描述符传输数据到另一个文件描述符，而不需要将数据拷贝到用户空间。