零拷贝技术详解

news2025/1/10 20:43:32

文章目录

  • 零拷贝技术前世
    • 数据的四次拷贝与四次上下文切换
      • 4 次 copy
      • 4 次上下文切换
      • 弊端
  • 零拷贝诞生准备--DMA技术
    • DMA 参与下的数据四次拷贝
  • 零拷贝诞生
    • 零拷贝技术
        • 什么是零拷贝技术?
        • 零拷贝的实现方式
        • 技术总结
          • 1、DMA 技术
          • 2、使用 page cache 的 zero copy:
          • 3、不使用 page cache 的 zero copy:
      • sendfile
        • 利用 DMA 技术
        • 传递文件描述符代替数据拷贝
        • 注意事项
        • 一次系统调用代替两次系统调用
      • mmap
        • 定义
        • 优缺点
      • Direct I/O
        • 定义
        • Direct I/O 的读写非常有特点 :
        • 优缺点
          • 优点
          • 缺点
        • 如何使用 Direct I/O
    • 应用
      • Kafka
      • RocketMQ

零拷贝技术前世

数据的四次拷贝与四次上下文切换

很多应用程序在面临客户端请求时,可以等价为进行如下的系统调用:

File.read;
Socket.send;
例如消息中间件 Kafka 就是这个应用场景,从磁盘中读取一批消息后原封不动地写入网卡(NIC,Network interface controller)进行发送。

在没有任何优化技术使用的背景下,操作系统为此会进行 4 次数据拷贝,以及 4 次上下文切换,如下图所示:

在这里插入图片描述

如果没有优化,读取磁盘数据,再通过网卡传输的场景性能比较差:

4 次 copy

物理设备 <-> 内存:
CPU 负责将数据从磁盘搬运到内核空间的 Page Cache 中;
CPU 负责将数据从内核空间的 Socket 缓冲区搬运到的网络中;
内存内部拷贝:
CPU 负责将数据从内核空间的 Page Cache 搬运到用户空间的缓冲区;
CPU 负责将数据从用户空间的缓冲区搬运到内核空间的 Socket 缓冲区中;

4 次上下文切换

read 系统调用时:用户态切换到内核态;
read 系统调用完毕:内核态切换回用户态;
write 系统调用时:用户态切换到内核态;
write 系统调用完毕:内核态切换回用户态;

弊端

我们不免发出抱怨:

1、CPU 全程负责内存内部的数据拷贝还可以接受,因为内存的数据拷贝效率还行(不过还是比 CPU 慢很多),但是如果要 CPU 全程负责内存与磁盘、内存与网卡的数据拷贝,这将难以接受,因为磁盘、网卡的 I/O 速度远小于内存;

2、4 次 copy 太多了,4 次上下文切换也太频繁了;

零拷贝诞生准备–DMA技术

DMA 参与下的数据四次拷贝

DMA 技术很容易理解,本质上,DMA 技术就是我们在主板上放一块独立的芯片。在进行内存和 I/O 设备的数据传输的时候,我们不再通过 CPU 来控制数据传输,而直接通过 DMA 控制器(DMA Controller,简称 DMAC)。这块芯片,我们可以认为它其实就是一个协处理器(Co-Processor)。

DMAC 的价值在如下情况中尤其明显:当我们要传输的数据特别大、速度特别快,或者传输的数据特别小、速度特别慢的时候。

比如说,我们用千兆网卡或者硬盘传输大量数据的时候,如果都用 CPU 来搬运的话,肯定忙不过来,所以可以选择 DMAC。而当数据传输很慢的时候,DMAC 可以等数据到齐了,再发送信号,给到 CPU 去处理,而不是让 CPU 在那里忙等待。

注意 :这里面的“协”字。DMAC 是在“协助”CPU,完成对应的数据传输工作。在 DMAC 控制数据传输的过程中,DMAC 还是被 CPU 控制,只是数据的拷贝行为不再由 CPU 来完成。

原本,计算机所有组件之间的数据拷贝(流动)必须经过 CPU。以磁盘读写为例,如下图所示:
在这里插入图片描述

现在,DMAC 代替了 CPU 负责内存与磁盘、内存与网卡之间的数据搬运,CPU 作为 DMAC 的控制者,如下图所示:
在这里插入图片描述

但是 DMAC 有其局限性,DMAC 仅仅能用于设备间 交换数据时进行数据拷贝,但是计算机内核内部的数据拷贝还需要 CPU 来亲力亲为 。例如, CPU 需要负责内核空间与用户空间之间的数据拷贝(内存内部的拷贝),如下图所示:

在这里插入图片描述

上图中的 read buffer 也就是 page cache,socket buffer 也就是 Socket 缓冲区。

零拷贝诞生

零拷贝技术

什么是零拷贝技术?

零拷贝技术是一个思想,指的是指计算机执行操作时,CPU 不全程负责先将数据从某处内存复制到另一个特定区域。

可见,零拷贝的特点是 CPU 不全程负责内存中的数据写入其他组件,CPU 仅仅起到管理的作用。但注意,零拷贝不是不进行拷贝,而是 CPU 不再全程负责数据拷贝时的搬运工作。如果数据本身不在内存中,那么必须先通过某种方式拷贝到内存中(这个过程 CPU 可以仅仅负责管理,DMAC 来负责具体数据拷贝),因为数据只有在内存中,才能被转移,才能被 CPU 直接读取计算。

零拷贝的实现方式

零拷贝技术的具体实现方式有很多,例如:

*sendfile
*mmap

  • Direct I/O
    *splice

不同的零拷贝方式适用于不同的应用场景,下面依次进行 sendfile、mmap、Direct I/O 的分析。

技术总结

不过,我们不妨先在这里做一个前瞻性的技术总结。

1、DMA 技术

DMA 负责内存与其他组件之间的数据拷贝,CPU 仅需负责管理,而无需负责全程的数据拷贝;

2、使用 page cache 的 zero copy:

2.1、sendfile:一次代替 read/write 系统调用,通过使用 DMA 技术以及传递文件描述符,实现了 zero copy
2.2、mmap:仅代替 read 系统调用,将内核空间地址映射为用户空间地址,write 操作直接作用于内核空间。通过 DMA 技术以及地址映射技术,用户空间与内核空间无须数据拷贝,实现了 zero copy

3、不使用 page cache 的 zero copy:

Direct I/O:读写操作直接在磁盘上进行,不使用 page cache 机制,通常结合用户空间的用户缓存使用。通过 DMA 技术直接与磁盘/网卡进行数据交互,实现了 zero copy

sendfile

Linux 在版本 2.1 中引入了 sendfile() 这个系统调用,sendfile()是一种零拷贝的实现。Java对sendfile的支持就是NIO中的FileChannel.transferTo()或者transferFrom()。

snedfile 的应用场景是:用户从磁盘读取一些文件数据后不需要经过任何计算与处理就通过网络传输出去 。此场景的典型应用是消息队列。

在传统 I/O 下,正如上面所示,上述应用场景的一次数据传输需要四次 CPU 全权负责的拷贝与四次上下文切换,正如本文第一节所述。

sendfile 主要使用到了两个技术:

1、DMA 技术
2、传递文件描述符代替数据拷贝

下面依次讲解这两个技术的作用。

利用 DMA 技术

sendfile 依赖于 DMA 技术,将四次 CPU 全程负责的拷贝与四次上下文切换减少到两次,如下图所示:

在这里插入图片描述

利用 DMA 技术减少 2 次 CPU 全程参与的拷贝

DMA 负责磁盘到内核空间中的 Page cache(read buffer)的数据拷贝以及从内核空间中的 socket buffer 到网卡的数据拷贝。

传递文件描述符代替数据拷贝

传递文件描述可以代替数据拷贝,这是由于两个原因:

1、page cache 以及 socket buffer 都在内核空间中;
2、数据在传输中没有被更新;

在这里插入图片描述

利用传递文件描述符代替内核中的数据拷贝

注意事项

只有网卡支持 SG-DMA(The Scatter-Gather Direct Memory Access)技术才可以通过传递文件描述符的方式避免内核空间内的一次 CPU 拷贝。这意味着此优化取决于 Linux 系统的物理网卡是否支持(Linux 在内核 2.4 版本里引入了 DMA 的 scatter/gather – 分散/收集功能,只要确保 Linux 版本高于 2.4 即可)。

一次系统调用代替两次系统调用

由于 sendfile 仅仅对应一次系统调用,而传统文件操作则需要使用 read 以及 write 两个系统调用。

正因为如此,sendfile 能够将用户态与内核态之间的上下文切换从 4 次降到 2 次。

在这里插入图片描述

sendfile 系统调用仅仅需要两次上下文切换

另一方面,我们需要注意 sendfile 系统调用的局限性。如果应用程序需要对从磁盘读取的数据进行写操作,例如解密或加密,那么 sendfile 系统调用就完全没法用。这是因为用户线程根本就不能够通过 sendfile 系统调用得到传输的数据。

mmap

定义

mmap(Memory Mapped Files)是一种零拷贝技术,学名内存映射文件,Java中的实现就是MappedByteBuffer,通过channel#map方法得到。

mmap将一个文件(或者文件的一部分)映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间地址的一一对映关系。注意这时候没有分配和映射到具体的物理内存空间,而是到第一次加载这个文件的时候,通过MMU把之前虚拟地址换算成物理地址,把文件加载进物理内存——内核空间的Page Cache中

实现这样的映射关系后,进程就可以采用指针的方式读写操作这一段内存,而系统会自动回写脏页面到对应的文件磁盘上,即完成了对文件的操作而不必再调用 read,write 等系统调用函数。相反,内核空间对这段区域的修改也直接反映用户空间,从而可以实现不同进程间的文件共享。

简单的说,使用mmap之后,数据无需拷贝到用户空间中,应用程序可以直接操作Page Cache中的数据。

在这里插入图片描述

优缺点

这种mmap+write的方式相比于传统IO少了一次CPU Copy,从而极大地提高了效率。虽然性能弱于sendfile零拷贝,但其好处是可以在中途修改内存中的数据之后再传输。

另外,==支持修改数据后的持久化。==当应用程序往 mmap 输出数据时,此时就直接输出到了内核态的缓冲区数据,如果此时输出设备是磁盘的话,不会立即写磁盘,linux系统下通常会间隔是30秒由操作系统自动落盘,也可手动调用fsync()函数让其立即落盘,实现真正的持久化。

Direct I/O

定义

Direct I/O 即直接 I/O。其名字中的”直接”二字用于区分使用 page cache 机制的缓存 I/O。

  • 缓存文件 I/O:用户空间要读写一个文件并不直接 与磁盘交互,而是中间夹了一层缓存,即 page cache;
  • 直接文件 I/O:用户空间读取的文件直接 与磁盘交互,没有中间 page cache 层;

“直接”在这里还有另一层语义:其他所有技术中,数据至少需要在内核空间存储一份,但是在 Direct I/O 技术中,数据直接存储在用户空间中,绕过了内核。

Direct I/O 模式如下图所示:

在这里插入图片描述

此时用户空间直接通过 DMA 的方式与磁盘以及网卡进行数据拷贝。

Direct I/O 的读写非常有特点 :

Write 操作:由于其不使用 page cache,所以其进行写文件,如果返回成功,数据就真的落盘了(不考虑磁盘自带的缓存);

Read 操作:由于其不使用 page cache,每次读操作是真的从磁盘中读取,不会从文件系统的缓存中读取。

事实上,即使 Direct I/O 还是可能需要使用操作系统的 fsync 系统调用。为什么?

这是因为虽然文件的数据本身没有使用任何缓存,但是文件的元数据仍然需要缓存,包括 VFS 中的 inode cache 和 dentry cache 等。

在部分操作系统中,在 Direct I/O 模式下进行 write 系统调用能够确保文件数据落盘,但是文件元数据不一定落盘。如果在此类操作系统上,那么还需要执行一次 fsync 系统调用确保文件元数据也落盘。否则,可能会导致文件异常、元数据确实等情况。MySQL 的 O_DIRECT 与 O_DIRECT_NO_FSYNC 配置是一个具体案例[9]。

优缺点

优点
  • Linux 中的直接 I/O 技术省略掉缓存 I/O 技术中操作系统内核缓冲区的使用,数据直接在应用程序地址空间和磁盘之间进行传输,从而使得自缓存应用程序可以省略掉复杂的系统级别的缓存结构,而执行程序自己定义的数据读写管理,从而降低系统级别的管理对应用程序访问数据的影响 。

  • 与其他零拷贝技术一样,避免了内核空间到用户空间的数据拷贝,如果要传输的数据量很大,使用直接 I/O 的方式进行数据传输,而不需要操作系统内核地址空间拷贝数据操作的参与,这将会大大提高性能。

缺点
  • 由于设备之间的数据传输是通过 DMA 完成的,因此用户空间的数据缓冲区内存页必须进行 page pinning(页锁定) ,这是为了防止其物理页框地址被交换到磁盘或者被移动到新的地址而导致 DMA 去拷贝数据的时候在指定的地址找不到内存页从而引发缺页错误,而页锁定的开销并不比 CPU 拷贝小,所以为了避免频繁的页锁定系统调用,应用程序必须分配和注册一个持久的内存池,用于数据缓冲。
  • 如果访问的数据不在应用程序缓存中,那么每次数据都会直接从磁盘进行加载,这种直接加载会非常缓慢。
  • 在应用层引入直接 I/O 需要应用层自己管理,这带来了额外的系统复杂性。

如何使用 Direct I/O

用户应用需要实现用户空间内的缓存区,读/写操作应当尽量通过此缓存区提供。如果有性能上的考虑,那么尽量避免频繁地基于 Direct I/O 进行读/写操作。

应用

Kafka

  • 生产者写入消息使用mmap方式。数据从Producer到Broker,需要将来自网卡的消息持久化的磁盘中,Kafka中采用mmap的方式写,并且不会立即持久化到磁盘中,而是存入page cache内核缓冲区中就直接返回成功。后续有消费者来拉取消息的时候,也是先冲缓冲区中查找消息,如果有就直接发送给消费者,不会再查找磁盘,又提升了拉消息的性能。实际上它的日志文件并没有用到 mmap,而索引文件用了 mmap。

  • 消费者读取消息使用sendfile方式。 数据从Broker到Consumer,需要将磁盘中的消息通过网卡发送出去,Kafka中采用sendfile的方式,将磁盘文件读到OS内核缓冲区后,直接转到socket buffer进行网络发送。

RocketMQ

无论是消息存储还是消费,都是采用mmap的方式,并且通过预热来减少大文件 mmap 因为缺页中断产生的性能问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/461104.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis命令及不同类型数据的应用场景

文章目录 本章要点基本命令心跳命令ping读写键值命令DB切换select查看key数量 dbsize删除当前库数据flushdb删除所有库数据flushall退出客户端命令 Key操作命令String型Value操作命令典型应用场景 Hash型Value操作命令应用场景 List型Value操作命令应用场景 Set型Value操作命令…

麻了,部门新来的00后给我卷崩溃了...

今天上班开早会就是新人见面仪式&#xff0c;听说来了个很厉害的大佬&#xff0c;年纪还不大&#xff0c;是上家公司离职过来的&#xff0c;薪资已经达到中高等水平&#xff0c;很多人都好奇不已&#xff0c;能拿到这个薪资应该人不简单&#xff0c;果然&#xff0c;自我介绍的…

前端工程化知识总结

1.webpack 和 gulp 区别 gulp&#xff08;流&#xff09;主要指前端开发的工作流程&#xff0c;通过配置一系列的task&#xff0c;定义task处理的事务(例如文件压缩合并、雪碧图、启动server、版本控制等)&#xff0c;再定义执行顺序&#xff0c;让gulp执行 task&#xff0c;从…

【WCH】CH32F203基于内部RTC+I2C SSD1306 OLED时钟和温度显示

【WCH】CH32F203基于内部RTCI2C SSD1306 OLED时钟和温度显示 &#x1f4cc;相关篇《【WCH】CH32F203基于内部RTC时钟I2C SSD1306 OLED显示》&#x1f4fa;显示效果&#xff1a; ✨主要是在其基础 上增加温度显示&#xff0c;温度数据来源于DS18B20&#xff0c;更换了OLED驱动显…

19.Java文件操作---I/O流

Java文件操作—I/O流 流(stream)的概念源于UNIX中管道(pipe)的概念。在UNIX中&#xff0c;管道是一条不间断的字节流&#xff0c;用来实现程序或进程间的通信&#xff0c;或读写外围设备、外部文件等。一个流&#xff0c;必有源端和目的端&#xff0c;它们可以是计算机内存的某…

c++ 虚基类(好理解)

当有类Base&#xff0c;类Base1继承了Base&#xff0c;Base2也继承了Base&#xff0c;Derived 类多继承了Base1和Base2 也就是呈现如图一种继承关系 如果Base类有一个public的 int a &#xff0c;在Derived里面要访问这个a&#xff0c;就必须指定是哪个类的a&#xff08;Base1…

2023年的深度学习入门指南(8) - CUDA编程基础

2023年的深度学习入门指南(8) - CUDA编程基础 上一篇我们走马观花地看了下SIMD和GPGPU的编程。不过线条太粗了&#xff0c;在开发大模型时遇到问题了肯定还会晕。 所以我们还是需要深入到CUDA中去探险一下。 获取CUDA设备信息 在使用CUDA设备之前&#xff0c;首先我们得获取…

Linux网络——PXE高效批量网络装机

Linux网络——PXE高效批量网络装机 一、PXE远程安装服务1.PXE批量部署的优点2.搭建PXE网络体系的安装条件 二、PXE 安装进行前的配置1.PXE装机所需的文件2.搭建 PXE 过程中使用的服务和程序①.DHCP服务②.vsftpd服务③.TFTP服务④.syslinux 三、搭建 PXE 远程安装服务器1.安装相…

使用PCL过程中报出的aligned_free问题记录

近期在使用PCL库的过程中碰到了程序崩溃的问题&#xff0c;花了两三天的时间一直在解决该问题。 环境配置&#xff1a; Windows11 PCL 1.12.1 VTK 9.1 VS2019 爆出的问题&#xff1a; 在Memory.h文件的下述代码处爆出问题 /** \internal Frees memory allocated with aligne…

【Python】一文了解Time模块、Datatime模块、Calendar模块。

作者主页&#xff1a;爱笑的男孩。的博客_CSDN博客-深度学习,活动,YOLO领域博主爱笑的男孩。擅长深度学习,活动,YOLO,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typecollect个人…

Twitter推荐算法解读

Twitter推荐算法解读 最近 Twitter 开源了其最宝贵的财产——推荐算法&#xff01; 每天&#xff0c;人们会在 Twitter 上发布超过 5 亿条推文&#xff0c;Twitter 会向用户推送超过 1500 亿条推文。Twitter 的推荐算只会向用户推荐少数与其相关且有吸引力的热门推文。跟抖音…

Android类似微信首页的页面开发教程(Kotlin)二

前提条件 安装并配置好Android Studio Android Studio Electric Eel | 2022.1.1 Patch 2 Build #AI-221.6008.13.2211.9619390, built on February 17, 2023 Runtime version: 11.0.150-b2043.56-9505619 amd64 VM: OpenJDK 64-Bit Server VM by JetBrains s.r.o. Windows 11 …

信息安全复习九:身份认证

一、章节梗概 1.身份认证的基本概念 2.基于口令的身份认证&#xff1a;Unix口令&#xff0c;动态口令 3.基于密码的身份认证技术 ①.质询与应答认证技术 ②.Needham-Schroeder 协议 ③.KERBEROS协议 二、身份认证的基本概念 2.1 定义 宣称者向验证方出示证据&#xff0c;证…

【HTML+CSS+JS】登录注册页面大合集

前言 学JS也学了一段时间&#xff0c;正巧碰上了人工智能要调用人脸识别接口进行真人人脸识别&#xff0c;于是便萌生了用人脸来进行注册和登录的想法&#xff0c;这样的话就需要开发一个登录注册页面&#xff0c;然后用JS绑定注册事件调用人脸识别接口进行登录注册 饭要一口一…

【Shell编程规范与变量】

目录 一、Shell脚本的概述二、Shell的作用2.1、用户的登录Shell2.2、Shell脚本的分类 三、Shell脚本的构成1、编写shell脚本的规范2、运行shell脚本3、方法一 、指定路径命令&#xff0c;要求文件必须有 x 权限4、方法二 、指定shell来解释脚本&#xff0c;不要求文件必须要有 …

波奇学Linux:Linux基本指令

上文回顾&#xff1a;波奇学Linux&#xff1a;认识Linux和使用云服务器 本文再上文的基础上&#xff0c;学习Linux的基本指令 xhell:进入/退出全屏操作&#xff1a;alt enter 清空页面&#xff1a;clear 查看目录 pwd(print working directory):查看当前目录 ls(list)&am…

P1033 [NOIP2002 提高组] 自由落体

题目描述 在高为 &#xfffd;H 的天花板上有 &#xfffd;n 个小球&#xff0c;体积不计&#xff0c;位置分别为 0,1,2,⋯ ,&#xfffd;−10,1,2,⋯,n−1。在地面上有一个小车&#xff08;长为 &#xfffd;L&#xff0c;高为 &#xfffd;K&#xff0c;距原点距离为 &…

【十进制 转 二进制】【二进制 转 十进制】10进制 VS 2进制【清华大学考研机试题】

10进制 VS 2进制 十进制转成二进制二进制 转成 十进制本题是高精度&#xff0c;如何做&#xff1f; 原题链接 本题我们先需要知道 十进制 如何转 二进制 二进制 如何转 十进制 十进制 如何转 二进制&#xff1a; 十进制转成二进制 例如 173 转成 二进制 就把173 短除法 除…

软件测试项目去哪里找?我都给你整理好了【源码+操作视频】

目录 一、引言 二、测试任务 三、测试进度 四、测试资源 五、测试策略 六、测试完成标准 七、风险和约束 八、问题严重程度描述和响应时间规范 九、测试的主要角色和职责 ​有需要实战项目的评论区留言吧&#xff01; 软件测试是使用人工或者自动的手段来运行或者测定…

updateByPrimaryKey和updateByPrimaryKeySelective的区别

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl MyBatis Generator概述 MyBatis Generator是一个专门为MyBatis框架使用者定制的代码生成器&#xff0c;它可以快速的根据表生成对应的映射文件、接口文件、POJO。而且&#…