零拷贝(Zero Copy)

news2024/11/15 20:00:17

目录

零拷贝(Zero Copy)

1.什么是Zero Copy?

2.物理内存和虚拟内存

3.内核空间和用户空间

4.Linux的I/O读写方式

4.1 I/O中断原理

4.2 DMA传输原理

5.传统I/O方式

5.1传统读操作

5.2传统写操作

6.零拷贝

6.1.用户态直接IO

6.2.mmap+write

6.3. sendfile

6.4. sendfile+DMA gather copy

6.5 splice

7.Linux零拷贝对比

8.零拷贝具体应用实现


零拷贝(Zero Copy)

1.什么是Zero Copy?

零拷贝技术指的是在计算机执行操作时,CPU不需要先将数据从一个内存区域复制到另一个内存区域,从而可以减少上下文以及CPU的拷贝时间。

他的作用是在数据报从网络设备到用户程序空间传递的过程,减少数据拷贝的次数,减少系统调用,实现CPU的零参与,彻底消除CPU在这方面的负载,实现零拷贝的最主要的技术就是DMA数据传输技术内存区域映射技术

  • 零拷贝就是可以减少数据在用户缓冲区和内核缓冲区之间的反复的I/O拷贝操作。

  • 零拷贝机制可以减少用户进程地址空间和内核地址空间之间因为上下文切换带来的CPU开销。

为什么线程切换会导致用户态与内核台的切换?  
因为线程的调度是在内核态运行的,而线程中的代码是在用户态运行。

2.物理内存和虚拟内存

由于操作系统的CPU和内存是共享的,因此需要一套完整的内存管理机制防止内存泄漏的问题。现代操作系统提供了一种对主存的抽象概念:既是虚拟内存,虚拟内存为每个进程提供了一个一致的,私有的地址空间,让每个进程都产生了一种自己独享主存的错觉。

3.内核空间和用户空间

操作系统的内核空间是独立于普通的程序的空间,可以访问显卡等受保护的资源也可以访问底层硬件的设备的权限。是为了防止用户直接操作内核,保证系统安全。操作系统将虚拟内存划分为两部分,一部分是内核空间,一部分是用户空间。

Linux系统中,内核模块运行在内核空间,对应的进程处于内核态;用户进程运行在用户空间,对应的进程是用户态。

4.Linux的I/O读写方式

Linux提供了轮询,I/O中断,DMA传输三中国主存之间的数据传输协议。

  • 轮询:是基于死循环对I/O端口进行不断检测。

  • I/O中断:是指的是数据到达时,磁盘主动向CPU发起中断请求,CPU自身负责数据的传输。

  • DMA传输:是指数据到达后由DMA负责数据的传输拷贝,完成后通知CPU。

4.1 I/O中断原理

在DMA出现之间,应用程序与磁盘之间的I/O操作都是磁盘发起CPU中断,每次用户进程读取磁盘时,都需要CPU中断,然后发起IO请求等待数据的读取与拷贝完成,每次的IO中断都会导致CPU的上下文切换。(不太理解)

流程:

  1. 用户进程向CPU发起read()系统调用,由用户态转换为内核态,然后一直阻塞等待数据的返回。

  2. CPU发接受到指令后发起IO请求,磁盘将数据放入磁盘控制器缓冲区中。

  3. 数据准备完成后磁盘向CPU发起IO中断信号。

  4. CPU接收到IO中断后将磁盘控制器缓冲区的数据拷贝到内核缓冲区,再将数据从内核缓冲区拷贝到用户缓冲区。

  5. 用户进程由内核态转换为用户态,解除阻塞状态,等待CPU的下一个执行时间钟。

4.2 DMA传输原理

DMA的全称叫直接内存访问(Direct Memory Access),是一种允许外围设备直接访问主存的机制。也就是说基于DMA访问方式,系统主内存于磁盘和显卡之间的数据传输可以绕开CPU的全程调度,目前大多数硬件设备包括磁盘控制器,网卡,显卡,以及声卡都支持DMA技术.

整个数据在传输操作在一个DMA控制器的控制下进行的。CPU除了在数据开始传输和结束时做一点处理外,在传输的过程中CPU可以继续进行其他工作。这样大部分时间里,CPU计算和I/O操作都属于并行操作。使得效率大大提升。

  1. 用户态发起read()系统调用,进入内核态,用户态线程阻塞。

  1. CPU发起IO请求通知DMA,DMA发起IO请求给磁盘,磁盘将数据加载到磁盘控制器缓冲,通知DMA,DMA将磁盘控制器中的数据拷贝到内核缓冲区中。DMA发出数据读完信号。

  2. CPU将数据从内核缓冲区读取到用户缓冲区,之后read()系统调用完之后回到用户态,恢复就绪准备获取时间片后执行。

5.传统I/O方式

对于传统的IO操作的数据读写流程,整个过程涉及2次CPU拷贝,2次DMA拷贝,四次上下文切换。

  • 上下文切换:用户程序发起系统调用后,CPU会将用户程序从用户态切换到内核态;系统调用结束返回后,cpu从内核态切换回用户态。

  • CPU拷贝:数据的传输依靠CPU处理,数据拷贝一直占据CPU的资源。

  • DMA拷贝:数据通知DMA磁盘控制器下达指令,让DMA控制器控制数据的传输,数据传输完毕后再把信息反馈给CPU,减轻CPU的占用率。

5.1传统读操作

传统的读操作会进行2次系统调用,1次CPU传输,1次DMA拷贝。

  1. 用户态通过read系统调用进入内核态,

  2. CPU利用DMA控制器,将数据从主存或硬盘拷贝到内核空间的读缓冲区

  3. CPU再将读内核缓冲区拷贝到用户缓冲区。

  4. 上下文切换回到用户态,read调用执行返回。

5.2传统写操作

同理。

6.零拷贝

用户态直接I/O: 应用程序直接访问硬件存储,操作系统只是辅助数据传输,这种方式依旧存在上下文切换,只不过硬件的数据不经过内核缓冲区。因此直接IO不存在内核空间到用户空间的CPU拷贝。

如下图:

减少拷贝次数:在数据传输过程中,避免数据在用户空间和内核空间的CPU拷贝,以及数据在内核空间的CPU拷贝。这时当前主流的零拷贝技术的实现思路。

写时复制技术:写时复制技术,是当多个进程读取一块数据的时候,不需要拷贝操作,当某个进程要修改数据,那么需要拷贝到自己的进程空间中。

6.1.用户态直接IO

用户通过直接IO使用用户态的库函数直接访问硬件设备。数据跨过内核传输。如果内核极大提高性能。

用户态直接IO只能适用于不需要内核缓冲区的应用程序,这写应用程序通常在进程地址空间有自己的数据缓冲机制,称为自缓存应用程序。如数据库管理系统。

其次,这种零拷贝机制会直接操作磁盘I/O,由于CPU和磁盘I/O之间的执行时间差距,会造成大量资源浪费,解决方案是配合异步IO。

6.2.mmap+write

一种零拷贝是使用mmap+write替换原来的read+write的方式,减少了一次CPU拷贝操作。mmap是Linux提供的一种内存映射文件的方式,将一个进程的虚拟内存地址映射到磁盘文件地址。

mmap+write的伪代码:
​
tmp_buf=mmap(file_fd,len);
​
write(socket,tmp_buf,len);

使用mmap的方式就是将内核缓冲区的地址与用户缓冲区的地址进行映射,从而实现内核缓冲区到用户缓冲区的内存共享。省去数据从内核缓冲区拷贝到用户缓冲区的过程。

基于mmap+write系统调用的零拷贝技术。整个拷贝过程会发生4次上下文切换,一次CPU拷贝,2次DMA拷贝。

用户进程读写数据流程如下:

  1. 用户进程通过mmap函数向内核发起系统调用,由用户态切换为内核态。

  2. 将用户缓冲区和内核缓冲区进行mmap地址映射。

  3. CPU利用DMA拷贝数据从磁盘或主存到内核的读缓冲区。

  4. 上下文切换回到用户态,mmap系统调用返回。

  5. 用户进程通过wirte向内核发起系统调用,上下文从用户态切换为内核态。

  6. CPU将读缓冲区的数据拷贝到网络缓冲区。

  7. CPU利用DMA控制器将数据从网络缓冲区拷贝到网卡,进行数据传输。

  8. 上下文从内核态切换回用户态,wirte系统调用结束返回。

优点

针对大文件可以极大的提高IO性能,但是对于小文件,内存映射反而会导致碎片空间的浪费。

6.3. sendfile

sendfile系统调用是Linux2.1引入的目的简化网络通过两个通道之间的数据传输过程。sendfile系统调用的引用减少了两次上下文切换。

伪代码如下:
​
•   sendfile(socket_fd,file_fd,len);

通过sendfile的系统调用,数据可以直接在内核空间进行IO传输,省区了用户空间和内核空间来回拷贝。与mmap不同的是,sendfile调用IO数据对于用户空间来说是完全不可见的,也就是一次完全意义上的数据传输过程。

基于sendfile系统调用的零拷贝技术,整个拷贝过程会发生2次上下文切换,一次CPU拷贝,两次DMA拷贝。

流程如下:

  1. 用户进程通过sendfile函数向内核发起系统调用,上下文切换进入内核态。

  2. CPU利用DMA将主存或磁盘数据拷贝到内核空间的读缓冲区。

  3. CPU的内核读缓冲区拷贝数据到网络缓冲区socket buffer

  4. CPU利用DMA将数据从网络缓冲区传输到网卡。

  5. 系统上下文切换用户态。之后sendfile系统调用结束返回。

相较于mmap内存映射的方式,sendfile减少了两次系统调用,但仍有一次CPU拷贝操作。

sendfile存在的问题就是用户进程不能对数据进行修改(压缩,加密),只能丹村的完成一次数据传输

6.4. sendfile+DMA gather copy

Linux 2.4 版本的内核对sendfile系统调用进行修改,为DMA拷贝引入了gather操作。

他将内核空间的读缓冲区中对应的数据描述信息(内存地址,地址偏移量)记录到相应的网络缓冲区中,

由DMA根据内存地址,地址偏移量将数据批量从读缓冲区拷贝到网卡,这样就省去了内核空间仅剩的一次CPU拷贝操作。

sendfile的伪代码如下:
​
sendfile(socket_fd,file_fd,len)

基于sendfile+DMA gather copy系统拷贝,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。

流程如下:

  1. 用户进程发起sendfile函数系统调用向内核,上下文切换到内核态。

  2. CPU利用DMA将数据从主存或磁盘缓冲区拷贝到内核缓冲区。

  3. CPU将读缓冲区的文件描述符和文件长度拷贝到网络缓冲区

  4. 基于已经拷贝到文件描述符和文件长度,CPU利用DMA控制器的gather /scatter操作直接批量的从内核的读缓冲区拷贝到网卡进行数据传输。

  5. 上下文切换从内核态切换用户态,sendfile系统调用执行返回

这种拷贝方式同样存在用户进程不能对数据进行修改的问题,而且本身需要硬件的支持,只适用于将数据从文件拷贝到socket套接字上的传输过程。

6.5 splice

sendfile只适用于将数据从文件拷贝到socket套接字上,同时支持硬件的传输。这也限定了它的使用范围。

Linux2.6.17版本引入了splice系统调用,不仅不需要系统硬件的支持,还实现了文件描述符之间的数据零拷贝(就是C:->D:)

splice的伪代码
​
splice(fd_in,off_in,fd_out,off_out,len,flags);

splice系统调用可以在内核空间的读缓冲区和网络缓冲区之间建立管道(pipeline),从而避免二者之间的CPU拷贝操作。

基于splice系统调用的零拷贝方式,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。

流程:

  1. 用户进程通过splice函数向内核发起系统调用,上下文从用户态切换为内核态。

  2. CPU利用DMA将数据从磁盘或主存中拷贝到内核的读缓冲区中。

  3. CPU在内核的读缓冲区与socket缓冲区建立管道(pipeline)

  4. CPU利用DMA控制器,将数据从网络缓冲区拷贝到网卡进行传输。

  5. 上下文切换从内核切换回到用户态,splice系统调用执行结束。

7.Linux零拷贝对比

无论是传统的IO拷贝方式还是引入了零拷贝,2次DMA Copy都是少不了的,因为两次DMA都是依赖硬件完成的,下面从CPU拷贝次数,DMA拷贝次数,以及系统调用几个方面总结上述io拷贝的差别:

拷贝方式CPU拷贝DMA拷贝系统调用上下文切换
传统方式read+write22read/write4
内存映射mmap+write12mmap/write4
sendfile12sendfile2
sendfile+DMA gather copy02sendfile2
splice02splice2

8.零拷贝具体应用实现

  • Java NIO零拷贝

    • 基于内存映射的(mmap) 方式 MappedByteBuffer

    • 基于sendfile方式的FileChannel

  • Netty 零拷贝

  • RocketMQ 和 Kafka 零拷贝

    • RocketMq选择了mmap+write这种零拷贝方式,适用于业务级别的小块文件持久化和传输

    • 而Kafka采用的sendfile这种零拷贝,适用于系统日志消息这种高吞吐量的大文件的数据持久化和传输。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1706364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机图形学入门02:线性代数基础

1.向量(Vetors) 向量表示一个方向,还能表示长度(向量的摸)。一般使用单位向量表示方向。 向量加减:平行四边形法则、三角形法则。比卡尔坐标系描述向量,坐标直接相加。 1.1向量点乘(…

帆软报表点击表格给数据集传递参数案例

一、效果 有四个模块,分别是采购总金额,采购总数量,采购合同数量,采购合同申请数量通过点击单元格上的月份,展示不同的月份数据,进行单元格和表格之间的联动 二、准备好数据库表和展示数据内容 2.1 建表 …

英语四级翻译练习笔记③——大学英语四级考试2023年12月真题(第三套)

目录 引言(必看) 四级翻译评分标准分析及真题解析 四级翻译评分标准 四级翻译真题 学生作答 1. 评分 2. 修正翻译中的错误 错误标记: 3. 改正句子 4. 标出错误单词 5. 标准答案 6. 常考万能句子 7.重点单词的中文意思 引言&…

Excel未响应时强关后,Excel插件消失

目录 我们分析一下插件消失的原因: 针对上面表现出来的2个问题,进行针对性的解决 : 1、不被关进去,是不是就没有后续的一系列的问题了,各自安好 2、保留住自动加载的行为 PS:配置受信任的位置注册列表…

【K8s】专题四(1):Kubernetes 控制器简介

以下内容均来自个人笔记并重新梳理,如有错误欢迎指正!如果对您有帮助,烦请点赞、关注、转发!欢迎扫码关注个人公众号! 目录 一、基本概念 二、工作原理 三、常见类型 四、相关特性 一、基本概念 Kubernetes 控制器…

Python考试练习题---day1

1.计算2的n次幂结果的后3位 获得用户输入的一个数字N,计算并输出2的N次幂结果的后3位。 【输出样例】-----因为2的10次方等于1024 输入10输出024 ninput() print(str(2**eval(n))[-3:]) 2.分割四位正整数 例1: 编写程序,提示用户从键盘…

[Redis]String类型

基本命令 set命令 将 string 类型的 value 设置到 key 中。如果 key 之前存在,则覆盖,无论原来的数据类型是什么。之前关于此 key 的 TTL 也全部失效。 set key value [expiration EX seconds|PX milliseconds] [NX|XX] 选项[EX|PX] EX seconds⸺使用…

vscode+docker搭建迷你开发环境。制作docker镜像,并通过vscode连接后进行开发

制作自己的docker镜像,将docker镜像作为服务器,接受vscode连接 目录 1. 制作开发环境镜像 1.1 选择基础镜像 1.2 编写dockerfile 1.3 构建镜像 2. 启动镜像 3. 添加用户 3.1 查看物理机上用户信息 3.2 登录到docker中 3.3 按照物理机的用户和组…

在visual studio 2022中编译yaml-cpp 32位静态库的严重踩坑问题解决过程

使用vcpkg 引入yaml-cpp把程序调试好了,但是分发的时候不想带着yaml-cpp的动态链接库文件,所以参考网上的文章想进行程序的静态编译,关于如何编译yaml-cpp的静态库网上有很多文章,而且去看yaml-cpp的github官方说明文件人家说你啥都不干就是默认编译为静态库了,好家伙,兴…

MySQL主从复制故障:“ Slave_SQL_Running:No“ 两种解决办法

问题 今天搭建MySQL的主从复制,查看从机状态时show slave status\G,发现这个参数为NO,导致主从复制失败。 Slave_SQL_Running: No 后面上网查阅了一下资料,大概就是因为在连接支持数据库后,也就是这个命令后&#xff…

Python 应用开发:Streamlit 布局篇(容器布局)

st.columns 以并列方式插入容器。 插入若干并排排列的多元素容器,并返回一个容器对象列表。 要在返回的容器中添加元素,可以使用 with 符号(首选)或直接调用返回对象的方法。请参见下面的示例。 列只能放置在其他列的内部&…

word如何创造新的格式标题

1 效果如下:(标题命名默认音序排序) 2 创建 选中自己喜欢的标题,修改字号字体,then 3 修改 注意要点如下: 后续:以上操作可能导致后续一级标题不能折叠二级标题,目录导航栏也不能…

QListWidget详解

QListWidget详解 QListWidget 是 PyQt5 中一个方便的部件,用于创建和管理列表。它继承自 QListView,并提供了一些高级功能,使得添加和管理列表项更加简单。以下是 QListWidget 的详解,包括基本用法、主要方法和属性以及如何与其他…

张驰咨询:六西格玛培训,IT界的“福尔摩斯”

六西格玛,这个曾以制造业为背景的管理理念,如今却在IT领域大放异彩。其背后的原因,不仅仅是因为六西格玛追求零缺陷、持续改进的核心价值观与IT行业对产品质量和用户体验的极致追求不谋而合,更是因为它提供了一种全新的思维方式和…

全球首个,985重大突破!

据长江日报消息,今年7月,华中科技大学团队研发的全球首台用于肌骨的新式B超将正式进入临床阶段,刚刚完成临床、用于乳腺的B超也即将上市。 据了解,华中科技大学生物医学工程学院丁明跃、尉迟明教授团队,自2010年以来一…

调试面对面翻译小程序

调试面对面翻译小程序 文章目录 调试面对面翻译小程序预览1.拉取项目2.在微信开发者工具打开使用 微信版本要求微信同声传译插件支持功能 此demo用于学习 预览 1.拉取项目 git clone https://github.com/Tencent/Face2FaceTranslator或者(加速镜像) git …

905. 按奇偶排序数组 - 力扣

1. 题目 给你一个整数数组 nums,将 nums 中的的所有偶数元素移动到数组的前面,后跟所有奇数元素。 返回满足此条件的 任一数组 作为答案。 2. 示例 3. 分析 开辟一个数组res用来保存操作过后的元素。第一次遍历数组只插入偶数,第二次遍历数组…

【Spring-01】BeanFactory和ApplicationContext

【Spring-01】BeanFactory和ApplicationContext 1. 容器接口1.1 什么是 BeanFactory1.2 BeanFactory 能做什么? 1. 容器接口 以 SpringBoot 的启动类为例: /*** BeanFactory 与 ApplicationContext的区别*/ SpringBootApplication public class Spring…

拉普拉斯IPO:新能源产业快速发展,为低碳转型注入强劲动力

近年来,我国新能源产业快速发展,为全球绿色低碳转型注入强劲动力。国际人士认为,中国新能源产业快速发展,得益于超大规模市场优势、完整的工业体系和丰富的人力资源,得益于企业对研发创新的巨大投入,我国市…

安装PyTorch详细步骤

💥注意事项: CPU版和GPU版选一个进行安装即可 如果有Nvidia显卡,则安装cuda版本的PyTorch,如没有nvidia显卡,则安装cpu版。 目前常见的深度学习框架有很多,最出名的是:PyTorch(faceb…