Linux I/O神器之io_uring

news2024/9/27 5:31:15

io_uring 是 Linux 于 2019 年加入到内核的一种新型异步 I/O 模型,io_uring 主要为了解决 原生AIO(Native AIO) 存在的一些不足之处。下面介绍一下原生 AIO 的不足之处:

  • 系统调用开销大:提交 I/O 操作和获取 I/O 操作的结果都需要通过系统调用完成,而触发系统调用时,需求进行上下文切换。在高 IOPS(Input/Output Per Second)的情况下,进行上下文切换也会消耗大量的CPU时间。
  • 仅支持 Direct I/O(直接I/O):在使用原生 AIO 的时候,只能指定 O_DIRECT 标识位(直接 I/O),不能借助文件系统的页缓存(page cache)来缓存当前的 I/O 请求。
  • 对数据有大小对齐限制:所有写操作的数据大小必须是文件系统块大小(一般为4KB)的倍数,而且要与内存页大小对齐。
  • 数据拷贝开销大:每个 I/O 提交需要拷贝 64+8 字节,每个 I/O 完成结果需要拷贝 32 字节,总共 104 字节的拷贝。这个拷贝开销是否可以承受,和单次 I/O 大小有关:如果需要发送的 I/O 本身就很大,相较之下,这点消耗可以忽略。而在大量小 I/O 的场景下,这样的拷贝影响比较大。

鉴于原生 AIO 存在这么多不足之处,于是乎 Jens Axboe(io_uring 作者)就开发出一套全新的异步 I/O 接口来解决这些问题。

既然 io_uring 这么优秀,我们就来学习一下其先进思想吧!下面将会介绍 io_uring 的原理。io_uring 的出现就是为了解决上面的问题,我们来看看 io_uring 是怎么处理的。

1. 减少系统调用

由于调用系统调用时,会从用户态切换到内核态,从而进行上下文切换,而上下文切换会消耗一定的 CPU 时间。

使用 read() 和 write() 等系统调用进行 I/O 操作时,会从用户态嵌入到内核态,如下图所示:

io_uring 为了减少或者摒弃系统调用,采用了用户态与内核态 共享内存 的方式来通信。如下图所示:

用户进程可以向 共享内存 提交要发起的 I/O 操作,而内核线程可以从 共享内存 中读取 I/O 操作,并且进行相关的 I/O 操作。

用户态对共享内存进行读写操作是不需要使用系统调用的,所以不会发生上下文切换的情况。

2. 提交队列与完成队列

前面介绍过,io_uring 通过用户态与内核态共享内存的方式,来免去了使用系统调用发起 I/O 操作的过程。

io_uring 主要创建了 3 块共享内存:

  • 提交队列(Submission Queue, SQ):一整块连续的内存空间存储的环形队列,用于存放将执行 I/O 操作的数据(指向提交队列项数组的索引)。
  • 完成队列(Completion Queue, CQ):一整块连续的内存空间存储的环形队列,用于存放 I/O 操作完成后返回的结果。
  • 提交队列项数组(Submission Queue Entry,SQE):提交队列中的一项。

它们之间的关系如下图所示:

提交队列

在内核中,使用 io_sq_ring 结构来表示 提交队列,其定义如下:

struct io_sq_ring {
    struct io_uring {
        u32 head;
        u32 tail;
    }                   r;             // 使用head和tail指针来模拟环形操作
    ...
    u32                 ring_entries;  // 队列中的提交项总数
    ...
    u32                 flags;
    u32                 array[];       // 环形队列数组(指向提交队列项数组的索引)
};

io_sq_ring 结构各个字段的含义如下:

  • head:环形队列的头指针。
  • tail:环形队列的尾指针。
  • ring_entries:队列中已存在的 I/O 操作项总数。
  • array:环形队列数组,指向提交队列项数组的索引。

io_sq_ring 的结构图如下所示:

内核会将 io_sq_ring 结构映射到应用程序的内存空间,这样应用程序与内核都能操作 io_sq_ring 结构。应用程序可以直接向 io_sq_ring 结构的环形队列中提交 I/O 操作,而不用通过系统调用来提交,从而避免了上下文切换的发生。

而内核线程可以通过从 io_sq_ring 结构的环形队列中获取到要进行的 I/O 操作,并且发起 I/O 请求。

提交队列项

从上面的分析可知,io_sq_ring 结构 array 字段只是一个整形类型的数组,用于存储指向 提交队列项数组 的的索引。在内核中,提交队列项 使用 io_uring_sqe 结构表示,其定义如下:

struct io_uring_sqe {
    __u8    opcode;     /* type of operation for this sqe */
    ...
    __u16   ioprio;     /* ioprio for the request */
    __s32   fd;         /* file descriptor to do IO on */
    __u64   off;        /* offset into file */
    __u64   addr;       /* pointer to buffer or iovecs */
    __u32   len;        /* buffer size or number of iovecs */
    ...
};

下面介绍一下 io_uring_sqe 结构各个字段的作用:

  • opcode:I/O 操作码,主要用于表示当前的 I/O 操作是什么类型,如读、写或者同步等。
  • ioprio:I/O 操作的优先级,可以通过此字段来把一些重要的 I/O 操作提前执行。
  • fd:I/O 操作对应的文件句柄。
  • off:当前 I/O 操作的偏移量。
  • addr:用于指向当前 I/O 操作所关联的内存地址。如写操作,指向的是要写入到文件的内容的内存地址。
  • len:表示当前 I/O 操作的数据长度。

当用户调用 io_uring_setup() 系统调用创建一个 io_ring 对象时,内核将会创建一个类型为 io_uring_sqe 结构的数组。内核也会将此数组映射到应用程序的内存空间,这样应用程序就可以直接操作这个数组。

应用程序提交 I/O 操作时,先要从 提交队列项数组 中获取一个空闲的项,然后向此项填充数据(如 I/O 操作码、要进行 I/O 操作的文件句柄等),然后将此项在 提交队列项数组 的索引写入 提交队列 中。

liburing 代码库已经把这些繁琐的操作封装成友好的 API,用户只需要直接调用这些 API 来进行操作即可。
关于 liburing 代码库的使用,可以参考其使用手册,本文不作详细介绍。

完成队列

当内核完成 I/O 操作后,会将 I/O 操作的结果保存到 完成队列 中。内核使用 io_cq_ring 结构来表示,其定义如下:

struct io_cq_ring {
    struct io_uring {
        u32 head;
        u32 tail;
    };
    ...
    u32                 ring_entries;
    ...
    struct io_uring_cqe cqes[];
};

struct io_uring_cqe {
    __u64   user_data;  // 指向 I/O 操作返回的数据
    __s32   res;        // I/O 操作的结果
    ...
};

完成队列 与 提交队列 类似,也是一个环形队列。下面介绍一下 io_cq_ring 结构各个字段的作用:

  • head:环形队列的头指针。
  • tail:环形队列的尾指针。
  • ring_entries:已完成的 I/O 操作总数。
  • cqes:用于保存 I/O 操作结果的环形队列数组,其元素类型为 io_uring_cqe 结构。

io_cq_ring 的结构图如下所示:

内核也会将 完成队列 映射到应用程序的内存空间,这样应用程序就可以通过读取完成队列来获取 I/O 操作的结果。而不用通过使用系统调用来获取,从而避免了不必要的上下文切换。

【提交队列、完成队列,均为1v1无锁队列!】

3. SQ 线程

前面介绍了 io_uring 怎么通过共享 提交队列 和 完成队列 来避免不必要的系统调用,但应用程序将 I/O 操作提交到 提交队列 后,内核什么时候从 提交队列 中获取要进行的 I/O 操作,并且发起 I/O 请求呢?

当用户使用 SQPOLL 模式(指定了 IORING_SETUP_SQPOLL 标志)创建 io_uring 时,内核将会创建一个名为 io_uring-sq 的内核线程(称为 SQ 线程),此内核线程会不断从 提交队列 中读取 I/O 操作,并且发起 I/O 请求。

当 I/O 请求完成以后,SQ 线程将会把 I/O 操作的结果写入到 完成队列 中,应用程序就可以从 完成队列 中读取 I/O 操作的结果。

【SQ线程,r2c模式,完成前后端收割!】

如下图所示:

我们简单总结下 io_uring 的操作步骤:

  • 第一步:应用程序通过向 io_uring 的 提交队列 提交 I/O 操作。
  • 第二步:SQ内核线程从 提交队列 中读取 I/O 操作。
  • 第三步:SQ内核线程发起 I/O 请求。
  • 第四步:I/O 请求完成后,SQ内核线程会将 I/O 请求的结果写入到 io_uring 的 完成队列 中。
  • 第五步:应用程序可以通过从 完成队列 中读取到 I/O 操作的结果。

4. 总结

io_uring 主要通过用户态与内核态共享内存的途径,来摒弃使用系统调用来提交 I/O 操作和获取 I/O 操作的结果,从而避免了上下文切换的情况。另外,由于用户态进程与内核态线程通过共享内存的方式通信,从而避免了内存拷贝的过程,提升了 I/O 操作的性能。

所以,io_uring 主要通过两个优化点来提升 I/O 操作的性能:

  • 摒弃使用系统调用来提交 I/O 操作和获取 I/O 操作结果。
  • 减少用户态与内核态之间的内存拷贝。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1323678.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

共享中药房新突破:亿发打造专业调度与强兼容性的智慧煎药平台

随着共享中药房、智能煎药中心等中医药信息化业务的蓬勃发展,越来越多的医疗机构开始引入自动化设备,将其应用到实际的生产环节中,以辅助或部分替代传统的人工操作。这种自动化设备需要通过智能配方煎药管理系统作为系统平台来进行对接和集成…

在统信UOS操作系统1060上如何部署DNS服务器?01

原文链接:在统信UOS操作系统1060上如何部署DNS服务器?01 hello,大家好啊!今天我要给大家带来的是在统信UOS操作系统1060上部署DNS服务器系列的第一篇文章。在这个系列中,我们将一步步搭建一个完整的DNS服务器环境。而今…

docker小白第六天

docker小白第六天 容器数据卷是什么 首先,容器卷有个坑:容器卷需要加入privilegedtrue,如下图所示,是为了解决permission denied的问题。其中“挂载”的意思是相当于一个硬盘插到主机上。使用该命令。是扩大容器的权限解决挂载目…

FA2016AS (MHz范围晶体单元,内置热敏电阻)

FA2016AS晶振是爱普生推出的一款频率范围为38.4MHz 的石英晶体谐振器,内置热敏电阻,小体积贴片(2.0 1.6 0.65 mm),具有小型超薄、稳定性好、具备优良的耐环境特性及高耐热性强.满足无铅焊接的回流温度曲线要求的特点。该款无源晶…

MongoDB的查询分析explain和hint

本文主要介绍MongoDB的查询分析explain和hint。 目录 MongoDB的查询分析explainhint MongoDB的查询分析 在MongoDB中,"explain"和"hint"是两个用于查询优化和分析的关键指令。 explain 在MongoDB中,explain()是一个用于查询分析的…

【洛谷算法题】P1888-三角函数【入门2分支结构】Java题解

👨‍💻博客主页:花无缺 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 花无缺 原创 收录于专栏 【洛谷算法题】 文章目录 【洛谷算法题】P1888-三角函数【入门2分支结构】🌏题目描述🌏输入格式&a…

三、W5100S/W5500+RP2040之MicroPython开发<DNS示例>

文章目录 1. 前言2. 相关网络信息2.1 简介2.2 DNS工作过程2.3 优点2.4 应用 3. WIZnet以太网芯片4. DNS解析示例讲解以及使用4.1 程序流程图4.2 测试准备4.3 连接方式4.4 相关代码4.5 烧录验证 5. 注意事项6. 相关链接 1. 前言 在这个智能硬件和物联网时代,MicroPyt…

多目标跟踪学习

本文来源: 目标跟踪那些事儿-技术和课程介绍_哔哩哔哩_bilibili 为该视频的学习笔记 目的:我的学习目的主要是了解现有的跟踪算法,并着重了解卡尔曼滤波算法,利用卡尔曼滤波算法进行多目标跟踪等后续一系列估计算法。老师视频中提…

【C++篇】Vector容器 Vector嵌套容器

文章目录 🍔简述vector🎄vector存放内置数据类型⭐创建一个vector容器⭐向容器里面插入数据⭐通过迭代器访问容器里面的数据⭐遍历🎈第一种遍历方式🎈第二种遍历方式🎈第三种遍历方式 🎄vector存放自定义数…

Java 基础学习(十三)集合框架、List集合

1 集合框架 1.1 Collection 1.1.1 集合框架概述 Java 集合框架是一组实现了常见数据结构(如列表、树集和哈希表等)的类和接口,用于存储一组数据。 开发者在使用Java的集合类时,不必考虑数据结构和算法的具体实现细节&#xff…

SearchWP WordPress高级网站内容搜索插件

点击阅读SearchWP WordPress高级网站内容搜索插件原文 SearchWP WordPress高级网站内容搜索插件是一个非常强大的工具,可以显着增强您网站的搜索功能。通过向网站访问者提供高度相关和精确的搜索结果,它可以有效地简化他们的搜索过程,促进发…

收集60个AI工具网站,值得收藏

目录 一、聊天AI 二、绘画AI 三、AI提示词 四、图像处理 五、UI设计 六、3D设计 今天小编给大家分享60个AI网站,感兴趣的朋友赶紧收藏吧! 一、聊天AI 1.ChatGPT 地表最强AI聊天机器人 网址:https://chat.openai.com 2.Anthropic Ant…

美容美发行业小程序源码:单店多店自由用+完整的代码包+搭建教程

随着移动互联网的普及,越来越多的消费者通过手机APP、小程序等应用进行美容美发预约、在线支付等服务。为了满足市场需求,提高美容美发行业的服务效率,罗峰给大家分享一款美容美发行业小程序源码,提供单店多店自由使用、完整的代码…

概率转移路径搜索算法(Beam search, Viterbi算法,)

每个时刻的状态概率给定,我们希望计算整个路径(所有时刻)的最大概率状态。 贪心算法(Greedy Algorithm)动态规划: Beam search:选定当前时刻k个最佳状态。kN时计算复杂度和维特比相同&#xff0…

TCP的拥塞控制_基础知识_四种拥塞控制方法

TCP的拥塞控制 一.拥塞控制的基本概念 在某段时间,若对网络中某一资源的需求超过了该资源所能提供的可用部分,网络性能就要变坏,这种情况就叫作拥塞 。 计算机网络中的链路容量(带宽)、交换节点中的缓存和处理机等都是网络的资源 若出现拥塞…

Docker 核心技术

Docker 定义:于 Linux 内核的 Cgroup,Namespace,以及 Union FS 等技术,对进程进行封装隔离,属于操作系统层面的虚拟化技术,由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容器Docke…

Arcgis导出为tiff

原有一幅影像,在进行一些操作之后,需要导出为tiff 比如我对他进行一个重采样,48m分辨率变为96m 在重采样后的数据图层上右键,导出数据 为什么有时会导出为.gdb格式的呢? 可能是位置处在一个文件地理数据库.gdb下

全都没有问题(二点五)

java 接口默认方法冲突等问题 基础基础基础 子接口覆盖父接口的默认方法 package com.book;interface AA{public abstract void print();public default void ID(){System.out.println("AA");} } interface BB extends AA{ //接口BB继承AAOverridepublic default…

LabVIEW在燃气轮机发电机组励磁控制系统测试中的应用

LabVIEW在燃气轮机发电机组励磁控制系统测试中的应用 燃气轮机发电机组作为一种高效可靠的常备应急电源,在保障发电品质稳定性和可靠性方面发挥着关键作用。其中,励磁控制系统是保证供电质量的重要环节,对发电机组的稳定运行至关重要。为了有…

【C++入门到精通】 原子性操作库(atomic) C++11 [ C++入门 ]

阅读导航 引言一、原子性操作库简介二、原子变量1. 原子类型2. 原子类型函数3. 使用示例 三、总结温馨提示 引言 当谈及并发编程时,确保数据的安全性和一致性是至关重要的。在C11中引入的原子性操作库(atomic)为我们提供了一种有效且可靠的方…