性能优化理论篇 | 如何保证数据安全落盘,5分钟彻底弄懂 一次write中的各种缓冲区 !

news2025/1/10 23:57:54

性能优化系列目录:
性能优化理论篇 | 彻底弄懂系统平均负载
性能优化理论篇 | swap area是个什么东西
性能优化理论篇 | Cache VS Buffer,傻傻分不清 ?
在很多IO场景中,我们经常需要确保数据已经安全的写到磁盘上,以便在系统宕机重启之后还能读到这些数据。

为了编写尽可能确保数据能够安全落盘的程序,了解整个I/O缓冲系统架构至关重要。在整个I/O子系统架构中,数据在最终到达稳定存储之前可能会经过多层,如下图所示:

最上层是正在运行的应用程序,应用程序在处理数据时,通常会将数据暂时存储在内存中的缓冲区中。这些缓冲区可以是应用程序直接创建的,也可以由应用程序所调用的库来管理。但不论数据是在应用程序缓冲区中还是通过库进行缓冲,数据都存在于应用程序的地址空间中。

下一层是内核,当应用程序将数据写入文件时,数据并不会立即被写入磁盘,而是先被存储在操作系统内核管理的页面缓存中。内核页面缓存的设计是为了提高系统的效率,避免频繁的磁盘I/O操作。

现代硬盘通常配有自己的缓存(写回缓存,Write-back Cache),数据在最终写入磁盘前,可能会先被存储在硬盘设备的写回缓存中。如果此时发生断电或系统故障,数据也会丢失。

最后,最底层是非易失性存储例如磁盘中。当数据到达这一层时,被认为是“安全的”。

为了进一步说明缓冲的各层,我们假设有一个应用程序:它监听网络套接字的连接,将从每个客户端接收到的数据写入文件。在关闭连接之前,服务器确保接收到的数据已写入磁盘,并向客户端发送确认。

在接受客户端的连接后,应用程序需要将数据从网络套接字读入缓冲区。下面的函数从网络套接字中读取指定量的数据并将其写入文件。调用者已经从客户端确定了预期的数据量,并打开了一个文件流以写入数据。下面的(略微简化的)函数预期会在返回之前将从网络套接字读取的数据保存到磁盘。

int sock_read(int sockfd, FILE *outfp, size_t nrbytes) {
    int ret;
    size_t written = 0;
    char *buf = malloc(MY_BUF_SIZE);  //@1

    if (!buf)
        return -1;

    while (written < nrbytes) { //@2
        ret = read(sockfd, buf, MY_BUF_SIZE);
        if (ret <= 0) {
            if (errno == EINTR)
                continue;
            return ret;
        }
        written += ret;
        ret = fwrite((void *)buf, ret, 1, outfp);
        if (ret != 1)
            return ferror(outfp);
     } //@3
       //@4
    ret = fflush(outfp); //@5
    if (ret != 0)
        return -1;

    ret = fsync(fileno(outfp)); //@6
    if (ret < 0)
        return -1;

    return 0;
}

@1处是应用程序缓冲区的示例,这是我们自己在代码中显示创建的,对应上图中的Application Buffers,从套接字读取的数据放入此缓冲区。

由于传输的数据量已经确定,并且考虑到网络通信的特点(数据可能是突发的),我们决定使用libc库的流函数(fwrite() 和 fflush(),对应上图中的“Library Buffers”)进一步缓冲数据。

@2到@3之间的这段代码负责从套接字读取数据并将其写入文件流。程序执行到@4处,所有数据都已写入文件流缓冲区。

在@5处,程序调用fflush()函数,强制刷新文件流缓冲区,将数据传输到操作系统的内核缓冲区(Kernel Buffers)。

然后,在@6处,程序调用fsync()函数,将内核缓冲区中的数据强制刷新到物理存储设备(如磁盘)上,直到现在,数据才被保存到上图所示的“稳定存储”层。

特别注意:

  • fwrite返回成功,只是意味着 数据已被成功复制到用户空间的文件流缓冲区中(libc管理的缓冲区)。

  • 如果希望确保数据被写入到内核的页面缓存,可以在调用fwrite之后调用fflush。fflush函数才会保证将文件流缓冲区的数据写入到内核的页面缓存。

  • 如果希望确保数据被写入到磁盘,还需要调用fsync()函数,将内核缓冲区(页面缓存)中的数据强制刷新到物理存储设备。

下面这张图更详细的展示了各种缓冲区的转换条件。

图中间从上到下,我们可以看到stdio库函数把用户数据传输到stdio缓冲区(这些都在用户内存空间中维护)。当这个缓冲区满时,stdio库调用write()系统调用,把数据传输给内核缓冲区缓存(在内核内存中维护)。最后内核发起磁盘操作,将数据传输至磁盘。

图的左侧显示了任意时候对缓冲区进行显式强制刷新的调用。右侧则显示了用于自动(隐式)刷新的调用,通过禁止stdio缓冲、或使用同步文件输出系统调用(open时设置标志位O_SYNC),这样每个write()都立即刷新到磁盘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2050675.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

xss之DOM破坏

文章目录 DOM破坏漏洞的复现https://xss.pwnfunction.com/基于bp学院DOM破坏漏洞复现思路分析实现 常见的xss触发的标签没有过滤的情况存在过滤的情况 DOM破坏 DOM破坏就是⼀种将 HTML 代码注⼊⻚⾯中以操纵 DOM 并最终更改⻚⾯上 JavaScript ⾏为的技术。 在⽆法直接 XSS的情…

Linux·权限与工具-make

1. Makefile/makefile工具 首先展示一下&#xff0c;makefile工具如何使用。我们先写一个C语言程序 然后我们建立一个Makefile/makefile文件&#xff0c;m大小写均可。我们在文件中写入这样两行 wq保存退出后&#xff0c;我们使用 make 命令 可以看到生成了可执行程序&#xff…

无人机模拟训练室技术详解

无人机模拟训练室作为现代无人机技术培训的重要组成部分&#xff0c;集成了高精度模拟技术、先进的数据处理能力及高度交互的操作界面&#xff0c;为无人机操作员提供了一个安全、高效、接近实战的训练环境。以下是对无人机模拟训练室技术的详细解析&#xff0c;涵盖系统基础概…

为TI的 AM355移植uboot和linux内核

一、uboot移植 在移植之前要先对uboot的源码结构有一定熟悉 1.uboot源码顶层目录下各源码文件夹的作用 2.编译后生成的uboot.xxx 各文件后缀含义 关于以上两点社区已经有很多前辈总结的很详细&#xff0c;这里不做赘述。 对于uboot源码分析韦东山老师b站上有免费的课程&#x…

QT中Charts基本用法

QT中Charts基本用法 第一步:创建工程,添加Charts库 第二步:添加charts视图 注意要打上对钩 第三步:添加所需成员 第四步:编写初始化函数 第五步:添加测试数据

C++学习笔记之算法模板

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一、双指针1.1 有序数组的合并1.2 快慢指针/删除有序数组中的重复项1.3 求和 二、动态规划2.1 自底向上和自顶向下&#xff08;带备忘录&#xff09;2.2 带有当前状…

浅谈哈希长度扩展攻击

攻击原理&#xff1a; 我们首先需要了解一下Message Authentication codes (MACs) &#xff0c;称为消息验证码&#xff0c;一般用于服务器验证消息的真实性。服务器把密钥和消息连接起来&#xff0c;用摘要算法获取摘要&#xff0c;对于H&#xff08;secret data&#xff09…

RabbitMq的基本理解

MQ概念及同步异步&#xff1a; 同步调用&#xff1a; 是一种编程模型&#xff0c;其中调用者发送请求并等待响应。在同步调用中&#xff0c;调用者会阻塞&#xff0c;直到被调用的方法返回结果。 异步调用: 是一种编程模型&#xff0c;其中调用者发送请求后立即返回&#x…

09结构型设计模式——组合模式

一、组合模式的简介 组合模式&#xff08;Composite Pattern&#xff09;是一种结构型设计模式&#xff0c;主要用于处理树形结构中的对象组合问题。它允许你将对象组合成树形结构&#xff0c;以表示部分-整体层次结构。组合模式使得客户端能够统一地对待单个对象和对象组合&a…

SEREN MC2电源匹配器控制器Matching Network Controller手侧

SEREN MC2电源匹配器控制器Matching Network Controller手侧

NC 反转链表

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 描述 给定一个单链…

亲测解决Bundler HTTPError Could not fetch specs from

这个问题源于ruby的网站连接不上&#xff0c;解决方法是修改网页地址或者网络配置。 环境 win11 ruby 问题原文 Retrying fetcher due to error (2/4): Bundler::HTTPError Could not fetch specs from https://rubygems.org/ due to underlying error <IO::TimeoutEr…

C# 将Dll嵌入exe中发布

一、制作模版Dll 二、在exe工程中添加Dll 1、添加上述“创建Dll”&#xff0c;并修改属性为&#xff1a;不复制到输出目录的嵌入资源 2、引用“Resource”中的dll文件&#xff0c;并修改属性&#xff1a;不复制到本地 三、添加重载Dll代码 1、添加以下代码 class DependentFi…

Modbus 通信协议详解

目录 一、概述二、Modbus 的作用三、Modbus 的工作原理1、四种数据类型2、三种工作模式3、三类功能码3.1 标志功能码3.2 Modbus 封装接口3.3 异常 4、Modbus 协议层4.1 协议数据单元4.2 访问数据4.3 数据模型寻址4.3.1 数据寻址范围4.3.2 数据地址起始值 4.4 大数据类型4.4.1 位…

频率检测计

前言 频率计是一种用于测量信号频率的仪器。它可以准确地确定电子信号的频率&#xff0c;广泛应用于电子设备的测试和维护中。频率计的工作原理通常包括对输入信号进行采样&#xff0c;并通过内部电路计算信号的周期&#xff0c;从而得到频率值。现代频率计通常具有高精度、高稳…

无线通信代码搬运/复现系列(1) : 重新审视具有每天线功率约束的 MIMO 容量:固定点迭代和交替优化

无线通信代码搬运/复现系列(1) “Revisiting the MIMO Capacity with Per-antenna Power Constraint: Fixed-point Iteration and Alternating Optimization,” IEEE Trans. Wireless Commun., vol. 18, no. 1, pp. 388-401, Jan. 2019 by T. M. Pham, R. Farrell, and L.-N. …

C++入门——05STL

STL&#xff08;Standard Template Library&#xff0c;标准模板库&#xff09;是C标准库的重要组成部分&#xff0c;是一个通用的数据结构和算法库。STL提供了一组经过精心设计的模板类和函数&#xff0c;用于处理各种常见的数据结构&#xff08;如容器&#xff09;和算法&…

六. 部署分类器-preprocess-speed-compare

目录 前言0. 简述1. 案例运行2. 代码分析2.1 main.cpp2.2 preprocess.cpp 3. 补充说明结语下载链接参考 前言 自动驾驶之心推出的 《CUDA与TensorRT部署实战课程》&#xff0c;链接。记录下个人学习笔记&#xff0c;仅供自己参考 本次课程我们来学习课程第六章—部署分类器&…

嵌入式面经篇八——进程线程

文章目录 前言一、进程&线程1、异步 IO 和同步 IO 区别&#xff1f;2、进程间通信方式&#xff1f;3、进程的地址空间模型&#xff1f;4、进程的五种状态分别是?5、子进程从父进程继承的资源有哪些&#xff1f;6、什么是进程上下文、中断上下文&#xff1f;7、如何防止僵尸…

写了一个分页 sql,因为粗心出了 bug 造成了 OOM!

大家好&#xff0c;我是君哥。 最近上完线后&#xff0c;凌晨收到一个生产告警&#xff0c;一个 OOM 异常导致了服务重启。今天来分享一下这个事故。 1.事故现场 事故的代码逻辑并不复杂&#xff0c;从一个大概有 8 万数据的表里面查出数据&#xff0c;汇总后对数据做处理。…