Linux——缓冲区与实现C库的fopen，fwrite，fclose

news2025/7/14 23:27:35

一.缓冲区

1缓冲区的概念

2.缓冲区存在的意义

3.缓冲区刷新策略

4.什么是刷新？

C语言的缓冲区在哪里？

编辑

仿写C库里的fopen，fclose，fwrite。

mystdio.h

mystdio.c

main.c(向文件中写入20次msg)

一.缓冲区

1缓冲区的概念

缓冲区的本质就是一段内存

2.缓冲区存在的意义

提高使用者的效率

同时因为缓冲区的存在也提高了操作系统的效率

举例一个例子：

假如你在云南要给你北京的朋友寄东西。方法一：你可以亲自己去北京把东西交给他，方法二：把东西给快递站，让它帮你送给他。

这里虽然整个事件持续的事件基本一样，但是对于你来说方法二比方法一效率要高的多，因为你只需要把东西交给快递站，对于你来说就结束了，接下来就可以做其他事情了。而快递站，也会根据你的需求以及自身制定发送快递的策略，不会收到一个快递就发送。

这里：你就是正在执行的进程，快递站是缓冲区。朋友就是文件，快递发送策略：缓冲区刷新策略

3.缓冲区刷新策略

1，无缓冲（立即刷新）--fflush()

2，行缓存（行刷新）--遇到换行就刷新

一般对于显示器文件，采用行刷新

3，全缓冲（缓冲区满了，再刷新）

磁盘文件采用全缓冲

特殊情况：

1.强制刷新

2.进程退出时，一般要进行刷新缓冲区（属于强制刷新的一种特殊情况）

一个例子：（同一份代码不同结果）

#include <stdio.h>
#include <string.h>
#include <unistd.h>

int main()
{
    fprintf(stdout, "C: hello fprintf\n");
    printf("C: hello printf\n");
    fputs("C: hello fputs\n", stdout);
    const char *str = "system call: hello write\n";
    write(1, str, strlen(str));

    fork(); // 注意fork的位置！
    return 0;
}

可以看出，当重定向到log.txt文件时，除了系统函数write之外，都重复了两次。且write打印的内容在最前面

解释：

1.当我们直接向显示器打印时，显示器文件的刷新方式是行刷新！而且你的代码输出所有字符串都有‘\n’,fork之前，数据就全部被刷新，包括systemcall

2.重定向到log.txt，本质是向磁盘文件中写入（不是显示器！），我们系统对于数据的刷新方式有行刷新，变成了全缓冲！

3.全缓冲意味着缓冲区变大，实际写入的简单数据，不足以把缓冲区写满，fork执行的时候，数据依旧在缓冲区中。

4.我们目前的“缓冲区”，和操作系统是没有关系的，只能是语言本身有关，(用户缓冲区)

5.C/C++ 所提供的缓冲区，里面一定保存的是用户数据，属于当前进程在运行自己的数据

如果我们把数据交给操作系统，这个数据就属于操作系统，不属于自己（进程）。

6.当进程退出的时候一般要刷新缓冲区（修改了进程的数据），即使你的数据没有满足刷新条件。

总结：

因此在重定向后，由于变为全缓冲，C语言函数里要打印的东西就成为数据保存在C语言的缓冲区里，接着调用了fork函数创建了子进程，这时无论那个进程在退出前，都会刷新缓冲区（修改数据据，）向文件写入数据，接着就会发生写时拷贝，未退出的进程的数据中让然有之前缓冲区的数据，当这个进程退出是，还会刷新缓冲区，向文件写入数据。因此C语言函数的内容会打印两次。

write是系统调用函数，不使用C语言的缓冲区，直接写入操作系统，不属于进程，不发生写时拷贝！同时，这也是为什么write里的内容第一个打印到log.txt文件里。

4.什么是刷新？

这里我们用printf()函数举例。

在使用printf时，我们会把数据先弄到C语言的缓冲区，当出发刷新的条件时，就调用系统函数write,将缓冲区里的数据全部刷新到文件缓冲区里。而将C语言缓冲区里的数据弄到文件缓冲区里的的过程就是刷新。

为什么要采用刷新，而不是直接通过C语言函数，向文件缓冲区直接写入？

原因：采用刷新策略的效率比直接写入效率高。

文件缓冲区的数据如何刷新到文件上?

这个操作与我们无关，取决于操作系统，但是我们可以确定一点，文件缓冲区的刷新策略一定与语言缓冲区的刷新策略不同

C语言的缓冲区在哪里？

在任何情况下，我们输入输出的时候，都要有一个FILE，FILE是一个结构体，FILE里面除了包含fd(文件标识符)外，还有一段缓冲区。同时也是因此每打开一个文件，对应文件就会有个文件缓冲区，在我们对多个文件进行操作是，因为操作的缓冲区不同，是文件之间不会相互影响。

这里如果你想查看FILE结构体里有关缓冲区的内容，可以输入指令：

vim /usr/include/libio.h +246

结构体名是_IO_FILE与是C库对FILE使用typedef重命名了。

具体可通过指令：

vim /usr/include/stdio.h

打开文件后到第48行查看

仿写C库里的fopen，fclose，fwrite。

mystdio.h

#pragma once

#define SIZE 4096        //缓冲区的大小

//缓冲区刷新策略

#define FLUSH_NONE 1         //直接刷新
#define FLUSH_LINE (1<<1)    //行刷新
#define FLUSH_ALL  (1<<2)    //全缓冲


typedef struct _myFILE     //FILE结构体
{
    int fileno;         //文件标识符
    int flag;           //刷新策略
    char buffer[SIZE];  //语言缓冲区
    int end;            //缓冲区存储数据的大小
}myFILE;


extern myFILE *my_fopen(const char *path, const char *mode);   //仿写fopen

extern int my_fwrite(const char *s, int num, myFILE *stream);  //仿写fwrite

extern int my_fflush(myFILE *stream);                          //仿写fflush

extern int my_fclose(myFILE*stream);                           //仿写fclose

mystdio.c

#include "mystdio.h"
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <errno.h>
#include <stdlib.h>
#include <unistd.h>

#define DFL_MODE 0666   //设置默认权限

myFILE *my_fopen(const char *path, const char *mode)
{
    int fd   = 0;   
    int flag = 0;


    //设置文件打开方式

    if(strcmp(mode, "r") == 0)
    {
        flag |= O_RDONLY;
    }
    else if(strcmp(mode, "w") == 0)
    {
        flag |= (O_CREAT | O_TRUNC | O_WRONLY);
    }
    else if(strcmp(mode, "a") == 0)
    {
        flag |= (O_CREAT | O_WRONLY | O_APPEND);
    }
    else{
        // Do Nothing
    }




    //文件不存在，创建文件并打开，并获取文件标识符与设置默认权限
    if(flag & O_CREAT)
    {
        fd = open(path, flag, DFL_MODE);
    }

    //文件存在，打开文件，获取文件标识符
    else
    {
        fd = open(path, flag);
    }

    //判断文件是否打开成功
    if(fd < 0)
    {
        errno = 2;
        return NULL;
    }

    

    //为FILE指针开辟空间
    myFILE *fp = (myFILE*)malloc(sizeof(myFILE));
    if(!fp) 
    {
        errno = 3;
        return NULL;
    }

    //对FILE内容初始化
    fp->flag = FLUSH_LINE;
    fp->end = 0;
    fp->fileno = fd;
    return fp;
}



int my_fwrite(const char *s, int num, myFILE *stream)  //仿写fwrite
{

    // 将数据写入C语言缓冲区
    memcpy(stream->buffer+stream->end, s, num);
    stream->end += num;


// 判断是满足刷新条件, 这里我默认'\n'只会出现在结尾，在"abcd\nefgh"这种情况下会有bug
    if((stream->flag & FLUSH_LINE) && stream->end > 0 && stream->buffer[stream->end-1] == '\n')
    {
        my_fflush(stream);
    }

    return num;
}


int my_fflush(myFILE *stream)//仿写fflush
{
    //当缓冲区不为空时，刷新缓冲区
    if(stream->end > 0)
    {
        write(stream->fileno, stream->buffer, stream->end);
        //fsync(stream->fileno);
        stream->end = 0;
    }

    return 0;
}


int my_fclose(myFILE*stream)   //仿写fclose
{
    my_fflush(stream);        //强制刷新
    return close(stream->fileno);
}

main.c(向文件中写入20次msg)

#include "mystdio.h"
#include <stdio.h>
#include <string.h>
#include <unistd.h>

int main()
{
    myFILE *fp = my_fopen("./log.txt", "w");
    if(fp == NULL)
    {
        perror("my_fopen");
        return 1;
    }
    int cnt = 20;
    const char *msg = "haha, this is my stdio lib";
    while(cnt--){
        my_fwrite(msg, strlen(msg), fp);
        sleep(1);
    }
    my_fclose(fp);
    return 0;
}