系列文章

收录于【Linux】文件系统专栏

关于文件描述符与文件重定向的相关内容可以移步文件描述符与重定向操作。

可以到浅谈文件原理与操作了解文件操作的系统接口。

系列文章

揭秘C库文件结构体

文件缓冲区

为什么需要文件缓冲区

刷新机制

内核文件缓冲区

模拟实现

结构声明

函数实现

fopen

fclose

fllush

fwrite

揭秘C库文件结构体

🍡之前我们说过，C 库中的 IO 函数是对系统调用的封装，而系统调用函数需要使用到文件描述符 fd，由此我们便可以推断出一个结论：FILE中必定封装了fd。

🍡其实，stdout、stdin、stderr 也是 FLIE* 类型的，我们不妨访问该结构体看看，一众成员变量中的 _fileno 就是封装起来的fd。

🍡将三个文件和新打开文件的 _fileno 都打印出来，最后的结果正是 fd 所对应的数字。

int main()
{
    printf("%d\n", stdin->_fileno);
    printf("%d\n", stdout->_fileno);
    printf("%d\n", stderr->_fileno);
    FILE* f = fopen("log.txt","w");
    printf("%d\n",f->_fileno);
    return 0;
}

🍡现在，我们来看看这段代码，用两种函数对显示器写入，直接运行的话就是正常输出两个语句。

int main()
{
    fprintf(stdout, "%s", "hello fprintf\n");
    const char *str = "hello write\n";
    write(1, str, strlen(str));
    fork();
    return 0;
}

🍡若是将其重定向到文件之中就大有不同了。

🍡可以看出 write 先写入文件，之后 fprintf 再写入，而且还写了两次。其实，在 FILE 结构体中还有一部分空间会作为文件缓冲区，并依照特定的刷新机制刷新内部的数据。

文件缓冲区

为什么需要文件缓冲区

🍡之前在冯诺依曼体系中我们说过，访问的外设速度是极慢的，若每次写入字符都直接写入文件，就会极大的拉低程序的运行速度。

🍡我们这里使用两种方式进行计数，第一种数字每次改变时都打印到显示器上，第二种则是计数完成再进行打印，最后输出消耗的时间。

int main()
{
    int count = 0;
    int begin1 = clock();
    for(int i = 0;i<10000;i++)
    {
        count++;
        printf("%d\n",count);
    }
    int end1 = clock();
    count = 0;
    int begin2 = clock();
    for(int i = 0;i<10000;i++)
    {
        count++;
    }
    printf("%d\n",count);
    int end2 = clock();

    printf("first is : %d\n",end1-begin1);
    printf("second is : %d\n",end2-begin2);
    return 0;
}

🍡最后的结果便是第一种明显慢于第二种，便有力地展现了外设的访问速率与 CPU 的访问速率的差别。

🍡使用文件缓冲区后，结合特定的刷新机制，便可以有效地节约调用者的时间。

刷新机制

🍡刷新机制可以被分作不同的三种：

无缓冲
行缓冲
全缓冲

🍡行缓冲就是遇到 \n 时刷新之前的缓冲区，经典代表如显示器。而一般的普通文件使用的都是全缓冲，只有缓冲区满的时候才会刷新缓冲区。

int main()
{
    printf("hello buffer");
    sleep(1);
    return 0;
}

🍡若是这样试着输出的话，由于没有识别到 \n 便不刷新缓冲区，休眠一秒后程序结束才将缓冲区内的内容刷新出来。

🍡想要避免这种情况，那我们便可以在语句末加上 \n 。

int main()
{
    printf("hello buffer\n");
    sleep(1);
    return 0;
}

🍡由于识别到了 \n 因此直接刷新缓冲区中的内容，之后再休眠 1 秒，最后程序结束。

🍡现在我们便可以解释上面那个打印问题了。

🍡在显示器上打印时为行缓冲，因此第一次 fprintf 时就直接刷新缓冲区了，之后再调用 write 由于 write 没有缓冲区便直接写入。

🍡第二次重定向到普通文件中，fprintf 的刷新策略就改变了，即便有 \n 也无法刷新缓冲区。便进入休眠，之后调用 fork 创建了一个子进程，由于子进程会继承父进程的相关代码数据便继承了缓冲区中的内容，程序结束才刷新缓冲区，于是 fprintf 就打印了两次。

内核文件缓冲区

🍡在上一篇文章中，我们讲过在内存中打开的文件都有对应一个缓冲区，那这个缓冲区跟 C 库中的文件缓冲区有什么区别吗？

🍡再来看这张图，从用户层出发若调用 C 库的文件操作，数据就会先被拷贝到库的文件缓冲区中，符合刷新策略时再进行系统调用，将数据拷贝到内核级缓冲区中。若直接调用系统调用则直接将数据拷贝到内存级缓冲区中。

🍡之后操作系统会根据其自身的刷新策略对内核级缓冲区进行刷新，由于 OS 内部需要考虑的内容更多更复杂，因此其刷新策略要比库中的缓冲区要复杂得多。根据写入的先后顺序就是最终文件内部数据的顺序。

🍡但是缓冲区的本质还是为了减少 IO 次数从而增加一次 IO 的数据量，提高 IO 效率。

模拟实现

🍡接下来，我们将对C库中的FILE结构进行模拟实现，简单地实现文件的打开、关闭与写入操作。

结构声明

🍡根据对 FILE 的理解，定义一个 MY_FILE 结构体，内部封装了文件描述符、刷新策略、缓冲区、写入字符的数量，同时声明相关函数。

#define NUM 1024
#define BUFF_NONE 0x1    //用位图的方式表示不同的模式
#define BUFF_LINE 0x2
#define BUFF_ALL 0x4

typedef struct MY_FILE
{
    int fd;              //文件描述符
    int mode;            //刷新策略
    char buffer[NUM];    //缓冲区
    int cur;             //写入字符的数量
}MY_FILE;

MY_FILE* my_fopen(const char *path, const char *mode);
size_t my_fwrite(char* str,int size,int nmemb,MY_FILE* fp);
void my_fclose(MY_FILE* fp);

函数实现

fopen

🍡实现 fopen 我们可以将这个函数内容分作几个部分。

设置文件打开模式
根据路径打开文件
初始化结构体
返回指针

🍡首先根据传入的参数判断文件将要以什么方式打开，之后我们便可以根据打开方式打开文件，一切无误后便可以开辟空间、向结构体中填入数据，最后返回结构体指针即可。

MY_FILE *my_fopen(const char *path, const char *mode)
{
    // 设置文件打开模式
    if (strcmp(mode, "r") == 0)
        flag |= O_RDONLY;
    else if (strcmp(mode, "w") == 0)
        flag |= (O_WRONLY | O_CREAT | O_TRUNC);
    else if (strcmp(mode, "a") == 0)
        flag |= (O_WRONLY | O_CREAT | O_APPEND);
    if(strstr(mode,"+")) flag |= O_RDWR;
    else
    {
        // wb ...
    }
    // 根据路径打开文件
    umask(0);
    mode_t m = 0666;
    int fd = 0;
    if (flag & O_CREAT) // 读或追加的形式打开文件
    {
        fd = open(path, flag, m);
    }
    else
        fd = open(path, flag);
    if (fd < 0)
        return NULL; // 确保文件打开
    // 建立MY_FILE结构体
    MY_FILE *pf = (MY_FILE *)malloc(sizeof(MY_FILE)); // 开辟内存
    if (pf == NULL)
    {
        close(fd);   // 关闭文件
        return NULL; // 开辟失败返回
    }
    // 初始化结构体
    pf->fd = fd;
    pf->cur = 0;
    pf->mode = BUFF_LINE; // 默认为行刷新
    memset(pf->buffer, '\0', sizeof(pf->buffer));
    // 返回指针
    return pf;
}

fclose

🍡在关闭文件时，首先要确定的就是此时文件缓冲区中是否还有数据，若还有就需要先刷新到文件之中，之后再释放结构体空间。

void my_fclose(MY_FILE *fp)
{
    // 确保传入的不是空指针
    assert(fp);
    // 冲刷缓冲区
    if (fp->cur > 0)
        my_fllush(fp);
    // 关闭文件
    close(fp->fd);
    // 释放空间
    free(fp);
    // 指针置空
    fp = NULL;
}

fllush

🍡冲刷缓冲区的本质就是进行 IO，之后将缓冲区内的内容清空即可。

void my_fllush(MY_FILE *fp)
{
    //确保指针非空
    assert(fp);
    //进行文件IO
    write(fp->fd,fp->buffer,fp->cur);
    //清空缓冲区
    fp->cur = 0;
    fsync(fp->fd);
}

fwrite

🍡虽然叫做 fwrite 但是实际上进行的操作则是将数据拷贝到缓冲区中，这时候我们要关心写入的字节数与当前的剩余空间，若缓冲区已满就刷新一遍，若还未满则判断其与当前缓冲区剩余字节的大小关系，再根据相应的字节将数据写入缓冲区，最后根据刷新策略判断一下当前是否需要刷新即可。

size_t my_fwrite(char *ptr, int size, int nmemb, MY_FILE *fp)
{
    // 确保传入的文件指针非空
    assert(fp);
    // 判断缓冲区的剩余空间
    size_t user_size = size * nmemb;
    size_t my_size = NUM - fp->cur;
    size_t writen = 0;
    // 空间已满,冲刷缓冲区
    if (my_size == NUM)
        my_fllush(fp);
    // 1.空间未满,直接写入
    if (my_size >= user_size)
    {
        memcpy(fp->buffer + fp->cur, ptr, user_size);
        fp->cur += user_size;
        writen = user_size;
    }
    // 2.空间未满,但无法写入全部内容,写入部分内容
    else
    {
        memcpy(fp->buffer + fp->cur, ptr, my_size);
        fp->cur += my_size;
        writen = my_size;
    }
    // 计划刷新
    if (fp->mode & BUFF_ALL) // 全缓冲
    {
        if (fp->cur == NUM)
            my_fllush(fp);
    }
    else if (fp->mode & BUFF_LINE) // 行缓冲
    {
        if (fp->buffer[fp->cur - 1] == '\n')
            my_fllush(fp);
    }
    else // 无缓冲
    {
    }
    // 结算写入的大小
    return writen / nmemb;
}

🍡好了，今天文件缓冲区的相关内容到这里就结束了，如果这篇文章对你有用的话还请留下你的三连加关注。