环境：centos7.6，腾讯云服务器
Linux文章都放在了专栏：【Linux】欢迎支持订阅

相关文章推荐：

【Linux】冯.诺依曼体系结构与操作系统

【C/进阶】如何对文件进行读写（含二进制）操作？

【Linux】基础IO_文件操作

前言

在前文中学习了open函数，我们知道open函数的返回值就是文件描述符，本章将对文件描述符进行详细讲解。

文件描述符

文件描述符是什么？

在前文一开始我们已经提到了，我们是通过创建进程，然后让进程底层通过系统调用，从而让OS打开文件。而一个进程是可以打开多个文件。内存中一定是存在多个被打开的文件的，那么如何知道哪些文件是哪个进程打开的呢？这里就谈到了文件描述符。如下：

简单来说：文件描述符就是一个进程与该进程所打开文件建立索引关系的数组（文件描述符表）下标。通过文件描述符，也就是该进程对应的的文件描述符表所对应的下标。就可以找到该进程所打开的各个文件。

我们再来看如下现象：

为什么文件描述符是从3开始的呢？

Linux系统下进程会默认打开三个文件，即标准输入、标准输出、标准错误，分别对应文件描述符0 1 2。这也是为什么我们打开文件时，返回的文件描述符是从3开始，因为前面的0 1 2已经被占用了
一个文件可以在同一个进程中被打开对此，也就意味着不同的文件描述符，可能会指向同一个文件。

文件描述符分配规则

文件描述符的分配规则为从0开始，扫描文件描述符表中，没有被使用的数值最小的下标，作为新打开文件的文件描述符。

我们也可以通过代码来验证一下：

 #include<stdio.h>
 #include<unistd.h>                                                                                                                         
 #include<sys/types.h>                                                                                                                      
 #include<sys/stat.h>                                                                                                                       
 #include<fcntl.h>                                                                                                                          
 
 #define LOG "log.txt"
 int main()                                                                                                                                   
 {         
   int fd1=open(LOG,O_CREAT| O_WRONLY|O_TRUNC,0666);
   int fd2=open(LOG,O_CREAT| O_WRONLY|O_TRUNC,0666);
   printf("fd1:%d\n",fd1);                          
   printf("fd2:%d\n",fd2);
                          
   close(2);
   int fd3=open(LOG,O_CREAT| O_WRONLY|O_TRUNC,0666);
   printf("fd3:%d\n",fd3);                          
   return 0;              
 }

文件操作实现的底层原理

在此之前，我们要知道，ANSIC 标准采用“缓冲文件系统”来处理数据文件，所谓缓冲文件系统，其实就是OS会为每一个正在使用的文件开辟一个文件缓冲区。文件缓冲区的存在会提升IO的效率。（就好比你一个一个的拿快递（无缓冲区），和你从快递点一次性拿很多快递（有缓冲区））

**write原理（ssize_t write(int fd, const void *buf, size_t count);**）

对于write函数来说，会通过文件描述符fd，在该进程中找到文件描述符表的下标，从而找到被打开文件的struct file，再从而找到OS给该文件开辟的文件缓冲区，然后通过参数buf，结合count，将buf的数据拷贝count大小的数据到文件缓冲区，最后OS根据自己的刷新策略，将文件缓冲区内的数据刷新到磁盘。

**read原理（ssize_t read(int fd, void *buf, size_t count);**）

对于read函数来说也是如此，OS通过文件描述符先将磁盘的数据拷贝到该文件对应的缓冲区，然后通过read函数的参数中的buf，将文件缓冲区的数据拷贝到buf缓冲区，再根据count来决定读取buf缓冲区的数据的大小。

因此，我们也可以将这些所谓的read与write函数看成是一种拷贝函数。

语言级别的文件操作原理

对于我们C语言中，提到的这些读写函数（fputs、fgets等），它们的底层一定是调用了系统级别的函数，从而实现对文件内容的读写，而调用read、write这种系统级别的函数，文件描述符是必不可少的存在，本质上来说，访问文件都是通过文件描述符来进行访问。

因此，我们也可以推测：在C语言级别提供的文件结构体FILE中，一定存在文件描述符！我们可以来通过简单的代码进行验证我们的猜测：

重定向的原理

重定向定义

了解文件描述符的特点后，我们知道一个进程会默认打开三个文件，那么假如我们在打开新文件之前，将1号文件描述符对应的文件（即标准输出）关闭，会发生什么现象呢？我们通过如下代码来试验一下：

#include<stdio.h>
#include<unistd.h>
#include<sys/types.h>
#include<sys/stat.h>
#include<fcntl.h>
#include<stdlib.h>

int main()
{
    //关闭1号文件描述符对应的文件，即标准输出
    close(1);

    pid_t fd=open("log.txt",O_WRONLY | O_CREAT |O_TRUNC);
    if(fd == -1)
    {
        printf("open fail\n");
        return -1;
    }
    //直接printf，看看会出现什么现象
    printf("can you see me???\n");
    printf("can you see me???\n");
    printf("can you see me???\n");
    printf("can you see me???\n");

    fflush(stdout);//刷新缓冲区

    //关闭
    close(fd);
    return 0;
}

按理来说，这是一段平平无奇的代码，应该会在显示器上打印出四串文字，但是我们关闭1号文件描述符对应的文件后，会发生什么呢？运行结果如下：

这是为什么呢？

原因在于我们关闭1号文件，也就是进程默认打开的标准输出文件，而当我们再次打开log.txt文件时，由于文件描述符分配规则，1是没有被使用的最小的下标，此时1号文件描述符对应的文件就变为了log.txt文件，而printf函数，是默认向1号文件里输出内容，所以我们在显示器看不到printf打印的信息，而在log.txt文件可以看到。

这就是重定向的原理，即：在上层无法感知的情况下，修改底层进程的文件描述符表中，特定下标的指向。

dup2函数实现重定向

上面我们这种close一个文件，再打开一个文件，以此来更改文件描述符对应的文件指向，这种方法多多少少有一些不方便，而且也挺挫的。因此有一种更好的方法，即系统提供了一个函数——dup2函数。

#include<unistd.h>
int dup2(int oldfd, int newfd);

对于该函数：我们要注意的是，这里很容易被名字混淆，实际上这里最终文件描述符对应的文件都会被修改为oldfd。也就是将newfd重定向为oldfd。如果重定向失败，则返回-1。

所以假如我们要将1号文件描述符的指向的文件修改为fd对应的文件，应该这样来写：dup2(fd,1)，这就是输出重定向，当然输入重定向就是：dup2(fd,0)。
dup2原理：

dup2函数的原理实际上就是通过拷贝的方式，修改原来文件描述符表中特定下标所指向的文件，这里需要注意一点的是，dup2函数在实现重定向时，会先将原有的文件描述符指向的对应的文件关闭，这样避免内存泄漏问题的出现。

缓冲区的理解

缓冲区是什么？

缓冲区实际上就是对数据做临时存储的一个“容器”（可以理解为临时存储快递的驿站），最主要的目的就是为了提高IO效率（一个一个拿快递，与从驿站一次性拿很多快递的区别）。

现象：

像我们的一些比如printf、fprintf函数，它们内部就存在一个缓冲区，也就是说，我们在进行printf打印时，并不是直接将数据打印出来，而是先将数据存放到缓冲区，再结合一定的刷新策略，刷新到外设。当然，我们也可以验证一下：

缓冲区的刷新策略

在上面提到了缓冲区的刷新策略一词，这里主要分为以下几种：

无缓冲 ：不存在缓冲区
行缓冲：遇到换行符‘\n’,才将数据从缓冲区刷新（诸如printf、fprintf等）
全缓冲：缓冲区满时，才将数据从缓冲区刷新（诸如普通文件）

因此，对于上面printf，假如我们后面加上一个\n，就会立刻看到运行结果，而不是5秒后才看到。

用户/内核级缓冲区

我们上面所说的缓冲区都是属于用户级缓冲区，实际上OS为了提升整体性能，也会存在内核级缓冲区（这里不过多讨论），而我们用户级的缓冲区在哪里呢？实际上是由C语言标准库提供，在我们进行fopen打开文件时，缓冲区在FILE结构体内。

其它

了解缓冲区后，我们来看这么一段有意思的代码：

#include<iostream>
#include<cstdio>
#include<unistd.h>
#include<cstring>
using namespace std;

int main()
{
    fprintf(stdout,"%s","hello fprintf\n");
    const char* str="hello write\n";
    write(1,str,strlen(str));

    fork();
    return 0;
}

直接运行：

重定向到普通文件：

我们发现，为什么重定向后，会显示三个打印结果。重定向之前只有两个？

这是因为：

首先在重定向之前，我们是向显示器（stdout对应的外设）打印内容，而显示器的刷新策略为行刷新，所以fprintf缓冲区内的内容会被立刻冲刷到显示器，而write这种系统调用函数不存在缓冲区的概念。所以write函数也直接打印在显示器。
而在fork之后，创建子进程，但是此时fprintf对应的缓冲区的内容已经被冲刷掉了，所以重定向之前只有两个打印结果
而在重定向后，是向普通文件打印内容，而普通文件的刷新策略为全缓冲，只有缓冲区满了，才会冲刷数据。所以在fork之前，fprintf缓冲区的内容不会被冲刷掉，而fork创建子进程后，该缓冲区的数据依然还在（也就是说，父子进程各自的fprintf缓冲区都存在数据），所以此时return时，程序运行结束，冲刷缓冲区就会出现两个hello fprintf，和一个hello write！