【Linux】深入理解Linux文件系统：从C接口到内核设计哲学

文章目录

前言
一、C语言中的文件接口
- 1. 文件指针（句柄）FILE*
- - 以写方式打开文件，若文件不存在会新建一个文件
  - W写入方式，在==打开文件之前==都会将文件内容全部清空
  - 追加写方式，其用法与写方法一致，不同在于a方法可以在文件结尾写入
二、认识文件系统调用
- Linux下的系统调用open()
- - 第一个参数为文件路径
  - 第二个参数为操作文件的方式
  - 第三个可选参数是更改创建文件的默认权限：
三、访问文件的本质
四、重定向与缓冲区
- 自定义重定向系统调用接口dup2
再谈“一切皆文件”
- 1. 外设设备与文件系统的关系
- 2. 扩展思想：
总结

前言

在计算机系统中，文件由内容数据和元数据属性共同构成。文件的完整生命周期分为两个阶段：

文件状态	存储位置	管理方式
未打开文件	磁盘存储介质	文件系统通过inode管理
已打开文件	内存	内核通过file结构体管理

所有文件操作本质上都是进程与文件系统的交互
打开文件需要将文件属性加载到内存
文件内容采用按需加载策略（延迟加载）

研究文件系统本质是研究进程和文件之间的关系（文件是由进程打开的）；未打开的文件存在磁盘上（存储介质），文件要被打开（属性）必须先要加载到内存；

一、C语言中的文件接口

基本输入输出 stdio.h
访问磁盘的过程称之为IO的过程，

1. 文件指针（句柄）FILE*

//C标准库通过FILE结构体封装文件描述符
 FILE *fopen(const char *path, const char *mode)
// mode参数决定了你的访问权限

mode	说明	特性
“w”	写模式（清空文件）	文件不存在时创建
“a”	追加模式	保留原内容，末尾写入
“r”	读写模式	文件必须存在

以写方式打开文件，若文件不存在会新建一个文件

若没有指定路径，程序会在默认当前路径下创建，当前路径指的是进程的当前路径（使用ls /proc/[pid] 查看到当前进程的cwd）。
在这里插入图片描述
同样的，修改当前进程的工作目录就可以改变创建文件的默认路径。

chdir("home/ys") //修改进程工作路径为home/ys

W写入方式，在打开文件之前都会将文件内容全部清空

在这里插入图片描述

上一个程序疑问：strlen要不要+1？

我们知道写入字符串时需要将\0也写入，我们试验之后发现文本中多了@^这样的乱码，推测这就是\0，只不过vim文本编辑器将其解释成了乱码符号。结论是strlen不需要+1，文件系统没有规定字符串必须以\0结尾。

追加写方式，其用法与写方法一致，不同在于a方法可以在文件结尾写入

二、认识文件系统调用

c语言程序在启动时，会默认打开三个标准输入输出流文件：

stdin：键盘设备
stdout：显示器文件
stderr：显示器文件

文件其实是在磁盘上的，由于磁盘是外部设备，访问文件实际上是访问磁盘这样的硬件。不同的语言有不同的文件操作方式，但在底层用的是都是一样的实现方式——都需要调用系统接口open、read、write。

库函数（fopen,printf,fscanf等）访问硬件设备一定会通过系统调用来访问。

Linux下的系统调用open()

在这里插入图片描述

第一个参数为文件路径

若pathname以路径的方式给出，则当需要创建该文件时，就在pathname路径下进行创建。
若pathname以文件名的方式给出，则当需要创建该文件时，默认在当前路径下进行创建。（注意当前路径的含义）

第二个参数为操作文件的方式

方式	含义
O_RDONLY	以只读的方式打开文件
O_WRNOLY	以只写的方式打开文件
O_APPEND	以追加的方式打开文件
O_RDWR	以读写的方式打开文件
O_CREAT	当目标文件不存在时，创建文件

1. O_WRONLY是写方式，但是它并不会新建文件
2. O_CREAT打开文件时清空文件

3. O_APPEND 追加写选项
写入:

const char* message = "hello";
write(fd,message,strlen(message));
//write并不会对文件进行清空式写入。

int fd = open("log.txt",O_WRONLY|O_CREAT|O_APPEND,0666); //追加
write(fd,message,strlen(message),);

第三个可选参数是更改创建文件的默认权限：

//eg:
int fd = open("log.txt",O_WRONLY|O_CREAT);

创建权限错误，所以新建文件时需要告诉接口权限是什么。
在这里插入图片描述

int fd = open("log.txt",O_WRONLY|O_CREAT,0666);

在这里插入图片描述
这里创建出来的并不是666而是664，应该要想到之前学到的权限掩码(0002)的知识！

比特位级别的传参方式原理：
使用位图的方式，一次向操作系统传递多个标志位

三、访问文件的本质

可以将其类比系统管理进程（struct_task），Linux系统中一切皆文件，因此管理进程势必要通过先描述再组织的方法进行。要描述一个被打开的文件（struct_file），往往需要包含文件路径、文件基本属性（权限、大小、读写位置、访问用户的信息等）、文件的内核缓冲区信息、下一个struct_file的指针。

一个进程可能会打开多个文件，那么进程与文件之间又是如何关联的？（1：n）

进程PCB中会存在一个结构体指针struct files_struct *files指向了一个结构体，该结构体存放了一个存放各种文件PCB指针的数组；因为是数组，所以这也解释了为什么open接口返回的是int类型的值了，进程根据这个下标就可以访问对应文件。

如果尝试打印一下返回值，发现文件描述符默认是从3开始的，那么0，1，2是什么文件呢？那就是标准输入输出错误流了！（stdin \ stdout \stderr）

int fd = open("demo.txt",O_WRONLY |O_CREAT,0666);
cout << fd << endl; //3

cout << stdin->_fileno << endl;//0
cout << stdout->_fileno << endl;//1
cout << stderr->_fileno << endl;//2

在这里插入图片描述
既然一切皆文件，那么输出流也是文件，因此我们可以使用以下代码向标准输出流文件中写入message信息：

const char* message = "hello";
write(1,message,strlen(message));// 1 就是标准输出流stdout

从标准输入流文件中读取buffer大小的字符放在buffer[1024]数组中：

char buffer[1024];
read(0,buffer,sizeof(buffer));
printf("echo: %s\n",buffer);

四、重定向与缓冲区

文件描述符对应的分配规则是什么？

从0下标开始，寻找没有被使用的数组位置，它的下标就是新文件的文件描述符值。

假设我们有一个空文件log.txt，有如下代码，含义是将msg中的strlen长度的数据输出到显示器。

const char* msg = "hello linux\n";
write(1,msg,strlen(msg));

但如果先关闭了1描述符（即关闭标准输出流），除了显示器无法显示外

close(1);
int fd = open("log.txt", O_RDONLY | O_CREAT, 0666);//1
const char* msg = "hello linux\n";
write(1,msg,strlen(msg));//此时写入的就是1号文件描述符，即log.txt 文件

log.txt中居然存有数据。
这一工作，称为输出重定向。根据上面的知识可以意识到关闭了1描述符后，那么这里就是空着的，当使用open接口新建log.txt时，根据文件描述符分配规则，自然1号位就成为了log.txt的fd描述符，所以将本来要写入stdout的数据写入到了log.txt中。

自定义重定向系统调用接口dup2

int dup2(int oldfd,int newfd)
把oldfd复制到newfd
//oldfd 相当于 原本的 3 描述符
//newfd 相当于 原本的 1 描述符


int fd = open("log.txt", O_WRONLY|O_CREAT, 0666);
dup2(fd, 1);

这里要注意的是，重定向中的拷贝，不是将文件描述符表中的下标进行拷贝，而是对下标处的内容（文件结构体指针）进行拷贝！

使用dup2在打开文件log.txt后，进行了输出重定向，将原本输出到显示器的内容写入到了log.txt文件中。再次更改代码open的宏参数（O_TRUNC -> O_APPEND），就成为了追加重定向操作。结果如下所示：
在这里插入图片描述
同样的，可以修改代码让其重定向标准输入流至文件（默认read从stdin文件读数据，重定向后，从log.txt文件中读）。这一过程称为输入重定向。

在这里插入图片描述

以上是使用dup2重定向系统调用函数write、read，前面提到c语言printf、fprintf底层也是这样的文件描述符表的结构，那是否可以控制c语言中的输入输出呢？

dup2(fd,1);
printf("hello printf\n");
fprintf(stdout,"hello printf\n");

回想之前的章节介绍到echo指令，可以进行输出重定向，cat指令可以进行输入重定向

echo "hello" > log.txt   //输出重定向
cat < log.txt            //输入重定向
echo "hello" >> log.txt  //追加重定向

进程的替换不会影响文件的访问（包括重定向操作）——复习进程替换

stdout与stderr都是可以向显示器打印，为什么要有2？他们俩的区别是什么？

有如下代码，表示将字符串分别输出到1（标准输出流）和2（标准错误流）中。
在这里插入图片描述

$ ./mytest 1>normal.log 2>err.log
//将stdout的数据重定向至normal.log
//将stderr的数据重定向至err.log

在这里插入图片描述

实际上，1和2是相同的实现方式，只不过在使用中，相较于正常结果而言，更关注的是它的错误信息，而正常运行的信息往往很多，不便错误的筛查与纠正。因此，为了将错误信息分离出来，才有了标准错误流。

一个衍生用法：

$ ./mytest >normal.log 2>&1

再谈“一切皆文件”

1. 外设设备与文件系统的关系

在这之前我们知道：所有操作计算机的动作都是由进程执行的，包括文件的访问，每一种外设都要有描述他们的结构体对象（struct_dev）。

此外，每一种外设都有其相独特的读写方法，纵然每个外设对应的访问实现方式不同（各家外设设备驱动的不同），而对于操作系统来看，这些外设无非都是一些需要进行读写的文件，而能够直接进行文件访问读写的就是进程（open接口），打开新的文件就会创建一个新的struct_file，这个结构体是不是很熟悉？在这个结构体中，就存在着能够指向该文件具体实现自身读写行为的指针（struct fils_operations*），例如（指向了不同磁盘的读写方法，不同键盘的读写方法）。

在Linux中，将struct_file这一层的逻辑关系称为虚拟文件系统（VFS）。

外设差异化被封装在驱动中：不同厂商的驱动实现自己的读写逻辑（如razer_keyboard_read和logitech_keyboard_read），但必须遵循操作系统定义的接口。
操作系统通过抽象层统一接口：上层应用只需调用 read()、write() 等标准接口，无需关心底层是罗技还是雷蛇设备。