操作系统：浅谈文件系统

1.理解文件系统

1.1.从磁盘开始的抽象存储结构

编辑

1.2.操作系统下的文件管理

1.2.1.知识储备

1.2.2.存储文件的属性

1.2.3.存储文件的内容

1.2.4.如何新建文件

1.2.5.如何理解目录

1.2.6.如何找到某一个文件

1.3.操作系统如何打开文件

2.软硬链接

我们知道文件可以分为：已被打开文件（被进程加载）和未被打开文件（在磁盘中保存）这两种文件，而我们对文件的学习也不能只局限于对被进程打开的文件，因为大部分文件都不是被打开的，而是在磁盘中。这就引申到了操作系统是如何管理未被打开文件，并如何将他们从磁盘中加载到内存，并被进程调用的呢？这就是我们接下来要讲的文件系统的知识了

1.理解文件系统

我们知道文件未被打开时是存储在磁盘这个硬件中，当我们研究文件在磁盘中存储的问题，再结合操作系统的本质就是不断地抽象出数据结构，再连接这些结构。我们学习的核心就是了解操作系统是如何在磁盘中对文件进行增删查改的！

1.1.从磁盘开始的抽象存储结构

如图为磁盘的物理结构和俯视图

从这里我们能够知道：

磁盘俯视来看就是一个圆，而这个圆中会截取一定宽度的圆环称为一个磁道，而这个磁道再均分成一块一块的扇区
磁盘存储时是以“块”为单位的（从扇区体现），扇区是磁盘进行IO读写的最小基本单元，一般是512字节
对于磁盘来说，通过转换“南北极”来实现数据0,1的写入

接着我们来谈谈磁盘是如何定位数据到文件的呢

这里我们就知道了，后续操作系统进行软硬件连接时需要考虑CHS这三个数据！！！

值得说的是：我们通过读写磁头的编号就能找到对应的磁盘，再通过磁头的位置找到磁道，再结合磁盘转到的位置我们就能够定位到任何一个扇区

讲完宏观的结构，接下来我们抽象出一段圆环

接着我们对于这个块的研究等价于对这个圆环（磁盘的一段磁道，若干个扇区）的研究，同时这个抽象图又和我们平常使用的数组这个结构十分类似，那么最终对磁盘的研究就可以从数组这个数据结构作为载体出发了。

做一道数学题

这个也就是CHS定位法的核心，这样子我们通过计算就验证了可以通过数组这个结构在磁盘中抽象出这么一个文件存储的载体。有兴趣可以写一下这个查找程序，so easy的

1.2.操作系统下的文件管理

1.2.1.知识储备

操作系统按照扇区为单位进行存取，也可以基于文件系统按照文件块为单位进行存取，因为一个扇区的大小为512个字节，由于大小依然很小，可能会存在多次的IO调用，浪费系统资源，实际上操作系统定义一个文件块为8个扇区，大小为4096字节，略大于4kb（后面我们统一认为大小为4kb）

实际使用时，我们通过LBA转化成CHS地址，进而定位写入磁盘，在底层对磁盘的写入，变成了在操作系统层面上对一个一个文件块的数组的增删查改

注意：磁盘中一个块对应一个扇区，操作系统中一个文件块对应8个扇区

介绍完了一些基本知识，我们来看看操作系统是如何进行文件管理的！！！

如图：操作系统为了便于管理，在自己内部将对应磁盘大小分为若干个区，再把区划分为组，加下来通过抽象组这个载体来管理文件块这个基本单位。

接下来我们开始学习如何进行块组的管理！

先介绍一下概念

Boot Block：启动块，作为分区的头，包含磁盘的信息，和操作系统的启动信息
Block group：作为管理文件块的载体

Super Block：存放文件系统本身的结构信息。记录的信息主要有：bolck 和 inode的总量，未使用的block和inode的数量，一个block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏，可以说整个文件系统结构就被破坏了

不一定每个块组都有，一般是若干个块组共用一个，管理整个分区，作为操作系统对分区的管理描述的结构体对象，一个分区多个保存防止系统丢失数据

inode Table：存放文件属性如文件大小，所有者，最近修改时间等

实际上就是存放inode的结构体数组

inode Bitmap：每个bit表示一个inode编号是否空闲可用。

用比特位的0、1表示某一个inode编号是否被使用，一个文件块4096字节，而存放32000个inode编号的一个位图大小4KB（4000字节），所以一个文件块能通过位图表示inode编号。

Block Bitmap：记录Data Block中哪个数据块已经被占用，哪个数据块没有被占用

Group Descriptor Table：块组描述符，描述块组属性信息，管理一个块组
Data Block：存放文件内容

我们知道文件 = 内容 + 属性，在我们写入文件内容前，需要先写入文件管理数据给磁盘，例如磁盘进行分区后，需要记录这个分区的相关数据再进行文件的内容的写入。也就是块组的引入本质上是为了解决文件内容和属性存储问题。

文件的内容和属性一般是分开存储的，存在块组的不同区域

1.2.2.存储文件的属性

往Linux系统中输入指令 ls -li 我们发现最前面会有一个数字，这个数字叫做 inode 编号

一般情况下，一个文件只有一个inode，基本上每个文件都有一个inode。
在不同的分区中，inode的数据是唯一的，识别文件只与inode有关
inode是用来保存文件的属性，本质上是一个结构体
inode中存储的文件属性的种类是固定的

注意inode不等于inode编号，并且大小固定为128字节

struct inode
{
    // 文件大小 权限 拥有者...

    // inode编号
    // Block block[15]
}

在inode Table中，inode编号便于通过相对位置来找到文件，本质上就是一个存储inode的数据结构

struct inode inode_table[N]    // 可以视为inode结构体数组

1.2.3.存储文件的内容

Data Block是一个以4KB为单位的一块巨大的文件内容存储区，存放整个块组所有文件的内容，在这个区域中我们也是通过编号来进行访问的。存储规则是：通过Block Bitmap查找哪一个数据块没有被占用，然后存储数据进去，接着通过inode结构体中的block数组中存放索引下标（映射），并向这些数组中存放文件内容。

实际操作系统中，0-12下标的数据块是直接映射进数据库保存文件的内容，13间接映射，里面保存更多的块列表来进行二次索引，三次索引.......这样实现大文件存放在若干个4KB中保存

当一个文件特别大时，会在多个块组中存储，实现跨组访问，inode编号在分区里不变即可

1.2.4.如何新建文件

核心就是查询两个位图，找到两个数据，进而实现文件的搭建

先查inode Bitmap查询位图，找到最近的一个没有被使用的比特位由0置为1，然后查询遍历位图时的偏移量，加载进inode，设置文件属性和编号
接着从block Bitmap里面找到一个位置，同理0置为1，记录偏移量，然后从inode中的Block block找到对应的block然后写入文件的内容

那我们如何删除呢？

我们在新建文件时，就已经知道文件的inode编号，我们可以找到对应的位图中的比特位，由1改为0，同理把占用的块也由1置0，未被释放的资源后续可能被其他文件覆盖。

1.2.5.如何理解目录

实际使用计算机时，面向用户的是文件名而不是inode，也就是inode是实现内核与文件的映射，又因为Linux中一切皆文件。那么我们知道目录本质上也是文件，也有自己的inode结构体，那么目录的块存放的数据是什么呢？

目录的块中存放着文件名和 inode的映射关系（k-v关系），也就是我们通过文件名可以找到目录下文件的inode进而连接整个文件管理体系，所以同一个目录下不允许存在同名文件。又inode在该分区中独一无二，所以文件名和inode互为k-v关系。

讲到这里，顺便提一下：文件名不是inode结构体的内容，而是目录的内容。

1.2.6.如何找到某一个文件

找到文件的上一级目录，在通过访问文件的block存储的数据找到文件名和inode的映射关系这样就能找到 inode和inode编号
接着通过inode编号找到哪个组，进而访问到哪个块，然后获取文件的属性、内容

那么如何找到上一级的目录呢（也就是找到他的inode）？那上一级的目录的目录如何找到呢？也就是回归到我们需要找到根目录的inode。找到文件需要从根目录开始逐层查找到该文件的上一级文件。查找时我们也是借助进程，那么就会有cwd，进行会记录当前的路径

关于查找不同分区下的文件，因为Linux在进行磁盘格式化分区后，会进行挂载，并且可以通过文件的路径来找到挂载对应的分区，也就是我们可以通过文件路径来确定在哪个分区。

1.3.操作系统如何打开文件

未被打开前，文件存在于磁盘，打开时，操作系统创建进程来打开这个文件
进程拥有自己的cwd通过路径来定位在磁盘的哪一个分区，接着顺着路径向下找
找到创建inode结构体，实现了文件属性的写入
接着通过inode编号找到Data Block，就可以写入文件的内容
将缓冲区的内容拷贝进文件的对应Block block数组对应的数据块