【Linux】深入理解文件系统

news2025/1/11 11:56:11

系列文章

收录于【Linux】文件系统 专栏

关于文件描述符与文件重定向的相关内容可以移步 文件描述符与重定向操作。

可以到 浅谈文件原理与操作 了解文件操作的系统接口。

想深入理解文件缓冲区还可以看看文件缓冲区


目录

系列文章

磁盘

结构介绍

定位数据

抽象管理

文件系统

分组管理

属性存储

内容存储

深入解析文件操作

如何理解inode

创建和删除文件

文件访问

如何存储大文件


磁盘

🧊以前的文章里,我们只讲了文件在内存中的打开时的状态,而今天便是要讲文件于磁盘中是如何存储的。

🧊相信大家虽然经常在讲磁盘,但是实际上对于磁盘的了解并不多,磁盘又分作机械硬盘与固态硬盘,而我们今天所讲的磁盘是机械硬盘,下面一起先来看看它的基本结构吧。

        

结构介绍

🧊盘片:
磁盘通常由一个或多个盘片组成,这些盘片通常是由金属或玻璃等材料制成的圆形薄片。一个盘片有正反两个面。
🧊磁头:
磁头负责读取和写入数据。每个扇面都有一个磁头,它浮动在盘片表面上方,通过微小的电流在磁盘表面上读写数据。
🧊磁道(柱面):
扇面表面被划分为许多同心圆,每个圆被称为一个磁道。数据被写入或读取时,磁头会在特定磁道上移动。
🧊扇区:
磁道被进一步划分为多个扇区,每个扇区存储一定量的数据。磁盘中存储的基本单元,通常为 512 字节或 4 KB。

🧊总结一下,我们存储的数据就是存在一个个扇区之中,通过磁头来对数据内容进行访问。

定位数据

🧊那我们该如何定义扇区的位置呢?

首先要确定在哪个扇面上(根据磁头),之后确定在哪个磁道(根据半径),最后根据扇区编号定位目标扇区的位置。

🧊因此以后找一个扇区只要

  • 磁道(柱面):  cylinder
  • 磁头:            head
  • 扇区:            sector

🧊而这种定位扇区的方法被称作 CHS 定位法。

抽象管理

🧊而在 OS 内部并不是直接使用 CHS 定位法的。

[原因]:

  • 万一硬件发生变化,则 OS 也要变化,因此 OS 的实现需要与硬件解耦
  • 一个扇区的大小(512B)不足 OS 一次 IO 的最小读取单位(4Kb)。

所以,OS 要有自己的一套地址,来进行块级别的管理。

🧊我们沿着磁道,将磁盘展开将盘面抽象成一个数组。于是,我们定位一个扇区便可定位它的下标,因为 OS 是以 4KB 为单位进行 IO 的,故 OS 读取的数据块要包括 8 个扇区,在 OS 的角度甚至可以不关心扇区。

🧊只需要像计算机常规的访问方式那样: 起始地址 + 偏移量,即获取数据块第一个扇区的地址(下标) + 4KB(块的类型)即能访问的整个数据块。

🧊由此我们便可以通过线性下标定位任何一个块了,而这种 OS 管理磁盘的方式被称为逻辑块地址(LBA)。

🧊从 LBA 出发,我们还能够转化得到扇区的 CHS。

  • C: LBA / 每个面的大小 / 每个磁道的大小
  • H: LBA / 每个面的大小
  • S: LBA % 每个磁道的大小

文件系统

分组管理

🧊学习完上面的知识后,我们知道 OS 通过先描述再组织的方式将磁盘抽象成一个大数组进行管理。

🧊而具体管理的方法,就是我们接下来要讲解的内容了。

由于磁盘抽象成的数组过于庞大,首先第一步就需要将其分作几个区域。每个区域的管理方式都是一样的,因此只要管理好一个区域就相当于管理好整个磁盘了。(类似于 begin 和 end 进行下标的划分)

🧊虽然磁盘已经经历过一次分区,但是每个区的大小依旧十分庞大,我们还需要再进行一次分组

🧊由此管理每个区的任务就简化到了管理每个组只要实现一个组的管理通过复制粘贴就可完成其他组的管理,进而完成整个区的管理,而管理好每个区就相当于管理好了整个盘

🧊在每个区内都会有一个Boot Block,又名为启动块,在开机时会通过它读取 OS 镜像的地址,从而找到操作系统,若是这个区域损坏则会直接影响操作系统的启动

🧊同时,组内还划分了不同的块承担了不同的职责: 

  • Super Block: 存储了文件系统的所有属性信息: 文件系统的类型、整个分组的情况等。
  • Group Descriptor Table: 简称 GDT 又叫做组描述符,内部统计了该组内详细的属性信息,例如: 组内各个块如何划分。
  • Block Bitmap: 块位图,标志数据块是否被使用。
  • inode Bitmap: inode 位图,每个比特位表示 inode 是否可用。
  • inode Table: 专门保存 group 内所有文件的 inode 节点。
  • Data Blocks: 具体的数据块。

🧊其中,Super Block 在每个分组都存在,且统一更新,是为了防止万一其发生损坏导致整个分区都无法使用,因此做了多个备份。

属性存储

🧊我们常说,在文件 = 内容 + 属性,在 Linux 中内容和属性是被分开存储的。

一般而言,一个文件内部所有属性的集合就是 inode 节点(128字节),同时一个文件对应一个 inode

🧊在一个分区中便会有大量的文件,因此就会又大量的 inode,由此需要将 group 中所有的 inode 管理起来,即 inode Table。

其中每个 inode 都有自己对应的编号,也属于对应文件的属性 id。我们可以通过 ls -i 查看文件的 inode 编号。

ls -i     //查看文件的inode编号

🧊在之后的访问中,OS 也是根据 inode 编号来进行文件查找或读取内容。

内容存储

🧊存完属性后,那考虑的便是如何存储文件内容。我们通过数据块来保存文件内容,所以一个有效文件保存内容至少需要 1 个数据块

🧊而数据块在 Data Block 中,那么我们该如何定位文件对应的数据块呢?

🧊其实,在 inode 内部便会存入当前文件对应数据块的索引,之后在 Data Block 中定位即可。可以如此近似理解。

struct inode
{
    int number;
    ...//其他文件属性
    int datablocks[NUM]; 
};

深入解析文件操作

如何理解inode

🧊Linux 系统中只识别 inode 编号,文件的 inode 中并不存在文件名,文件名提供给用户使用的。我们又该如何理解这层关系呢?

🧊创建一个目录文件后,我们可以观察到目录文件也有自己的 inode 编号,那目录中都存了什么数据呢?

🧊实际上,目录的数据块里保存的就是该目录下文件名文件 inode 编号对应的映射关系,二者互为key值。

🧊因此,任何一个文件都应该在一个目录内部。

🧊同时,inode 可以用于确定分组,inode number 在一个分区中唯一有效,不能跨分区。(分组的起始位置 + 位图的位置)

创建和删除文件

  • 当我们创建一个文件时,首先OS 会在 inode Bitmap 找一个未被使用的 inode 编号分配给当前 inode,填入相关信息后置于 inode Table 中。
  • 再根据inode中的属性和 Block Bitmap 的情况分配对应的数据块,并填入 inode 中的索引表中。
  • 最后再更改目录中的内容,将文件名与该文件 inode 关联起来。

🧊删除文件的话只需要修改两个 bitmap 即可,将空间空闲出来,下次便会直接覆盖写入。

🧊同样电脑文件中的删除操作也并不是直接将文件删除,也是调整空间的状态,因此只要这块空间还没有被写入数据,便能够进行恢复。

文件访问

🧊当我们访问文件时:

  • 首先在当前目录下,找到输入文件名对应的 inode 编号。
  • 一个目录一定隶属于一个分区,结合编号在该分区中找到对应分组,在该分组的 inode table 中找到文件的 inode。
  • 通过 inode 与对应的 Data Block 关联起来,于是便找到了相关数据,进而根据命令进行其他操作。

如何存储大文件

🧊若是直接使用 inode 内部的数组直接索引 Data Block 中的内容,假设一个数组可以存 NUM 个内容,是否意味着我们最大只能存 NUM * 4KB 大小的文件呢?

🧊答案是否定的,我们可以使指向的数据块里的内容并非直接的数据,而是其他数据块的编号,由此拓宽文件的存储大小。

🧊这种索引方式称为二级索引

🧊若使用二级索引还是不足以构建出文件,那可以继续套娃,使用三级索引,在数据块中存储二级索引。这样只要磁盘空间允许,便可以构建出足够大的文件。


🧊好了,今天 文件系统 的相关内容到这里就结束了,如果这篇文章对你有用的话还请留下你的三连加关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/676725.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】MySQL 高级 SQL 语句 (二)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 MySQL 高级 SQL 语句 连接查询CREATE VIEW 视图UNION 联集交集值无交集值CASE空值(NULL) 和 无值() 的区别正则表达式 连接查询 mysql> select * from xjz; #xjz表格 ---…

Linux5.8 MySQL主从复制与读写分离

文章目录 计算机系统5G云计算第四章 LINUX MySQL主从复制与读写分离一、概述及原理1)什么是读写分离2)为什么要读写分离呢3)什么时候要读写分离4)主从复制与读写分离5)mysql支持的复制类型6)主从复制的工作…

Rust语言从入门到入坑——(5)Rust 所有权

文章目录 0 引入1、所有权2、内存和分配3、移动与克隆3.1、移动3.2、克隆 4、引用与租借4.1、引用4.1、垂悬引用 5、函数中变量5.1 参数变量5.2 、返回值变量 0 引入 主要介绍Rust所有权的知识,涉及到变量的作用域,内存释放机制,移动&#x…

Python|Pyppeteer启动浏览器窗口,右侧出现空白区域怎么解决?(13)

前言 本文是该专栏的第13篇,结合优质项目案例持续分享Pyppeteer的干货知识,记得关注。 有些同学可能在使用pyppeteer的时候,在配置项里面,明明已经设置好了窗口最大化,而启动Chromium窗口,打开的窗口最右侧却是一大片空白区域,具体如下图所示: 那么,出现上述情况,需…

AutoGPT 英文版安装过程

自从2022年11月chatGPT的发布3.0GPT大模型,在中国掀起一股AI学习热潮,国内百度2023年4月份发布文心一言,把AI推上另一个高潮,最直接的是问答,我输入一句话,AI帮生成一段文字或一个视频,但是国内…

畅捷通T+ 反序列化漏洞复现(QVD-2023-13615)

0x01 产品简介 畅捷通 T 是一款基于互联网的新型企业管理软件,功能模块包括:财务管理、采购管理、库存管理等。主要针对中小型工贸和商贸企业的财务业务一体化应用,融入了社交化、移动化、物联网、电子商务、互联网信息订阅等元素。 0x02 漏…

Chat2DB数据AI工具开源!对数据分析师行业影响如何?

大家好,我是千与千寻,千寻目前在互联网公司担任算法工程师,也要经常性的和数据打交道。那么数据都存放在哪里?当然是数据库啦! 说到数据库,我们就不得不提到一种编程语言——SQL数据语言,后端程…

2023年最新项目管理工具排名推荐,助你提升项目效率!

在当今快速发展的互联网时代,项目管理工具已经成为了越来越多企业和团队必不可少的工具之一。好的项目管理工具能够帮助团队更加高效地协同工作,提高工作效率,节省时间和成本,从而使得整个项目可以更快地达成预期目标。现在让我们…

微信为什么使用 SQLite 保存聊天记录?

概要 SQLite 是一个被大家低估的数据库,但有些人认为它是一个不适合生产环境使用的玩具数据库。事实上,SQLite 是一个非常可靠的数据库,它可以处理 TB 级的数据,但它没有网络层。接下来,本文将与大家共同探讨 SQLite 在…

【Diffusion模型系列1】DDPM: Denoising Diffusion Probabilistic Models

0. 楔子 Diffusion Models(扩散模型)是在过去几年最受关注的生成模型。2020年后,几篇开创性论文就向世界展示了扩散模型的能力和强大: Diffusion Models Beat GANs on Image Synthesis(NeurIPS 2021 Spotlight, OpenAI团队, 该团队也是DALLE-2的作者)[1] Various…

阿里云国际站代理商:如何优化阿里云服务器的性能和响应速度?有哪些调优策略和建议?

随着互联网的发展,阿里云服务器已经成为很多企业和个人的首选解决方案。然而,面对不断增长的需求和复杂的网络环境,如何优化阿里云服务器的性能和响应速度,提高用户体验,是很多用户关心的问题。本文将从以下几个方面&a…

上海阿里云代理商:如何保护阿里云服务器中的敏感数据?有哪些加密和访问控制措施?

如何保护阿里云服务器中的敏感数据?有哪些加密和访问控制措施?   一、阿里云服务器安全概述   阿里云服务器作为云计算服务的主要产品,其安全性备受用户关注。在实际使用中,保护服务器中的敏感数据是至关重要的,而…

Tkinter之GUI界面布局介绍

Tkinter之GUI界面布局介绍 关于Python 的Tkinter窗口基础可参见https://blog.csdn.net/cnds123/article/details/127227651 Tkinter 本身没有提供拖拽放置控件的方式创建 GUI 界面,而是提供了pack、grid和place三种几何管理器(geometry manager&#x…

canvas详解05-变形

几何变换 canvas现在被大量地运用于游戏等动画领域,最主要的归功于它提供的一系列几何变换方法,使得动画更加地容易。所以其几何变换是非常重要的一节。 在本教程前面的部分中,我们已经了解了 Canvas 网格和坐标空间。到目前为止,我们只是根据我们的需要使用默认的网格,改…

Unity - 记一次,使用 RenderDoc 调试 渲染 异常 的过程

文章目录 vertex shader - rawfragment shader - raw调试RDC的shader准备选项 - remote - 不要选local先查看 texture, sampler, ubo 数据调试:输出原始的法线数据调试:输出原始法线0\~1>-1\~1,并应用法线强度的法线调试:输出世…

强化学习从基础到进阶-常见问题和面试必知必答[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战

【强化学习原理项目专栏】必看系列:单智能体、多智能体算法原理项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现 专栏详细介绍:【强化学习原理项目专栏】必看系列:单智能体、多智能体算法原理项目实战、相关技巧…

一文了解RabbitMQ安装使用

什么是RabbitMQ? 官网:Messaging that just works — RabbitMQ RabbitMQ是一种开源的消息中间件软件,用于构建可扩展的分布式应用程序。它实现了高级消息队列协议(AMQP),这是一种网络协议,用于在应用程序之…

RIS 系列:TransVG: End-to-End Visual Grounding with Transformers 论文阅读笔记

RIS 系列:TransVG: End-to-End Visual Grounding with Transformers 论文阅读笔记 一、Abstract二、引言三、相关工作3.1 视觉定位两阶段方法单阶段方法 3.2 Transformer视觉任务中的 Transformer视觉-语言任务中的 Transformer 四、视觉定位中的 Transformer4.1 基…

【网络协议详解】——IPv4(学习笔记)

目录 🕒 1. IPv4地址概述🕒 2. 分类编址🕒 3. 划分子网🕘 3.1 概述🕘 3.2 如何实现🕘 3.3 无分类编址🕘 3.4 应用规划🕤 3.4.1 定长的子网掩码FLSM(Fixed Length Subnet …

【排序算法】冒泡排序、选择排序、插入排序

冒泡排序 依次比较相邻的两个元素,将比较小的数放在前面,比较大的数放在后面,直到所有元素排列完。 最容易理解的版本 对一个数组的n个整型数据进行n趟排序,每趟排序都尝试将较大值放到数组右侧。 每趟排序比较两个相邻的数据&…