[架构之路-228]:计算机硬件与体系结构 - 硬盘存储结构原理:如何表征0和1,即如何存储0和1,如何读数据,如何写数据(修改数据)

news2024/11/16 1:25:01

目录

前言:

一、磁盘的盘面组成

1.1 磁盘是什么

​编辑1.2 磁盘存储介质

1.3 磁盘数据的组织

1.3.1 分层组织:盘面号

1.3.2 扇区和磁道

1.3.3 数据

1.3.4 磁盘数据0和1的存储方式

1.3.5 磁盘数据0和1的修正方法

1.3.6 磁盘数据0和1的读

二、磁盘寻址过程

2.1 机械磁盘物理结构

2.2 机器磁盘的寻址过程:先旋转后寻道

2.3 固态磁盘的区别

三、文件系统:计算机中数据的组织方式

3.1 什么是文件系统

3.2 如何解决寻址问题

四、总结

参考资料:


前言:

硬盘,也称为磁盘,是最重要的永久存储数据的介质之一,本文就是探讨硬盘的工作原理:如何表征0和1,即如何存储0和1,如何读数据,如何写数据(修改数据)

一、磁盘的盘面组成

在解释磁盘读写之前,我们首先要了解它底层到底是个什么东西,数据到底是如何存储在物理设备上面,是以一个什么的形式存在。

因此,我们先来了解一下:磁盘究竟是什么,是用什么介质来存储数据的,数据在介质中的形式是什么样的?


1.1 磁盘是什么

磁盘(disk)是指利用记录技术存储数据的存储器。磁盘是计算机主要的存储介质,可以存储大量的二进制数据,并且断电后也能保持数据不丢失。早期计算机使用的磁盘是软磁盘(Floppy Disk,简称软盘),如今常用的磁盘是硬磁盘(Hard disk,简称硬盘)。



1.2 磁盘存储介质

所以存储介质是:用一堆可以存储正负电极的磁性材料组成,因为磁性方向可以代表计算机中0和1,并非真的是0和1电平,只是用来不同的磁性方向表征0或1

所以我们所熟知的视频、语音、图片、文字等这些 ,在磁盘存储形式都是0和1,映射到存储介质中,就是一堆的正负磁性材料。

1.3 磁盘数据的组织

磁盘是用于存放数据的物理介质,是按照分层的方式组织起来,用于增加磁盘的容量。

1.3.1 分层组织:盘面号

1.3.2 扇区和磁道

磁道号 = 柱面号 (移臂算法)

磁盘的每一面被分为很多条磁道,即表面上的一些同心圆,越接近中心,圆的周长就越小

如果,每一个磁道又按固定长度,如512个字节为单位划分为等分,叫做扇区,在一些硬盘的参数列表上你可以看到描述每个磁道的扇区数的参数,它通常用一个范围标识,例如373~746,这表示,最外圈的磁道有746个扇区,而最里面的磁道有373个扇区,因此可以算出来,磁道的容量分别是从186.5KB到373KB(190976B–381952B)。
 

1.3.3 数据

1.3.4 磁盘数据0和1的存储方式

1.3.5 磁盘数据0和1的修正方法

1.3.6 磁盘数据0和1的读

二、磁盘寻址过程

磁盘的存储介质了解之后,下面就是对盘面数据进行磁盘io读写,磁盘数据的读写,就涉及磁盘到底是如何寻址的,如下图所示:


目前市面上一般有两种磁盘,一种是机械磁盘(又叫做HDD),另外一种是固态磁盘(又叫做SSD)。后者比前者速度快,稳定性要好,当然价格相对也更贵。

我们今天主要介绍经典的HDD磁盘是如何寻址的。

2.1 机械磁盘物理结构


机械磁盘是由很多盘片组成的圆柱体,每个盘面有很多的磁道,磁道里面又可以划分为很多的扇区,扇区才是真正存储数据的地方。所以地址寻址本质上,是指从一个个扇区中找到所需数据的过程。


2.2 机器磁盘的寻址过程:先旋转后寻道

机械磁盘存在两组运动,

一组是磁盘的旋转运动(旋转延时时间)

一组是机械臂控制磁头的沿半经方向的直线运动(寻道时间),其中寻道时间远大于旋转时间。

所以我们在寻址时优先考虑磁盘旋转,而后再考虑磁头移动。

因为读取数据,本质上是通过磁头读取介质中的正负磁性,然后通过电流传输回去这个读取过程是非常快速的,相对旋转时间和寻道时间几何可以忽略不计所以读取速度的瓶颈就是如何减少寻址的时间
在我们不知道具体物理地址之前,需要进行全盘遍历寻址,那如何遍历寻址才会高效呢?

上头我们介绍到,机械磁盘其实是圆柱体,是由很多盘片组成,又因为寻道时间大于旋转时间远所以是并发同时进行最外层磁道的读取,如果整个圆柱体的当前磁道都读取不到数据的情况下,再移动磁头,也就是进行寻道,然后再接着继续旋转读取磁道信息,这样一直反复直到找到对应的数据。

但是不管是旋转还是寻道对比内存和cpu处理时间,都不在一个数量级上面,所以这也是数据库索引为什么用B+Tree,以此来降低树的高度,减少磁盘访问次数的原因。

磁盘访问时间是指从计算机发送读/写请求到磁盘,并且完成相应操作所需的时间。磁盘访问时间包括以下几个方面:

  1. 旋转延迟时间(Latency Time)-- 先旋转延迟时间是指磁盘使得目标扇区旋转到读写头下方所需的时间。对于传统的磁盘驱动器(HDD),它采用旋转的盘片来存储数据,因此需要等待目标数据旋转到合适位置。

  2. 寻道时间(Seek Time)-- 后寻道寻道时间是指磁盘驱动器的读写头从当前磁道移动到目标磁道所需的时间。磁盘有多个磁道,寻道时间取决于读写头的移动速度和寻道路径的长度。

  3. 传输时间(Transfer Time)-- 再传输传输时间是指数据从磁盘传输到计算机或从计算机传输到磁盘所需的时间。传输时间取决于磁盘驱动器的数据传输速度以及数据的大小。

        这三个时间因素组合在一起决定了磁盘访问的总体时间。通常,磁盘访问时间是主要影响计算机性能和响应速度的因素之一。为了减少磁盘访问时间,可以采取以下措施:

  • 提高磁盘驱动器转速和传输速率,例如升级到更高转速的磁盘驱动器或采用更快速的固态硬盘(SSD)。
  • 优化文件和目录的存储位置,让相关的文件和数据物理上更接近,减少寻道时间
  • 使用缓存技术,如读写缓存或页面缓存,减少对磁盘的直接读写操作
  • 合理规划磁盘分区和文件系统避免过度碎片化和文件过度分散等情况。

需要注意的是,磁盘访问时间是一个相对的概念,不同型号的硬盘或固态硬盘可能有不同的访问时间,而且各种因素的影响程度也会根据具体的情况而有所不同。

2.3 固态磁盘的区别

固态磁盘和机械磁盘物理结构有着本质的区别,它没有扇区、盘片、圆柱体这些概念,从名字就可以看出,它不是机械来驱动的,它是采用存储芯片进行数据存储

固态磁盘的存储芯片主要分为两种:

一种是采用闪存作为存储介质的;

另一种是采用DRAM作为存储介质的。

目前使用较多的主要是采用闪存作为存储介质的固态磁盘。

固态磁盘啥都好,就是价格贵(哈哈哈),还有一个非常核心的问题,就是存在写入次数上限,这个和它的工作原理有关(有兴趣的同学可以自行百度),超过一定次数,就会损坏。但是这边写入次数,并不是指文件写入次数,而是写入超多多少的量才算一次,一般的SSD的寿命在10-20年之间
固态磁盘虽然和机械磁盘很不一样,但是为了保证计算机的兼容性,不需要对上层程序进行更改,固态磁盘实际寻址方法和机械磁盘寻址方法是一样(软件层面上),只是磁盘内部做了兼容处理。最有力的证据就是:如果二者不兼容,旧电脑的磁盘是无法变更为固态磁盘的,因为硬件程序不兼容。
 

三、文件系统:计算机中数据的组织方式

计算机磁盘我们现在清楚了,但是我们不可能每打开一个文件,就全局遍历所有的内容,这样会导致打开一个文件,就要等很长一段时间,效率太差。

而且磁盘存储数据是0和1,文件是各种格式的数据,需要有一个数据解析转化的过程。

那谁来实现这个过程呢,对就是文件系统。

3.1 什么是文件系统

像我们不管是开发程序还是日常使用软件,对于文件的读写,都不需要考虑底层存储细节,而且速度非常快,实现这一切的功臣就是我们所熟知的操作系统

每个操作系统都提供了成熟的文件系统。不管是linux,还是win系统,都有自己的文件系统来处理文件的读写操作。

下面我们就来介绍一下,文件系统到底是如何工作,一个文件要怎么做,才能快速的找到存储地址,从而快速的读写。

那什么是文件系统呢?

说白了就是:介于磁盘上层的一个读写数据系统,让应用层不需要知道磁盘复杂结构,就可以快速寻址并解析原始数据,返回文件对应格式数据

3.2 如何解决寻址问题

那文件系统到底怎么解决快速寻址的问题

大家有没有发现,每当我们初始化系统之后,就莫名其妙少了一部分的磁盘空间,这部分的磁盘空间是无法存储数据,是操作系统独享的

这里面除了操作系统所需要的空间外,还有一部分空间是用来存储元数据。

上面的磁盘空间是1T的,也就是有1024GB空间,现在只有931G空间,其中一部分就是被元数据所占用。

什么是元数据的首先我们系统中所有的文件都在某一个目录上面,所以最基础的文件结构就是:目录--》文件,再复杂点,就是目录--》子目录--》子目录....--》文件。

所以我们只要确定文件到底存储在哪个目录下,就可以直接跳转到这个地址去读取文件。

元数据就是这些目录和文件对应的磁盘物理地址

当然,目录和文件也是一个海量的数据,不可能一股脑全部放到一起,每次全量扫描这种。

它也是采用上下级的形式,从最顶层一直到最底层。

上层的元数据在系统启动之后会初始化到内存中,并结构化为方便查询的数据结构。

这样打开一个文件就变成,从内存/磁盘中找到文件的物理地址,然后通过磁盘读写,将数据读取出来,通过文件系统转译为文件本身格式,将数据返回给调用者。

上述只是简单地对文件系统做一个介绍,文件系统的内容永不止这些,目前比较主流的是FAT和EXT2文件系统,有兴趣的同学可以阅读:文件系统是怎么通过路径来知道文件所在的磁盘位置? - 知乎

四、磁盘调度算法

4.1 先来先服务算法

FCFS算法根据进程请求访问磁盘的先后顺序进行调度,这是一种最简单的调度算法。该算法的优点是具有公平性。如果只有少量进程需要访问,且大部分请求都是访问簇聚的文件扇区,则有望达到较好的性能;但如果有大量进程竞争使用磁盘,那么这种算法在性能上往往接近于随机调度。所以,实际磁盘调度中考虑一些更为复杂的调度算法。 [1] 

1、算法思想:按访问请求到达的先后次序服务。

2、优点:简单,公平。

3、缺点:效率不高,相邻两次请求可能会造成最内到最外的柱面寻道,使磁头反复移动,增加了服务时间,对机械也不利。

4、例子:

假设磁盘访问序列:98,183,37,122,14,124,65,67。读写头起始位置:53。求:磁头服务序列和磁头移动总距离(道数)。

由题意和先来先服务算法的思想,得到下图所示的磁头移动轨迹。由此:

磁头服务序列为:98,183,37,122,14,124,65,67

磁头移动总距离=(98-53)+(183-98)+|37-183|+(122-37)+|14-122|+(124-14)+|65-124|+(67-65)=640(磁道)

FCFS

FCFS

4.2 最短寻找时间优先算法/最短移臂算法

[1]  SSTF算法优选选择调度处理的磁道是与当前磁头所在磁道距离最近的磁道,以使每次的寻找时间最短。当然,总是选择最小寻找时间并不能保证平均寻找时间最小,但是能提供比FCFS算法更好的性能。这种算法会产生“饥饿”现象

1、算法思想:优先选择距当前磁头最近的访问请求进行服务,主要考虑寻道优先

2、优点:改善了磁盘平均服务时间。

3、缺点:造成某些访问请求长期等待得不到服务。

4、例子:对上例的磁盘访问序列,可得磁头移动的轨迹如下图。

4.3 扫描算法(又称电梯算法)

SCAN算法在磁头当前移动方向上选择与当前磁头所在磁道距离最近的请求作为下一次服务的对象。由于磁头移动规律与电梯运行相似,故又称为电梯调度算法。SCAN算法对最近扫描过的区域不公平,因此,它在访问局部性方面不如FCFS算法和SSTF算法好。 [1] 

算法思想:当设备无访问请求时,磁头不动;当有访问请求时,磁头按一个方向移动,在移 [2]  动过程中对遇到的访问请求进行服务,然后判断该方向上是否还有访问请求,如果有则继续扫描;否则改变移动方向,并为经过的访问请求服务,如此反复。如下图所示:

扫描算法(电梯算法)的磁头移动轨迹

2、优点:克服了最短寻道优先的缺点,既考虑了距离,同时又考虑了方向。

4.4 循环扫描算法

[1]  在扫描算法的基础上规定磁头单向移动来提供服务,回返时直接快速移动至起始端而不服务任何请求。由于SCAN算法偏向于处理那些接近最里或最外的磁道的访问请求,所以使用改进型的C-SCAN算法来避免这个问题。

釆用SCAN算法和C-SCAN算法时磁头总是严格地遵循从盘面的一端到另一端,显然,在实际使用时还可以改进,即磁头移动只需要到达最远端的一个请求即可返回,不需要到达磁盘端点。这种形式的SCAN算法和C-SCAN算法称为LOOK和C-LOOK调度。这是因为它们在朝一个给定方向移动前会查看是否有请求。注意,若无特别说明,也可以默认SCAN算法和C-SCAN算法为LOOK和C-LOOK调度。

五、总结


了解底层存储原理和文件系统之后,我们再去学习各类数据库就会事半功倍。童靴们要明白,在物理存储介质没有突破之前,任何一款数据库想要达到优质的性能,除了不断优化框架和算法之外,必然是采用空间换时间的办法。

因为单台计算机是有上限的,但我们的数据量又是没有上限。所以必然要采取分布式存储的架构来扩展系统。但是如果采用分布式,要保证CAP,就必须要多副本、多机器,这本身就是一个很大的成本在里面。CAP 理论是针对分布式数据库而言的,它是指在一个分布式系统中,一致性(Consistency, C)、可用性(Availability, A)、分区容错性(Partition Tolerance, P)三者不可兼得。所以同学们如果有机会作为架构师来选择数据库的时候,就要把握好这个度了,目前没有一款产品,可以完美的解决各种大数据问题,都是某一方面存在特性,但是又不完美,需要根据业务场景来确定,而不是简单的拍脑袋。

参考资料:

详细了解硬盘的工作原理,原来数据的读写这么神奇,数码,数码硬件,好看视频 (baidu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1060716.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一键AI高清换脸——基于InsightFace、CodeFormer实现高清换脸与验证换脸后效果能否通过人脸比对、人脸识别算法

前言 AI换脸是指利用基于深度学习和计算机视觉来替换或合成图像或视频中的人脸。可以将一个人的脸替换为另一个人的脸,或者将一个人的表情合成到另一个人的照片或视频中。算法常常被用在娱乐目上,例如在社交媒体上创建有趣的照片或视频,也有用于电影制作、特效制作、人脸编…

华为云云耀云服务器L实例评测|Ubuntu云锁防火墙安装搭建使用

华为云云耀云服务器L实例评测|Ubuntu安装云锁防火墙对抗服务器入侵和网络攻击 1.前言概述 华为云耀云服务器L实例是新一代开箱即用、面向中小企业和开发者打造的全新轻量应用云服务器。多种产品规格,满足您对成本、性能及技术创新的诉求。云耀云服务器L…

【VUE·疑难问题】定义 table 中每行的高度(使用 element-UI)

一、如何定义 table 中每一行的 height &#xff1f; 1.table例子 <!-- 二、table --><div style"overflow: hidden;display: block;height: 68vh;width: 100%;"><el-table stripe show-header style"width: 100%" :data"tableData&q…

nodejs+vue养老人员活体鉴权服务系统elementui

系统 统计数据&#xff1a;统计报表、人员台账、机构数据、上报数据、核验报表等&#xff0c;养老人员活体鉴权服务是目前国家养老人员管理的重要环节&#xff0c;主要为以养老机构中养老人员信息为基础&#xff0c;每月进行活体鉴权识别并统计数据为养老补助等管理。前端功能&…

开箱报告,Simulink Toolbox库模块使用指南(七)——S-Fuction Builter模块

S-Fuction Builter S-Fuction Builter模块&#xff0c;Mathworks官方Help对该部分内容的说明如下所示。 DFT算法的原理讲解和模块开发在前几篇文章中已经完成了&#xff0c;本文介绍如何使用S-Fuction Builter模块一步到位地自动开发DFT算法模块&#xff0c;包括建立C MEX S-Fu…

水浒传数据集汇总

很喜欢《水浒传》&#xff0c;希望能将它融入我的考研复习中&#xff0c;打算用水浒传数据来贯穿数据结构的各种知识&#xff0c;先汇总下找到的数据集 天池上看到的一个水浒传文本数据集&#xff1a;https://tianchi.aliyun.com/dataset/36027 Hareric/masterworkNLP: 基于社…

CUDA C编程权威指南:1.1-CUDA基础知识点梳理

主要整理了N多年前&#xff08;2013年&#xff09;学习CUDA的时候开始总结的知识点&#xff0c;好长时间不写CUDA代码了&#xff0c;现在LLM推理需要重新学习CUDA编程&#xff0c;看来出来混迟早要还的。 1.CUDA 解析&#xff1a;2007年&#xff0c;NVIDIA推出CUDA&#xff08…

软件或游戏提示msvcp120.dll丢失的5种常用解决方法,msvcp120.dll文件全面解析

在当今数字化的时代&#xff0c;我们的生活已经离不开各种软件和游戏。然而&#xff0c;有时候我们可能会遇到一些技术问题&#xff0c;比如“软件或游戏提示msvcp120.dll丢失”。这个问题对于许多人来说可能很棘手&#xff0c;但是只要掌握了正确的解决方法&#xff0c;就能轻…

软件工程第四周

模型建立的基本理念 模型是对现实世界复杂系统的简化和抽象&#xff0c;目的是为了更好地理解、分析和预测系统的行为。它能够真实反映研究对象的整体结构 or 某一侧面&#xff08;功能、反应&#xff09;的本质特征和变化规律。可以建立不同的子模型用于反应系统不同的侧面。同…

《机器人SLAM导航核心技术与实战》第1季:第6章_机器人底盘

视频讲解 【第1季】6.第6章_机器人底盘-视频讲解 【第1季】6.1.第6章_机器人底盘_底盘运动学模型-视频讲解 【第1季】6.2.第6章_机器人底盘_底盘性能指标-视频讲解 【第1季】6.3.第6章_机器人底盘_典型机器人底盘搭建-视频讲解 第1季&#xff1a;第6章_机器人底盘 先 导 课…

SpringBoot二手车管理系统

本系统采用基于JAVA语言实现、架构模式选择B/S架构&#xff0c;Tomcat7.0及以上作为运行服务器支持&#xff0c;基于JAVA、springboot等主要技术和框架设计&#xff0c;idea作为开发环境&#xff0c;数据库采用MYSQL5.7以上. 采用技术: SpringBootMySQL

存在负权边的单源最短路径的原理和C++实现

负权图 此图用朴素迪氏或堆优化迪氏都会出错&#xff0c;floyd可以处理。 负环图 但floyd无法处理负权环&#xff0c;最短距离是无穷小。在环上不断循环。 经过k条边的最短距离&#xff08;可能有负权变&#xff09; 贝尔曼福特算法(bellman_ford)就是解决此问题的。 原理 …

智慧公厕:将科技融入日常生活的创新之举

智慧公厕是当今社会中一项备受关注的创新项目。通过将科技融入公厕设计和管理中&#xff0c;这些公厕不仅能够提供更便利、更卫生的使用体验&#xff0c;还能够极大地提升城市形象和居民生活质量。本文将以智慧公厕领先厂家广州中期科技有限公司&#xff0c;大量的精品案例项目…

Boost程序库完全开发指南:1.2-C++基础知识点梳理

主要整理了N多年前&#xff08;2010年&#xff09;学习C的时候开始总结的知识点&#xff0c;好长时间不写C代码了&#xff0c;现在LLM量化和推理需要重新学习C编程&#xff0c;看来出来混迟早要还的。 1.const_cast <new_type> (expression)[1] 解析&#xff1a;const_c…

分布式架构篇

1、微服务 微服务架构风格&#xff0c;就像是把一个单独的应用程序开发为一套小服务&#xff0c;每个服务运行在自己的进程中&#xff0c;并使用轻量级机制通信&#xff0c;通常是 HTTP API。这些服务围绕业务能力来构建&#xff0c;并通过完全自动化部署机制来独立部署。这些…

一文拿捏Spring事务之、ACID、隔离级别、失效场景

1.&#x1f31f;Spring事务 1.编程式事务 事务管理代码嵌入嵌入到业务代码中&#xff0c;来控制事务的提交和回滚&#xff0c;例如TransactionManager 2.声明式事务 使用aop对方法前后进行拦截&#xff0c;然后在目标方法开始之前创建或者加入一个事务&#xff0c;执行完目…

AutoCAD2014第一章 快速入门

AutoCAD的基本功能 AutoCAD具有功能强大、易于掌握、使用方便和体系结构开放等特点&#xff0c;能够绘制平面图形与三维图形、标注图形尺寸、渲染图形以及打印输出图纸&#xff0c;深受广大工程技术人员的欢迎。 AutoCAD所包含的基本功能有图形的绘制与编辑功能、尺寸标注功能…

[架构之路-229]:计算机体硬件与系结构 - 计算机系统的矩阵知识体系结构

目录 一、纵向&#xff1a;目标系统的分层结构 1.1 目标系统的架构 1.2 网络协议栈 1.3 计算机程序语言分层 二、横向&#xff08;构建目标系统的时间、开发阶段&#xff09;&#xff1a;软件工程 三、二维矩阵知识体系结构 一、纵向&#xff1a;目标系统的分层结构 1.1…

mysql双主双从读写分离

架构图&#xff1a; 详细内容参考&#xff1a; 结果展示&#xff1a; 178.119.30.16&#xff08;从&#xff09;- master 178.119.30.17&#xff08;从&#xff09;- slave 由上述结果可以看出&#xff0c;产生了主备节点同时抢占VIP的问题&#xff08;即脑裂问题&#xff09…

Python无废话-办公自动化Excel格式美化

设置字体 在使用openpyxl 处理excel 设置格式&#xff0c;需要导入Font类&#xff0c;设置Font初始化参数&#xff0c;常见参数如下&#xff1a; 关键字参数 数据类型 描述 name 字符串 字体名称&#xff0c;如Calibri或Times New Roman size 整型 大小点数 bold …