SQL note2:DIsks and Files

news2025/1/20 11:02:04

目录

1、内存和磁盘

2、磁盘API 

3、磁盘结构

4、访问磁盘页面

5、磁盘 vs SSD

5、磁盘空间管理

6、Files, Pages, Records

7、选择文件类型

8、堆文件

1)链表实现

2)页面目录实现

9、排序文件

10、关于计算标题页的注意事项

11、记录类型

12、页面格式

1)具有固定长度记录的页面

2)具有可变长度记录的页面

13、字段类型

14、一些练习题


1、内存和磁盘

每当数据库使用数据时,该数据都必须存在于内存中。 访问这些数据相对较快,但是一旦数据变得非常大,就不可能将所有数据放入内存中,这时候就要用到了磁盘。

磁盘用于轻易地存储数据库的所有数据,但磁盘读写数据成本高。

2、磁盘API 

磁盘的基本 API 包括 READ 和 WRITE,分别代表将“页”数据从磁盘传输到 RAM 和将 “页” 数据从 RAM 传输到磁盘。 请注意,由于磁盘的结构,这两个 API 调用都非常慢。

3、磁盘结构

盘片通常以 15000 rpm 左右的速度旋转。 臂组件移入或移出以将磁头定位在磁头下方的所需轨道上并形成“圆柱体”。 任何一个时间只有一个磁头读/写块/页大小是(固定)扇区大小的倍数。

4、访问磁盘页面

访问(读/写)磁盘块的时间列出如下:

• 寻道时间(移动磁臂将磁盘头定位在磁道上); 平均 2-3 毫秒

• 旋转延迟(等待方块在头下旋转); 0-4 毫秒(15000 RPM)

• 传输时间(实际将数据移入/移出磁盘表面); 每 64KB 页 0.25 毫秒

5、磁盘 vs SSD

固态硬盘 (SSD) 或闪存是另一种存储数据的介质。 与磁盘不同,SSD 被组织成单元,并支持快速随机读取。 请注意,与 SSD 相比,硬盘在随机读取方面的性能非常差,因为空间局部性对于磁盘很重要,而顺序读取速度要快得多。 SSD 支持细粒度读取(4-8K读取)和粗粒度写入。 然而,SSD 中的单元在一定次数的写入擦除后往往会磨损(故障前仅擦除 2k-3k 次)。 为了解决这个问题,它使用一种称为“磨损均衡”的技术来不断移动写入单元,以确保没有单个单元被重复写入。 SSD 通常也比硬盘贵。 (1-2MB writes)

5、磁盘空间管理

磁盘空间管理是 DBMS 的最低层。 它负责管理磁盘空间。 其主要用途包括将页面映射到磁盘上的位置、将页面从磁盘加载到内存以及将页面保存回磁盘并确保写入。

6、Files, Pages, Records

关系数据库的数据的基本单位是记录(行)。 这些记录被组织成关系(表),并且可以在内存中修改、删除、搜索或创建。

磁盘数据的基本单位是页,是从磁盘到内存传输的最小单位,反之亦然。 为了以一种与磁盘兼容的格式表示关系数据库,每个关系都存储在自己的文件中,并且其记录被组织到文件中的页面中。

根据关系的架构和访问模式,数据库将确定:(1) 使用的文件类型,(2) 文件中的页面如何组织,(3) 每页上的记录如何被组织,(4) 每条记录如何被格式化。

7、选择文件类型

有两种主要的文件类型:堆文件和排序文件。 对于每个关系,数据库根据关系访问模式的 I/O 成本选择要使用的文件类型。 1 个 I/O 相当于从磁盘读取 1 页或向磁盘写入 1 页,并且根据每种文件类型的访问模式中的插入、删除和扫描操作进行 I/O 计算。 选择 I/O 成本较低的文件类型。

8、堆文件

堆文件是一种没有特定页面顺序或页面记录顺序的文件类型,有两种主要实现方式。

1)链表实现

在链表实现中,每个数据页包含记录、可用空间跟踪器以及指向下一页和上一页的指针(字节偏移量)。 有一个标头页充当文件的开头,并将数据页分为完整页和空闲页。

当需要空间时,会分配空页并将其附加到列表的空闲页部分。

当空闲数据页变满时,它们从空闲空间部分移动到链表的满页部分的前面。 我们将其移到前面,这样我们就不必遍历整个整页部分来附加它。

另一种方法是在标题页中保留指向该列表末尾的指针。

我们使用哪种实现的细节对于本课程(基础学习我们只需要有一个印象即可)来说并不重要。

2)页面目录实现

页目录实现与链表实现的不同之处在于仅使用标题页的链表。

每个标头页都包含一个指向下一个标头页的指针(字节偏移量),其条目既包含指向数据页的指针,也包含该数据页内剩余的可用空间量。

由于标头页的条目存储指向每个数据页的指针,因此数据页本身不再需要存储指向相邻页的指针。

页目录相对于链表的主要优点是插入记录通常更快。为了在链表实现中找到具有足够空间的页面,可能需要读取标题页面和空闲部分中的每个页面。

相反,页目录实现只需要读取最多所有的标题页,因为它们包含有关文件中每个数据页上剩余多少空间的信息。

为了强调这一点,请考虑以下示例,其中堆文件被实现为链表和页目录。 每页有 30 字节,一条 20 字节的记录被插入到文件中:

这只是一个小例子,随着页面数量的增加,这样的场景会导致在链表中插入比在页目录中插入要昂贵得多。

无论使用哪种实现方式,堆文件都比排序文件(下面讨论)提供更快的插入速度,因为记录可以添加到任何具有可用空间的页面,并且找到具有足够可用空间的页面通常非常便宜。 但是,在堆文件中搜索记录每次都需要进行完整扫描。 必须查看每页上的每条记录,因为记录是无序的,导致每次搜索操作的 N 个 I/Os 线性成本。 我们将看到排序的文件在搜索记录方面要好得多。

9、排序文件

排序文件是一种文件类型,其中页面被排序,同时每个页面中的记录被按键排序。

这些文件使用页面目录(Page Directories)实现,并通过基于记录排序方式对数据页面进行排序。在排序文件中搜索需要进行 logN 次 I/O 操作,其中 N 为页面数量,因为可以使用二分搜索找到包含记录的页面。与此同时,平均情况下插入需要 logN + N 次 I/O 操作,因为需要使用二分搜索找到要写入的页面,并且插入的记录可能导致所有后续记录都向后推移一个位置。平均而言,需要推移 N / 2 个页面,这涉及到每个页面的读取和写入 I/O 操作,从而导致 N 次 I/O 操作。

以下示例说明了最坏的情况。每个数据页面最多可以存储 2 条记录,因此在数据页面 1 中插入一条记录需要对其后的所有页面进行读取和写入,因为其余记录都需要被推后。

10、关于计算标题页的注意事项

在计算操作的 I/O 成本时,一个常见的困惑点是是否包括访问文件头页面的成本。当问题未提供底层文件实现时,请忽略读取/写入文件头页面的 I/O 成本。另一方面,当问题中提供了特定的文件实现(即使用链表或页面目录实现的堆文件)时,我们必须包括与读取/写入文件头页面相关的 I/O 成本。

11、记录类型

记录类型完全由关系模式确定,分为两种类型:固定长度记录(FLR)和可变长度记录(VLR)。FLR 仅包含固定长度字段(整数、布尔、日期等),具有相同模式的 FLR 由相同数量的字节组成。与此同时,VLR 既包含固定长度字段,也包含可变长度字段(例如varchar),导致具有相同模式的每个 VLR 可能具有不同数量的字节。VLR 在变长字段之前存储所有固定长度字段,并使用包含指向可变长度字段末尾的指针的记录标头。

无论格式如何,每个记录都可以通过其记录 ID([页码,页上的记录号])唯一标识。

12、页面格式

1)具有固定长度记录的页面

包含 FLR 的页面总是使用页面标头来存储当前页面上的记录数。

如果页面是紧凑的,那么记录之间就没有间隙。这使得插入变得简单,因为我们可以使用现有记录的数量和每个记录的长度计算页面内的下一个可用位置。一旦计算出这个值,我们就在计算出的偏移位置插入记录。删除稍微复杂,因为它需要将删除记录后的所有记录向页面顶部移动一个位置,以保持页面的紧凑性。

如果页面是非紧凑的,页面标头通常存储一个附加的位图,将页面分成插槽并跟踪哪些插槽是打开的或已占用的。

使用位图,插入涉及查找第一个开放的位,将新记录设置在相应的插槽中,然后设置该插槽的位。在删除时,我们清除已删除记录的相应位,以便未来的插入可以覆盖该插槽。

2)具有可变长度记录的页面

可变长度记录和固定长度记录之间的主要区别在于我们不再对每个记录的大小有保证。为了解决这个问题,每个页面使用一个页面页脚,其中包含一个跟踪插槽计数、自由空间指针和条目的插槽目录。页脚从页面底部开始而不是页面顶部,以便在插入记录时插槽目录有空间增长。

插槽计数跟踪总插槽数,包括已填充和空插槽。自由空间指针指向页面内的下一个空闲位置。插槽目录中的每个条目包含一个[记录指针,记录长度]对。

如果页面是非紧凑的,删除涉及查找插槽目录中记录的条目,并将记录指针和记录长度都设置为null。

对于将来的插入,记录将被插入到页面的自由空间指针处,并在任何可用的 null 条目中设置新的[指针,长度]对。如果没有 null 条目,将为该记录在插槽目录中添加一个新条目。插槽计数用于确定新插槽条目应添加到的偏移量,然后递增插槽计数。定期地,记录将被重新组织为紧凑状态,其中删除的记录被删除以为将来的插入腾出空间。

如果页面是紧凑的,删除涉及将插槽目录中记录的条目设置为 null。此外,删除记录后的记录必须向页面的顶部移动一个位置,并将相应的插槽目录条目向页面的底部移动一个位置。请注意,我们只在记录被删除的页面内移动记录。我们不会为文件跨页面重新整理记录。对于插入,记录将插入到自由空间指针,并且如果所有插槽都已满,每次都会添加一个新条目。

13、字段类型

不同的数据类型在磁盘上占用不同的空间。CS186使用下表中显示的标准约定。

14、一些练习题

1、作为一个Page Directory实现的堆文件,在最坏情况下插入一条记录的 I/O 成本是多少?该目录包含 4 个页头页和每个页头页有 3 个数据页。假设至少有一个数据页有足够的空间来容纳该记录。

在最坏情况下,唯一具有足够空闲空间的数据页面位于最后一个页头页面上。因此,成本为7次 I/O。

4(读取页头页)+ 1(读取数据)+ 1(写入数据)+ 1(写入最后一个页头)= 7

2、以下模式中,一条记录的最小大小(以字节为单位)是多少?假设记录头部是5字节。(布尔值 = 1字节,日期 = 8字节)

    name VARCHAR
    student BOOLEAN
    birthday DATE
    state VARCHAR

VLR 的最小大小为 14 字节,当 name 和 state 都为 null 时发生。

5(记录头)+ 1(布尔值)+ 8(日期)= 14

3、在给定前面问题中的模式的情况下,可以存储在1 KB(1024字节)页面上的记录的最大数量是多少?

为了最大化可以存储的记录数量,我们将考虑当所有记录的大小都是最小值时的情况。在前面的问题中,记录的最小大小被计算为14字节。此外,我们还需要考虑插槽目录条目和页面页脚的其余部分,其中包含一个自由空间指针和一个插槽计数。插槽计数为4字节,自由空间指针为4字节,插槽目录条目为每个记录8字节。

因此,可以存储的最大记录数为 floor( (1024 - 8) / (14 + 8) )。

4、以下模式中,一条记录的最大大小(以字节为单位)是多少?假设记录头部是5字节。(布尔值 = 1字节,日期 = 8字节)

    name VARCHAR(12)
    student BOOLEAN
    birthday DATE
    state VARCHAR(2)

最大记录将要求每个可变长度字段(即定义为VARCHAR(x)的字段)达到其最大尺寸。

5(记录头)+ 12(VARCHAR(12))+ 1(BOOLEAN)+ 8(DATE)+ 2(VARCHAR(2))= 28

5、插入了4个VLRs(可变长度记录)到一个空白页面。插槽目录的大小是多少?(int = 4字节)假设插槽目录最初没有插槽。

插槽目录包含插槽计数、自由空间指针和条目,这些条目是记录指针、记录大小的对。由于指针只是页面内的字节偏移量,因此目录的大小为40字节。

4 (slot count) + 4 (free space) + (4 (record pointer) + 4 (record size)) * 4 (# records) = 40

6、假设你有一个堆文件,实现为链表结构,其中头部页面连接到两个链表:一个包含满页面的链表,一个包含有空闲空间的页面的链表。有10个满页面和5个有空闲空间的页面。在最坏情况下,你需要读取多少个页面来查看是否有足够空间存储一些给定大小的记录?

在最坏的情况下需要读取页头页,然后读取所有 5 个页面。因此,成本是 6 次 I/O。

7、真或假:假设你正在使用页面目录实现,在最坏情况下,必须检查所有数据页面以找到足够空闲空间插入新记录的页面。

错误;页面目录实现可以利用存储在页头页中的元数据,以确定哪些数据页面有足够的空闲空间。而页头页中的条目包含指向数据页的指针以及该特定数据页的剩余空闲空间量。

以上,SQL note2:DIsks and Files

祝好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1211794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黄金投资面对K线图有哪些好用的交易策略?

在现货黄金交易中,学会观察K线图能够帮助投资者进行市场分析,根据K线图呈现出来的市场走势制定交易策略,是技术分析的主要作用。在黄金买卖过程中掌握K线交易技巧能够提升理财效率,所以这也就成为了炒金者的必修课。 K线图是以交…

Java 算法篇-链表的经典算法:根据值删除节点、删除倒数第 n 个节点

🔥博客主页: 小扳_-CSDN博客 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 链表的创建 2.0 链表的经典算法 - 根据值来删除节点 2.1 根据值来删除节点 - 遍历链表来实现 2.2 根据值来删除节点 - 递归实现 3.0 链表的经典算法 - 删除倒数第 n…

Android修行手册 - 阴影效果的几种实现以及一些特别注意点

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列点击跳转>ChatGPT和AIGC 👉关于作者 专…

一本了解生成式人工智能

上周,发了一篇关于大语言模型图数据库技术相结合的文章,引起了很多朋友的兴趣。当然了,这项技术本身就让俺们很兴奋,比如我就是从事图研发的,当然会非常关注它在图领域的应用与相互促就啦。 纵观人类文明历史&#xff…

uniapp——项目day05

购物车页面 结算区域 把结算区域封装为组件 1. 在 components 目录中&#xff0c;新建 my-settle 结算组件&#xff1a; 2. 初始化 my-settle 组件的基本结构和样式&#xff1a; <template><view class"my-settle-container">结算组件</view> …

代码随想录算法训练营第21天|530.二叉搜索树的最小绝对差 501.二叉搜索树中的众数 236. 二叉树的最近公共祖先

JAVA代码编写 530.二叉搜索树的最小绝对差 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&#xff0c;其数值等于两值之差的绝对值。 示例 1&#xff1a; 输入&#xff1a;root [4,2,6,1,3] 输出&#xff1a;1…

内网穿透工具NPS(保姆级教程)

前言&#xff1a; 有时候我们受限于硬件设备和网络的的问题&#xff0c;无法将内网的大容量、高性能存储设备或计算设备对外访问。这个时候就会变的特别苦恼&#xff0c;上云呢成本太大&#xff0c;不用云呢公网又无法直接访问&#xff0c;这个时候怎么办呢&#xff0c;NPS它来…

华为云优惠券介绍、领取入口及使用教程

华为云是华为的云服务品牌&#xff0c;致力于为用户提供一站式云计算基础设施服务。为了吸引用户&#xff0c;华为云经常推出各种优惠活动&#xff0c;其中就包括优惠券的发放&#xff0c;下面将为大家详细介绍华为云优惠券的作用、领取入口以及使用教程。 一、华为云优惠券介绍…

SDL2 播放视频文件(MP4)

1.简介 这里引入FFmpeg库&#xff0c;获取视频流数据&#xff0c;然后通过FFmpeg将视频流解码成YUV原始数据&#xff0c;再将YUV数据送入到SDL库中实现视频播放。 2.FFmpeg的操作流程 注册API&#xff1a;av_register_all()构建输入AVFormatContext上下文&#xff1a;avform…

如何检查 Docker 和 Kubernetes 是否可以访问外部网络,特别是用于拉取镜像的仓库?

要检查 Docker 和 Kubernetes 是否可以访问外部网络&#xff0c;尤其是用于拉取容器镜像的仓库&#xff0c;您可以按照以下步骤进行&#xff1a; 1. 检查节点的网络连接 首先&#xff0c;您需要确保 Kubernetes 节点能够访问外部网络。这可以通过在节点上执行 ping 命令来测试…

11月第2周榜单丨飞瓜数据B站UP主排行榜榜单(B站平台)发布!

飞瓜轻数发布2023年11月6日-11月12日飞瓜数据UP主排行榜&#xff08;B站平台&#xff09;&#xff0c;通过充电数、涨粉数、成长指数、带货数据等维度来体现UP主账号成长的情况&#xff0c;为用户提供B站号综合价值的数据参考&#xff0c;根据UP主成长情况用户能够快速找到运营…

Linux安装jdk1.8教程(服务器可以访问网络)

文章目录 前言创建安装目录查看是否安装过下载解压配置环境变量查看是否安装成功 前言 本教程介绍了一种快捷的jdk1.8安装方法。 创建安装目录 mkdir -p /opt/software // 这是我自己的安装目录&#xff0c;根据自己的习惯确定查看是否安装过 rpm -qa | grep -i jdk需要注意…

2023年人工智能还好找工作吗?

人工智能的就业形势并不严峻&#xff0c;相反&#xff0c;很多岗位都是供不应求的状态&#xff0c;可以看一下下面的官方数据。 脉脉高聘人才智库发布《2023泛人工智能人才洞察》&#xff0c;对23年1-8月的人工智能行业现状进行了分析总结。 人工智能相关岗位数据&#xff1a…

探索游戏公司跨部门合作的项目管理工具选择

为了实现出色的用户体验&#xff0c;游戏公司需要强大的研发能力和发行运营经验。通常情况下&#xff0c;游戏公司内部有多个独立工作的研发部门和发行部门&#xff0c;它们需要跨部门协作。随着公司快速发展和游戏项目增加&#xff0c;游戏公司迫切需要一套适用于特殊协作流程…

vue中ref的用法

vue中ref的用法 在项目中使用ref时有时候直接取值,有时候返回的却是一个数组,不知其中缘由,后查了一下ref用法,所以总结一下. 1.绑定在dom元素上时&#xff0c;用起来与id差不多&#xff0c;通过this.$refs来调用: <div id"passCarEchart" ref"passCarEch…

浙江大学数据结构陈越 第一讲 数据结构和算法

数据结构 数据结构是计算机科学中用来组织和存储数据的方式。它可以理解为一种组织数据的方式&#xff0c;能够有效地管理和操作数据&#xff0c;以及提供对数据进行存储、检索、更新和删除等操作的方法。常见的数据结构包括数组、链表、栈、队列、树和图等&#xff0c;它们各自…

竞赛选题 深度学习的视频多目标跟踪实现

文章目录 1 前言2 先上成果3 多目标跟踪的两种方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟踪过程4.1 存在的问题4.2 基于轨迹预测的跟踪方式 5 训练代码6 最后 1 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于深度学习的视频多目标跟踪实现 …

vue项目使用electron打包exe桌面程序

首先在vue项目中cmd进入终端&#xff0c;然后第一次下载electron依赖需要切换镜像&#xff0c;否则下载得很慢很慢&#xff0c;在终端中输入以下两个命令 将 Electron Builder Binaries 的镜像源设置为淘宝的 npm 镜像源。这同样用于提升 Electron Builder 相关包的下载速度。 …

Android 摇一摇功能实现,重力加速度大于15

最近接到需求实现摇一摇需求&#xff0c;不过这个法律限制的很严格&#xff0c;属于敏感地带&#xff0c;实现后又被叫停了。 法律要求&#xff1a; 如果按照规定&#xff0c;操作时间不少于3s就基本没什么跳转了。 实现的话&#xff0c;只考虑了第一条&#xff0c;即&#…

你绝对需要的Facebook养号攻略,教你如何养成耐用号

Facebook 可谓是大家的“老熟人”了&#xff0c;作为全球热门的社交媒体平台&#xff0c;Facebook 一直以来都是社媒营销、跨境电商的重要阵地&#xff0c;但是很多小伙伴们在注册新账号后往往忽略了一个重要的步骤&#xff0c;也是必不可少的一步&#xff0c;那就是养号&#…