详解--计算机中的索引(包含 数据库,磁盘)

news2025/1/14 18:03:59

1. 索引概念

1.1 什么是索引

  • 例子
    当我们看一本书时,目录就相当于对照表,通过目录可以快速找到要看的内容。
  • 拓展
    索引就相当于书的目录。
    • 索引是有序的
    • 索引在计算机领域中是一种数据结构

1.2 索引的作用

主要用于提高查询效率

例子:

  • 磁盘索引:

    • 帮助 CPU 读数据时,提高内存和磁盘置换数据效率。
    • 降低磁盘 IO
  • 数据库索引:

    • 提高数据查询速度。
    • 降低数据库的IO

1.3 索引存放位置

一般来说索引本身也很大,不可能全部存储在内存中,因此无论磁盘索引还是数据库索引往往是存储在磁盘上的文件中的(可能存储在单独的索引文件中,也可能和数据一起存储在数据文件中)。

2. 能做索引的数据结构

做索引首先要查询效率高,其次磁盘 IO 要少才是最佳选择

2.1 链表

  • 链表并不适合做索引。因为查询效率太低了。
    原因:
    • 因为索引是有顺序的,故链表检索时间复杂度是 O(n)。
      思考下查询效率更高的二分查找才是更好的索引选择。故树形结构更适合做索引。

2.2 树

下文分析都是以树为数据结构阐述的。

2.2.1 树做索引前置知识

  • 索引(树)保存数据的方式一般有两种:

    1. 数据区保存 键 对应保存数据的具体内容,这意味着随着节点增多,加载进入内存的数据量会特别大。
    2. 数据区保存 键 对应真正保存数据的磁盘地址,这意味着,只要加载到的不是真正的键时,内存就不会增特别大。
  • 通过索引(树)查找数据的过程

    1. 加载根节点进入内存
    2. 比较节点 键值 ,若未命中继续加载下一节点
      • 此处若节点保存的是真实数据,那么每次多加载一个节点,会进行一次磁盘 IO,同时会让内存增大,增大大小(较大) = 整个索引节点大小(包含 键、真实数据大小等)
      • 此处若节点保存的是真实数据的地址,那么每次多加载一个节点,会进行一次磁盘 IO,同时会让内存增大,增大大小(较小) = 整个索引节点大小(不包含真实数据大小)
    3. 若命中,则将对应数据加载给操作系统

2.2.1 二叉树

  • 二叉树查找时间复杂度O(log2(n))。
  • 但是如下图二叉树可能出现 链表的结构,那么查询效率还是很低,故也不适合。
    在这里插入图片描述

2.2.2 平衡二叉树

如红黑树等。

  • 平衡二叉树很好的解决了二叉树的线性链表结构问题。
  • 但仍有问题
    1. 因为结构问题,当数据量很大时候,就会造成树的深度是很大。
      如果查找的数据在根节点还好,如果在叶子结点,就会造成多次 IO。而 IO 是比较耗时的。
    2. 每个节点存储的数据内容太少,没有很好的利用操作系统和磁盘的数据交换特性。也没有利用好磁盘 IO 的预读能力。
      • 扩展
        操作系统和磁盘之间的一次数据交换是以页为单位的。
        一页大小为 4K,即一次 IO 操作系统会将 4K(整倍数)的数据加载到内存中。
        但是二叉树每个节点值保存了一个关键字,一个数据区,两个子节点的引用,并不能填满 4K 的内容。辛辛苦苦的一次IO操作,只加载了一个关键字。
        所以平衡二叉树也并不适合做索引。

2.2.3 多路平衡查找树–B Tree

B Tree/B-Tree 概念参考链接

  • B Tree 和 B+ Tree 都满足查询效率高,且能减少磁盘 IO 的特性。

    1. 为什么查询效率高
      二分查找,效率很高。
    2. 为什么能减少磁盘 IO
      • 由前文知,加载一个节点会进行一次磁盘 IO。
      • 若进行一次 IO (即加载一个节点)
        1. 假设一次 IO 将一个节点(16K)内容加载进内存。
        2. 同时假设关键字类型为 int,即 4 字节,若每个关键字对应的数据区也为 4 字节,不考虑子节点引用的情况下,则每个节点大约能够存储(16 * 1000)/ 8 = 2000 个关键字,共 2001 个路数。
        • 对于 平衡二叉树,三层高度,最多可以保存 7 个关键字
        • 而对于这种有 2001 路的B树,三层高度能够搜索的关键字个数远远的大于二叉树,且只进行了一次 IO (减少磁盘 IO 的点)。
  • 注意:
    B Tree 保证树的平衡的过程中,每次关键字的变化,都会导致结构发生很大的变化,这个过程是特别浪费时间的,所以创建索引一定要创建合适的索引,而不是把所有的字段都创建索引,创建冗余索引只会在对数据进行新增,删除,修改时增加性能消耗。

  • B Tree 的应用
    B树主要应用于文件系统以及部分数据库索引,如MongoDB。

2.2.4 多路平衡查找树–B+ Tree

B+ Tree 是 B Tree 的变形。

  • B+ Tree 和 B Tree 主要区别

    1. B+Tree是B TREE的变种,B -TREE能解决的问题,B+TREE也能够解决( 降低树的高度,增大节点存储数据量)
    2. B+ Tree 的关键字全部存放在叶子节点中,非叶子节点用来做索引 。故 B+TREE 磁盘读写能力更强。
    3. B+ Tree 的叶子节点有一个双向链表。可以加快范围查询。故 B+Tree扫库和扫表能力更强(通过叶子节点的双链表)。
      • 正是这个特性决定了 B+树 更适合用来存储外部数据
      • 加快范围查询例子
        假如我找前100条数据,那么我找到第一条叶子节点的数据就可以从叶子节点直接向后取100个数据即可,不用再从根节点向下寻找
  • B+ Tree 的应用:
    大部分关系型数据库索引是使用 B+ Tree 实现。

    • 数据库索引采用 B+树 的主要原因是 B树在提高了磁盘 IO 性能的同时并没有解决元素遍历的效率低下的问题。正是为了解决这个问题,B+ 树应运而生。B+ 树只要遍历叶子节点就可以实现整棵树的遍历。而且在数据库中基于范围的查询是非常频繁的,而B树不支持这样的操作(或者说效率太低)

4. 磁盘索引

要想深入理解磁盘索引,肯定要了解操作系统的文件系统。

4.1 了解磁盘结构及读取机制

4.1.1 磁盘结构图示

在这里插入图片描述

  • 计算机中磁盘存储数据最小单元是扇区,一个扇区的大小是 512 字节,很明显,如果每次读写都以这么小为单位,那这读写的效率会非常低。磁盘一次读多少通过操作系统实现。

  • 磁盘读取数据步骤(此处简述,可能不完全准确,详细自行查找资料):

    1. 当需要从磁盘读取数据时,系统会将数据逻辑地址传给磁盘,磁盘的控制电路按照寻址逻辑将逻辑地址翻译成物理地址,即确定要读的数据在哪个磁道,哪个扇区。
    2. 接着需要寻道,
    3. 寻道后,需要旋转到指定扇区
    4. 最后读出数据。

4.1.2 磁盘块

  • 磁盘块是一个虚拟概念,相较于文件系统而衍生出的概念。
  • 也就是说 磁盘块 是 文件系统操作磁盘的最小单位。
  • 一般磁盘块的大小是扇区的整数倍,目的是加快磁盘 IO 效率。

4.1.3 详解–内存页 和 块啥关系


  • 是 操作系统(即 CPU)和内存交互的一个虚拟单位。
    操作系统 和 内存使用的是 页的相关映射。
    内存页–参考链接

  • 块是 磁盘 和 内存交互的一个虚拟单位。
    也就是内存读取磁盘上数据时才用到磁盘索引。

4.2 了解文件系统

参考链接

4.2.1 什么是文件系统

文件系统是操作系统中负责管理持久数据的子系统,说简单点,就是负责把用户的文件存到磁盘硬件中,因为即使计算机断电了,磁盘里的数据并不会丢失,所以可以持久化的保存文件。

4.2.2 文件系统类型

文件系统的基本数据单位是文件,它的目的是对磁盘上的文件进行组织管理,那组织的方式不同,就会形成不同的文件系统

4.2.3 文件系统示例–Linux 文件系统

Linux 最经典的一句话是:「一切皆文件」,不仅普通的文件和目录,就连块设备、管道、socket 等,也都是统一交给文件系统管理的。

  • Linux 文件系统会为每个文件分配两个数据结构

    1. 索引节点(index node)
      用来记录文件的元信息

      • 元信息包括 比如 inode 编号、文件大小、访问权限、创建时间、修改时间、数据在磁盘的位置等等。
      • 索引节点是文件的唯一标识,它们之间一一对应,也同样都会被存储在硬盘中,所以索引节点同样占用磁盘空间。
      • 为了加速文件的访问,通常会把索引节点加载到内存中。
    2. 目录项(directory entry)
      用来记录文件的名字、索引节点指针以及与其他目录项的层级关联关系。
      多个目录项关联起来,就会形成目录结构,但它与索引节点不同的是,目录项是由内核维护的一个数据结构,不存放于磁盘,而是缓存在内存

      • 目录项包含两种,一种是文件 一种是目录。
    3. 拓展

      • 目录项和索引节点的关系是多对一,也就是说,一个文件可以有多个别字。比如,硬链接的实现就是多个目录项中的索引节点指向同一个文件。
      • 目录也是文件,也是用索引节点唯一标识,和普通文件不同的是,普通文件在磁盘里面保存的是文件数据,而目录文件在磁盘里面保存子目录或文件
      • 目录项和目录不是一个东西
        • 区别
          目录是个文件,持久化存储在磁盘,
          而目录项是内核一个数据结构,缓存在内存。
        • 目录作用
          如果查询目录频繁从磁盘读,效率会很低,所以内核会把已经读过的目录用目录项这个数据结构缓存在内存,下次再次读到相同的目录时,只需从内存读就可以,大大提高了文件系统的效率。
  • 文件系统和磁盘联系

    1. 磁盘扇区和文件系统块的关系

      • 磁盘最小存储单位是 扇区

      • 文件系统最小单位是 逻辑块(在linux系统中称为块,在windows系统中称为簇)

        • 通俗的来讲,在Windows下如NTFS等文件系统中叫做簇;在Linux下如Ext4等文件系统中叫做块(block)。
        • 块的大小一般在硬盘格式化时被指定。如果块的大小设置为4K,那么磁盘要读取8个扇区之后,才将数据块传给操作系统。 这将大大提高了磁盘的读写的效率。
      • 文件系统把多个扇区组成了一个逻辑块每次读写的最小单位就是逻辑块(数据块)

    2. 了解磁盘分区
      一个磁盘可以分很多区,如 A盘、B盘…等等。

    3. 磁盘分区的格式化

      • 作用
        这个过程就是给磁盘分区写入文件系统结构。经过格式化,写入文件系统后,才能被操作系统识别,才能够正常的写入与读出数据,正常使用。

      • 和文件系统的关系
        文件系统有不同的格式,可以在同一块物理硬盘的不同分区,分别选择不同的文件系统。

      • 磁盘分区格式化过程
        磁盘进行格式化的时候,会被分成三个存储区域,分别是超级块、索引节点区和数据块区

        • 超级块,用来存储文件系统的详细信息,比如块个数、块大小、空闲块等等。 当文件系统挂载时进入内存
        • 索引节点区,用来存储索引节点; 当文件被访问时进入内存
        • 数据块区,用来存储文件或目录数据;

4.3 磁盘预读

  • 磁盘存取劣势
    由前文知,由于存储介质的特性,磁盘本身存取就比主存慢很多,再加上机械运动耗费,磁盘存取速度远远小于主存存取速度。
  • 如何降低磁盘存取劣势–预读
    • 因此为了提高磁盘存取效率,要尽量减少磁盘 I/O
      • 为了达到这个目的(减少磁盘 I/O),磁盘往往不是严格按需读取,而是每次都会预读,即使只需要一个字节,磁盘也会从这个位置开始,顺序向后读取一定长度的数据放入内存。
        由于磁盘顺序读取的效率很高(不需要寻道时间,只需很少的旋转时间),因此对于具有局部性的程序来说,预读可以提高 I/O 效率
    • 预读利用的依据是 计算机科学中著名的局部性原理(如下):
      1. 当一个数据被用到时,其附近的数据也通常会马上被使用。
      2. 程序运行期间所需要的数据通常比较集中。

4.4 了解操作系统读取数据流程

  • 流程
    1. 操作系统运行时若发现数据确实,则触发一次缺页中断。
    2. 缺页后系统会从磁盘中读取一个完整的页面(一般为 4 KB),并将其加载到主存中
      • 硬盘的最小读写单位是块(一般为512字节),而不是页。
        如果一个页面跨多个块,那么为了读取完整的页面,系统可能需要多次磁盘IO操作。
        • 例子
          假设一页(4 KB)包含 8个块,每个块大小为 512 字节。当需要从磁盘中读取某个页面时,如果该页面正好被分布在连续的8个块中,那么只需要进行一次磁盘 IO 来读取整个页面。但是,如果该页面跨越了两个或多个块组,那么可能需要进行多次磁盘 IO 来读取完整的页面。

4.5 磁盘索引

磁盘索引 一般为 B Tree的应用就在 内存 和 磁盘 交互时用到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1104882.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EasyExcel导出带有下拉框的表头模板

1.接口层 ApiOperation("其他费用配置-模版下载")GetMapping("/downloadTemplate")public void downloadTemplate(HttpServletResponse response) {try {List<String> list Arrays.asList("集团", "平台", "部门", &…

欧盟反垄断法的改变:对跨境电商的冲击和机遇

2024年&#xff0c;欧盟反垄断法将经历一场革命性的改变&#xff0c;这对于跨境电商来说是一个重大的法规转折点。长达数十年的联合体集体豁免条例&#xff08;CBER&#xff09;即将失效。 这意味着货运公司将不再享受欧盟针对反竞争协议规则的特殊待遇。这一法规的变革将对跨…

【精选】目前我国网络安全人才市场状况

网络安全人才市场状况 本章以智联招聘多年来形成的丰富的招聘、求职信息大数据为基础&#xff0c;结合了奇安信集团 在网络安全领域多年来的专业研究经验&#xff0c;相关研究成果具有很强的代表性。对涉及安全人才 的全平台招聘需求与求职简历进行分析&#xff08;注&#xf…

(十)Python异常处理机制

程序运行时常会碰到一些错误&#xff0c;例如除数为 0、年龄为负数、数组下标越界等&#xff0c;这些错误如果不能发现并加以处理&#xff0c;很可能会导致程序崩溃。 和 C、Java 这些编程语言一样&#xff0c;Python 也提供了处理异常的机制&#xff0c;可以让我们捕获并处理…

【前端学习】—判断成立(十二)

【前端学习】—判断成立&#xff08;十二&#xff09; <script>let value 0;Object.defineProperty(window, "a", {get() {return (value 1);},});if (a 1 && a 2 && a 3) {console.log("object");}</script>

Codesys V3协议漏洞挖掘方法

背景概述 Codesys是全球最著名的软PLC内核软件研发厂家德国的3S&#xff08;SMART&#xff0c;SOFTWARE&#xff0c;SOLUTIONS&#xff09;公司发布的一款与制造商无关IEC 61131-1编程软件及工控设备内核&#xff08;runtime SDK&#xff09;。Codesys 支持完整版本的IEC61131…

外置告警蜂鸣器使用小坑

告警蜂鸣器调试小坑 昨天调试新产品&#xff0c;由于IMO、MSC组织和IEC标准规定&#xff0c;不能使用带红色指示灯的蜂鸣器&#xff0c;于是更换了个不带灯。然而奇怪的现象出现了两次短响的程序在有的页面正常&#xff0c;有的页面就变成一声了。搞了一天&#xff0c;把各种寄…

老子云平台会员专业又有性价比!

老子云平台会员今天已经正式上线了&#xff0c;让我们来看看这次上线有什么超值福利&#xff0c;又有什么惊喜在等着我们呢&#xff1f; 1、全平台权益通享 一大波会员权益来袭&#xff0c;感受一下老子云平台的热情和诚意&#xff01; *** 权益详情&#xff1a;** 点击查看…

如何选择适合的招聘小程序源码?

作为招聘行业的专家&#xff0c;选择适合的招聘小程序源码是确保招聘过程高效顺利的关键一步。随着移动互联网的快速发展&#xff0c;招聘小程序已成为许多企业追逐人才的利器。然而&#xff0c;在众多的招聘小程序源码中&#xff0c;如何明智地做出选择&#xff0c;符合自身需…

AI大模型高速发展,Web3还远吗?

在过去的几年里&#xff0c;人工智能&#xff08;AI&#xff09;和Web3技术都经历了令人瞩目的发展。AI大模型&#xff0c;特别是像GPT-3、GPT-4等这样的巨型语言模型&#xff0c;已经成为AI领域的明星&#xff0c;而Web3则代表了下一代互联网的愿景&#xff0c;具有去中心化和…

stable diffusion和midjourney哪个好

midjourney和stable diffusion哪个好&#xff1f;midjourney和stable diffusion的区别&#xff1f;那么今天就从这2款软件入手&#xff0c;来探索一下他们的功能的各项区别吧&#xff0c;让你选择更适合你的一款ai软件。 截至目前&#xff0c;我们目睹了生成式人工智能工具的在…

图纸管理、图纸管理规范

图纸管理 一、作业的 图纸管理是重要的后勤保障工作&#xff0c;必须做到收发及时&#xff0c;手续齐全&#xff0c;废图绝迹&#xff0c;不遗失&#xff0c;无差错 彩虹图纸管理系统彩虹图纸管理软件_图纸管理系统_图纸文档管理软件系统_彩虹EDM【官网】彩虹EDM图纸管理软件系…

【Linux初阶】多线程4 | POSIX信号量,基于环形队列的生产消费模型,线程池,线程安全的单例模式,STL-智能指针和线程安全

文章目录 ☀️一、POSIX信号量&#x1f33b;1.引入&#x1f33b;2.信号量的概念&#x1f33b;3.信号量函数 ☀️二、基于环形队列的生产消费模型&#x1f33b;1.理解环形队列&#x1f33b;2.代码案例 ☀️三、线程池☀️四、线程安全的单例模式&#x1f33b;1.单例模式与设计模…

内网渗透-哈希传递

文章目录 哈希传递概念LMNTLM 原理利用hash传递 浏览上传文件实操&#xff1a;使用域中的一台机器通过哈希传递查看域控主机的C盘目录 hash传递获取域控RDPhash传递获取域控RDP 哈希传递 概念 早期SMB协议铭文在网络上传输数据&#xff0c;后来诞生了LM验证机制&#xff0c;L…

FPGA ZYNQ VIVADO创建IP核点亮LED灯 方式一

这里写自定义目录标题 PL端 纯Verilog语言创建IP核实现点亮LED灯工使用设备 ZYNQ 7010&#xff0c;选择设备型号XC7Z010CLG400-1根据以下流程完成本次创建时钟频率50MHZ&#xff0c;周期T20ns&#xff0c;因此计数50_000_000次&#xff0c;1sLED灯闪烁一次 PL端 纯Verilog语言创…

解决 Windows 7 激活信息失败报错 0xC004F057

文章目录 步骤一&#xff1a;以管理员身份运行命令提示符步骤二&#xff1a;卸载当前密钥信息步骤三&#xff1a;清除产品密钥信息步骤四&#xff1a;重新启动 Windows Activation Technologies 服务步骤五&#xff1a;重启电脑 &#x1f389;解决 Windows 7 激活信息失败报错 …

一款超好用的AI Logo生成器,免费可商用

HI&#xff0c;同学们&#xff0c;我是赤辰&#xff0c;本期是第20篇AI工具类教程&#xff0c;文章底部准备了粉丝福利&#xff0c;看完后可领取&#xff01; 在职场中&#xff0c;常常免不了需要进行Logo设计和制作&#xff0c;特别是对于非专业人员来说&#xff0c;设计Logo…

C语言文件操作(上)

文章目录 一、为什么使用文件二、什么是文件1.程序文件2.数据文件3.文件名 三、文件的打开与关闭1.文件指针2.文件的打开和关闭fopen 与 fclose 四、文件的顺序读写01 字符输出函数&#xff1a;fputs02 字符输入函数&#xff1a;fgetc03 文本行输出函数&#xff1a;fputs04 文本…

【计算机网络笔记】计算机网络性能(2)——时延带宽积、丢包率、吞吐量/率

系列文章目录 什么是计算机网络&#xff1f; 什么是网络协议&#xff1f; 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能&#xff08;1&#xff09;——速率、带宽、延迟 系列文章目录时延带宽积丢包率吞吐量/率&am…

探讨Acrel-1000DP分布式光伏系统的设计与应用-安科瑞 蒋静

摘 要&#xff1a;分布式光伏发电特指在用户场地附近建设&#xff0c;运行方式以用户侧自发自用、余电上网&#xff0c;且在配电系统平衡调节为特征的光伏发电设施&#xff0c;是一种新型的、具有广阔发展前景的发电和能源综合利用方式&#xff0c;它倡导就近发电&#xff0c;就…