数据结构篇:深度剖析跳跃表及与B+树优劣分析

news2024/11/23 18:33:34

     本文旨在探讨跳跃表的特性及其在实际应用场景中的作用,同时对其与B+树进行比较,以帮助更好地理解和运用这两种数据结构。

跳跃表

什么是跳跃表(skip list)

        跳跃表是一种基于跳跃链表的有序数据结构,它是一种多层链表,每一层都是一个有序的链表。表的每一层都有一个指向下一层的指针,可以快速跳转到更深层次的链表,支持快速的插入、搜索和删除操作。

        其原理是会把数据按照一定的规则分成多个层次,每一层都是有序的,并且每一层的元素数量都比下一层少一半,在搜索从最高层开始,比较要查找的元素和当前层的元素,如果要查找的元素比当前层的元素小,则可以跳转到下一层,如果要查找的元素比当前层的元素大,则继续比较下一个元素,直到找到要查找的元素为止。

        其优势在于搜索时间复杂度可以达到 O(logN),比传统的二分搜索树要快得多,且它的内存占用也比较少,节省大量的内存空间。但它同样也存在着不足,它需要额外的存储空间来存储每一层的指针,而且它的插入和删除操作比较复杂,需要更新多个指针。比起单链表,跳表需要存储多级索引,要消耗更多的存储空间,空间换时间的思路。

        其索引流程首先对链表建立一级“索引”,查找起来会更快,每隔几个结点提取一个结点到上一级,把抽出来的那一级叫做索引层,每加来一层索引之后,查找一个结点需要遍历的结点个数减少,时间复杂度也下降。比如要查找 60,从第一层索引查找到第3个节点发现65比60大,则回到30所在节点下降到一层,继续往前查找即可找到。

应用场景

        Redis的Sorted Set就是使用跳表来实现。

Redis的每种数据结构操作,实际上都是基于多种底层数据结构实现

跳表与B+树的对比

        每一种数据结构都有一个适用场景,结合前面B+树算法章节,我们来想一个问题:MySQL索引为什么使用 B+ 树而不使用跳表?或者说Mysql的InnoDB引擎 3层的B+树可以存储多少条数据 ?

B+树

    1 ) B+ 树是多叉树结构,每个节点存储16k的数据页,每个非叶子节点只存主键值(主键索引)和指针,数据存在于叶子节点。
    2 ) B+树 的一个节点大小=innodb引擎的一页=4个操作系统页(一页4kb)=16kb。
    3 ) B+ 树存放记录数:根节点指针数 x 中间节点数 x 单个叶子节点记录行数。
    4 ) B+树的每个节点可以存16KB数据,假设一行数据大小是1K,那一个叶子节点就可以存16行数据。
    5 ) 非叶子节点存放的是主键值与指针,假设主键类型为bigint,占用8字节, InnoDB 源码中指针占用6字节,共就14Byte。
    6 ) 单个叶子节点(页)大概可以存放为16KB/14Byte=1170个指针。
    7 ) 2层B+树 可以存放1170*16=18720行数据,3层B+树可以存放1170*1170*16=21902400行数据,差不多2000w条数据。
      7.1 ) 如果树高是2, 可以存储1170页的数据,1170*16 = 18720 行数据。
      7.2 ) 如果树高是3,可以存储 1170*1170 = 1368900 = 137万页数据,1170*1170*16 = 2200万行数据。
      7.4 ) 如果树高是4,可以存储 1170*1170*1170 = 16亿页数据,1170*1170*1170*16 = 256亿行数据。
    8 ) B+树三层就可以存储 2kw 左右的数据,查询一次数据,数据页都在磁盘中,最多需要经过三次磁盘 I/O。

跳表

    1 ) 跳表是链表结构,一个节点存储一个数据,如果最底层要存放 2kw 的数据,达到二分查找的效果。
    2 ) 跳表的大概高度在 24 层左右(2kw 大概是 2 的 24 次方)。
    3 ) 如果数据分布不好的情况下, 24 层数据会分散在不同的数据页里,查一次数据会经过 24 次磁盘 I/O。
    4) 存放同样量级的数据,B+ 树的高度比跳表要小,MySQL查询多,磁盘 I/O 次数更少,因此 B+ 树查询更快。
    5) Redis 使用跳表而不使用 B+ 树。
      5.1 ) 进行读写数据时都是内存操作,数据量相对少,不操作磁盘,因此也不存在磁盘 I/O,所以层高就不再是跳表的缺点。
      5.1 ) 写操作B+树要进行拆分索引数据页,跳表是独立插入,没有旋转和维持平衡的开销,跳表的写入性能会比 B+ 树更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1588618.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里云租用服务器GPU配置报价单_1年_一个月_1小时价格表

阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用,阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡,GPU云服务器gn6i可享受3折优惠,阿里云服务器网aliyunfuwuqi.com分享阿里云GPU…

高创新 | [24年新算法]NRBO-XGBoost回归+交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测

高创新 | [24年新算法]NRBO-XGBoost回归交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测 目录 高创新 | [24年新算法]NRBO-XGBoost回归交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现 [24年新算…

dPET论文笔记

PBPK论文笔记 题目:Self-supervised Learning for Physiologically-Based Pharmacokinetic Modeling in Dynamic PET 摘要 动态正电子发射断层扫描成像 (dPET) 提供示踪剂的时间分辨图像。从 dPET 中提取的时间活动曲线 (TAC&a…

竞赛 地铁大数据客流分析系统 设计与实现

文章目录 1 前言1.1 实现目的 2 数据集2.2 数据集概况2.3 数据字段 3 实现效果3.1 地铁数据整体概况3.2 平均指标3.3 地铁2018年9月开通运营的线路3.4 客流量相关统计3.4.1 线路客流量排行3.4.2 站点客流量排行3.4.3 入站客流排行3.4.4 整体客流随时间变化趋势3.4.5 不同线路客…

npm 切换成淘宝源,以及遇到npm 报错如何解决

淘宝源:npm config set registryhttps://registry.npmmirror.com/ 然后再npm下 package-lock.json这个删了 npm i再试一下

兮兮牧场养殖小游戏积分兑换互动商城引流模式

刚注册的新会员必须要进入牧场才能激活所有功能 一、获得动物的途径的方式 第一种是邀请好友注册获得,第二种是看广告获得 邀诘好友注册获得动物明细: 1、从兮兮牧场的邀请好友的链接去邀请好友才能获得,其他邀请码无效 2、注册赠送小鸡一只; 3、邀…

unity在linux环境下videoplayer 无法播放问题解决路径

1、问题 一个项目需要在linux下播放视频,并且视频在机器上,也就是要使用应用外的视频文件进行播放。 视频的格式当前提供的事avi格式,并且使用videoplayer 在windows下播放正常。 但是发出包之后再Ubuntu环境怎么都无法播放。 2、测试环境…

ThingsBoard通过MQTT发送属性数据

MQTT基础 客户端 MQTT连接 属性上传API 案例 MQTT基础 MQTT是一种轻量级的发布-订阅消息传递协议,它可能最适合各种物联网设备。 你可以在此处找到有关MQTT的更多信息,ThingsBoard服务器支持QoS级别0(最多一次)和QoS级别1&…

强大的数据分析计算软件:Stata 15 for Mac 激活版

Stata 15 for Mac是一款高级统计分析软件,具有强大的数据管理和数据提取工具。以下是其功能和特点的详细介绍: 软件下载:Stata 15 for Mac 激活版版下载 数据管理:Stata 15 for Mac支持多种数据库、数据格式和计算机语言&#xff…

Python实现BOA蝴蝶优化算法优化随机森林回归模型(RandomForestRegressor算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 蝴蝶优化算法(butterfly optimization algorithm, BOA)是Arora 等人于2019年提出的一种元启发式智能算…

Vue - 你会在同一个元素上使用v-for和v-if吗

难度级别:初级及以上 提问概率:50% 在初学者看来,v-for和v-if同时使用是非常方便的,二者共同使用的常见场景有两种。例如有两个列表,分别用于渲染学生数据和老师数据,然后有两个单选按钮,用于切换当前页面中需要展示学生列表还是老师列…

SQL单表查询(2)

对查询结果排序 ◆使用ORDER BY子句 – 可以按一个或多个属性列排序 – 升序:ASC;降序:DESC;缺省值为升序 ◆ 当排序列含空值时 – ASC:排序列为空值的元组最后显示 – DESC:排序列为空值的元组最先显…

2024年会计、审计、财务与经济管理国际会议(ICAAFEM2024)

2024年会计、审计、财务与经济管理国际会议(ICAAFEM2024) 会议简介 2024年国际会计、审计、财务和经济管理会议(ICAAFEM2024)将在云南省昆明市举行。会议旨在为从事“会计、审计、财务、经济管理”研究的专家学者提供一个平台&am…

web安全-SSH私钥泄露

发现主机 netdiscover -r 192.168.164.0 扫描端口 看到开放80和31337端口都为http服务 浏览器访问测试 查看80端口和31337端口网页和源代码并无发现有用信息 目录扫描 扫描出80端口并无有用信息 扫描31337端口 发现敏感文件robots.txt和目录.ssh 访问敏感文件和目录 /.ss…

重磅,新GPT-4-Turbo重新夺回大模型第一名

好消息,新版 GPT-4 Turbo 今天开始现已向所有付费 ChatGPT 用户开放。GPT-4 Turbo提高了写作、数学、逻辑推理和编码能力。上下文长度128k 输出速度更快。现在已经开始陆续推送,如果你发现你的知识库截止时间是2024年4月,那么就是最新版本了&…

使用 Python 标记具有相同名称的条目

如果大家想在 Python 中标记具有相同名称的条目,可以使用字典(Dictionary)或集合(Set)来实现。这取决于你们希望如何存储和使用这些条目。下面我将提供两种常见的方法来实现这个目标。 1、问题背景 在处理数据时&…

抽象的算法0.1.1版本

前言:在0.1版本中,我们得到了可迭代的超级模板,问题简单化 最近看到一本十分厉害的电子书,其中两句话让我虎躯一震,这就是大佬的思维! 第一句话:数学是用来描述万物本质的语言,是理…

MR-J4W2-77B 三菱伺服放大器2轴一体(750W型)

MR-J4W2-77B 三菱伺服放大器2轴一体(750W型) MR-J4W2-77B用户手册、MR-J4W2-77B外部连接 MR-J4W2-77B参数说明:2轴一体SSCNETⅢ/H接口型、0.75kW用、三相或单相AC200V~240V 三菱伺服放大器MR-J4W2-77B的详细规格说明: [输出] …

品牌发言稿怎么写?媒介盒子分享

品牌发言稿的重要性不言而喻,它不仅代表着品牌形象,更是沟通品牌与消费者、合作伙伴的桥梁。如何撰写一篇高质量的品牌发言稿,成为许多品牌关注的焦点。今天媒介盒子来和大家聊聊:品牌发言稿怎么写。 一、 发言稿写作技巧 1.结构…