CMU15445实验总结(Spring 2023)

news2024/9/29 15:18:46

CMU15445实验总结(Spring 2023)

背景

菜鸟博主是2024届毕业生,学历背景太差,导致23年秋招无果,准备奋战春招。此前有读过LevelDB源码的经历,对数据库的了解也仅限于LevelDB。奔着”有对比才能学的深“的理念,以及缓解自身就业焦虑的想法,于是乎在2024.2.16日开始CMU15445(关系性数据库)实验之旅。截止到2.26日:将P2做完了。

因为C++的基础还凑合,而且时间紧迫,于是跳过了p0实验,建议之前没学过C++同学,可以做做p0以熟悉现代C++的语法。

课程主页链接:https://15445.courses.cs.cmu.edu/spring2023/

B站有一位up主“Moody-老师”,对着CMU15445的ppt按照自己的理解复现了每一次的讲座,链接如下:https://space.bilibili.com/23722270

Project #1 - Buffer Pool

总结

该模块是基于LRU-K Replacement Policy实现了一个内存池。简单来讲LRU-K Replacement Policy就是类似操作系统的内存页面置换。

P1模块实现的内存池,和LevelDB的Cache有相似的作用,只是LevelDB的Cache中实现的内存替换策略是最简单的LRU算法,同时,LevelDB并没有像本实验中那样一上来就分配那么多内存进行内存复用,而是采用了动态内存分配与释放的方式,新的Block(或者Table)加到Cache中时,使用malloc分配内存,淘汰时,使用free直接释放内存。可能这就是在BusTub中叫内存池,而在LevelDB中叫Cache的原因。

本实验进行的比较顺利,唯一主要弄清楚的是Frame和Page的区别。

  • Frame(4K): 就是内存页,相应的frame_id就是Buffer Manager最开始申请的每个内存页的唯一id号。

  • Page(4K): 就是磁盘页,相应的page_id就是磁盘上每一页的id号。

理清这两个术语,接下来直接复现本模块的业务代码即可。

  1. 在实现class BufferPoolManager时,可以实现一个NewFrameUnlocked成员函数,方便在BufferPoolManager中获得空闲内存页(Frame)。

  2. 明确class Page的读写锁是保护data_的,在class BufferPoolManager中无需对Page加读写锁,从实现上也可以想清楚这点。

Gradescope测试

关于6个Fail的解释

前三个是关于代码规范的测试,没有通过。。。

后三个是关于PageGuard的测试,我的实现参考了std::lock_guard,在构造时加读写锁、在析构时,解读写锁。但是因为出现了死锁,猜测测试程序可能不支持这么实现,但其实并没有错误。而且后续的B+树索引实验在使用PageGuard时并没有出现死锁。

gradescope测试

Project #2 - B+Tree

总结

该模块就是基于磁盘(结合Buffer Pool Manager)实现一个B+树的增删查改,另外要保证线程安全。

和LevelDB对比,LevelDB使用LSM Tree的结构,其数据结构使用的是跳表、内存按层的方式,每层内部存储SSTable文件的元数据,作为表级索引,SSTable文件尾部存储着数据块的索引,作为块级索引,而每个数据块的尾部存储着数据索引,作为数据索引。在检索一个key-value对时,由于LevelDB一层的各个部分之间是有序不重叠的,所以以二分为主。查询方面,可能LevelDB会略差,但是增删改,LevelDB可以做到“O(1)”(忽略内存插入跳表的操作)的时间复杂度,而使用B+的数据库增删查改时间复杂度都是O(logn)。LevelDB其实将真正的删改延迟到了压缩阶段。具体细节有兴趣的读者可以自行看LevelDB的源码。

B+树的实现

考虑到递归方式调试困难,我采用了迭代式实现了B+树

由于B+树只在叶节点存数据,所有迭代式只需要保存从根节点定位到key的路径然后根据规则进行调整即可。

约定:

  1. internal_page的kv关系如下:… key1 <= value1(value所代表的page中的key) < key2 <= value2 …

需了解的是:B+树internal_page,索引为0的entry,其key是无效value是有效。即,B+树internal_page中,key的数量 = value数量 - 1。而leaf page中,kv数量一样。也正是存在这种关系,使得在插入和删除时,internal page的处理更为复杂。

关于对我帮助很大的链接:

调试B+树可视化调试方式可以参考这篇文章:https://www.cnblogs.com/wangzming/p/17479777.html

经验贴:https://zhuanlan.zhihu.com/p/665802858?utm_id=0

B+树-查找

我实现了一个辅助函数:

INDEX_TEMPLATE_ARGUMENTS
void BPLUSTREE_TYPE::FindPath(const KeyType &key, Context& ctx, bool write, Transaction *txn)

可以查找key并保存路径。后面的插入和删除都用到了该函数。

流程如下:

从root_page开始,根据key找到leaf_page,同时保存沿路的internal_page。

官方提供的查找伪代码:

查找伪代码

B+树-插入

插入也是先调用FindPath记录并锁住沿路的page,然后自下而上迭代操作。

插入需要注意的是节点达到MAXSize时需要分裂。

对于leaf page的分裂

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>…

要分裂page_id为vn-1的leaf_page,流程如下:

  1. 以leaf_page的1/2处的kv作为分裂点,假设为<ki, vi>

  2. 将leaf_page节点中,索引为i(包括i)之后的所有的entry移动到new_leaf_page(index从0开始)中。

  3. 将leaf_page的next_page_id赋值给new_leaf_page的next_page_id。

  4. 将new_leaf_page_id赋值给leaf_page的next_page_id。

  5. 左孩子为vn-1(leaf_page的id),key为ki,右孩子为new_leaf_page_id(new_leaf_page的id)

  6. 将ki插到parent_page中。(即插到parent_page的index为n的地方)

分裂后parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<ki, new_page_id>、<kn, vn> 、<kn+1, vn+1>…

由于new_leaf_page中index为0处key还是有效的,所以,leaf page的分裂中,分裂点ki是复制并上移的。

对于internal page的分裂

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>…

要分裂page_id为vn-1的internal_page,流程如下:

  1. 以internal_page的1/2处的kv作为分裂点,假设为<ki, vi>

  2. 将internal_page节点中,索引为i(包括i)之后的所有的entry移动到new_internal_page(index从0开始)中。

  3. 左孩子为vn-1(internal_page的id),key为ki,右孩子为new_internal_page_id(new_internal_page的id)

  4. 将ki插到parent_page中。(即插到parent_page的index为n的地方)

分裂后parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<ki, new_page_id>、<kn, vn> 、<kn+1, vn+1>…

注意和leaf_page分裂时的区别。

由于new_internal_page中index为0处key是无效的,所以,internal page的分裂中,分裂点ki是上移的。

官方提供的插入伪代码:

插入伪代码1

插入伪代码2

Gradescope测试

关于3个Fail的解释

这三个是关于代码规范的测试,所以没有通过。

gradescope测试

B+树-删除

删除也是先调用FindPath记录并锁住沿路的page,然后自下而上迭代操作。

删除比较麻烦,需要考虑的情况比较多,但是一步一步,理清思路还是很好实现的。按规律来说,不能拆借就一定能合并,反之亦然。至于拆借和合并的时机,本文不过多赘述。

对于leaf page的拆借与合并

向left sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page向left sibling借其最右端的entry,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。移除并获得其最右端的entryi,假设为<ki, vi>

  2. 根据上面的[约定1],将parent_page中的entryn-1(<kn-1, vn-1>)中的key更新为:ki。

  3. 将<ki, vi>插到page_id为vn-1的leaf page最前方。

向left sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

向left sibling合并

我实现的合并,以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page和left sibling合并,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。

  2. 将leaf_page所有的entry都追加到left_sibling中去。

  3. 将leaf_page的next_page_id赋值给left sibling的next_page_id。

  4. 删除parent_page中index为n-1的entry。

和left sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn, vn> 、<kn+1, vn+1>、…

向right sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page向right sibling借其最左端的entry,流程如下:

  1. 找到right sibling的page_id假设中是vn。移除并获得其最左端的entryi,假设为<ki, vi>,为方便将entryi的下一个entry设为entryi+1<ki+1, vi+1>。

  2. 根据上面的[约定1],将parent_page中的entryn(<kn, vn>)中的key更新为:ki+1。

  3. 将<ki, vi>插到page_id为vn-1的leaf page最后方。

向right sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<ki+1, vn> 、<kn+1, vn+1>、…

向right sibling合并

还是以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的leaf_page和right sibling合并,流程如下:

  1. 找到right sibling的page_id假设中是vn。

  2. 将right_sibling所有的entry都追加到leaf_page中去。

  3. 将right_sibling的next_page_id赋值给leaf_page的next_page_id。

  4. 删除parent_page中index为n的entry。

和right sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn+1, vn+1>、…

对于internal page的拆借与合并

向left sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page向left sibling借其最右端的entry,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。移除并获得其最右端的entryi,假设为<ki, vi>

  2. 根据上面的[约定1],parent_page的key更新如下:

    • entryn-1(<kn-1, vn-1>) -> entryn-1(<ki, vn-1>)
    • entryi(<ki, vi>) -> entryi(<kn-1, vi>)(描述成<vi, kn-1>更合适)
  3. 将<kn-1, vi>按kv关系插到page_id为vn-1的internal page最前方。

向left sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

向left sibling合并

以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page和left sibling合并,流程如下:

  1. 找到left sibling的page_id假设中是vn-2。

  2. 将internal_page所有的entry(包括index为0,尽管key是无效的)都追加到left_sibling中去。

  3. 在left sibling中找到原来internal_page中index为0的entry(其key是无效key),将kn-1设为其key。

  4. 删除parent_page中index为n-1的entry。

和left sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn, vn> 、<kn+1, vn+1>、…

向right sibling拆借

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page向right sibling借其最左端的entry,流程如下:

  1. 找到right sibling的page_id假设中是vn。取right sibling的entry0的value,以及entry1的key,组成entryi,假设为<k1, v0>。(描述成<v0, k1>更合适)

  2. 根据上面的[约定1],parent_page的key更新如下:

    • entryn(<kn, vn>) -> entryn(<k1, vn>)
    • entryi(<k1, v0>) -> entryi(<kn, v0>)
  3. 将<k1, v0>插到page_id为vn-1的internal page最后方。

向right sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<k1, vn> 、<kn+1, vn+1>、…

向right sibling合并

还是以大页向小页追加为原则

假设parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id为vn-1的internal_page和right sibling合并,流程如下:

  1. 找到right sibling的page_id假设中是vn。

  2. 将right_sibling所有的entry(包括index为0,尽管key是无效的)都追加到internal_page中去。

  3. 在internal_page中找到原来right_sibling中index为0的entry(其key是无效key),将kn设为其key。

  4. 删除parent_page中index为n的entry。

和right sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn+1, vn+1>、…

官方提供的删除伪代码如下:

删除伪代码

Gradescope测试

关于3个Fail的解释

这三个是关于代码规范的测试,所以没有通过。

gradescope测试

大总结

p1+p2两个lab,大概花了10天,效率还是比较满意的。后面还剩两个project。目前核心在春招,所以准备放一放了。

CMU15445的lab做的还是爽的,就调试而言,起码比6.824的lab友好很多了。


本章完结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1473070.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java之SpringMVC源码详解

SpringMVC源码 一、SpringMVC的基本结构 1.MVC简介 以前的纯Servlet的处理方式&#xff1a; Overrideprotected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {String type req.getParameter(Constant.REQUEST_PA…

Scrapy实战

代码&#xff1a; Spider import scrapy from urllib.parse import urljoin from scrapy import Requestclass JiaSpider(scrapy.Spider):name "jia"allowed_domains ["desk.zol.com.cn"]start_urls ["https://desk.zol.com.cn/dongman/"]d…

【kubernetes】二进制部署k8s集群之cni网络插件flannel和calico工作原理

k8s集群的三种接口 k8s集群有三大接口&#xff1a; CRI&#xff1a;容器进行时接口&#xff0c;连接容器引擎--docker、containerd、cri-o、podman CNI&#xff1a;容器网络接口&#xff0c;用于连接网络插件如&#xff1a;flannel、calico、cilium CSI&#xff1a;容器存储…

C# 学习第三弹——表达式

表达式操作数运算符 &#xff08;一&#xff09;算数运算符 错误例子&#xff1a;这不是python&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 正确结果&a…

【Flutter/Android】新建项目,打开android 目录,报错红色以及开启 MultiDex 配置

1 报错红色问题。 单独打开 Flutter 项目下的 android 项目即可。 也就是说&#xff0c;你要一部分原生代码开发&#xff0c;你就需要自己把 android 项目单独出去做&#xff08;其实就相当于android 项目引用 Flutter的dart部分&#xff09;。也就是说&#xff0c;在 Flutter…

状态机-----

1.原理 同步的意思就是状态的跳转都是在时钟的作用下跳转的&#xff0c;有限是指状态机中状态的个数是有限的。两种状态机的共同点都是状态的跳转只和输入有关&#xff0c;区别就是如果最后的输出只和当前状态有关而与输入无关&#xff0c;则是moore型状态机。如果最后的输出不…

文件对比工具Beyond Compare 4 mac v4.4.7(28397)中文版

Beyond Compare是一款适用于Windows、Mac OS X和Linux平台的文件和文件夹比较工具。它可以帮助用户比较和同步文件夹、文件和压缩包等内容&#xff0c;支持多种文件格式&#xff0c;如文本、图像、音频、视频等。 软件下载&#xff1a;Beyond Compare 4 mac v4.4.7(28397)中文版…

二进制部署k8s之网络部分

1 CNI 网络组件 1.1 K8S的三种接口 CRI 容器运行时接口 docker containerd podman cri-o CNI 容器网络接口 flannel calico cilium CSI 容器存储接口 nfs ceph gfs oss s3 minio 1.2 K8S的三种网络 节点网络 nodeIP 物理网卡的IP实现节点间的通信 Pod网络 podIP Pod与Po…

NVIDIA\CUDA\cudnn安装以及visual studio2022编译安装ceres2.2.0库

一、NVIDIA驱动安装 网址:官方驱动 | NVIDIA 因为本文之后需要visual studio2022进行编译&#xff0c;所以在安装NVIDIA\CUDA\cudnn之前你先得安装visual studio2022 点击NVIDIA控制面板&#xff0c;NVIDIA Control Panel 查看产品家族 根据产品家族选择驱动&#xff0c;点…

SpringBoot使用classfinal-maven-plugin插件加密Jar包

jar包加密 1、在启动类的pom.xml中加入classfinal-maven-plugin插件 <build><plugins><plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId></plugin><plugin><…

CleanMyMac4苹果Mac电脑全面、高效的系统清理工具

CleanMyMac 4 for Mac是一款专为Mac用户设计的系统清理和优化工具。它具备多种功能&#xff0c;旨在帮助用户轻松管理和释放Mac上的磁盘空间&#xff0c;同时提升系统性能。 系统垃圾清理&#xff1a;CleanMyMac 4能够深入扫描Mac的每一个角落&#xff0c;智能识别并清除不需要…

qt-C++笔记之使用QProcess去执行一个可执行文件时指定动态库所存放的文件夹lib的路径

qt-C笔记之使用QProcess去执行一个可执行文件时指定动态库所存放的文件夹lib的路径 参考博文&#xff1a; 1.C笔记之执行一个可执行文件时指定动态库所存放的文件夹lib的路径 2.Linux笔记之LD_LIBRARY_PATH详解 3.qt-C笔记之使用QProcess去执行一个可执行文件时指定动态库所存放…

C++ list详解以及模拟实现

目录 1.list的使用 1.1list的定义 1.2list的使用 1.3list iterator使用 1.4list capacity 1.5list element access 1.6list增删查改 2.list迭代器失效问题 3.list的模拟实现 1.list的使用 1.1list的定义 1. list是可以在常数范围内在任意位置进行插入和删除的序列式容…

理想滤波器、巴特沃斯滤波器、高斯滤波器实现(包含低通与高通,代码实现与分析)

本篇博客聚焦理想滤波器、巴特沃斯滤波器、高斯滤波器进行原理剖析、代码实现和结果总结&#xff0c;代码含有详细注释&#xff0c;希望帮助大家理解。 以下将从理想低通滤波器、理想高通滤波器、巴特沃斯低通滤波器、巴特沃斯高通滤波器、高斯低通滤波器、高斯高通滤波器六个…

【网站项目】437物流管理系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

No matching version found for get-symbol-description@^1.0.2前端项目报错解决(亲测可用)

目录 一、问题详情 二、解决方案 一、问题详情 拉取一个新的项目的时候&#xff0c;前端进行install依赖的时候&#xff0c;报了如下的错误。 6120 verbose node v16.15.1 6121 verbose npm v8.11.0 6122 error code ETARGET 6123 error notarget No matching version foun…

隐变量模型、Auto-Encoder、VAE、VQVAE的学习

TOC 1 生成模型以及隐变量模型角度理解2 自编码器AE2.1 简单理解AE2.2 概率角度理解AE 3 变分自编码器VAE3.1 理解VAE3.1.1 证据下界(Evidence Lower Bound, ELBO)3.1.2 Encoder和Decoder3.1.2.1 Encoder3.1.2.1 Decoder 3.1.3 汇总3.2 概率角度理解 4 VQVAE4.1 AE、VAE和VQVAE…

计算机中x32、x64、x86是什么意思?

没有 x32 的说法&#xff0c; x86、x64 都指的是 CPU 的指令集架构。 指令集 所谓指令集&#xff0c;可以理解成硬件对外的接口。我们运行程序是通过操作系统调度&#xff0c;操作系统然后让硬件去计算。让硬件计算的话&#xff0c;比如一些加法乘法&#xff0c;循环之类的&…

网络防御-内容过滤技术

目录 内容过滤技术文件过滤技术压缩 文件过滤技术的处理流程内容过滤技术邮件过滤技术 内容过滤技术 文件过滤技术 这里说的文件过滤技术&#xff0c;是指针对文件的类型进行的过滤&#xff0c;而不是文件的内容。想要实现这个效果&#xff0c;我们的设备必须识别出&#xff1…

sqllabs第46关 order by 注入(通过盲注)

打开第46关 提示我们(请将参数输入为sort&#xff08;带数值&#xff09;) 用sort注入排序 尝试操作 order by注入 什么是order by 在MySQL支持使用ORDER BY语句对查询结果集进行排序处理&#xff0c;使用ORDER BY语句不仅支持对单列数据的排序&#xff0c;还支持对数据表中…