CMU15-445-Spring-2023-Project #1 - Buffer Pool

news2024/11/6 9:33:43

前置知识,参考上一篇博客:CMU15-445-Spring-2023-Project #1 - 前置知识(lec01-06)

在存储管理器中实现缓冲池。缓冲池负责将物理页从主内存来回移动到磁盘。它允许 DBMS 支持大于系统可用内存量的数据库。缓冲池的操作对系统中的其他部分是透明的。例如,系统使用page唯一标识符(page_id_t)向缓冲池请求一个页面,但系统并不知道该页面是否已在内存中,也不知道系统是否需要从磁盘中获取该页面。
实现必须是线程安全的。

Task #1 - LRU-K Replacement Policy

这部分负责追踪缓冲池中的页面使用。
Impl
src/include/buffer/lru_k_replacer.h
src/buffer/lru_k_replacer.cpp

LRU-K算法的基本思想是维护一个大小为K的历史记录,记录最近K次访问的信息。当需要替换缓存中的数据时,LRU-K会根据这个历史记录来判断哪些数据是最近最少使用的,然后将其替换出去。

与LRU相比,LRU-K增加了对历史访问的考量,因此更加灵活,能够更好地适应不同访问模式下的缓存需求。
LRU-K 算法驱逐的帧的后向 k 距离是替换器中所有帧的最大值。后向 k 距离计算为**当前时间戳(指当前时间而不是history中最近时间戳)**与前第 k 次访问时间戳之间的时间差。历史访问次数少于 k 次的帧的后向 k 距离为 +inf。当多个帧的后向 k 距离为 +inf 时,替换者会驱逐history中最末时间戳最小的帧。

  • Evict(frame_id_t* frame_id):驱逐与所有其他可驱逐帧相比后向 k-distance 最大的帧。在输出参数中存储帧 ID 并返回 True。如果没有可驱逐帧,则返回 False。驱逐不同于remove,区别在于只需要将is_evictable_置为false即可。
  • RecordAccess(frame_id_t frame_id):记录给定帧 ID 在当前时间戳被访问,没有存储该帧则新建一个node,此方法应在页面被固定在 BufferPoolManager 中后调用。
  • Remove(frame_id_t frame_id):清除指定帧的所有访问历史记录,并从node_store_中删除。只有在 BufferPoolManager 中删除页面时才调用此方法。
  • SetEvictable(frame_id_t frame_id, bool set_evictable):该方法控制帧是否可驱逐。它还控制 LRUKReplacer 的大小。具体来说,当某个页面的引用计数达到 0 时(pageGuard进行drop->bpm进行unpin),其对应的帧就会被标记为可驱逐,替换器的大小也会随之增加。
  • Size():该方法返回当前 LRUKReplacer 中可驱逐帧的数量。

Task #2 - Buffer Pool Manager

实现缓冲池管理器(BufferPoolManager)。BufferPoolManager 负责从 DiskManager 抓取数据库页面并将其存储到内存中。BufferPoolManager 还可以在收到明确指示或需要删除页面以便为新页面腾出空间时,将脏页面写出到磁盘。

系统中的所有内存页面都由 Page 对象表示。缓冲池管理器无需了解这些页面的内容。Page 对象只是缓冲池中内存的容器,也就是说,每个页面对象都包含一个内存块,DiskManager 将把它用作从磁盘读取物理页面内容的复制位置。缓冲池管理器(BufferPoolManager)会重复使用同一个页面对象来存储数据,因为数据会在磁盘上来回移动。这意味着,在系统的整个生命周期中,同一个页面对象可能包含不同的物理页面。页面对象的标识符(page_id)可追踪其包含的物理页面;如果页面对象不包含物理页面,则其 page_id 必须设置为 INVALID_PAGE_ID。

每个页面对象还维护一个计数器(pincount),用于记录 “固定” 该页面的线程数。缓冲池管理器不允许释放被钉住的页面。每个页面对象也会记录它是否变脏(write过)。需要记录页面在解除固定前是否被修改过。BufferPoolManager 必须先将脏页面的内容写回磁盘,然后才能重新使用该对象。

BufferPoolManager 实现将使用 LRUKReplacer 类。LRUKReplacer 将跟踪页面对象被访问的时间,以便在必须释放帧以腾出空间从磁盘复制新的物理页面时,决定驱逐哪个页面对象。在 BufferPoolManager 中将 page_id 映射到 frame_id 时,请再次注意 STL 容器不是线程安全的。
Impl
src/include/buffer/buffer_pool_manager.h
src/buffer/buffer_pool_manager.cpp

  • FetchPage(page_id_t page_id):从缓冲池中获取指定page,此时增加pincount,且无法被驱逐;如果page不在缓冲池中,从空闲列表或替换器中选择一个frame(总是先从空闲列表中查找),通过调用 disk_manager_->ReadPage() 从磁盘读取页面,然后替换frame中的旧页面。如果空闲列表中没有可用页面,且所有其他页面当前都被固定(evictable),则应返回 nullptr。如果旧页面is dirty,需要先写入磁盘。
  • UnpinPage(page_id_t page_id, bool is_dirty):is_dirty 参数会跟踪页面在固定期间是否被修改,如果页面之前is_dirty就为true,但是还没有写入磁盘,也就是脏页面会被缓冲,不会立即写回,避免下次fetch又要从磁盘读出。这时就不能置为false。如果pincount减为0了,需要将驱逐标记设为true。
  • FlushPage(page_id_t page_id):刷新页面,将页面写入磁盘,而不管其固定状态如何。
  • NewPage(page_id_t* page_id):在缓冲池中创建一个新的page,AllocatePage() 私有方法会为 BufferPoolManager 提供一个唯一的新页面 ID。
  • DeletePage(page_id_t page_id):删除缓冲池中的指定page,DeallocatePage() 方法是一个无操作的方法,它模仿释放磁盘上的页面。
  • FlushAllPages()

DiskManager::WritePage() 函数需要在获取的页面为脏时,或者刷新页面时调用。不要忘记unset页面的is dirty标记。

Task #3 - Read/Write Page Guards

在缓冲池管理器中,FetchPage 和 NewPage 函数返回的指针指向已被钉住的页面。钉住机制确保在页面上没有更多读写之前,页面不会被驱逐。要表明内存中不再需要该页面,必须手动调用 UnpinPage。

实现用于存储 BufferPoolManager 和 Page 对象指针的 BasicPageGuard。页面防护确保一旦相应的页面对象退出作用域(析构),就会调用 UnpinPage。

由于 BasicPageGuard 隐藏了底层的页面指针,因此它还可以提供 read-only/write API,这些 API 可提供编译时检查,以确保为每个用例正确设置 is_dirty 标志。

在未来的项目中,多个线程将读写同一页面,因此需要读写器锁存来确保数据的正确性。请注意,在页面类中,有相关的锁定方法用于此目的。与取消页面锁定类似,在使用页面后可能会忘记取消锁定。为了缓解这一问题,将实现 ReadPageGuard 和 WritePageGuard,一旦页面超出范围,它们就会自动解除锁定。

Impl
src/storage/page/page_guard.cpp
src/buffer/buffer_pool_manager.cpp

实验结果

优化方面,减少stl的使用会明显增加qps。
image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1362707.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【书生·浦语大模型实战营01】《书生·浦语大模型全链路开源体系》

《书生浦语大模型全链路开源体系》 1. 大模型成为热门关键词 LLM发展时间轴 2. 书生浦语全链条开源开放体系 微调:XTuner 支持全参数微调支持LoRA等低成本微调 评测:OpenCompass 全方位评测,性能可复现80套评测集, 40万道题目…

【大数据】Zookeeper 数据写入与分布式锁

Zookeeper 数据写入与分布式锁 1.数据是怎么写入的2.基于 Zookeeper 实现分布式锁 1.数据是怎么写入的 无论是 Zookeeper 自带的客户端 zkCli.sh,还是使用 Python(或者其它语言)实现的客户端,本质上都是连接至集群,然…

Linux 上 Nginx 配置访问 web 服务器及配置 https 访问配置过程记录

目录 一、前言说明二、配置思路三、开始修改配置四、结尾 一、前言说明 最近自己搭建了个 Blog 网站,想把网站部署到服务器上面,本文记录一下搭建过程中 Nginx 配置请求转发的过程。 二、配置思路 web项目已经在服务器上面运行起来了,运行的端…

Qt pro文件

1. 项目通常结构 2.pri文件 pri文件可定义通用的宏,例如创建一个COMMON.pri文件内容为 COMMON_PATH D:\MyData 然后其它pri或者pro文件如APPTemplate.pro文件中通过添加include(Common.pri) ,QtCreator就会自动在项目结构树里面创建对应的节点 3.变量…

gitlab 配置 二

一 环境说明 群晖Nas DS418DELL XPS serverGitlab ce 二 需要实现的功能 外网可以访问,gitlab使用https的方式访问。wiki issue 等都可以上传图片和附件。 三 操作步骤 因为群晖上有证书,并且由群晖做转发功能。因此证书上,采用群晖的证书…

Ant Design 使用出现 Error_ Can‘t resolve ‘_antd_dist_antd.css‘

推荐阅读 智能化校园:深入探讨云端管理系统设计与实现(一) 智能化校园:深入探讨云端管理系统设计与实现(二) 文章目录 推荐阅读问题描述问题解决方法一:进行版本回退,安装指定版本方…

nodejs01

nodejs作用 Node.js 是一个免费的、开源的、跨平台的 JavaScript 运行时环境,允许开发人员在浏览器之外编写命令行工具和服务器端脚本. 是javascript的一个运行环境,,, nodejs stream 是前端工程化的基础 nodejs可以作为中间层&…

基于FFmpeg的短视频编辑工具Cut

前言 最近在学习FFmpeg和音视频的相关知识,为了加强对FFmpeg的认识和了解,于是撸了一个短视频编辑软件Cut。 效果图先行: 技术点 启动页优化 但启动app的时候会有一个短暂的黑屏或者白屏。为什么呢? 是因为在App启动时&#x…

497 蓝桥杯 成绩分析 简单

497 蓝桥杯 成绩分析 简单 //C风格解法1&#xff0c;*max_element&#xff08;&#xff09;与*min_element&#xff08;&#xff09;求最值 //时间复杂度O(n)&#xff0c;通过率100% #include <bits/stdc.h> using namespace std;using ll long long; const int N 1e4 …

【Spring Cloud】组件概念详解

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是Java方文山&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;推荐给大家我的专栏《Spring Cloud》。&#x1f3af;&#x1f3af; &am…

CentOS中开启mysql挂载

挂载的作用其实说白了就是备份。防止数据库文件损害或者数据库被误删导致数据丢失。 创建一个文件名为my.cnf内容如下 # Copyright (c) 2017, Oracle and/or its affiliates. All rights reserved. # # This program is free software; you can redistribute it and/or modif…

清理windows中git凭证

清理windows中git凭证 控制面板——>用户账户——>凭据管理器——>管理Windows凭据 点开后如下&#xff1a;

面试之线程状态

1.线程有哪些状态 1.1Java线程的六种状态 Java 线程六种状态 新建 当一个线程对象被创建&#xff0c;但还未调用 start 方法时处于新建状态 此时未与操作系统底层线程关联 可运行 调用了 start 方法&#xff0c;就会由新建进入可运行 此时与底层线程关联&#xff0c;由操作…

Hadolint:Lint Dockerfile 的完整指南

想学习如何使用 Hadolint 对 Dockerfile 进行 lint 处理吗&#xff1f;这篇博文将向您展示如何操作。这是关于 Dockerfile linting 的完整指南。 通过对 Dockerfile 进行 lint 检查&#xff0c;您可以及早发现错误和问题&#xff0c;并确保它们遵循最佳实践。 什么是Hadolint…

windows 查看所有端口占用情况

winR&#xff0c;调出cmd窗口&#xff1a; 输入命令 netstat -ano 内容太多&#xff0c;显示不全&#xff0c;怎么办? 输入下面命令 netstat -ano > d:\1.log 在d盘根目录下就产生了 输出文件 打开可以看到如下内容 活动连接协议 本地地址 外部地址 状…

2.3_7 生产者-消费者问题

2.3_7 生产者-消费者问题 系统中有一组生产者进程和一组消费者进程,生产者进程每次生产一个产品放入缓冲区,消费者进程每次从缓冲区中取出一个产品并使用。(注:这里的“产品”理解为某种数据) 生产者、消费者共享一个初始为空、大小为n的缓冲区。 只有缓冲区没满时,生产者才…

Kotlin协程学习之-01

由于协程需要支持挂起、恢复、因此对于挂起点的状态保存就显得机器关键。类似的&#xff0c;线程会因为CPU调度权的切换而被中断&#xff0c;它的中断状态会保存在调用栈当中&#xff0c;因而协程的实现也按照是否开辟相应的调用栈存在以下两种类型&#xff1a; 有栈协程&…

weak_ptr如何能做到解决循环引用又能传递参数呢?

引子&#xff1a;今天在看CLR via C#的时候看到C#的垃圾回收算法--引用跟踪算法的时候想到以下几个问题。 一、引用计数法存在的问题 一般引用计数法存在的问题就是不好处理循环引用的问题&#xff0c;但是C不是有weak_ptr吗&#xff1f; 这个引用跟踪的垃圾回收算法看起来还…

vivado xsim 终端 模拟

只模拟的话直接终端运行会快很多 计数器举例 mkdir srccounter.v module counter(input wire clk,input wire rst_n,output reg[31:0] cnt ); always (posedge clk or negedge rst_n)if(!rst_n)cnt < 31h0;elsecnt < cnt1;endmodule tb.v module tb; wire[31:0] out…

C语言编译器(C语言编程软件)完全攻略

介绍常用C语言编译器的安装、配置和使用。 常用的C语言编译器&#xff08;编程软件&#xff09;介绍&#xff0c;同时附带下载地址、详细的安装教程和使用教程。我们还对比了不同C语言编译器&#xff08;C语言编程软件&#xff09;的优缺点&#xff0c;让初学者知道该如何选择…