一趟扫描算法
专栏内容:
- 手写数据库toadb
本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。
开源贡献:
- toadb开源库
个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.
文章目录
- 一趟扫描算法
- 前言
- 概述
- 适用场景
- 扫描迭代器
- 扫描算法类型
- 扫描操作应用类型
- 一次一个元组的操作
- 整个表的操作
- 去重
- 分组
- 总结
- 结尾
前言
随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。
数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。
因此,本专栏的分享希望可以提高大家对数据库理论的认识和理解,对于感兴趣的朋友带来帮助。
概述
在前一篇博文中,我们介绍了操作符代价评估模型,根据代价来区分,在扫描操作中,如果对表的文件从磁盘只读取一遍,就叫做一趟扫描算法;并不是所有扫描能够在读取一遍时完成。
本文主要分享一趟扫描算法原理和机制,包括扫描迭代器的实现,对于一元操作和二元操作下的流程介绍。
适用场景
表扫描的操作,操作的数据块必须加载到缓冲区中,也就是在内存中使用,针对表的大小与缓存区的大小的关系,可以大致分为以下几种情况:
- 读取一次磁盘,操作对象可以全部存放到缓冲区中,比如投影,选择操作;
- 操作处理结果不能全部存放在缓冲区中,这就需要将中间结果的一部分再次写入磁盘,此时就需要多趟算法,比如去重等操作;
一趟算法适用于操作对象能装入缓冲区的操作,还有操作结果也能全部装入缓冲区的操作,此外就需要两趟,甚至更多趟算法。
扫描迭代器
在从基本表中获取数据时,我们并不会将整个表全部加载到缓冲区,因为数据库往往并发很多操作,分配给每个操作的缓冲区是有限的。因此,在扫描时,我们需要使用迭代器的模式,每次从迭代器中返回一个元组,然后进行处理,直到迭代器为空为止。
迭代器实现的接口主要有三个,打开表Open(), 获取一条元组GetNext(),关闭表Close();
用代码表示扫描如下:
void Open(relation r)
{
r.Open(mode);
curr = r;
}
tuple GetNext()
{
t = curr.GetNext();
return t;
}
void Close()
{
curr.Close();
}
在GetNext调用时,会加一个数据块到缓冲区中,然后获取这个数据块上的一个元组之后返回,并迭代器中记录读取的位置,下次继续返回一个元组,直到一个块上的元组扫描完时,再加载下一个数据块。
这样就避够加载所有的数据到内存中。
扫描算法类型
一趟扫描算法根据采用的方法不同,主要有以下三种。
- 基于排序的扫描方法;
- 基于hash的扫描方法;
- 基于索引的扫描方法;
在以后的扫描中,我们主要使用这三种路径进行扫描,当然索引分类也可以有好几种。
扫描操作应用类型
在物理操作中涉及到两类扫描流程,对于选择,投影可以使用一次一个元组的处理方法,而对于分组,去重操作,需要拿到全表数据之后才能处理。
下面我们看一下具体处理流程,对应的代价估计,以及可能的优化策略。
一次一个元组的操作
每次加载一个数据块到缓冲区中,然后使用迭代器的方法,一次获取一个元组,进行选择或投影操作,将得到的结果输出。
在这个流程中,缓冲区只要大于一个数据块的大小即可,操作的磁盘IO代价与表占用的数据块B相同,或者与使用hash,索引的块数相关。
如果缓冲区更多时,可以采用类似于文件系统缓存的预读策略进行优化,一次性顺序读M个数据块,这样顺序读的耗时小于随机读的。
另外,将一个数据块上的所有元组同时获取到本地缓冲区中,可以快速释放这个块,在多事务并发中,会大大降低数据块上的竞争。
整个表的操作
对于不能一条元组一条元组处理的操作,如去重和分组,主要流程描述如下:
去重
- 从迭代器获取元组,将第一次见到的元组输出,同时将此元组保存到缓冲区块中;
- 获取的元组,与保存在缓冲区块上的元组重复,则将它忽略;
从流程来看,为了得到唯一的元组,我们需要保存找到的元组,占用缓冲区与之前不同的时,除了一个加载表数据块外,另外的M-1个缓冲区块需要存放找到的元组的副本,每次拿到新元组时,都要在副本集中查找一遍。
能适用于一趟算法时,符合的副本全部必须能在缓冲区中存放。
这里的代价除了磁盘IO,与表的数据块有关外,如果副本数据较大时,查找的CPU耗时也是一个很大的开销,最差时能达到N平方。
所以副本存放时,可以采用查找树或者hash表的形式,减少查找开销,当然这会占用更多的缓冲区。
分组
分组操作一般配合聚合函数使用,开始扫描时,我们需要建立一个记录每个分组信息的结构,每个分组信息一个元组。当我们从迭代器中得到元组后,根据分组列的判断是旧分区还是新分区,如果是新分区,新建分组信息元组,并计算聚合数据,比如分组的count,那么就每个分组得到找到表元组时,count加1即可。
分组信息可以在迭代器开始时就全部创建,也可以在过程中扩展;最后再根据分组信息,生成输出结果。
总结
通过一趟查询算法,我们可以体会到不同操作下查询的流程,以及操作对应的代价计算,对查询优化有进一步的了解。
结尾
非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!
作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。