【数据库】基于排序算法的去重，集合与包的并，差，交，连接操作实现原理，执行代价以及优化

news2026/3/25 1:41:12

基于两趟排序的其它操作

专栏内容：

手写数据库toadb
本专栏主要介绍如何从零开发，开发的步骤，以及开发过程中的涉及的原理，遇到的问题等，让大家能跟上并且可以一起开发，让每个需要的人成为参与者。
本专栏会定期更新，对应的代码也会定期更新，每个阶段的代码会打上tag，方便阶段学习。

开源贡献：

toadb开源库

个人主页：我的主页
管理社区：开源数据库
座右铭：天行健，君子以自强不息；地势坤，君子以厚德载物.

文章目录

基于两趟排序的其它操作
前言
概述
利用排序去重
利用排序进行分组和聚集
基于排序的并算法
基于排序的交和差算法
基于排序的连接算法
总结
结尾

前言

随着信息技术的飞速发展，数据已经渗透到各个领域，成为现代社会最重要的资产之一。在这个大数据时代，数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而，很多读者可能对数据库理论感到困惑，不知道如何选择合适的数据库，如何设计有效的数据库结构，以及如何处理和管理大量的数据。因此，本专栏旨在为读者提供一套全面、深入的数据库理论指南，帮助他们更好地理解和应用数据库技术。

数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中，数据量呈指数级增长，如何高效地处理和管理这些数据成为一个重要的问题。同时，随着云计算、物联网、大数据等新兴技术的不断发展，数据库理论的重要性日益凸显。

概述

在前一篇博客中与大家一起了解了两趟算法的排序，那么这个算法在那些地方可以应用呢？

基于两趟排序算法，是可以简化很多操作，比如去重，分组聚集，并集，交集，差集，以及连接，下面我们一起来看看。

利用排序去重

在两趟算法中，第一趟是将表分成M-1个子表分别进行排序，然后将子表排序的结果写入磁盘。

在第二趟时，采用多路归并排序的方法，要实现基于排序的去重，这里有就一些区别。

加载M-1个子表的第一个数据块到缓冲区中；
找到最小的元组，将它移动到第M个缓冲区中；
如果有当前最小元组相同的元组，忽略它；
重复2，3步骤；
如果第M个缓冲区满，将它写到磁盘，并清空；
如果有子表的数据块空时，加载该子表的下一个数据块；
重复以上步骤，直到所有子表处理完成；

这样时间空间复杂度与代价并没有增加，就可以实现去重的操作，只是增加了第3步，让重复元组不输出到结果中。

利用排序进行分组和聚集

利用排序实现分组和聚集的计算，在第一趟子表的排序时，需要用分组属性列作为排序键，然后进行各子表的排序，并将各子表排序结果写入磁盘中；

在第二趟时，同样采用多路归并排序的步骤，具体如下：

加载M-1个子表的第一个数据块到缓冲区中；
找到最小排序关键字对应的元组，它作为当前的分组；
不断从子表中找到相同排序关键字对应的分组；
计算分组的聚集值，如统计元组数，统计聚集列的和等；
如果有子表的数据块空时，加载该子表的下一个数据块；
重复以上步骤，直到所有子表处理完成；
最后计算聚集值，如求平均，那么就是分组总和/分组的总行数；

这样就计算出了算有分组和聚集值，聚集统计时需要一直在内存中；如果去除结果数据写磁盘的代价，它与之前算法是一致的，3倍的表数据块的IO数量。

基于排序的并算法

并的操作如前所述，区分包的并和集合的并。

对于包的并，一趟算法的介绍中，与操作对象的大小是无关的，所以用一趟算法即可。

而集合的并，至少需要一个表小于可用内存，才可以用一趟算法，所以大多数时候，更适合两趟算法。

假设表R与表S进行并集操作，具体流程如下：

在第一趟时，同上一个算法一样，分别创建表R和表S的子表的排序，并将各子表排序结果写入磁盘中；
在第二趟时，将表R和表S的子表的第一个数据块加载到缓冲区中；

找到最小的元组，将它移动到结果缓冲区中；
将与它相同的元组，从缓冲区中删除；
重复1，2步骤；
如果结果缓冲区满，将它写到磁盘，并清空；
如果有子表的数据块空时，加载该子表的下一个数据块；
重复以上步骤，直到所有子表处理完成；

这样表R和表S就会完成并集操作，在这个过程中，每个有副本的元组，相同元组会有3次IO产生，整体代价与前面算法一致。

基于排序的交和差算法

计算交和差时，也要区分包的操作还是集合的操作，但是对于基于排序的交和差，两者的步骤同上一算法一致，只是在计算副本时有些差异。

对于集合的交计算时，如果元组在表R和表S的子表中都出现时，才输出到结果缓冲区中，否则忽略；
对于包的交计算时，元组在表R和表S的子表中出现的最小值，就是元组输出到结果缓冲区中的次数；当一方为计数减为0时，忽略当前元组；
对于集合差，仅当元组在表R中出现，在表S中不出现时，才会输出到结果缓冲区中；
对于包的差，输出元组的次数是在表R中出现次数减去表S中的出现次数；

这里需要特别注意，对于包的操作时，元组的副本不仅当前块中出现，而且当副本为当前块最后一条元组时，那么下一数据块上还有该元组的副本，所以要统计到下一条元组改为为止；

基于排序的连接算法

对于连接操作，本身有会有很多实现算法，如果操作的前提是排序的两张表，那么如何来实现连接算法呢？
下面我们一起来看下基于排序的两趟算法的连接的实现流程：

假设表R(X,Y)与表S(Y,Z)进行连接操作，连接属性为Y；

在第一趟时，将表R和表S分别按照连接属性列进行排序，将排好序的子表都写入磁盘；

在第二趟时，表R和表S分别加载各子表的第一个数据块到缓冲区中；

在子表中找到最小排序关键字对应的元组；
如果在另一个表中没有出现，则移除该元组；
如果两个表都存在，将它移动到输出缓冲区中；按排序继续查找，输出所有键值相同的元组；
如果结果缓冲区满，将它写到磁盘，并清空；
如果有子表的数据块空时，加载该子表的下一个数据块；
重复以上步骤，直到子表处理完成；

如果当表R的子表先处理完，那么表S的子表就不再需要处理，相反也是一样。

总结

基于排序的去重，并，交，差，连接算法的代价，磁盘IO的次数基本为3倍的表的块数量，再加一倍的结果写入数量；

以下是使用工厂模式编写输出"Hello World"的C语言代码：

#include <stdio.h>

// 声明抽象工厂接口
typedef struct {
    void (*print)(void);
} Factory;

// 实现输出"Hello World"的工厂方法
void printHelloWorld(void) {
    printf("Hello World\n");
}

// 实现抽象工厂方法，返回输出"Hello World"的工厂对象
Factory* createHelloWorldFactory(void) {
    Factory* factory = malloc(sizeof(Factory));
    factory->print = printHelloWorld;
    return factory;
}

// 使用工厂对象输出"Hello World"
int main(void) {
    Factory* factory = createHelloWorldFactory();
    factory->print();
    free(factory); // 释放工厂对象内存
    return 0;
}

在上述代码中，我们定义了一个抽象工厂接口Factory，其中包含一个print方法，用于输出字符串。然后，我们实现了一个工厂方法printHelloWorld，用于输出"Hello World"字符串。接着，我们实现了一个抽象工厂方法createHelloWorldFactory，用于返回输出"Hello World"的工厂对象。最后，在main函数中，我们使用工厂对象调用print方法输出"Hello World"字符串。