【数据库】基于排序算法的去重,集合与包的并,差,交,连接操作实现原理,执行代价以及优化

news2025/1/12 22:54:17

基于两趟排序的其它操作

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 基于两趟排序的其它操作
  • 前言
  • 概述
  • 利用排序去重
  • 利用排序进行分组和聚集
  • 基于排序的并算法
  • 基于排序的交和差算法
  • 基于排序的连接算法
  • 总结
  • 结尾

在这里插入图片描述

前言

随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。

数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。

概述

在前一篇博客中与大家一起了解了两趟算法的排序,那么这个算法在那些地方可以应用呢?

基于两趟排序算法,是可以简化很多操作,比如去重,分组聚集,并集,交集,差集,以及连接,下面我们一起来看看。

利用排序去重

在两趟算法中,第一趟是将表分成M-1个子表分别进行排序,然后将子表排序的结果写入磁盘。

在第二趟时,采用多路归并排序的方法,要实现基于排序的去重,这里有就一些区别。

  1. 加载M-1个子表的第一个数据块到缓冲区中;
  2. 找到最小的元组,将它移动到第M个缓冲区中;
  3. 如果有当前最小元组相同的元组,忽略它;
  4. 重复2,3步骤;
  5. 如果第M个缓冲区满,将它写到磁盘,并清空;
  6. 如果有子表的数据块空时,加载该子表的下一个数据块;
  7. 重复以上步骤,直到所有子表处理完成;

这样时间空间复杂度与代价并没有增加,就可以实现去重的操作,只是增加了第3步,让重复元组不输出到结果中。

利用排序进行分组和聚集

利用排序实现分组和聚集的计算,在第一趟子表的排序时,需要用分组属性列作为排序键,然后进行各子表的排序,并将各子表排序结果写入磁盘中;

在第二趟时,同样采用多路归并排序的步骤,具体如下:

  1. 加载M-1个子表的第一个数据块到缓冲区中;
  2. 找到最小排序关键字对应的元组,它作为当前的分组;
  3. 不断从子表中找到相同排序关键字对应的分组;
  4. 计算分组的聚集值,如统计元组数,统计聚集列的和等;
  5. 如果有子表的数据块空时,加载该子表的下一个数据块;
  6. 重复以上步骤,直到所有子表处理完成;
  7. 最后计算聚集值,如求平均,那么就是分组总和/分组的总行数;

这样就计算出了算有分组和聚集值,聚集统计时需要一直在内存中;如果去除结果数据写磁盘的代价,它与之前算法是一致的,3倍的表数据块的IO数量。

基于排序的并算法

并的操作如前所述,区分包的并和集合的并。

对于包的并,一趟算法的介绍中,与操作对象的大小是无关的,所以用一趟算法即可。

而集合的并,至少需要一个表小于可用内存,才可以用一趟算法,所以大多数时候,更适合两趟算法。

假设表R与表S进行并集操作,具体流程如下:

  • 在第一趟时,同上一个算法一样,分别创建表R和表S的子表的排序,并将各子表排序结果写入磁盘中;

  • 在第二趟时,将表R和表S的子表的第一个数据块加载到缓冲区中;

  1. 找到最小的元组,将它移动到结果缓冲区中;
  2. 将与它相同的元组,从缓冲区中删除;
  3. 重复1,2步骤;
  4. 如果结果缓冲区满,将它写到磁盘,并清空;
  5. 如果有子表的数据块空时,加载该子表的下一个数据块;
  6. 重复以上步骤,直到所有子表处理完成;

这样表R和表S就会完成并集操作,在这个过程中,每个有副本的元组,相同元组会有3次IO产生,整体代价与前面算法一致。

基于排序的交和差算法

计算交和差时,也要区分包的操作还是集合的操作,但是对于基于排序的交和差,两者的步骤同上一算法一致,只是在计算副本时有些差异。

  • 对于集合的交计算时,如果元组在表R和表S的子表中都出现时,才输出到结果缓冲区中,否则忽略;
  • 对于包的交计算时,元组在表R和表S的子表中出现的最小值,就是元组输出到结果缓冲区中的次数;当一方为计数减为0时,忽略当前元组;
  • 对于集合差,仅当元组在表R中出现,在表S中不出现时,才会输出到结果缓冲区中;
  • 对于包的差,输出元组的次数是在表R中出现次数减去表S中的出现次数;

这里需要特别注意,对于包的操作时,元组的副本不仅当前块中出现,而且当副本为当前块最后一条元组时,那么下一数据块上还有该元组的副本,所以要统计到下一条元组改为为止;

基于排序的连接算法

对于连接操作,本身有会有很多实现算法,如果操作的前提是排序的两张表,那么如何来实现连接算法呢?
下面我们一起来看下基于排序的两趟算法的连接的实现流程:

假设表R(X,Y)与表S(Y,Z)进行连接操作,连接属性为Y;

在第一趟时,将表R和表S分别按照连接属性列进行排序,将排好序的子表都写入磁盘;

在第二趟时,表R和表S分别加载各子表的第一个数据块到缓冲区中;

  1. 在子表中找到最小排序关键字对应的元组;
  2. 如果在另一个表中没有出现,则移除该元组;
  3. 如果两个表都存在,将它移动到输出缓冲区中;按排序继续查找,输出所有键值相同的元组;
  4. 如果结果缓冲区满,将它写到磁盘,并清空;
  5. 如果有子表的数据块空时,加载该子表的下一个数据块;
  6. 重复以上步骤,直到子表处理完成;

如果当表R的子表先处理完,那么表S的子表就不再需要处理,相反也是一样。

总结

基于排序的去重,并,交,差,连接算法的代价,磁盘IO的次数基本为3倍的表的块数量,再加一倍的结果写入数量;

以下是使用工厂模式编写输出"Hello World"的C语言代码:

#include <stdio.h>

// 声明抽象工厂接口
typedef struct {
    void (*print)(void);
} Factory;

// 实现输出"Hello World"的工厂方法
void printHelloWorld(void) {
    printf("Hello World\n");
}

// 实现抽象工厂方法,返回输出"Hello World"的工厂对象
Factory* createHelloWorldFactory(void) {
    Factory* factory = malloc(sizeof(Factory));
    factory->print = printHelloWorld;
    return factory;
}

// 使用工厂对象输出"Hello World"
int main(void) {
    Factory* factory = createHelloWorldFactory();
    factory->print();
    free(factory); // 释放工厂对象内存
    return 0;
}

在上述代码中,我们定义了一个抽象工厂接口Factory,其中包含一个print方法,用于输出字符串。然后,我们实现了一个工厂方法printHelloWorld,用于输出"Hello World"字符串。接着,我们实现了一个抽象工厂方法createHelloWorldFactory,用于返回输出"Hello World"的工厂对象。最后,在main函数中,我们使用工厂对象调用print方法输出"Hello World"字符串。

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1264027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows环境下的JDK安装与环境配置

一、JDK下载 1、打开Oracle官方网站下载页 Java Downloads | Oracle 中国 2、选择Java archive页&#xff0c;在版本列表中选择需要下载的版本 3、选择系统环境对应的版本&#xff0c;点击对应的下载按钮&#xff0c;弹出技术许可勾选框 4、勾选Oracle技术许可协议 5、输入Or…

经典滑动窗口试题(二)

&#x1f4d8;北尘_&#xff1a;个人主页 &#x1f30e;个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上&#xff0c;不忘来时的初心 文章目录 一、水果成篮1、题目讲解2、讲解算法思路3、代码实现 二、找到字符串中所有字母异位词1、题目…

09. 智慧商城——订单结算、订单管理

01. 订单结算台 所谓的 “立即结算”&#xff0c;本质就是跳转到订单结算台&#xff0c;并且跳转的同时&#xff0c;需要携带上对应的订单参数。 而具体需要哪些参数&#xff0c;就需要基于 【订单结算台】 的需求来定。 (1) 静态布局 准备静态页面 <template><di…

抖音票务小程序开发:从零到一的全面指南

本文将深入介绍如何从零开始开发一款抖音票务小程序&#xff0c;为读者提供全面的指南&#xff0c;帮助他们实现从概念到实际应用的全过程。 第一步&#xff1a;理清需求与目标 在开发任何应用之前&#xff0c;清晰的需求和明确的目标是成功的关键。在这一阶段&#xff0c;你…

渗透测试考核--两层内网 cs windows socks5

这里考核为渗透 这里是网络拓扑图 这里记录一下 两台外网 两台内网 首先拿到C段 nmap进行扫描 外网1 nmap -p 80 172.16.17.2/24 主机存活 一般都是web服务入手 所以我们指定80端口 然后去查找开放的 最后获取到2个ip Nmap scan report for 172.16.17.177 Host is u…

泛微 E-Office sample权限绕过+文件上传组合漏洞Getshell

0x01 产品简介 泛微E-Office是一款标准化的协同 OA 办公软件&#xff0c;泛微协同办公产品系列成员之一,实行通用化产品设计&#xff0c;充分贴合企业管理需求&#xff0c;本着简洁易用、高效智能的原则&#xff0c;为企业快速打造移动化、无纸化、数字化的办公平台。 0x02 漏…

整车测试中的UDS诊断

UDS&#xff08;Unified Diagnostic Services&#xff0c;统一的诊断服务&#xff09;诊断协议是在汽车电子ECU环境下的一种诊断通信协议。这种通信协议被用在几乎所有由OEM一级供应商所制造的新ECU上面。这些ECU控制车辆的各种功能&#xff0c;包括电控燃油喷射系统&#xff0…

M3VSNET:无监督多度量多视图立体视觉网络(2021年)

M3VSNET&#xff1a;无监督多度量多视图立体视觉网络&#xff08;2021年&#xff09; 摘要1 引言2 相关工作3 实现方法3.1 网络架构 B. Huang, H. Yi, C. Huang, Y. He, J. Liu and X. Liu, “M3VSNET: Unsupervised Multi-Metric Multi-View Stereo Network,” 2021 IEEE Inte…

02-Java集合之双列集合,如HashMap,Hashtable,Properties,TreeMap的底层结构

双列集合 添加/获取/删除键值对原理 哈希表/散列表是一种将数组和单向链表融合在一起的数据结构 数组在查询方面效率很高,单向链表在随机增删方面效率较高,哈希表将以上的两种数据结构融合在一起后充分发挥它们各自的优点 双列集合以key和value这种键值对方式存储数据: key…

【算法】七大经典排序(插入,选择,冒泡,希尔,堆,快速,归并)(含可视化算法动图,清晰易懂,零基础入门)

​ 目录 一、排序的概念及其运用1.1 排序的概念1.2 排序的应用1.3 常见的排序算法 二、常见排序算法的实现2.1 插入排序2.1.1 直接插入排序2.1.2 希尔排序2.1.3 直接插入排序和希尔排序的性能对比 2.2 选择排序2.2.1 直接选择排序2.2.2 堆排序2.2.3 直接选择排序和堆排序的性能…

会声会影2024旗舰版系统配置要求及格式支持

会声会影2024旗舰版是一款广受欢迎的视频编辑软件&#xff0c;它的最新版本&#xff0c;会声会影2023&#xff0c;已经发布。在这篇文章中&#xff0c;我们将探讨会声会影2024旗舰版系统配置要求及格式支持 会声会影2024是一款专业的视频剪辑软件&#xff0c;能够帮助用户制作高…

写一个宏,交换整数二进制位的奇数位和偶数位,并打印这个新的数

我们已经学过了C语言的宏&#xff0c;我们今天应用宏来交换一个整数的二进制的奇数位和偶数位&#xff0c;并得到这个被交换过的数&#xff0c;我们开始吧&#xff01; 1.问题分析 解题方法&#xff1a;& 和<< 和>>操作符 问题解析&#xff1a;我们这里假设一个…

医保移动支付程序开发

作为公司最苦命的开发&#xff0c;年初接到任务开发医保移动支付程序&#xff08;微信小程序和支付宝小程序&#xff09;&#xff0c;为医疗机构提供线上医保结算。好家伙&#xff0c;我一看解压后资料大于一个G&#xff0c;内心无比的惊慌。 一、技术流程图 图太大了显示不全需…

入门必读:Figma软件的功能和用途一览!

1、Figma软件是做什么的 Figma软件奠定了在线设计工具的形式&#xff0c;产品UI设计功能非常强大&#xff0c;Figma软件基于web操作&#xff0c;无论是macos、windows可以使用这个软件&#xff0c;即使有电脑、浏览器、网络&#xff0c;甚至软件也不需要下载&#xff0c;节省了…

C语言枚举的作用是什么?

我在知乎上看到这个问题&#xff0c;一开始&#xff0c;也有一些疑惑&#xff0c;后面查了一些资料&#xff0c;对于这个问题&#xff0c;简单的说一下我的看法。 枚举有多大 枚举类型到底有多大&#xff0c;占多少空间呢&#xff1f;这个要具体情况具体分析&#xff0c;编译器…

基于ssm框架的公寓租房系统设计与实现

基于ssm框架的公寓租房系统的设计与实现 摘要&#xff1a;在互联网技术的不断发展壮大的背景下,人们生活水平及经济水平也随之得到提上&#xff0c;许多商家都纷纷吧自己的业务重心偏移到网络这个大蛋糕上&#xff0c;为了迎合时代的发展&#xff0c;房屋的出租业务也应该将重…

将测试速度提升数倍!RunnerGo测试平台——您的UI自动化测试利器!

RunnerGo提供从API管理到API性能再到可视化的API自动化、UI自动化测试功能模块&#xff0c;覆盖了整个产品测试周期。 RunnerGo UI自动化基于Selenium浏览器自动化方案构建&#xff0c;内嵌高度可复用的测试脚本&#xff0c;测试团队无需复杂的代码编写即可开展低代码的自动化…

Windows下Linkis1.5DSS1.1.2本地调试

1 Linkis: 参考&#xff1a; 单机部署 | Apache Linkis技术分享 | 在本地开发调试Linkis的源码 (qq.com)DataSphere Studio1.0本地调试开发指南 - 掘金 (juejin.cn) 1.1 后端编译 参考【后端编译 | Apache Linkis】】 修改linkis模块下pom.xml,将mysql.connetor.scope修改…

LeetCode Hot100 84.柱状图中最大的矩形

题目&#xff1a; 给定 n 个非负整数&#xff0c;用来表示柱状图中各个柱子的高度。每个柱子彼此相邻&#xff0c;且宽度为 1 。 求在该柱状图中&#xff0c;能够勾勒出来的矩形的最大面积。 方法&#xff1a; 代码&#xff1a; class Solution {public int largestRectang…

vue项目中通过vuex管理数据

目录 1.前言&#xff1a; 2.vuex的基础用法&#xff1a; 1.构建与挂载vue 基础模板渲染 构建仓库 2.mutations的使用 1.介绍 ​编辑 2.案列&#xff1a; 3.传参 4.辅助函数mapMutations&#xff1a; 3.module分对象的写法 介绍 建立模块&#xff1a; 访问数据的方…