(排序8)归并排序(非递归实现),归并排序的外部排序应用(文件排序)的简单了解

news2025/1/19 4:55:42

归并排序递归版本

void _MergeSort(int* arr, int left , int right, int* tmp)
{
	if (left >= right)
	{
		return;
	}
	int mid = (left + right) / 2;
	_MergeSort(arr, left, mid, tmp);
	_MergeSort(arr, mid + 1, right, tmp);
	int begin1 = left;
	int end1 = mid;
	int begin2 = mid + 1;
	int end2 = right;
	int k = left;
	while (begin1 <= end1 && begin2 <= end2)
	{
		if (arr[begin1] < arr[begin2])
		{
			tmp[k++] = arr[begin1++];
		}
		else
		{
			tmp[k++] = arr[begin2++];
		}
	}
	while (begin1 <= end1)
	{
		tmp[k++] = arr[begin1++];
	}
	while (begin2 <= end2)
	{
		tmp[k++] = arr[begin2++];
	}
	memcpy(arr + left, tmp + left, sizeof(int) * (right - left + 1));
}

void MergeSort(int* arr, int n)
{
	int* tmp = (int*)malloc(sizeof(int) * n);
	if (tmp==NULL)
	{
		perror("malloc failed");
		return;
	}
	_MergeSort(arr, 0, n - 1, tmp);
	free(tmp);
}

归并排序的递归并不容易发生栈溢出的情况,因为你会发现他由于是平分的,所以说接近于一棵满二叉树,所以说它的深度是非常均匀,总的深度就是logN

归并排序非递归实现

  1. 归并排序的非递归用栈的话不太能够解决,不能用栈。它的话是可以直接循环改递归的,对于归并排序的非递归控制起来特别困难,尤其是在处理边界问题之上。
  2. 归并过程的生动描述
    1. tmp需要去接受两批合格的原料(两个数组区间),何谓合格?不是要求两个数组区间个数一样,而是要求这两个数组区间内必须 是各自有序的。
    2. 在tmp内根据原料合成新产品(把两个有序数组区间归并成一个区间)
    3. 将新产品交付给客户(将tmp数组的部分区间memcpy给arr)
    4. 客户不满意,要重做一个更大的,回收产品当原料。(继续向上归并,原先的归并完后的有序数组现在需要充当新一轮大归并的 两个有序数组之一)
  3. 比如说先从简单与理想化的情况算起的话,在之前形象生动的表示归并排序过程当中,在第四点就已经讲到归并排序中客户不满意要求更大的产品,原先的产品变成了制造新的更大的产品的原料,因此原料也会变得更大。现在就定义一个局部变量gap,就是用来表示每一次tmp处理归并过程的所用原料的长度(也就是两个有序区间的长度,在实际过程当中,两个有序区间的长度不一定相同,但这边先以理想情况去看待)。
  4. 在最先进行归并的过程当中,两个有序区间肯定都是一个数,因此在最开始这个gap就是1。然后在具体执行有序区间归并过程当中,由于存在两个有序区间,因此同样需要定义四个边界begin1,begin2,end1,end2,这个跟在递归过程当中是一样的。
  5. 然后这个代码当中的外层for循环中的i表示在数组arr当中两个相邻有序区间的起点位置下标,这边既然以理想化方式认为两个有序区间的长度都是gap,因此i在for循环里面都是+=gap*2。因此begin1为i,end1为i+gap-1,begin2为i+gap,end2为i+2gap-1然后在非递归与递归当中的单趟排序都是一样的,也就是三个while循环+memcpy。
  6. 整个归并的过程的话,你可以把它想象成类似于二叉树的后序遍历,就是说首先的话是需要沉到最底,也就是说先把每一个区间分割到最小,那最小就是一个数咯。然后从最底部最小开始向上归并。在归并两个有序区间的过程当中,并不要求这两个有序区间的长度必须是一模一样的,但是必须得要求归并的这两个对象必须是有序的,这是逻辑前提。
  7. 对归并排序采用非递归的方式主要是基于:我已经事先知道归并排序的递归在分割区间的过程当中最终肯定是被分成一个一个一个的,然后在一个一个一个的基础之上,在不断的向上进行归并。那我如果用非递归的话我不如直接就从1个起步这么玩起来,一个和一个去归,归成2个…
  8. 不得不再次重复与回顾一下:归并的非递归的方法的话,它的单趟排序与递归的单趟排序是一模一样的。这也就意味着必须先得创建四个变量begin12,end12来,分别维护一下两个有序区间的头和尾。然后为了用变量表示出来begin1,begin2,end1,end2,我在外面用一层for循环,这个for的i刻画的就是在数组当中两个有序子区间(肯定是连着的)的开头。在给定gap的前提之下,在整个数组当中每2gap个元素内部就会发生一次归并,然后当前所有归并执行完毕之后,再把gap=2,然后接下来去生产更大的产品。然后这个gap从1走到2,再走到4,在走到8…然后这个gap它最大的话也就只能到达大概n/2左右,不可能到达n, 一个有序区间长度就为n,那另一个归并的有序区间是谁?所以gap<n。
  9. 然后每一次两个区间归并合并完成之后,这个gap肯定要变得更大,现在的话相当于可以把它理解成客户不满意要求更大的退回来了,原先的产品又变成更大的产品的制作原料,在理想化状态之下之前进行归并过程当中的两个有序区间的长度都是gap,那么再进行下一次归并的过程当中这个原料长度gap应该*=2。
  10. 两个原料必须得合格,原料合格的标准不在于这两个原料长度一样,而在于这两个必须得各自有序,哪怕1个与1亿个,只要这一亿个数据是有序的就可以,就OK。
void MergeSortNonR(int* arr, int n)
{
	int* tmp = (int*)malloc(sizeof(int) * n);
	if (tmp == NULL)
	{
		perror("malloc failed");
		return;
	}
	int gap = 1;
	while (gap < n)
	{
		for (int i = 0; i < n; i += gap * 2)
		{
			int begin1 = i;
			int end1 = i + gap - 1;
			if (end1 >= n)
			{
				break;
			}
			int begin2 = i + gap;
			if (begin2 >= n)
			{
				break;
			}
			int end2 = i + gap + gap - 1;
			if (end2 >= n)
			{
				end2 = n - 1;
			}
			int k = i;
			while (begin1 <= end1 && begin2 <= end2)
			{
				if (arr[begin1] < arr[begin2])
				{
					tmp[k++] = arr[begin1++];
				}
				else
				{
					tmp[k++] = arr[begin2++];
				}
			}
			while (begin1 <= end1)
			{
				tmp[k++] = arr[begin1++];
			}
			while (begin2 <= end2)
			{
				tmp[k++] = arr[begin2++];
			}
			memcpy(arr + i, tmp + i, sizeof(int) * (end2 - i + 1));
		}
		gap *= 2;
	}
}
  1. 如上:end1越界了,就没必要归并了。end1没有越界,begin2越界,也没有必要归并了。end1,begin2没有越界,end2越界了。继续归并,修正end2的值为n-1。
  2. 然后在非递归的时候,由于每一个单趟排序都是与递归是一样的,也就是三个while循环。并且三个while循环结束了之后,那最后还需要拷贝一下,然后这个拷贝的字节的个数也需要去特别注意一下,别搞错了。

归并排序的外部排序应用(文件排序)

  1. 归并排序还有一个特别牛逼的地方就在于,之前我们讲的这些排序都被称为内排序,也就是说在内存当中进行排序。归并排序还可以进行外排序,也就是说还可以在外存进行排序。所谓的外存就是磁盘,归并排序还可以用作磁盘当中排序。把思想简单讲一讲吧
  2. 那有人就要问了,我吃着没事儿干干嘛要到磁盘上去排序?想象一下场景,当数据量特别特别特别特别大的时候,就内存这么小一点的地方也根本放不下。比如说我需要对500G的数据进行排序,500G的数据不可能放在内存当中,内存里面放不下500G,数据肯定是放在磁盘里面(磁盘的存储形式其实只有一种,就是以文件的形式存储)。
  3. 对磁盘里面的数据进行排序的话,其他的排序方式都并不合适,比如说堆排序,首先堆排序必须是数组,数组支持随机访问,那你文件支持随机访问吗?
  4. 再比如说快速排序,你看左边一个指针,右边一个指针,那我还是问你文件当中的数据能不能支持你像数据这样能够随机访问的?不能吧。
  5. 但归并排序OK,如果从递归的角度去走,比如说先分成250G,250G两份,比如说我现在假设这两份小文件都已经有序了,那么就各自依次从头开始比较归并不就OK了(顺便插一句,归并排序的空间复杂度是O(N)),大致就是这么一个道理,那现在再回过来是250G的两个小文件我得确保有序,那我只能继续分这么分下去,我不是要分死了…
  6. 所以不要用归并排序的递归的这么这种倒着推。而是用非递归归并排序的这么一个思路。比如说把500G的文件给他分成500份小文件,一个文件1G,那该怎么样让1G的小文件有序?那内存1G还是放得下的呀,读到内存然后一排(这时候到能用快排了,内存里面嘛)不就OK了。
  7. 纵观整个过程,其实你会发现也是蛮慢的。确实,但这是唯一的外存排序方法。当然,实际当中也有其他方式,反正大概就这样,也几乎不是很重要。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/427788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文掌握 Python、Anaconda、PyCharm 的安装和使用

本文将介绍一个较为全面的 Python 开发环境的搭建与基本使用&#xff0c;包括 Python 解释器的安装使用、PyCharm 编辑器的安装使用、Anaconda 的安装使用和库管理工具 pip 的使用。 PyCharm Anaconda 是一个很完备的 Python 开发环境&#xff0c;也是绝大多数开发者使用的开发…

E6410安装PVE直通显卡安装LibreELEC系统

文章目录查看cpu是否支持直通音频笔记本关盖设定BIOS设定启动内核IOMMU支持添加驱动黑名单绑定核显到vfio模块然后新建一个虚拟机安装LibreELEC注意事项重启 VM 时 GPU 直通失败如果直通后遇到问题了&#xff0c;开机出现各种问题&#xff0c;进不去系统&#xff0c;或者网页进…

【MySQL数据库原理】数据库批量导入美团NLP分类数据集Meituan-Dianping/asap

目录 数据集简单介绍完整代码实现参考资料数据集简单介绍 美团点评数据集 (Meituan-Dianping/asap) 是一个中文自然语言处理 (NLP) 数据集,由美团点评公司收集和发布。该数据集用于评估和开发中文文本分类和情感分析模型,包括情感极性分类、食物安全文本分类和自定义分类等任…

【分布式应用】Zabbix——安装

目录 第一章zabbix概述 1.1.什么是监控概念 1.2.zabbix概述 1.3.zabbix 主要特点 1.4.zabbix主要功能 1.5.zabbix运行机制 1.6.zabbix 监控原理 1.7zabbix的架构&#xff0c;数据流向以及原理在图中做总结 1.8.数据采集模式 1.9.zabbix监控模式 第二章.安装 部署 za…

Hyper-v下安装CentOS-Stream-9

1、我不想要动态扩展的硬盘&#xff0c;固定大小硬盘性能更高&#xff0c;所以这里我先创建一个固定硬盘&#xff08;如果你想用动态扩展的硬盘&#xff0c;那么可以省略前面几步&#xff0c;直接从第7步开始&#xff0c;并在第12步选择创建可动态扩展的虚拟硬盘&#xff09;&a…

JAVA开发(神乎其神的区块链概念和技术)

由于我最近需要做一个关于区块链的项目&#xff0c;所以想写篇博文记录一下自己的一些疑惑。区块链技术最火爆的时间应该是2016年和2017年。它产生的背景是B特币兴起&#xff0c;一时间说虚拟货币将取代所有实物货币炒的沸沸扬扬。它的主要思想思想是去中心化。网络上给了很多概…

ubuntu虚拟机下搭建zookeeper集群,安装jdk压缩包,搭建Hadoop集群与spark集群的搭建【上篇】

系列文章目录 在vmbox里面安装Ubuntu16.04并且配置jdk以及Hadoop配置的教程【附带操作步骤】 虚拟机vmware下安装Ubuntu16.04修改屏幕尺寸与更新源&#xff0c;以及对应的安装vim和vim常见的操作 Hadoop与主机连接以及20版本的Hadoop配置网络的问题_hadoop连不上网 Hadoop升…

英文文档翻译软件-汉语文章翻译成英语

免费文章翻译软件的主要优点包括&#xff1a; 方便快捷&#xff1a;在线免费文章翻译软件使得翻译变得更加方便和快速&#xff0c;只需要将需要翻译的文本复制粘贴到输入框中&#xff0c;即可获取翻译结果。 费用低廉或免费&#xff1a;相对于一些专业的翻译服务或软件&#x…

AcWing语法基础班 1.1 变量、输入输出、表达式和顺序语句

预备知识 首先先来了解一下最简单的C代码。 本文的所有代码操作均在AcWing的AC Editor中 #include <iostream>using namespace std;int main(){cout << "Hello World" << endl;return 0; }然后使用编译&#xff08;点击调试&#xff0c;再点击运…

(3)基础强化:静态类静态成员,静态构造函数,抽象类抽象成员,值类型和引用类型,Ref

一、静态成员 1、方法重写注意事项 1&#xff09;子类重写父类方法时&#xff0c;必须与父类保持一致的方法签名与返回值类型。即: 方 法名、返回值类型、参数列表都必须保持一致。[访问修饰符也得一致] 2&#xff09;“方法签名”:一般是指…

Authing 新增 Gitee 、Github、抖音、快手、华为、小米、Gitlab、Oppo、Amazon、Slack、Line 等多种身份源

Authing 身份源新增&#xff1a; 移动端&#xff1a;Gitee 、Github、抖音、快手、华为、小米、Gitlab、Oppo、Amazon、Slack、LineWeb 端&#xff1a;Amazon 身份源提供商&#xff08;Identity Providers&#xff0c;简称 IdP&#xff09; 是一种身份认证服务&#xff0c;其主…

干货分享!提高项目执行力的六大方法

在当今竞争激烈的商业环境中&#xff0c;企业成功的关键在于实施高效的项目管理。项目执行力是一个企业能否在规定时间内交付高质量成果的重要因素。为了确保项目最终交付&#xff0c;企业需要采取以下措施提高项目执行力。 1、明确项目目标和时间表 首先&#xff0c;企业需要…

理解C语言中的空指针和野指针

在C语言中&#xff0c;指针是一个非常重要的概念&#xff0c;可以用于操作变量和数据结构。但是&#xff0c;指针也是很容易出错的地方。其中包括两种可能的错误&#xff1a;空指针和野指针。 空指针 空指针指代无效的地址&#xff0c;表示指针不指向内存中的任何一个合法对象…

[oeasy]python0133_变量名_标识符_identifier_id_locals

变量名 回忆上次内容 上次讲了 什么是变量变量变量 能变的量 就是变量 各种系统、游戏就是由变量所组成的 声明了变量 并且 定义了变量 声明就是 declaration 把标识符 和 具体值 联系起来标识符就是 变量的标记符具体值 就是 赋给变量的值 过程就是 赋值 就是 assignment 可…

【id:35】【20分】E. Stack(类与构造)

题目描述 上面是栈类的定义&#xff0c;栈是一种具有先进后出特点的线性表&#xff0c;请根据注释&#xff0c;完成类中所有方法的实现&#xff0c;并在主函数中测试之。 堆栈类的说明如下&#xff1a; 1. 堆栈的数据实际上是保存在数组a中&#xff0c;而a开始是一个指针&…

Linux操作基础(进程和计划任务管理)

文章目录一 、程序和进程的关系1.1程序1.2进程1.3进程和线程的关系二 、查看进程的命令2.1 ps命令2.11 ps aux2.12 ps -elf2.3 top 命令2.4 pgrep命令2.5 进程的启动方式2.51 手工启动2.52 调度启用进程的前后台调度终止进程的运行2.6 kill命令三 、计划任务管理3.1使用at命令&…

Java面试技巧之每天一个Tip——SpringBean生命周期和作用域?

Spring Bean是个「古老的」问题&#xff0c;似乎面试中已经不常见了。 但是&#xff0c;偶尔&#xff0c;面试者还是会遭遇到这个问题&#xff0c;以至于被打了个措手不及&#xff0c;一脸懵。 为了防止出现类似的情况&#xff0c;Tip一下大家&#xff0c;很简单的Tip&#x…

nginx (uos)

安装nginx apt install nginx php php-fpm -y 切换目录 cd /etc/nginx vim /etc/nginx/conf.d/proxy.conf server { listen 80; ssl_certificate "/etc/nginx/nginx.crt"; ssl_certificate_key "/etc/nginx/nginx.key"; …

项目1实现login登录功能方案设计第三版

需求优化点:MySQL表常用功能模块实现方案index页面home页面需求 实现一个登录功能 实现的功能 注册(邮箱注册)登录(邮箱密码)重置密码查看操作记录(登录, 注册, 重置密码, 登出. 都算操作)登出在第2版的基础上进行优化:\ 优化点: VerificationCode(验证码储存库): 增加时间字段…

LAMP框架的架构与环境配置

1.LAMP架构的相关知识 1.1 LAMP架构的概述 LAMP架构是目前成熟的企业网站应用模式之一&#xff0c;指的是协同工作的一整套系统和相关软件&#xff0c;能够提供动态Web站点服务及其应用开发环境。LAMP是一个缩写词&#xff0c;具体包括Linux操作系统、Apache网站服务器、MySQ…