(排序10)归并排序的外排序应用(文件排序)

news2024/10/5 15:33:13

TIPS

  1. 在一些文件操作函数当中,fputc与fgetc这两个函数都是针对字符的,如果说你需要往文件里面去放入整形啊等等,不是字符的类型,这时候就用fprintf,fscanf在参数里面数据类型控制一下就可以。但是话说回来,数据文件的话分为文本文件与二进制文件,文件里面的信息唯有二进制信息或者字符ASCII码,然后当你点开文件解析出来的时候都是强制解析成字符的。
  2. 对于C文件操作我还是想再补充几点:首先对于这两个函数fgetc,fputc他们针对的都是字符,比如说可以从内存当中往文件(以文件作为外部输出设备的例子)当中去放字符,也可以从文件当中往内存里面读出来一个字符,但无论如何,他针对的数据类型只有字符;
  3. 然后对于这两个函数fgets与fputs,他们针对的是一行字符串的输入与输出,这边尤其要注意在文件当中每一行字符串的末尾都是默认带有一个换行符\n,这个换行符的话也是需要计数的(参照fgets的参数),并且如果说条件允许也是会被拷贝到内存当中,并且文件指针一旦碰到了这个换行符,它也会换行;
  4. 对于fprintf, fscanf这两个函数来说的话,他们针对的是格式化字符串的输入输出,并且最大的优势与亮点就是说他们的类型很是自由,比如说我想往文件里面放入一个数字,然后我假设要从文件里面过一会儿读出这个数字重新到内存里面来,这时候就不好用fgetc,fputc。因为那两个的话是针对于字符的,这时候就用fprintf,fscanf加%d格式化非常nice。
  5. 最后对于这两个函数sscanf,sprintf来说,这两个函数的功能分别是从字符串当中去抠东西下来放到变量当中,粘连一些东西或者自己添油加醋一些合成一个新字符串。
    在这里插入图片描述
    在这里插入图片描述

归并排序的外排序(文件排序)

  1. 文件排序的话,主要是针对大文件,如果你针对小文件的话就没有意义了。但这边总不能真正的给500个g的数据吧,我们这边就模拟一下
  2. 现在假设有海量的排序数据,那么他这个数据肯定是在文件当中,在磁盘当中,因为磁盘相对于内存大太多了。然后如果我们要对这些数据进行排序的话,不能把他们全部一下子加载到内存里面,因为内存没有这么大
  3. 这时候我们只能用归并排序的思想,归并排序就是说比如说有两段有序的数据,这一段是有序的,那一段也是有序的。然后我们就开一个新的地方,然后每次取小的下来给他放到新的地方里面,就这样把两个有序区间给他归并到一个有序区间。好好去想一想归并的四个生动表述过程。
    在这里插入图片描述
  4. 归并排序的话,既可以把它看成内排序,它也可以搞成外排序。但无论如何他都具有O(N)的空间复杂度,所以说是蛮消耗存储空间的。所以说在内排序当中,它跟快速排序相比的话逊一点,内排序综合快排取胜
  5. 然后现在当数据在文件当中的话,前面的那些快的排序:堆排啊,快排啊都不好弄了,堆排与快排的话都需要随机访问这个大前提,像数组的话很友好,能够支持随机访问,但文件的话就不能进行随机访问了,就算你可以去移动文件指针那也非常非常慢,磁盘的速度相比较于内存而言慢太多了,差异在几百几千倍。所以外排用归并。
  6. 但在归并的过程当中,如果说你用递归的思想,比如说把十个g的文件给他,先分成5个g,5个g,那我如果想要归并的话,首先得确保这两个五个g的文件数据是有序的。那该怎么确保呢?是不是相当于又要继续划分下去,那这样划分下去,不是要划分死了吗?而且我们真正在归并的时候,为了效率提高,我们一定要借助于内存,而不是全部在慢吞吞的磁盘里面。
  7. 所以总的思路就是这样:首先把大文件给他平均分割成N份,然后保证每一份的大小都可以加载到内存当中(我必须借助于内存,没办法,不然纯硬盘里面就慢到猴年马月了),然后因为我等会儿要依托这个每一份的划分出来的小文件为基准量不断向上归并,所以说前提是这些划分出来的小文件必须有序,由于他们现在倒是能够加载到内存里面,所以说先把他们读到内存里面用快速排序把他们先排成有序的
  8. 然后在内存里面给它全部把数据排成有序之后再写回小文件当中。那么这时我们就达到了文件中归并的先决条件。现在都是一个一个有序的小文件了。
  9. 首先就是对磁盘当中的海量数据不断的读,然后用一个变量去控制一下,比如说我现在假定每个小文件里面的数据个数是十个,那么在不断读取的过程当中,每读到十个的时候,然后此时此刻停顿一下,把这十个数据给他,在内存当中快速排序一下,并且给他去创建一个新的文件,并且把这十个在内存当中已经有序的数据给他读到那个文件里面去。当然里面有一些具体的细节的话,就去处理一下就可以,包括边界问题呀等等代码逻辑处理好就可以。
  10. 然后接下来就是文件之间的归并。这时候就肯定不能在内存当中了,因为内存里面已经放不下两个文件合起来这么一个数据量。因为归并排序的话,它的空间复杂度必须是O(N)。然后如果说两两一归并的话,有个很恶心的问题,就是取名字的问题。我们虽然采用非递归归并,但其实也可以不用去两两一归并,可以如下:
    在这里插入图片描述

实际代码实现

#define _CRT_SECURE_NO_WARNINGS 1
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>
#define ALL_NUMBER 10000
#define EVERY_NUMBER 1000
#define NAME_MAX 100
void Swap(int* p1, int* p2)
{
	int tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}
int GetMidNumi(int* arr, int left, int right)
{
	int mid = (left + right) / 2;

	if (arr[left] < arr[mid])
	{
		if (arr[left] > arr[right])
		{
			return left;
		}
		else
		{
			return arr[mid] < arr[right] ? mid : right;
		}
	}
	else
	{
		if (arr[right] > arr[left])
		{
			return left;
		}
		else
		{
			return arr[mid] > arr[right] ? mid : right;
		}
	}
}
void QuickSort(int* arr, int left, int  right)
{
	if (left >= right)
	{
		return;
	}
	int begin = left;
	int end = right;
	int midi = GetMidNumi(arr, left, right);
	Swap(arr + left, arr + midi);
	int keyi = left;
	while (left < right)
	{
		while (left < right && arr[right] >= arr[keyi])
		{
			right--;
		}
		while (left < right && arr[left] <= arr[keyi])
		{
			left++;
		}
		Swap(arr + left, arr + right);
	}
	Swap(arr + left, arr + keyi);
	keyi = left;
	QuickSort(arr, begin, keyi - 1);
	QuickSort(arr, keyi + 1, end);
}
void CreateNumber()
{
	srand((unsigned int)time(NULL));
	FILE* pf = fopen("number.txt", "w");
	if (pf == NULL)
	{
		perror("fopen failed");
		return;
	}
	for (int i = 0; i < ALL_NUMBER; i++)
	{
		int num = rand();
		fprintf(pf, "%d\n", num);
	}
	fclose(pf);
	pf = NULL;
}
void MergeSortFile(char* file1, char* file2, char* file)
{
	FILE* pf1 = fopen(file1, "r");
	if (pf1 == NULL)
	{
		perror("fopen failed");
		return;
	}
	FILE* pf2 = fopen(file2, "r");
	if (pf2 == NULL)
	{
		perror("fopen failed");
		return;
	}
	FILE* pf = fopen(file, "w");
	if (pf == NULL)
	{
		perror("fopen failed");
		return;
	}
	int num1 = 0;
	int num2 = 0;
	int ret1 = fscanf(pf1, "%d", &num1);
	int ret2 = fscanf(pf2, "%d", &num2);
	while (ret1 != EOF && ret2 != EOF)
	{
		if (num1 < num2)
		{
			fprintf(pf, "%d\n", num1);
			ret1 = fscanf(pf1, "%d", &num1);
		}
		else
		{
			fprintf(pf, "%d\n", num2);
			ret2 = fscanf(pf2, "%d", &num2);
		}
	}
	while (ret1 != EOF)
	{
		fprintf(pf, "%d\n", num1);
		ret1 = fscanf(pf1, "%d", &num1);
	}
	while (ret2 != EOF)
	{
		fprintf(pf, "%d\n", num2);
		ret2 = fscanf(pf2, "%d", &num2);
	}

	fclose(pf1);
	fclose(pf2);
	fclose(pf);
}
void Cover(char* file1, char* file2)
{
	FILE* pf1 = fopen(file1, "r");
	if (pf1 == NULL)
	{
		perror("fopen failed");
		return;
	}
	FILE* pf2 = fopen(file2, "w");
	if (pf2 == NULL)
	{
		perror("fopen failed");
		return;
	}
	int num = 0;
	int res = 0;
	while (fscanf(pf1, "%d", &num) != EOF)
	{
		fprintf(pf2, "%d\n", num);
	}
	fclose(pf1);
	fclose(pf2);
}
int main()
{
	CreateNumber();
	FILE* pf = fopen("number.txt", "r");
	if (pf == NULL)
	{
		perror("fopen failed");
		return;
	}
	int arr[EVERY_NUMBER] = { 0 };
	char file1[NAME_MAX] = { 0 };
	char file2[NAME_MAX] = { 0 };
	char file[NAME_MAX] = { 0 };
	int res = 0;
	int i = 0;
	int count = 0;
	while ((res = fscanf(pf, "%d", &arr[i++])) != EOF)
	{
		if (i == EVERY_NUMBER)
		{
			count++;
			if (count == 1)
			{
				sprintf(file1, "%d", count);
			}
			sprintf(file2, "%d", count);
			QuickSort(arr, 0, EVERY_NUMBER - 1);
			i = 0;
			FILE* _pf = fopen(file2, "w");
			if (_pf == NULL)
			{
				perror("fopen failed");
				return 1;
			}
			for (int j = 0; j < EVERY_NUMBER; j++)
			{
				fprintf(_pf, "%d\n", arr[j]);
			}
			fclose(_pf);
			if (count > 1)
			{
				sprintf(file, "%s%s", file1, file2);
				MergeSortFile(file1, file2, file);
				strcpy(file1, file);
			}
		}
	}
	fclose(pf);
	Cover(file, "number.txt");
	return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/413349.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自动化测试怎么学?这绝对是全网最系统的教程

目录 1、什么是自动化测试 2、自动化测试的发展前景怎么样 3、自动化测试难不难&#xff1f; 4、目前市场上自动化测试岗位的薪资是多少&#xff1f; 5、自动化测试学习方法好渠道 6、自动化测试怎么学&#xff1f; 学习基础知识 选择自动化测试框架 开始编写测试脚本 …

用HTTP proxy module配置一个反向代理服务器

反向代理与正向代理 摘抄&#xff1a;https://cloud.tencent.com/developer/article/1418457 正向代理 正向代理&#xff08;forward proxy&#xff09;&#xff1a;是一个位于客户端和目标服务器之间的服务器(代理服务器)&#xff0c;为了从目标服务器取得内容&#xff0c;…

“数实融合 元力觉醒”,苏州市元宇宙生态大会圆满召开!

为贯彻落实《苏州市培育元宇宙产业创新发展指导意见》&#xff0c;抢抓数字经济发展新机遇&#xff0c;加速培育与元宇宙发展相关的技术底座&#xff0c;“数实融合 元力觉醒——苏州市软件行业协会元宇宙专委会成立大会暨元宇宙生态大会”于4月14日成功举办。 苏州和数智能软件…

五金件装备不良、视觉检测零件是否缺失硬件方案

【检测目的】 检测不良品 【检测要求】 检测速度&#xff1a;13S一个 【拍摄效果图一】&#xff08;正面&#xff09; 【拍摄效果图二】正面 【拍摄效果图三】正面 【拍摄效果图四】&#xff08;正面&#xff09; 【拍摄效果图五】&#xff08;正面&#xff09; 【拍摄效果图…

如何写好付费专栏之开宗明义篇

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。 本文主要介绍了写好付费专栏的开宗明义篇,希…

电脑上删除的文件可以恢复吗 如何恢复电脑上删除的文件

电脑早已走进千家万户&#xff0c;成为我们不可或缺的家庭设备&#xff0c;我们用电脑来学习、工作&#xff0c;处理各种数据。在使用电脑处理数据时&#xff0c;可能会失误操作&#xff0c;删除重要文件。那么&#xff0c;电脑上删除的文件可以恢复吗&#xff0c;如何恢复电脑…

Python学习笔记--函数进阶

&#xff08;一&#xff09; 函数多返回值 按照返回值的顺序&#xff0c;写对顺序的多个变量接收即可变量之间用逗号隔开支持不同类型的数据return def test_return():return 1,2x,y test_return() print(x) print(y)&#xff08;二&#xff09; 函数的多种传参方式 函数参数…

MySQL批量更新的常用实践

MySQL批量更新的常用实践 批量更新一般在批处理系统或者定时任务中比较常见&#xff0c;常见的诉求就是对表中多条数据进行更新&#xff08;待更新的值是不一样的&#xff0c;这个区别于update … where in(…)&#xff09; 1.利用case … when … 方式批量更新 特点&#x…

5年碌碌无为,我终于从功能测试转到了自动化测试,薪资暴涨8K......

目录&#xff1a;导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09;前言 自动化测试现已悄然…

JavaEE企业级应用开发教程——第十二章 Spring MVC数据绑定和相应(黑马程序员第二版)(SSM)

第十二章 Spring MVC数据绑定和相应 12.1 数据绑定 在 Spring MVC 中&#xff0c;当接收到客户端的请求时&#xff0c;会根据请求参数和请求头等信息&#xff0c;将参数以特定的方式转换并绑定到处理器的形参中&#xff0c;这个过程称为数据绑定。数据绑定的流程大致如下&…

Golang每日一练(leetDay0035) 二叉树专题(4)

目录 103. 二叉树的锯齿形层序遍历 Binary Tree Zigzag Level Order Traversal &#x1f31f;&#x1f31f; 104. 二叉树的最大深度 Maximum Depth of Binary-tree] &#x1f31f; 105. 从前序与中序遍历序列构造二叉树 Construct-binary-tree-from-preorder-and-inorder-…

MySQL8.0的安装和配置

&#x1f389;&#x1f389;&#x1f389;点进来你就是我的人了 博主主页&#xff1a;&#x1f648;&#x1f648;&#x1f648;戳一戳,欢迎大佬指点!人生格言&#xff1a;当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔&#x1f9be;&am…

结合实际谈谈个人对代码优化的感想以及java优化

前言 本来想写一篇结合在实际工作中&#xff0c;自己去优化java代码的文章&#xff0c;用于记录便于复习提升自己的&#xff1b;但是在回想起自己在实际工作中诸多因素导致存在的问题&#xff08;仅针对我个人&#xff09;&#xff0c;个人总结以及去证实了&#xff0c;所悟&am…

16. unity粒子特效---旋转 + 花瓣飞舞案例

1. 旋转模块&#xff08;Rotation over Lifetime&#xff09; 在主模块中也可以设置粒子的旋转角度&#xff0c;通过参数Start Rotation&#xff0c;不过这个参数设置的是粒子刚生成时的角度&#xff0c;后面不会发生变化。 使用旋转模块可以通过参数Angular Velocity进行设置…

十一、删除市场活动

功能需求 ①用户在市场活动主页面,选择要删除的市场活动,点击"删除"按钮,弹出确认窗口; ②用户点击"确定"按钮,完成删除市场活动的功能. ③*每次至少删除一条市场活动 ④*可以批量删除市场活动 ⑤*删除成功之后,刷新市场活动列表,显示第一页数据,保持…

如何规划自己的大一生活

大家好&#xff0c;我是帅地&#xff0c;在帅地的训练营里&#xff0c;有不少大一打二大学员&#xff0c;不少学员在大一就会数据结构&#xff0c;算法等学了&#xff0c;还参加了一些实验室项目&#xff0c;这主要得益于他们规划等早。 帅地在接下来的时间里&#xff0c;会写…

心累,网站被盗刷 1.7T 流量

小伙伴们大家好&#xff0c;我是阿秀。前几天我在上班摸鱼的时候忽然收到阿里云发来的邮件说账户欠费&#xff0c;服务停止同时也有人在群里说网站图片看不到了。我当时第一反应就是 OSS 套餐超了&#xff0c;因为以前也收到过类似的邮件&#xff0c;我去年双十一的时候买了一个…

JUC高级八-Java对象内存布局和对象头

JUC高级八-Java对象内存布局和对象头 1. 对象的内存布局 在HotSpot虚拟机里&#xff0c;对象在堆内存中的存储布局可以划分为三个部分:对象头(Header&#xff09;、实例数据&#xff08;Instance Data&#xff09;和对齐填充(Padding)&#xff08;保证8个字节的倍数&#xff…

【java】泛型编程

文章目录泛型类泛型与多态泛型方法泛型界限设置上界设置下界类型擦除函数式接口Supplier供给型函数式接口Consumer消费型函数式接口Function函数型函数式接口Predicate断言型函数式接口判空包装泛型类 package com.test.entity; public class Score<T> {String name;Str…

一文搞懂Session和JWT登录认证

前言 目前在开发的小组结课项目中用到了JWT认证&#xff0c;简单分享一下&#xff0c;并看看与Session认证的异同。 登录认证&#xff08;Authentication&#xff09;的概念非常简单&#xff0c;就是通过一定手段对用户的身份进行确认。 我们都知道 HTTP 是无状态的&#xf…