数据结构——堆排序的topk问题

news2025/1/24 6:19:18

呀哈喽,我是结衣

前言

今天给大家带来的堆排序的topk问题。topk就是在许多数中,找出前k个大的数,可能是几十个数,也可能是几千万个数中找。今天我们将要在1000000(一百万)个数中找出前10大的数。

知识点

C语言文件的读写
建堆
向下调整排序
随机数的产生
ps 向下调整和向上调整的教学都在我的另一篇文章堆的实现当中,不懂的小伙伴可以先学习堆的实现

文件的创建

随机数的生成

生成随机数我们要用到rand函数,但是因为rand函数生成随机数需要种子,所以我要还要用到srand函数为其生成种子
但问题又来了,随机种子哪来的,难道在用rand吗?这显然就不行了,那么time函数就要被我们利用了,time会根据时间的变化而该,所以我们就用time来生成随机种子。

srand(time(0));

time函数的头文件为<time.h>,srand和rand都为<stdlib.h>.

文件的写入

我们要在一百万个数中找前10大的数肯定不能直接把一百万个数打印在屏幕里吧,所以我们要把这一百万个数存放在文件data.txt中。
写入文件要用到fopen
在这里插入图片描述


void Createnode()
{
	int n = 1000000;
	srand(time(0));
	char file[] = "data.txt";
	FILE* fin = fopen(file, "w");//只写方式
	if (fin == NULL)//"w"表示只写的意思,if语句为了防止文件创建失败
	{
		perror("file error\n");
		return;
	}
	for (int i = 0; i < n; i++)
	{
		int x = rand()+i % 1000000;//rand只能产生3万个随机数,所以我们加个i
		fprintf(fin, "%d\n", x);
	}
	fclose(fin);
}

看看效果吧。
在这里插入图片描述
在记事本里生成了一百万个数,大约8mb。

topk的实现

文件的读取

文件的读取非常简单把w改为r就可以了

FILE* fin = fopen(file, "r");//只读方式
	if (fin == NULL)
	{
		perror("file error\n");
		return;
	}

topk思路

我们要把一百万个数里前k个的大数找出来,是建小堆还是建大堆。
给大家3秒钟的时间思考:
3
2
1
那么答案是建小堆,为什么呢?小堆就是小的数据在上,大的数据在下。我们先建一个可以储存k个数据的小堆,把文件里前k个的数先存入小堆中,如果在遍历这一百个万个数,只要比堆顶的数据大就把它插入堆顶,然后先下调整,循环往复这个堆里就会挤满一百万数中前k大的数了。利用的就是小堆中大的数都在下面不会堵住里堆顶,以至于后面的数进不来。

建立小堆

我们假设k为10,就是说找前10大的数,那么我们就要建立一个空间为10的小堆:

int* a = (int*)malloc(sizeof(int) * k);
	for (int i = 0; i < k; i++)
	{
		fscanf(fin, "%d", &a[i]);//将文件中的数写入数组当中
		adjustup(a, i);//向上调整,建立小堆。
	}

向上调整

void adjustup(HpDataType* a, int child)
{
	int parent = (child - 1) / 2;
	while (child>0)
	{
		if (a[child] < a[parent])
		{
			swap(a,child, parent);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
		
	}
}

遍历文件

在这里我们要了解,写入数据到文件中时会在最后加入一个EOF,所以只要我们读到EOF就退出循环,

int x = 0;
	while (fscanf(fin, "%d", &x) != EOF)
	{
		if (x > a[0])
		{
			a[0] = x;
			adjustdown(a, 0, k);
		}
	}

在遍历当中我们把比堆顶大的数替换原来的堆顶,然后向下调整,形成新的小堆。

向下调整

void adjustdown(HpDataType* a, int parent, int size)
{
	int child = parent * 2 + 1;
	if (a[child] > a[child + 1])
	{
		child++;
	}
	while (child < size)
	{
		//if (child+1<size && a[child] > a[child + 1])//inpustion
		//{
		//	child++;
		//}
		if (a[parent] > a[child])
		{
			swap(a, child, parent);
			parent = child;
			child = parent * 2 + 1;
			if (child+1<size&&a[child] > a[child + 1])//inpustion
			{
				child++;
			}
		}
		else
		{
			break;
		}
	}
}

交换函数

void swap(HpDataType*a,int child, int parent)
{
	HpDataType tmp = a[child];
	a[child] = a[parent];
	a[parent] = tmp;
}

完整代码

void Createnode()
{
	int n = 1000000;
	srand(time(0));
	char file[] = "data.txt";
	FILE* fin = fopen(file, "w");//只写方式
	if (fin == NULL)
	{
		perror("file error\n");
		return;
	}
	for (int i = 0; i < n; i++)
	{
		int x = (rand()+i) % 1000000;//rand只能产生3万个随机数。
		fprintf(fin, "%d\n", x);
	}
	fclose(fin);
}
void PrintTopK(FILE* file,int k)
{
	FILE* fin = fopen(file, "r");//只读方式
	if (fin == NULL)
	{
		perror("file error\n");
		return;
	}
	int* a = (int*)malloc(sizeof(int) * k);
	for (int i = 0; i < k; i++)
	{
		fscanf(fin, "%d", &a[i]);
		adjustup(a, i);
	}

	for (int i = 0; i < k; i++)
	{
		printf("%d ", a[i]);
	}
	printf("\n");
	int x = 0;
	while (fscanf(fin, "%d", &x) != EOF)
	{
		if (x > a[0])
		{
			a[0] = x;
			adjustdown(a, 0, k);
		}
	}
	for (int i = 0; i < k; i++)
	{
		printf("%d ", a[i]);
	}
	fclose(fin);
}

int main()
{
	Createnode();
	int k = 0;
	scanf("%d", &k);
	PrintTopK("data.txt", k);
	return 0;
}

运行效果

在这里插入图片描述
在这里插入图片描述

第二行为文件前10个数据小堆数据

当然最后你也可能会问,万一不是呢?这可是一百万个数啊,就算它随便打印,你也不知道是不是对的吧。emmm,你说的对,但是忍心让我用人力在这一百万个数据里面找吗。开玩笑啦,我当然有办法了,无奖竞猜,你会怎么办呢?
方法就是,我们来改数据,我们在文件里随机改几个数据让它一定会大于其他的数据,然后我们在看它有没有被打印出来。
ok,我现在偷偷改10个数据。我改里5个数,随机改的再让我们看看打印结果吧。
在这里插入图片描述

在这里插入图片描述
我不小心又运行了Createnode();导致里面的数字重新打印了,所以第二行和上面不一样
大家看看是不是把我们刚刚改的数都打印上去了,这就是topk问题。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1279408.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《地理信息系统原理》笔记/期末复习资料(7. 空间分析)

目录 7. 空间分析 7.1 空间分析的内容与步骤 7.2 数据检索及表格分析 7.2.1 属性统计分析 7.2.2 布尔逻辑查询 7.2.3 空间数据库查询语言 7.2.4 重分类&#xff0c;边界消除与合并 7.3 叠置分析 7.3.1 栅格系统的叠加分析 7.3.2 矢量系统的叠加分析&#xff08;拓扑叠…

FL Studio2024中文语言版水果编曲软件

FL Studio21.2这款软件在国内被广泛使用&#xff0c;因此又被称为"水果"。它提供音符编辑器&#xff0c;可以针对作曲者的要求编辑出不同音律的节奏&#xff0c;例如鼓、镲、锣、钢琴、笛、大提琴、筝、扬琴等等任何乐器的节奏律动。此外&#xff0c;它还提供了方便快…

二分查找:LeetCode2035:将数组分成两个数组并最小化数组和的差

本文涉及的基础知识点 二分查找算法合集 作者推荐 动态规划LeetCode2552&#xff1a;优化了6版的1324模式 题目 给你一个长度为 2 * n 的整数数组。你需要将 nums 分成 两个 长度为 n 的数组&#xff0c;分别求出两个数组的和&#xff0c;并 最小化 两个数组和之 差的绝对…

C# 使用HtmlAgilityPack解析提取HTML内容

写在前面 HtmlAgilityPack是一个HTML解析类库&#xff0c;日常用法就是爬虫获取到内容后&#xff0c;先用XPath获取目标节点&#xff0c;再用正则进行匹配&#xff1b;使用XPath的目的主要是将目标节点或内容限定在一个较小的范围&#xff0c;如果一上来就用正则那效率肯定不…

osg LOD节点动态调度

1、LOD节点 LOD&#xff08;level of detail&#xff09;&#xff1a;是指根据物体模型的结点在显示环境中所处的位置和重要度&#xff0c;决定物体渲染的资源分配&#xff0c;降低非重要物体的面数和细节度&#xff0c;从而获得高效率的渲染运算。在OSG的场景结点组织结构中&…

栈实现队列,力扣

题目地址&#xff1a; 232. 用栈实现队列 - 力扣&#xff08;LeetCode&#xff09; 难度&#xff1a;简单 今天刷栈实现队列&#xff0c;大家有兴趣可以点上看看题目要求&#xff0c;试着做一下。 题目&#xff1a; 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支…

基于社区电商的Redis缓存架构-库存模块缓存架构(下)

基于缓存分片的下单库存扣减方案 将商品进行数据分片&#xff0c;并将分片分散存储在各个 Redis 节点中&#xff0c;那么如何计算每次操作商品的库存是去操作哪一个 Redis 节点呢&#xff1f; 我们对商品库存进行了分片存储&#xff0c;那么当扣减库存的时候&#xff0c;操作…

3.4_1 java自制小工具 - pdf批量转图片

相关链接 目录参考文章&#xff1a;pdf转图片(apache pdfbox)参考文章&#xff1a;GUI界面-awt参考文章&#xff1a;jar包转exe(exe4j)参考文章&#xff1a;IDEA导入GIT项目参考文章&#xff1a;IDEA中使用Gitee管理代码gitee项目链接&#xff1a;pdf_2_image网盘地址&#xf…

HCIP-十六、IGMPPIM-SM 组播

十六、IGMP&PIM-SM 组播 IGMP实验拓扑实验需求及解法1. 配置各设备IP地址2. R1启用组播功能&#xff0c;并在g0/0/0和g0/0/1上开启pim dm3. R1的g0/0/1开启igmp协议 PIM-SM实验拓扑实验需求及解法1.配置各设备IP地址。2.运行IGP3.R1/2/3/4运行PIM-SM IGMP 实验拓扑 实验需…

内网穿透工具获取一个公网ip

下载地址&#xff1a;点击即可下载很简单 然后将他复制到上面的命令行窗口直接回车

SQL自学通之查询--SELECT语句的使用

一、前言 1、目标 在今天你将学习到以下内容&#xff1a; l 如何写SQL的查询 l 将表中所有的行选择和列出 l 选择和列出表中的选定列 l 选择和列出多个表中的选定列 2、背景 在上篇中我们简要地介绍了关系型数据库系统所具有的强大功能 在对 SQL 进行了 简要的介绍中我们…

scrapy-redis

一、什么是scrapy-redis Scrapy-Redis 是 Scrapy 框架的一个扩展&#xff0c;它提供了对 Redis 数据库的支持&#xff0c;用于实现分布式爬取。通过使用 Scrapy-Redis&#xff0c;你可以将多个 Scrapy 进程连接到同一个 Redis 服务器&#xff0c;共享任务队列和去重集&#xf…

食物相关的深度学习数据集合集—食物、饮料、肉类、餐具等数据集

最近收集了一大波与食物酒水相关的数据集&#xff0c;包含食物、饮料、肉类、餐具等不同等类型的数据集&#xff0c;废话不多说&#xff0c;给大家逐一介绍&#xff01;&#xff01; 1、自制啤酒配方数据库 超过20万自制啤酒配方数据库&#xff0c;数据集包含不同精酿啤酒的名…

C# WPF上位机开发(绘图软件)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 本身c# wpf可以看成是生产力工具&#xff0c;它的意义在于可以快速根据业务的情况&#xff0c;把产品模型搭建出来。这一点不像c/c&#xff0c;需要…

4.OpenResty系列之Nginx负载均衡

1. 负载均衡配置 上篇文章中&#xff0c;代理仅仅指向一个服务器。但是&#xff0c;网站在实际运营过程中&#xff0c;大部分都是以集群的方式运行&#xff0c;这时需要使用负载均衡来分流。nginx 也可以实现简单的负载均衡功能。 假设这样一个应用场景&#xff1a;将应用部署…

智能优化算法应用:基于狮群算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于狮群算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于狮群算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.狮群算法4.实验参数设定5.算法结果6.参考文献7.MATLAB…

想进国家电网,电气类专业都有哪些就业方向呢?

电气工程及自动化专业的主干课程都有哪些&#xff0c;笔者跟你分享一下就业方向都有哪些主要课程呢&#xff1f;包含电路原理、模拟电子技术、数字电子技术工程、电磁场、微机原理与接口技术、自动控制原理、电机学、电力电子技术、电力系统分析等等。 电气类专业都有哪些就业方…

使用idea如何快速的搭建ssm的开发环境

文章目录 唠嗑部分言归正传1、打开idea&#xff0c;点击新建项目2、填写信息3、找到pom.xml先添加springboot父依赖4、添加其他依赖5、编写启动类、配置文件6、连接创建数据库、创建案例表7、安装MybatisX插件8、逆向工程9、编写controller10、启动项目、测试 结语 唠嗑部分 小…

技术阅读周刊第第8️⃣期

技术阅读周刊&#xff0c;每周更新。 历史更新 20231103&#xff1a;第四期20231107&#xff1a;第五期20231117&#xff1a;第六期20231124&#xff1a;第七期 Prometheus vs. VictoriaMetrics (VM) | Last9 URL: https://last9.io/blog/prometheus-vs-victoriametrics/?refd…

大文件分片上传、分片进度以及整体进度、断点续传(一)

大文件分片上传 效果展示 前端 思路 前端的思路&#xff1a;将大文件切分成多个小文件&#xff0c;然后并发给后端。 页面构建 先在页面上写几个组件用来获取文件。 <body><input type"file" id"file" /><button id"uploadButton…