【数据结构】堆的应用——TOP-K问题详解

news2024/11/14 11:38:59

目录

🍎前言🍎:

🥝一、TOP-K 问题概述🥝:

🍉二、不同解决思路实现🍉:

①排序法:

②直接建堆法:

③K 堆法(最优解):

🍒总结🍒:


🛰️博客主页:✈️銮同学的干货分享基地

🛰️欢迎关注:👍点赞🙌收藏✍️留言

🛰️系列专栏:🎈 数据结构

                       🎈【进阶】C语言学习

                       🎈  C语言学习

🛰️代码仓库:🎉数据结构仓库

                       🎉VS2022_C语言仓库

        家人们更新不易,你们的👍点赞👍和⭐关注⭐真的对我真重要,各位路过的友友麻烦多多点赞关注,欢迎你们的私信提问,感谢你们的转发!

        关注我,关注我,关注我,你们将会看到更多的优质内容!!


🏡🏡 本文重点 🏡🏡:

🚅 堆的 TOP-K 问题 🚏🚏

🍎前言🍎:

        在上节课中我们已经学习了二叉树的顺序存储结构,并且对于实际使用中所常用的顺序存储结构——堆的各个接口功能进行了理解与实现,而这节课我们将要对堆的实际应用进行更加深入的研究,而关于堆最重要的实际应用,就是用于处理 TOP-K 问题

🥝一、TOP-K 问题概述🥝:

        TOP-K 问题,即求数据结合中前 K 个最大的元素或者最小的元素,一般情况下数据量较大。 比如:年级前10名、世界百强、游戏中活跃前百玩家等等。

        而对于 Top-K 问题,我们能想到的有三种不同的思路去解决。首先最简单直接的方式就是排序。但是如果需要处理的数据量非常大,排序就不太可取了(数据难以瞬时全部加载到内存中)。而另外两种方式就是使用堆来解决

  1. 用数据集合中前 K个元素来建堆,若要取前 K 个最大的元素,则建小堆;而若要取前 K 个最小的元素,则建大堆
  2. 用剩余的 N-K 个元素依次与堆顶元素来比较,不满足则替换堆顶元素,最终将剩余 N-K 个元素依次与堆顶元素比完之后,堆中剩余的 K 个元素就是所求的前 K 个最小或者最大的元素

🍉二、不同解决思路实现🍉:

        关于这一部分的研究就是本文的重点介绍内容,即关于堆的应用 ——TOP-K 问题的三种解决思路的具体实现:

①排序法:

        排序法的思路很好理解,是将所有的数据进行排序,再根据需求取值即可。过程中使用的排序方法是向下调整算法(在上节课中十分详细的为各位小伙伴们尽行了讲解,这里不再作过多阐述)时间复杂度是O(nlogn)

//排序法:
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp;
	tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//向下调整算法:
void ADjustDown(HPDataType* data, HPDataType father, int size)
{
	//方法一:迭代
	//HPDataType child = father * 2 + 1;
	// //if ((data[child] < data[child + 1])&&(child+1<size)) // 找到孩子较大的一个
	//if ((data[child] > data[child + 1]) && (child + 1 < size)) // 小堆,找到孩子较小的一个

	//{
	//	child++;
	//}
	//while (child<size) 
	//{
	//	if (data[father] < data[child]) // 大堆
	//	//if (data[father] > data[child]) // 小堆
	// 
	//	{
	//		Swap(&data[father], &data[child]);
	//		father = child; // 孩子变父亲,向下迭代
	//		child = father * 2 + 1;
	//	}
	//	else
	//	{
	//		break;
	//	}
	//}
	
	//方法二:递归
	HPDataType child = father * 2 + 1;
	if (child >= size)return;
	else
	{
		//if ((data[child] < data[child + 1]) && (child + 1 < size)) // 大堆,找到孩子较大的一个
		if ((data[child] > data[child + 1]) && (child + 1 < size)) // 小堆,找到孩子较小的一个

		{
			child++;
		}
		//if (data[father] < data[child]) // 大堆
		if (data[father] > data[child]) // 小堆
		{
			Swap(&data[father], &data[child]);
		}
		ADjustDown(data, child, size);
	}
}

void Heapsort(HPDataType* data, int size)
{
	for (int i = (size - 1 - 1) / 2; i >= 0; i--)
	{
		ADjustDown(data, i, size);
	}
	int end = size - 1;
	while (end > 0)
	{
		Swap(&data[0], &data[end]);
		ADjustDown(data, 0, end);
		end--;
	}
}

        这种方法就相当于遍历所有的数据进行比较排序,因此就将会造成大量的内存消耗和使用,存在着较大的弊端。

②直接建堆法:

        直接建堆法的作用原理为:建立一个大堆(时间复杂度O(logn)),然后取出堆顶的元素并将其删除,再重复这个过程 K 次,就能得到我们想要的结果,这个过程中同样使用了向下调整算法(对这个算法还不太理解的小伙伴们可以回到上节课中进行一下快速的复习)

//直接建堆法:
for (int i = (size - 1 - 1) / 2; i >= 0; i--)
{
	ADjustDown(data,i,size);
}
for(int i=0;i<k;i++)
{
    printf("%d ",HeapTop(data);
    HeapPop(data);
}

        虽然这种算法有了一定程度上的改进,但是仍没有改变在内存中进行操作的本质,于是虽然也可以实现求取比较结果的目的,但其操作方式导致其仍会造成大量的内存占用与消耗,仍没有达到理想的状态,需要对相关算法继续进行改进

③K 堆法(最优解)

        我们不难发现,上述两种方法都是在内存中执行的,于是当我们 n 很大时,所占用内存将会非常大,例如我们假设 n 为100亿,此时就有:

1G = 1024 MB = 1024 * 1024KB = 1024 * 1024 * 1024Byte ,则需要使用的内存就将达到恐怖的 10亿Byte 左右。

        而我们也知道,在我们的实际使用中,很少会有这么大的内存空间,而就算有那么大的内存,那么这中间消耗的成本也将是天文数字,并且我们付出如此巨大的代价,只求得了数据结合中前 K 个最大的元素或者最小的元素,如此看来得不偿失。

        于是我们就采用另一种建堆方式——K 堆法:建一个大小为 K 的小堆(小根堆)。为什么是小堆呢,我们知道小堆是用来排升序的,当我们向后遍历数据和堆顶比较时,若比堆顶大就替换,然后继续向下调整,通过这样的方式就可以减少内存的使用
        这里可能有小伙伴会问了,那假如一开始那个数据是 n ,那么需要的内存不也十分夸张吗?关于这个问题,原因在于我们在实际生活中的使用中,数据不一定是来自内存,更多的是来自硬盘、数据库或者网络,并不会大量的消耗和使用我们的内存空间。并且反观上述两种方法,都是将数据储存在内存上,如果我们使用归并排序,但是数据不在内存上而是储存在硬盘等地方,此时归并排序的执行效率也会大大降低

//K堆法:
//向下调整算法:
void ADjustDown(HPDataType* data, HPDataType father, int size)
{
	//方法一:迭代
	//HPDataType child = father * 2 + 1;
	// //if ((data[child] < data[child + 1])&&(child+1<size))//找到孩子较大的一个
	//if ((data[child] > data[child + 1]) && (child + 1 < size))//小堆,找到孩子较小的一个
	//{
	//	child++;
	//}
	//while (child<size) 
	//{
	//	if (data[father] < data[child])//大堆
	//	//if (data[father] > data[child])//小堆
	// 
	//	{
	//		Swap(&data[father], &data[child]);
	//		father = child;//孩子变父亲,向下迭代
	//		child = father * 2 + 1;
	//	}
	//	else
	//	{
	//		break;
	//	}
	//}
	
	//方法二:递归
	HPDataType child = father * 2 + 1;
	if (child >= size)return;
	else
	{
		//if ((data[child] < data[child + 1]) && (child + 1 < size))//大堆,找到孩子较大的一个
		if ((data[child] > data[child + 1]) && (child + 1 < size))//小堆,找到孩子较小的一个

		{
			child++;
		}
		//if (data[father] < data[child])//大堆
		if (data[father] > data[child])//小堆
		{
			Swap(&data[father], &data[child]);
		}
		ADjustDown(data, child, size);
	}
}

void PrintTopK(int* a, int n, int k)
{
	HPDataType* kMinHeap = (HPDataType*)malloc(sizeof(HPDataType) * k);
	assert(kMinHeap);
	for (int i = 0; i < k; i++)
	{
		kMinHeap[i] = a[i];
	}
	for (int i = (k - 2) / 2; i >= 0; i--)
	{
		ADjustDown(kMinHeap, i, k);
	}
	for (int j = k; j < n; j++)
	{
		if (kMinHeap[0] < a[j])
		{
			kMinHeap[0] = a[j];
			ADjustDown(kMinHeap, 0, k);
		}
	}
	for (int i = 0; i < k; i++)
	{
		printf("%d ", kMinHeap[i]);
	}
}

void TestTopk()
{
	int n = 10000;
	int* a = (int*)malloc(sizeof(int) * n);
	srand(time(0));
	for (size_t i = 0; i < n; ++i)
	{
		a[i] = rand() % 1000000;
	}
	a[5] = 1000000 + 1;
	a[1231] = 1000000 + 2;
	a[531] = 1000000 + 3;
	a[5121] = 1000000 + 4;
	a[115] = 1000000 + 5;
	a[2335] = 1000000 + 6;
	a[9999] = 1000000 + 7;
	a[76] = 1000000 + 8;
	a[423] = 1000000 + 9;
	a[3144] = 1000000 + 10;
	PrintTopK(a, n, 10);
}

int main()
{
	TestTopk();

	return 0;
}

        这种方式也同样使用了向下调整算法,由此可见,该算法的重要程度可见一斑。通过使用 K 堆法,我们就大幅度的节省了内存空间的消耗,同时也保证了程序的执行效率,是现阶段我们能力范围内所能实现的最优解

🍒总结🍒:

        到这里,我们今天关于 TOP-K 问题的研究就全部结束了,这个问题将在我们以后的工作过程中大量遇到,希望各位小伙伴们们能够结合实际情况,选择最合适的方式去解决、处理类似的问题。同时,向下调整算法与向上调整算法的思想也是很重要的一部分知识结构,希望还没能将其牢固掌握、熟练应用的小伙伴们下去以后能够把这部分知识再次认真全面的进行复习,为以后的学习和使用打下坚实的基础

        🔥🔥精彩的人生是在有限生命中实现无限价值的人生🔥🔥

        更新不易,辛苦各位小伙伴们动动小手,👍三连走一走💕💕 ~ ~ ~  你们真的对我很重要!最后,本文仍有许多不足之处,欢迎各位认真读完文章的小伙伴们随时私信交流、批评指正!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/185256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis简单入门

Redis简介 Redis是一个开源的使用C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value的NoSQL数据库。特点如下: 读写速度快&#xff1a;Redis官网测试读写能到10万左右每秒。速度快的原因这里简单说一下&#xff0c;第一是因为数据存储在内存中&#xff0c;我们知…

标准有效的项目开发流程

代码版本管理在项目中&#xff0c;代码的版本管理非常重要。每个需求版本的代码开发在版本控制里都应该经过以下几个步骤。在master分支中拉取该需求版本的两个分支&#xff0c;一个feature分支&#xff0c;一个release分支&#xff1b;feature分支用于接受个人分支merge过来的…

二叉树DFS、BFS

目录 1&#xff0c;DFS遍历 2&#xff0c;DFS遍历OJ实战 力扣 144. 二叉树的前序遍历 力扣 94. 二叉树的中序遍历 力扣 145. 二叉树的后序遍历 力扣 105. 从前序与中序遍历序列构造二叉树 力扣 106. 从中序与后序遍历序列构造二叉树 力扣 889. 根据前序和后序遍历构造二…

C++中的new、operator new与placement new

new operator 当我们使用了new关键字去创建一个对象时&#xff0c;你知道背后做了哪些事情吗&#xff1f; A* a new A;实际上这样简单的一行语句&#xff0c; 背后做了以下三件事情&#xff1a; 分配内存,如果类A重载了operator new&#xff0c;那么将调用A::operator new(…

TencentOS安装并运行多版本php

TencentOS版本3.1安装并运行php7&#xff0c;现在需要同时运行一个php8. php选择使用了php v8.0.27 采用编译安装的方式&#xff0c;编译命令如下&#xff1a; ./configure --prefix/application/php8 --with-config-file-path/application/php8/etc --with-mhash --with-o…

51单片机学习笔记-4矩阵键盘

4 矩阵键盘 [toc] 注&#xff1a;笔记主要参考B站江科大自化协教学视频“51单片机入门教程-2020版 程序全程纯手打 从零开始入门”。 注&#xff1a;工程及代码文件放在了本人的Github仓库。 4.1 矩阵键盘介绍 在键盘中按键数量较多时&#xff0c;为了减少I/O口的占用&#…

vuex中 this.$store.dispatch() 与 this.$store.commit()

一、理解 this.$store.dispatch 分发 actions-> 调用 mutations->改变 states 二、思考 1、为什么不直接分发 mutation mutation 有必须同步执行的限制&#xff0c;而 Action 不受约束&#xff0c;可以在 action 内部执行异步操作2、Action 通常是异步的&#xff0c;…

配置日志输出到指定位置的文件,单独报错error级别以上的日志,按日志类别打印日志

目录1.配置文件2.测试程序&#xff1a;工具&#xff1a;log4j的jar包、配置文件log4j.properties(文件名自定义)、eclipse或IDEA 更多参考&#xff1a;https://www.cnblogs.com/ITtangtang/p/3926665.html、 1.配置文件 新建一个配置文件log4j.properties&#xff08;我把它放…

区块链游戏走出一地鸡毛,元宇宙3D国风链游或成最大受益者

曾推出过《Cytus》《Deemo》《聚爆》等知名游戏的雷亚&#xff0c;其CEO游名扬在接受采访时曾谈到&#xff0c;游戏产业是文化产业加上科技产业的组合体&#xff0c;这两者是组成游戏产业的主要部分。看游戏的趋势&#xff0c;就要针对文化和科技的趋势上来看。 这话没错。 20…

flutter StreamController,ValueListenableBuilder,NotificationListener

FutureBuilder &#xff08;异步数据更新&#xff09; StreamBuilder &#xff08;异步数据更新&#xff09; 构造函数 特点 接收多个异步操作的结果class StreamBuilder<T> extends StreamBuilderBase<T, AsyncSnapshot<T>>{}单订阅&#xff1a;StreamCo…

在Linux中进行Hbase搭建

在公网IP为x.x.x.x、y.y.y.y和z.z.z.z并装有Centos8的服务器上进行hadoop集群搭建、zookeeper集群搭建和hbase搭建&#xff0c;都安装hadoop-3.1.3、server-jre-8u202-linux-x64、apache-zookeeper-3.6.4-bin和hbase-2.5.0-bin。 环境准备&#xff08;三台服务器都一样&#x…

基于javaweb宠物领养平台管理系统设计和实现

基于javaweb宠物领养平台管理系统设计和实现 博主介绍&#xff1a;5年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取源码联系方…

C++基础——C++ 判断

C基础——C 判断C 判断判断语句C if 语句语法流程图? : 运算符C 判断 判断结构要求程序员指定一个或多个要评估或测试的条件&#xff0c;以及条件为真时要执行的语句&#xff08;必需的&#xff09;和条件为假时要执行的语句&#xff08;可选的&#xff09;。 下面是大多数编…

DAMA数据管理知识体系指南之数据管理概述

第2章 数据管理 2.1 引言 2.2 使命和目标 使命 在信息的可用性、安全性和质量方面&#xff0c;满足并超越企业中所有利益相关者的信息要求。 战略目标 &#xff08;1&#xff09;理解企业和所有利益相关者的信息需求。 &#xff08;2&#xff09;获取、存储、保护和确保数据资…

堆的结构及函数接口、堆排序,TopK

本篇内容涉及到二叉树的概念及性质&#xff0c;可参考文章 树和二叉树的概念及性质 文章目录一、堆的概念二、堆的存储结构三、堆的函数接口1. 初始化及销毁2. 打印函数3. 堆的插入4. 堆的删除5. 取堆顶、判空、数据个数四、建堆算法和时间复杂度1. 向上调整建堆2. 向下调整建堆…

CTFshow--web--红包题第二弹

查看源代码&#xff0c;按注释提示&#xff0c;构造参数试试?cmdaa<?php #error_reporting(0); ?> <html lang"zh-CN"><head><meta http-equiv"Content-Type" content"text/html; charsetUTF-8" /><meta name&quo…

MATLAB绘制爱心曲线并导出

MATLAB绘制爱心曲线并导出 爱心曲线的表达式&#xff1a; f(x)x2/3e3(π−x2)1/2sin(aπx)f(x)x^{2/3}\frac e 3(\pi-x^2)^{1/2}sin(a\pi x) f(x)x2/33e​(π−x2)1/2sin(aπx) f (x,a)x.^2.^(1/3)exp(1)/3*(pi-x.^2).^(1/2).*sin(a*pi*x); h figure(color,[1 1 1]); set(g…

应用系统与钉钉集成案例及操作步骤

1、准备钉钉应用 1.1、注册钉钉账号 作为钉钉的企业管理员&#xff0c;首先登录钉钉官网&#xff0c;注册一个钉钉账号。 如果已经有账号&#xff0c;则直接使用即可。 钉钉官网&#xff1a;https://www.dingtalk.com/ 1.2、开通企业团队 企业管理员使用账号登录钉钉。 如…

如何限制docker容器使用内存大小

本文介绍如何通过docker运行参数配置限制docker容器可以使用的内存上限。docker容器默认可以使用全部宿主机的所有内存和 swap 分区&#xff0c;比如宿主机的内存是32G&#xff0c;则运行一个docker容器最多可以分配到32G内存&#xff0c;如果启用了多个docker容器&#xff0c;…

CSS实现文本显示两行

效果图 text-overflow: ellipsis;display: -webkit-box;-webkit-line-clamp: 2;-webkit-box-orient: vertical;display: -moz-box;-moz-line-clamp: 2;-moz-box-orient: vertical;overflow-wrap: break-word;word-break: break-all;white-space: normal;overflow: hidden;text-…