玩转堆排序以及Topk问题——【数据结构】

news2025/3/10 21:24:58

W...Y的主页 😊

代码仓库分享  💕


目录

堆排序 

建堆

 建堆的时间复杂度

Topk问题


学习了二叉树以及堆,今天我们来学习一下什么是堆排序以及经典二叉树问题——topk问题。

在学习开始我们先来回顾一下上篇博客中我们提到的堆,在实现堆时我们要进行向上调整或向下调整来继续保存堆的特性。具体代码如下:

向上调整函数:

void AdjustUp(HPDataType* a, int child)
{
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}

向下调整函数:

void AdjustDown(HPDataType* a, int n, int parent)
{
	int child = parent * 2 + 1;
	while (child < n)
	{
		if (child + 1 < n && a[child + 1] < a[child])
		{
			child++;
		}
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

这是在堆的删除以及插入中我们要用到的。

堆排序 

我们知道小堆就是其父节点的数小于等于子节点,而大堆就是父节点的数大于等于子节点的数。而根节点就是堆上最大或最小的数,在上篇博客中,我们实现了堆,并且完成了关于堆的插入、删除、取顶……一系列功能函数。我们只需要正确的使用,先取顶然后排序让其继续有堆的特性,再次重复这一个步骤,直到树为空树时我们就可以实现堆排序。

但是我们一般不会这样去使用堆排序,因为要实现堆排序接口太多,代码太复杂。而且一般常见的是直接给我们一长串数字让我们进行排序,如果要先一个个插入调整成堆,再进行排序时间复杂度也非常高。

那我们应该怎么办呢?

我们一般会先让整串数乱序放入数组,然后直接建堆,然后进行堆排序。

升序建大堆,降序建小堆。

那我们为什么要升序建大堆呢?建小堆不是更好吗?直接可以从中堆顶取出最小值。然后依次类推。这样是万万不能的,当取出最小值后,我们一般只能将数组中的其余数据往前挪动一位,但是挪动后就不是堆了关系全乱了,又得重新排列成堆继续取值,时间复杂度会高。

如果我们升序建大堆的话,我们就可以使用我们实现堆中的删除思想进行。

降序建小堆的原理也是删除思想,可以参考升序建大堆。

建堆

我们之前的方法是一个个插入然后向上调整,最后得到堆。但是如果遇到许多数据一起进行建堆,我们应该如何应对呢?

我们可以使用向下调整的方式建立堆,怎么建立呢?通过一组图片告诉大家:

所以我们找倒数第一个非叶子节点即可。我们又知道最后一个叶子节点的下标为(k-1),那我们就可以推出parent父节点的下标为(k-2)/2。然后依次往上走就可以将堆建好。

for (int i = (k - 2) / 2; i >= 0; --i)
	{
		AdjustDown(minheap, k, i);
	}

上述代码即可建好堆。

那向上调整与向下调整哪个更好呢?我们下面来看一下它们的时间复杂度!!!

 建堆的时间复杂度

向下调整:

向上调整:

我们发现还是向下调整的时间复杂度低,这是为什么呢?
因为向下调整,当在底层时遇到的数据多但是调整次数少,而向上调整在底层的节点多调整的次数也多(更通俗的讲就是多对多、少对少)所以时间复杂度高。

所以我们一般使用向下调整会让程序优化!

当我们建好堆后,然后使用删除思想向下调整就可以完成堆排序: 

Topk问题

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

一般情况下,我们先想到的就是暴力查找,在数据中找到需要的前k个数,但是时间复杂度非常高,第二个我们也可以将数据先进行排序qsort,然后再取前k个数内容。代码量会被优化,时间复杂度也会降低,但是也不是我们解决的最优办法。

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能
数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1. 用数据集合中前K个元素来建堆
前k个最大的元素,则建小堆
前k个最小的元素,则建大堆
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素

将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

我们先在文件中生成10000个随机数:

void TestTopk()
{
	int n = 10000;
	int* a = (int*)malloc(sizeof(int) * n);
	srand(time(0));
	const char* file = "data.txt";
	FILE* fp = fopen(file, "w");
	if (fp == NULL)
	{
		perror("fopen error");
		return;
	}
	for (int i = 0; i < n; ++i)
	{
		int x = rand() % 1000000;
		fprintf(fp, "%d\n", x);
	}
	fclose(fp);
	PrintTopK(file,10);
}

然后再调用printtopk函数,传入文件名字与需要的k个数据。

读取文件中k个数据建成小堆,然后进入循环将剩下的数与根节点内容进行比较如果比根节点大就将根节点切换,然后向下调整继续形成小堆,继续循环直到文件读到末尾即可。 

void PrintTopK(const char* filename, int k)
{
	FILE* fp = fopen(filename, "r");
	if (fp == NULL)
	{
		perror("fopen error");
		return;
	}
	int* minheap = (int*)malloc(sizeof(int) * k);
	if (minheap == NULL)
	{
		perror("malloc perror");
		return;
	}
	for (int i = 0; i < k; i++)
	{
		fscanf(fp, "%d", &minheap[i]);
	}
	for (int i = (k - 2) / 2; i >= 0; --i)
	{
		AdjustDown(minheap, k, i);
	}
	int x = 0;
	while (fscanf(fp, "%d", &x) != EOF)
	{
		if (x > minheap[0])
		{
			minheap[0] = x;
			AdjustDown(minheap, k, 0);
		}
	}
	for (int i = 0; i < k; i++)
	{
		printf("%d ", minheap[i]);
	}
	printf("\n");
	fclose(fp);
}

我们在程序中使用的依旧是向下调整建堆。

在此程序中,我们随机数的范围为0~999999,运行结果如下

这就是我们随机生成的最大的前10个数据。

但是我们就会有疑问,万一数据不是最大的前10个呢该怎么办? 这里教大家一个测试方法:先确保运行过一次,然后屏蔽生成随机数写文件的一段程序,然后进入txt文件中。因为我们随机数范围为0~999999,所以我们在txt文件中生成比999999大的数,如果最后结果为自己改的数,则程序是正确的,反之程序就有问题需要修改。

当我修改10个数后的运行结果全部是我修改的数据,说明我的程序没有问题。

最后在说明一下为什么要前k个最大元素要建小堆呢?

因为小堆可以找到树中最小的数,与文件中进行比较即可替换掉最小的数。如果使用大堆根节点为最大值,我们找到比根节点的大的数,这个数比堆中所有的数都大,我们找不出最大的k个内容,有可能将更小的数选中。

同理可得,要前k个最小元素要建大堆。 

以上就是堆的两个经典问题,如果博客中讲解有误,请及时与博主。

感谢大家观看,留下一键三连再走吧!!!谢谢❤️❤️ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1007401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TypeScript函数详解

&#x1f3ac; 岸边的风&#xff1a;个人主页 &#x1f525; 个人专栏 :《 VUE 》 《 javaScript 》 ⛺️ 生活的理想&#xff0c;就是为了理想的生活 ! 目录 函数声明 函数表达式 可选参数和默认参数 剩余参数&#xff08;Rest Parameters&#xff09; this和箭头函数 …

chato.cn: 定制专属AI聊天助理机器人工具网站

【 产品介绍】 • 名称 chato.cn • 具体描述 chato.cn的核心功能是让用户能够输入一些知识或信息&#xff0c;让机器人学习和理解&#xff0c;然后与之进行对话&#xff0c;查看其回答的质量和逻辑性。还提供了多种语言、主题、风格和规则的选项&#xff0c;让用户能够根据自己…

天地图WMTS地图瓦片下载

最近在开发个人项目中遇到了这样一个问题&#xff0c;即&#xff1a;本地开发使用天地图在线地图服务&#xff0c;部署到线上时&#xff0c;突然想到——天地图提供的开放地图服务是需要申请秘钥key才能够使用的&#xff0c;而且需要连接外网&#xff0c;同时也是有访问次数限制…

八、MySql表的复合查询

文章目录 一、基本查询回顾二、多表查询&#xff08;一&#xff09;笛卡尔积的初步过滤&#xff08;二&#xff09;例子1.显示部门号为10的部门名&#xff0c;员工名和工资2.显示各个员工的姓名&#xff0c;工资&#xff0c;及工资级别 三、自连接&#xff08;一&#xff09;定…

基于SSM的校园快递一站式服务系统设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

Consensus-AI论文搜索引擎 直接从论文中找答案

Consensus介绍 Consensus是一个人工智能AI论文搜索引擎&#xff0c;一个可以在科学论文中找到答案的搜索引擎&#xff0c;使用人工智能从数亿篇科学论文数据库中即时提取和聚合易于使用&#xff0c;搜索结果在几秒内即可完成&#xff0c;而且100%无广告。 截图 提示&#xf…

朋友圈大佬都去读研了,这份备考书单我码住了

作者简介&#xff1a; 辭七七&#xff0c;目前大二&#xff0c;正在学习C/C&#xff0c;Java&#xff0c;Python等 作者主页&#xff1a; 七七的个人主页 文章收录专栏&#xff1a; 七七的闲谈 欢迎大家点赞 &#x1f44d; 收藏 ⭐ 加关注哦&#xff01;&#x1f496;&#x1f…

Golang 单元测试合集整理,(我最常用 gomonkey)欢迎收藏

无论写什么样的语言&#xff0c;单元测试都是必不可少的&#xff0c;它可以极大的提高我们的代码质量&#xff0c;减少各种低级错误和 bug 无论你是一个靠谱合格的码农&#xff0c;还是一个优秀的程序员&#xff0c;单元测试都是咱们必须落实的一环 单元测试比较容易&#xf…

python:使用RESTful API(flask)调用python程序传递参数,实现Web端调用python程序

问题描述 现有一个用python写的程序&#xff08;或者是一个或几个的函数接口&#xff09;&#xff0c;需要在Web前端调用python写的函数。如果直接用前端java来调用会很不方便&#xff0c;而且会出现各种麻烦的问题&#xff0c;下面给出如何在web前端调用python的接口。 解决…

STM32WB55开发(2)----修改蓝牙地址

STM32WB55开发----2.修改蓝牙地址 概述硬件准备视频教学样品申请完整代码下载选择芯片型号配置时钟源配置时钟树RTC时钟配置查看开启STM32_WPAN条件配置HSEM配置IPCC配置RTC启动RF开启蓝牙设置工程信息工程文件设置修改置BLE设备公共地址Ble_Hci_Gap_Gatt_Init结果演示 概述 在…

更多场景、更多选择,Milvus 新消息队列 NATS 了解一下

在 Milvus 的云原生架构中&#xff0c;消息队列&#xff08;Log Broker&#xff09;可谓任重道远&#xff0c;它不仅要具备流式数据持久性、支持 TT 同步、事件通知等能力&#xff0c;还要确保工作节点从系统崩溃中恢复时增量数据的完整性。 在 Milvus 的架构中&#xff0c;一切…

【计算机视觉 | 语义分割】干货:语义分割常见算法介绍合集(一)

文章目录 一、U-Net二、Fully Convolutional Network三、SegNet四、DeepLab五、DeepLabv3六、UNet七、PSPNet八、EfficientDet九、SegFormer十、ENet 一、U-Net U-Net 是一种语义分割架构。 它由收缩路径和扩张路径组成。 收缩路径遵循卷积网络的典型架构。 它由两个 3x3 卷积…

基于SSM的学生信息管理系统设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

Python 图形化界面基础篇:使用包装器( Pack )布局元素

Python 图形化界面基础篇&#xff1a;使用包装器&#xff08; Pack &#xff09;布局元素 引言什么是 Tkinter 的 Pack 布局&#xff1f;步骤1&#xff1a;导入 Tkinter 模块步骤2&#xff1a;创建 Tkinter 窗口步骤3&#xff1a;创建和使用 Pack 布局步骤4&#xff1a; Pack 布…

Android codec2 编码 -- 基于录屏

文章目录 前言android 原生的应用srcreenrecordMediaCodec获取编码数据流程 前言 本篇文章主要是理解Android 12编码的流程&#xff0c; 首先从上层的应用出发理解mediacodec提供给外部API的用法。然后针对每个api 分析编码各个流程中框架中的流程。 熟悉一个框架的流程 可以…

嵌入式这个领域会变得过于内卷吗?

今日话题&#xff0c;嵌入式这个领域会变得过于内卷吗&#xff1f;嵌入式开发主要服务于第二产业&#xff0c;尤其是制造业&#xff0c;包括电器、电气、机械、汽车、装备、航空航天等行业的“智能制造”部门&#xff0c;稳定性较强&#xff0c;不像互联网行业那样波动大。因此…

【LangChain系列 8】Prompt模版——少样本prompt模版(二)

原文地址&#xff1a;【LangChain系列 8】Prompt模版——少样本prompt模版(二) 本文速读&#xff1a; 固定少样本prompt模版 动态少样本prompt模版 在上篇文章中介绍了少样本模版的基本用法&#xff0c;本文将介绍 对话模型(chat model) 中 少样本prompt模版的用法。 LangCh…

C语言双向链表

文章目录 前言双向链表链表头结点的创建节点尾插与尾删节点头插与头删特定位置插入或删除节点链表节点查找双向链表的销毁 链表的打印 前言 假期时间因为为学校开学考试做准备所以一直没更新博客&#xff0c;今天开始博客会陆续更新。 双向链表 之前我们说过了顺序表和单链表…

加密狗软件有什么作用?

加密狗软件是一种用于加密和保护计算机软件和数据的安全设备。它通常是一个硬件设备&#xff0c;可以通过USB接口连接到计算机上。加密狗软件的作用主要体现在以下几个方面&#xff1a; 软件保护&#xff1a;加密狗软件可以对软件进行加密和授权&#xff0c;防止未经授权的用户…

K8S:kubectl陈述式、声明式资源管理及金丝雀部署

文章目录 一.陈述式资源管理方法1.陈述式资源管理概念2.基本信息查看&#xff08;1&#xff09;查看版本信息&#xff08;2&#xff09;查看资源对象简写&#xff08;3&#xff09;查看集群信息&#xff08;4&#xff09;配置kubectl自动补全&#xff08;5&#xff09;node节点…