C++|哈希应用->位图

news2025/1/23 21:23:20

目录

一、概念

1.1原理分析:

1.2效率分析:

二、模拟实现

2.1位图框架+初始化空间

2.2映射

2.3清零

2.4判断

2.5测试代码

三、位图扩展应用


一、概念

位图,本质上也是一个数组,通过哈希思想构造的一种数据结构,他提现的哈希思想是整数与比特位的映射,通过比特位来代表某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在。 

通过一道经典题来引入如何模拟实现位图结构。

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。【腾讯】

方法1:遍历,时间复杂度O(N)

方法2:排序O(N*logN)+二分查找O(logN),时间复杂度O((N+1)*logN)

这两种方法看似都行,但是有一个问题的是40亿个整数大小,每个整形占4个字节,40亿个整数占160亿个字节,而1GB ≈ 10亿个字节,所以40亿个整数≈16GB,而16GB是大于正常的内存大小,我们也无法在内存中开16GB大小的空间。所以,该40亿个数据是存放在文件当中,但是也无法直接导入到内存当中,那么为了解决该问题,就可以采用映射的方式,将数据映射到位图中,且位图的大小是不超过内存的大小。至于原理是什么,接下来进行解释。

方法3:位图

1.1原理分析:

将每个整数想象成一个比特位,对于位图来说,它是个数组,目的就是要将这些整数存储到数组中去,也就是将比特位存储到数组中去,

那么数组存储的数据类型又是什么,只能是整形,如果是char类型,根本存不下,其他类型又不符合,接着将数组中每个整数当成32个比特位去理解,

所以最终目的是将比特位映射到数组中的对应整数中的32个比特位之中,也就是将整数映射到数组中对应整数的32个比特位之中,并将映射位置设为1,所以就可以通过判断映射到32个比特位的对应位置是1或者0来确定该整数是否存在。示意图;

通过该图,可以更清晰的了解是如何发生映射的,可以发现,数组中存储的仍然是整数,但是要把整数当成32个比特位去理解,虽然映射后,数组中的整数值是改变了,但是所看的根本就不是该整数值,而是整数对应的比特为是1还是0的状态来判断要映射的整数是否存在。

1.2效率分析:

那么这样算下来,40亿个数据映射到数组中的时间复杂度是O(N),但是对于该16GB的大小,对于数组来说就只要开16GB/32 = 0.5G 大小的空间,且内存是完全够开的,这就是位图体现的作用。

位图就是个以空间换时间的做法,但同时位图有自己的缺陷,就是只能针对整型数据,数据量大,整数在不在的问题。而对于其他数据类型不支持,那么对于这一问题,布隆过滤器可以解决,这在下一章节将解决

现在就来模拟实现一下位图。 

二、模拟实现

2.1位图框架+初始化空间

对于位图,需要容纳海量数据,判断数据是否存在,所以采用的是非类型模板参数。 

假设整形个数据个数为N,那么对于位图而言需要开多大空间呢?

是 N/32个吗? 并不是,对于刚好是32的倍数的确实满足,但对于不能刚好取整的就要多开一个,即使是刚好取整,多开32个比特位空间也不足挂齿。所以最终开的空间是 N/32 + 1个大小空间。

    template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_bst.resize(N / 32 + 1);
		}
    private:
		vector<int> _bst;
	};

2.2映射

对于映射,在概念中,也已经简明扼要,这就不在过多阐述。

        void set(size_t x)
		{
			int i = x/32;//在第几个整形
			int j = x % 32;//在这个整形的第几个比特位

			_bst[i] |= (1 << j);//将该位置设置为1
		}

2.3清零

对于映射完后的数据,如果不想要了,就可以清理调,那么对此该如何操作了。其实只需要更改一下位操作即可,即_bst[i] &= ~(1<<j);示意图:

实现:


		void reset(size_t x)
		{
			int i = (x >> 5);
			int j = x % 32;

			_bst[i] &= ~(1 << j);//将对应映射位置清0
		}

2.4判断

同理只需要更改为操作判断该为是否为1即可

实现: 

        bool test(size_t x)
		{
			int i = (x >> 5);
			int j = x % 32;

			return _bst[i] & (1 << j);//测试该整数映射位置是否为1,即判断整数在不在
		}

2.5测试代码

//MyBitSet.h
#include <iostream>
#include <vector>
using namespace std;
namespace bit
{
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_bst.resize(N / 32 + 1);
		}

		void set(size_t x)
		{
			int i = x/32;//在第几个整形
			int j = x % 32;//在这个整形的第几个比特位

			_bst[i] |= (1 << j);//将该位置设置为1
		}

		void reset(size_t x)
		{
			int i = (x >> 5);
			int j = x % 32;

			_bst[i] &= ~(1 << j);//将对应映射位置清0
		}

		bool test(size_t x)
		{
			int i = (x >> 5);
			int j = x % 32;

			return _bst[i] & (1 << j);//测试该整数映射位置是否为1,即判断整数在不在
		}

	private:
		vector<int> _bst;
	};
}

 测试:

#include "MyBitSet.h"

int main()
{

	bit::bitset<0xffffffff> bst;



	int arr[] = { 1,3,7,4,12,16,19,13,22,18 };



	for (size_t i = 0; i < sizeof(arr)/sizeof(arr[0]); i++)
	{
		bst.set(arr[i]);
	}

	cout << bst.test(7);
	return 0;
}

 输出结果:

三、位图扩展应用

1.给定100亿个整数,设计算法找到只出现一次的整数?

 这里直接说解法了,用两个位图来实现,对于这100一个整数可能出现重复的数,那么可以分三种情况,出现0次,1次,2次及以上,那么可以用位图来表示的情况是:

出现0次:0 0

出现1次:0 1

出现2次及以上:1 0,

100亿个整数大约1.25GB,构造两个分别为2GB的位图即可,这样内存开了4GB的空间,也是够的。 

 代码实现,对于位图的代码,前面已经实现了,这里就直接使用了:

	template<size_t N>
	class two_bitset
	{
	public:
		void set(size_t x)
		{
			if (_bst1.test(x) == false && _bst2.test(x) == false)//出现1次
			{
				_bst2.set(x);
			}
			else if (_bst1.test(x) == false && _bst2.test(x) == true)//出现2次
			{
				_bst1.set(x);//1
				_bst2.reset(x);//0
			}
		}

		void PrintOnce()
		{
			for (int i = 0; i < N; i++)
			{
				if (_bst1.test(i) == false && _bst2.test(i) == true)
				{
					cout << i << endl;;
				}
			}

		}
	private:
		bitset<N> _bst1;
		bitset<N> _bst2;
	};

测试:

#include "MyBitSet.h"

int main()
{


	bit::two_bitset<100> tbst;


	int arr[] = { 1,3,3,7,4,12,12,16,16,19,13,13,22,22,18 };



	for (auto e : arr)
	{
		tbst.set(e);
	}

	tbst.PrintOnce();
	return 0;
}

输出结果:

2.给两个文件,分别由100亿个整数,我们只有1G内存,如何找到两个文件交集?

方案一:整型的范围是确定的,如果按大小算大约为2GB,映射到位图中,位图只需开2GB/32 =1/16,所以构造一个位图开0.5G是完全够用的,虽然有100亿个数据,但都脱离不开整型的范围,必然会有重复,且位图会进行去重,所以0.5G必然够用。接着,将一个文件的数据映射到这个位图,再判断另一个文件的数据在不在位图中即可。

方案二:构造两个位图,每个位图开0.5G个内存,分别将两个文件中的数据映射到两个位图中,进行按位与比较即可。

3.1个文件有100亿个整数,1G内存,设计算法找到出现次数不超过2次的所有整数

这跟第一个情况是类似的,分析出现0次,1次,2次,3次及以上,这里就不在实现了。 

end~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1816149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

unity开发Hololens编辑器运行 按空格没有手

选择DictationMixedRealityInputSystemProfile 如果自定义配置文件 需要可能需要手动设置 手部模型和材质球

SQL 窗口函数

1.窗口函数之排序函数 RANK, DENSE_RANK, ROW_NUMBER RANK函数 计算排序时,如果存在相同位次的记录,则会跳过之后的位次 有 3 条记录排在第 1 位时: 1 位、1 位、1 位、4 位…DENSE_RANK函数 同样是计算排序,即使存在相同位次的记录,也不会跳过之后的位次 有 3 条记录排在…

Springboot高校实训管理平台-计算机毕业设计源码01557

目 录 摘要 1 绪论 1.1 研究背景 1.2 研究意义 1.3论文结构与章节安排 2 高校实训管理平台系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据增加流程 2.2.2 数据修改流程 2.2.3 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系…

delmia中机器人末端固定工具

1 需要在工具上面建立点 在Device Building模式下 2 然后通过 set tool可以设置

247 H指数

法一&#xff1a; 不进行排序&#xff0c;直接依照原数组进行解&#xff0c;先假设h为1&#xff0c;然后找引用超过1篇的论文数量&#xff0c;如果满足&#xff0c;则再假设h为2。这样比较慢&#xff0c;时间复杂度为o(n方)。 int hIndex(vector<int>& citations) {…

天润融通引领AI大模型应用,助力企业客户感知升级

AI大模型&#xff0c;如何进行应用落地&#xff1f; 2024年&#xff0c;大模型的应用落地成为行业发展的一个重要主题&#xff0c;如何将大模型的能力与业务场景相结合&#xff0c;为企业提高效率&#xff0c;创造价值&#xff0c;成为各大企业积极探索的方向。 客户联络也是…

计算机网络:网络层 - IPv4数据报 ICMP协议

计算机网络&#xff1a;网络层 - IPv4数据报 & ICMP协议 IPv4数据报[版本 : 首部长度 : 区分服务 : 总长度][标识 : 标志 : 片偏移][生存时间 : 协议 : 首部检验和][可变部分 : 填充字段] ICMP协议 IPv4数据报 一个IPv4数据报&#xff0c;由首部和数据两部分组成&#xff…

三:SpringBoot的helloworld和使用Springboot的优点以及快速创建Springboot应用

三&#xff1a;SpringBoot的helloworld和使用Springboot的优点以及快速创建Springboot应用 一&#xff1a;HelloWorld [我们创建的是maven项目或者直接创建一个Spring] 1.1&#xff1a;创建一个maven 项目&#xff08;1】&#xff1a;需要自己手动写一个SpringBoot 的启动类同…

【产品经理】ERP订单处理1-订单初始化

在平台订单转换为ERP订单的过程中&#xff0c;一般有些信息是需要处理的&#xff0c;比如订单主表信息、订单明细信息等。 平台订单下发到ERP系统过程&#xff0c;ERP系统需要对订单进行处理&#xff0c;下图为ERP订单处理的整体环节&#xff0c;之后我们将依次讲解&#xff0c…

服务器配置(初始化)

一&#xff1a;什么是云服务器及用途&#xff1a; 云服务器(Elastic Compute Service, ECS)是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效。用户无需提前购买硬件&#xff0c;即可迅速创建或释放任意多台云服务器。 我个人感觉就…

树Tree

文章目录 属性二叉树Binary Tree应用二叉树严格二叉树完全二叉树满二叉树Perfect Binary Tree 二叉搜索树Binary Search TreearrayLinked LIstArray&#xff08;sortrd&#xff09;Binary Search Tree&#xff08;balanced&#xff09; 性质实现dynamicallyarrays数组 具有层级…

Shell脚本 if语句

条件测试&#xff1a; $? 返回码 判断命令或者脚本是否执行成功&#xff08;最近的一条&#xff09; 0 true 为真就是成功 成立 非0 false 失败或者异常 test命令 可以进行条件测试 然后根据的是返回值来判断条件是否成立。 -e 测试目录或者文件是否存在 exist -d 测试…

LM2576系列3A开关型DCDC BUCK降压稳压器

前言&#xff1a; 老款DCDC&#xff0c;使用历史几十年了&#xff0c;今天设计仍然使用这个DCDC的&#xff0c;是不合适的。主要缺点是开关频率较低只有几十Khz&#xff0c;导致需要使用较大感量的功率电感&#xff0c;这样的电感价格较高&#xff0c;且占用PCB空间较大&#…

理解数学概念——线性(线性性)

1. 线性相关词汇的词源 1.1 单词“line”的词源 这个单词是古英语“line”和古法语“ligne”二者的融合。在古英语中&#xff0c;“line”的词义为“缆绳&#xff0c;绳索&#xff1b;一系列&#xff0c;行&#xff0c;字母行&#xff1b;规则&#xff0c;方向(cable, rope; s…

网工内推 | 深信服、中软国际技术支持工程师,最高13k*13薪

01 深信服 &#x1f537;招聘岗位&#xff1a;远程技术支持工程师 &#x1f537;任职要求&#xff1a; 一、专业能力和行业经验&#xff1a; ①具备友商同岗位工作经验1.5年以上&#xff0c;具备良好的分析和判断能力&#xff0c;有独立问题处理思路&#xff0c;具备常见协…

如何保证数据库和缓存的一致性

背景&#xff1a;为了提高查询效率&#xff0c;一般会用redis作为缓存。客户端查询数据时&#xff0c;如果能直接命中缓存&#xff0c;就不用再去查数据库&#xff0c;从而减轻数据库的压力&#xff0c;而且redis是基于内存的数据库&#xff0c;读取速度比数据库要快很多。 更新…

Sublime Text 4 - 前端代码编辑的卓越之选

Sublime Text 4 是一款备受赞誉的前端代码编辑神器&#xff0c;无论是在 Mac 系统还是 Windows 系统上&#xff0c;都展现出了其独特的魅力和强大的功能。 Sublime Text 4 拥有简洁而直观的用户界面&#xff0c;让开发者能够快速上手并沉浸于代码编写的过程中。它提供了高度可…

Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API调用和WebUI对话机器人

阿里巴巴通义千问团队发布了Qwen2系列开源模型&#xff0c;该系列模型包括5个尺寸的预训练和指令微调模型&#xff1a;Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。对比当前最优的开源模型&#xff0c;Qwen2-72B在包括自然语言理解、知识、代码、数学及多…

乡镇联盟一镇一码联合创始人第一届第二次研讨会在中山圆满落幕

乡镇联盟一镇一码联合创始人第一届第二次研讨会在中山圆满落幕 近日&#xff0c;由“乡镇联盟一镇一码”项目的联合创始人余向强先生亲自主持的第一届第二次研讨会在中山成功举行。此次研讨会汇聚了来自全国各地的乡镇代表、行业专家及联盟核心成员&#xff0c;共同探讨乡镇发…

MySql 报错之 Truncated incorrect DOUBLE value: ‘111-7357916-9889033‘

1. 背景 查询sql时&#xff0c;出现报错&#xff1a;Truncated incorrect DOUBLE value: ‘111-7357916-9889033’ 2. 问题可能原因 2.1 数据类型不匹配 可能错误地将一个本应作为字符串处理的列或值用于了需要数值类型的计算或比较。检查SQL语句&#xff0c;确保数值类型…