C++:Hash应用【位图与布隆过滤器】

news2025/1/16 16:14:29

什么是位图?

我们先来看一个问题:
给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在
这40亿个数中。【腾讯】
如果我们使用unordered_set容器来解决,40亿个数据,每个数据占4个字节,那么一共需要16G内存,对于内存消耗太大了,而如果存储的不是整形数据,那么只会消耗更大。

这个时候我们可以引出位图,每个整数是否存在可以使用一个对应比特位的0或者1来表示,这样原来32位才能表示一个数,现在只需要1位就可以解决,40亿个数据只需要0.5G。

位图:

位图是一种用于表示集合的数据结构,通常用一个二进制数组来表示。每个元素在位图中对应于数组中的一个位(bit),位图中的每一位表示集合中的一个元素是否存在。
位图通常用于处理大量的布尔型数据,例如标记某些元素是否出现过,或者记录某些状态的信息。由于位图中的每一位只占用一个比特(bit),因此它可以非常紧凑地表示大量的信息。
位图在存储和检索方面的效率都非常高,但是它的缺点是无法直接支持范围查询,只能用于表示离散的集合。

位图的模拟实现

我们先来看一下库中实现的位图
在这里插入图片描述
我们接下来主要实现位图中三个主要的功能函数

1.set
将一个数据放入位图
2.reset
将一个数据移出位图
3.test
检测一个数据在不在位图中
在这里插入图片描述
如上图所示,假如以一个字节为单位,那么which/8就是在第几块中,which%8就是在第几块的第几位。改变对应比特位上的0或1就可以表示该元素是否存在。

模拟实现代码


```cpp
#pragma once
template<size_t N>
class bitset
{
public:
	bitset(size_t bitcount=N)
		:_bits((bitcount>>5)+1,0)  //为vector数组开辟大小初始化
	{
	}

	void set(size_t which)
	{
		if (which > N)
			return;
		size_t i = which >> 5;
		size_t pos = which % 32;
		_bits[i] |= (1 << pos);//将对应的比特位置为1
	}
	void reset(size_t which)
	{
		if (which > N)
			return;
		size_t i = which >> 5;
		size_t pos = which % 32;
		_bits[i] &= ~(1 << pos);//将对应的比特位置为0
	}

	bool test(size_t which)
	{
		if (which > N)
			return false;
		size_t i = which >> 5;
		size_t pos = which % 32;
		return _bits[i] & (1 << pos);//如果不存在则结果为0,如果存在则非0
	}
private:
	vector<int> _bits;
};

``

布隆过滤器

  1. 用哈希表存储用户记录,缺点:浪费空间
  2. 用位图存储用户记录,缺点:位图一般只能处理整形,如果内容编号是字符串,就无法处理了。
  3. 将哈希与位图结合,即布隆过滤器 布隆过滤器(Bloom Filter)是一种数据结构,用于判断一个元素是否可能存在于一个集合中。它通过利用一系列哈希函数和一个位数组来实现快速的成员存在查询。

具体来说,布隆过滤器通常包含以下几个要素:

一个位数组(通常用0和1表示),长度为m,初始化时所有位都被置为0。
一组哈希函数,用于将元素映射到位数组的不同位置。

在将一个元素加入布隆过滤器时,该元素会经过多个哈希函数的映射,对应的位数组位置被置为1。在查询一个元素是否存在于布隆过滤器时,同样进行多次哈希映射,若所有映射对应的位都为1,则说明该元素可能存在于集合中,若存在任何一个位为0,则可以确定该元素不存在于集合中。
在这里插入图片描述
如上图所示,假设有三个哈希函数,映射出三个比特位 ,孙悟空与孙行者各自对应三个,而这些比特位有可能重合,所以比特位为1不一定在,而比特位为0一定不在。

也就是说,如果该元素映射的所有位都为1,则该元素不一定在;
如果所有映射位中有一个为0,则该元素一定不在。

布隆过滤器的模拟实现

首先我们先来选择几个哈希映射函数:

//三个不同的将字符串映射成整数的函数
struct HashBKDR
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
		{
			val *= 131;
			val += ch;
		}
		return val;
	}
};
struct HashAP
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			if ((i & 1) == 0)
				hash ^= ((hash << 7) ^ key[i] ^ (hash >> 3));
			else
				hash ^= (~((hash << 11) ^ key[i] ^ (hash >> 5)));
		}
		return hash;
	}
};
struct HashDJB
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
			hash += (hash << 5) + ch;
		return hash;
	}
};

布隆过滤器模拟实现
布隆过滤器的实现还是基于位图实现的,不过是把字符串映射为size_t的key值。

template<size_t N,class K=string,class Hash1=HashAP,class Hash2=HashBKDR,class Hash3=HashDJB>
class bloomfilter
{
public:
	void set(const K& str)
	{
		size_t hash1 = Hash1()(str) % (_ratio * N);
		_bits->set(hash1);
		size_t hash2 = Hash2()(str) % (_ratio * N);
		_bits->set(hash2);
		size_t hash3 = Hash3()(str) % (_ratio * N);
		_bits->set(hash3);
	}

	//支持删除可能会删除其他值
	/*void reset(const K& str)
	{
		size_t hash1 = Hash1(str) % (_ratio * N);
		_bits->reset(hash1);
		size_t hash2 = Hash2(str) % (_ratio * N);
		_bits->reset(hash2);
		size_t hash3 = Hash3(str) % (_ratio * N);
		_bits->reset(hash3);
	}*/

	bool test(const K& str)
	{
		size_t hash1 = Hash1()(str) % (_ratio * N);
		if (!_bits->test(hash1))
		{
			return false;
		}
		size_t hash2 = Hash2()(str) % (_ratio * N);
		if (!_bits->test(hash2))
		{
			return false;
		}
		size_t hash3 = Hash3()(str) % (_ratio * N);
		if (!_bits->test(hash3))
		{
			return false;
		}
		return true;
	}


private:
	const static size_t _ratio = 5;//空间开的越大,误判率越小
	wjc::bitset<_ratio*N>* _bits=new wjc::bitset<_ratio*N>;
};

以上就是布隆过滤器的模拟实现
布隆过滤器的优点在于其空间效率和查询速度都很高,但缺点是可能存在误判,即布隆过滤器判断某个元素存在于集合中,但实际上并不存在(false positive)。这种误判的概率可以通过合适选择位数组长度和哈希函数数量来控制。

布隆过滤器可以从以下几个方面优化

1.选择合适的哈希函数:
哈希函数的选择对布隆过滤器的性能影响很大。理想的哈希函数应该具有良好的均匀性,能够将元素均匀地映射到位数组的各个位置,从而降低碰撞的概率。常见的哈希函数包括MurmurHash、MD5和SHA等。

2.适当调整位数组长度: 增加位数组的长度可以降低误判率,但也会增加内存消耗。根据误判率的要求和可用内存的限制,选择适当的位数组长度。

3.增加哈希函数数量:
使用多个独立的哈希函数可以减少冲突的概率,进而降低误判率。但增加哈希函数数量也会增加计算成本。通常情况下,选择适量的哈希函数数量以在减少误判的同时保持较低的计算成本。

4.监控和调整误判率: 在实际应用中,可以通过监控布隆过滤器的误判率来评估其性能,并根据需要调整位数组长度和哈希函数数量以达到最优性能。

5.考虑动态调整: 在一些场景中,集合的特征可能随时间变化,可以考虑动态地调整布隆过滤器的参数,以适应集合的变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1608562.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CorelDRAW2024平面设计软件主要功能讲解

CorelDRAW是加拿大Corel公司出品的平面设计软件&#xff0c;也是一款功能强大的矢量图形制作和排版软件&#xff0c;主要面向绘图设计师和印刷输出人员。该软件提供了矢量动画、页面设计、网站制作、位图编辑和网页动画等多种功能。 CorelDRAW软件的主要用途是创建和编辑矢量图…

【Linux学习笔记】安卓设置内核信息的打印级别

开发环境 开发板&#xff1a;正点原子RK3568开发板安卓版本&#xff1a;11 问题描述 在串口调试过程中经常打印出这样的一些信息 极影响调试&#xff0c;暂时又没什么用&#xff0c;有些时候还不能给它直接关了。尤其是这个信息 healthd: battery l50 v3 t2.6 h2 st3 fc10…

mysql 重复单号 统计

任务&#xff1a; 增加重复件统计分析&#xff1a; 统计展示选择时间范围内重复1次、重复2次、重复3次、重复4次、重复5次及以上的数据量 17、统计出现的重复次数 增加重复件统计分析&#xff1a; 统计展示选择时间范围内重复1次、重复2次、重复3次、重复4次、重复5次及以上的数…

关于图像YUV格式分类和排布方式的全学习

【学习笔记】关于图像YUV格式分类和排布方式的全学习_yuv图像-CSDN博客 下图是将多个yuv420p图像(A和B)&#xff0c;拼接成一个画面的思路 A大小:416*64 B大小:416*208 将A和B合并到一个416*416的尺寸上&#xff0c;代码如下 //整合char * ptd;ptd (char * ) malloc (416*41…

Codeforces Round 939 (Div. 2)(A,B,C,D,E1,E2)

题目链接 这场不太难&#xff0c;打起来跟 d i v 3 div\ 3 div 3 一样&#xff0c;会者不难。AB找规律&#xff0c;CD构造&#xff0c;E是暴力&#xff0c;带点数学推理。 A. Nene’s Game 题意&#xff1a; 尼尼发明了一种基于整数递增序列 a 1 , a 2 , … , a k a_1, a_…

电大搜题微信公众号:重庆开放大学学子的学习利器

在当今信息化时代&#xff0c;学习已经成为每个人不可或缺的一部分。然而&#xff0c;对于重庆开放大学的学子们来说&#xff0c;由于远程教育的特殊性&#xff0c;他们面临着更大的学习挑战。幸运的是&#xff0c;他们现在可以依靠一款强大的学习利器——电大搜题微信公众号&a…

windows 11 打包python镜像相关操作

第一步&#xff1a;Docker下载 首先先到Docker官网下载最新官方Docker for Windows链接&#xff0c;点击下载之后进行安装&#xff0c;安装好之后在cmd执行 wsl --update。 第二步&#xff1a;在电脑上打开“控制面板”->“程序”-> “启动或关闭Windows功能”。 有的…

简单工厂模式设计实验

实验内容&#xff1a; 楚锋软件公司欲基于Java 语言开发一套图表库&#xff0c;该图表库可以为应用系统提供各种不同外观的图表&#xff0c;例如柱状图、饼状图、折线图等。楚锋软件公司图表库设计人员希望为应用系统开发人员提供一套灵活易用的图表库&#xff0c;而且可以较为…

CalcPad(2) 单位设置和绘制图表

CalcPad(2) 单位设置和绘制图表 Hi uu们&#xff0c;CalcPad用的还好吗&#xff1f;有发现一些问题吗&#xff1f; 在我的使用中&#xff0c;经常需要指定一些计算结果的符号&#xff0c;比如说我希望ADC最小分辨率的计算结果是以uV展示&#xff0c;那我们该怎么操作呢&#…

Aurora 协议学习理解与应用——Aurora 8B10B协议学习

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 Aurora 8B10B协议学习之一&#xff0c;理解协议 概述8B10B数据发送和接收Symbol-Pairs传输调度用户PDU传输过程用户PDU接收过程 流控自然流量控制操作自然流量控制延迟自然流…

【复习笔记】reeRTOS(七) 二值信号量和计数信号量

本文是FreeRTOS复习笔记的第七节&#xff0c;信号量。 上一篇文章&#xff1a; 【复习笔记】FreeRTOS(六) 队列操作 文章目录 一、信号量分类二、二值信号量2.1.实验设计2.2.测试例程2.3.实验效果 三、计数信号量3.1.实验设计3.2.测试例程3.3.实验效果 一、信号量分类 信号量是…

每日算法练习(1)

开一个新坑&#xff0c;记录下自己每天的算法练习&#xff0c;希望自己通过1个多月的学习&#xff0c;能够成为算法大神。 下面正式开始新坑。 两个数组的交集 这是牛客上的题&#xff0c;根据题意&#xff0c;我们有多种解法&#xff0c;这题用哈希比较好写。我们可以弄一个…

(保姆级教学)跨站请求伪造漏洞

1. CSRF漏洞 CSRF&#xff08;Cross-site request forgery&#xff09;跨站请求伪造&#xff0c;也被称为One Click Attack 或者Session Riding&#xff0c;通常缩写为CSRF或者XSRF&#xff0c;是一种对网站的恶意利用。尽管听起来像跨站脚本&#xff08;XSS&#xff09;&…

Linux内核启动过程图解(全程高能)

文章目录 1、进入第一条指令 _text2、start_kernel3、总结(内核启动流程描述) 1、进入第一条指令 _text 编译内核后&#xff0c;打开System.map文件&#xff0c;找到对应的_text和start_kernel ffffff8008080000 T _text //第一条指令 ffffff80096007f4 T start_kernel //…

代码随想录算法训练营第四十四天| 完全背包、518. 零钱兑换 II、377. 组合总和 Ⅳ

一、完全背包 题目链接/文章讲解/视频讲解&#xff1a;https://programmercarl.com/%E8%83%8C%E5%8C%85%E9%97%AE%E9%A2%98%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80%E5%AE%8C%E5%85%A8%E8%83%8C%E5%8C%85.html 状态&#xff1a;已解决 1.问题介绍 完全背包的模板题目&#xff1a;…

dp思维 枚举

题目链接 #include<bits/stdc.h> using namespace std; #define i64 long long const i64 mod 1e9 7; int main() {int n;cin >> n;vector<char>s(n 1);for (int i 1; i < n; i) {cin >> s[i];}//用ans记录所有满足条件的答案数量&#xff0c;c…

linux下使用qt+mpv调用GPU硬件解码

linux下GPU硬件解码接口&#xff0c;常用的有vdpau和vaapi。 mpv是基于mplayer开发的一个播放器。此外&#xff0c;mpv还提供了函数库libmpv&#xff0c;通过使用libmpv可以编写一个简单的播放器。 基于qtlibmpv的demo&#xff0c;官方例子代码如下&#xff1a;https://github.…

STM32之串口中断接收丢失数据

五六年没搞STM32了,这个项目一切都挺顺利,万万没想到被串口接收中断恶心到了。遇到的问题很奇怪 HAL_UART_Receive_IT(&huart1, &rx_buffer[rx_index], LCD_UART_LEN); 这个代码中 LCD_UART_LEN=1的时候,接收过来的数据,数据包的第一个字节总是会跑到rx_buffer的末…

UE5集成gRPC

最近有项目需要在UE5里做RPC&#xff0c;对比了thrift、gRPC、rcplib等开源rpc框架&#xff0c;由于习惯使用protobuf&#xff0c;故选择了gRPC。然而&#xff0c;Google出品也是一言难尽啊&#xff0c;最起码编译太繁琐了。 本次使用的gRPC版本为1.62.1&#xff0c;UE5.2&…

面试stm32基础知识

1.ISP 第一步进入bootloader模式&#xff1a;先置BOOT0为高&#xff0c;BOOT1为低&#xff0c;再复位单片机进入bootloader模式&#xff0c;之后通过上位机下载程序&#xff1b; 第二步配置启动代码的地方&#xff1a;代码下载完毕后&#xff0c;置BOOT0为低&#xff0c;BOOT1…