Bloom Filter 布隆过滤器

news2024/10/10 22:23:37

目录

简介

Bloom Filter的基本原理

实现

使用

HashFunc越多,性能越好吗?

如何尽量避免误判?

应用

布隆过滤器优点


简介

Bloom Filter是一种空间效率极高的概率数据结构,它用于测试一个元素是否属于集合。Bloom Filter的优点是插入和查询操作的时间复杂度都是O(1),同时它不需要存储元素本身,可以大幅度节省空间。但它的缺点是存在一定的误判率(false positive rate),即可能会错误地判断一个元素属于集合,但绝不会错误地判断一个元素不属于集合。

下面我将用C++语言简单讲解Bloom Filter的实现原理。

Bloom Filter的基本原理

Bloom Filter使用一个很长的位数组(bit array)和几个哈希函数。初始时,位数组所有位都置为0。当要插入一个元素时,该元素会通过几个哈希函数计算出几个哈希值,这些哈希值对应位数组中的位置,然后将这些位置设为1。查询时,同样计算这些哈希值并检查对应位是否为1,如果所有对应位都是1,则可能元素在集合中;如果有任意一位是0,则元素一定不在集合中

实现


namespace bloom_filter
{
	struct BKDRHash
	{
		size_t operator()(const string& key)
		{
			// BKDR
			size_t hash = 0;
			for (auto e : key)
			{
				hash *= 31;
				hash += e;
			}

			return hash;
		}
	};

	struct APHash
	{
		size_t operator()(const string& key)
		{
			size_t hash = 0;
			for (size_t i = 0; i < key.size(); i++)
			{
				char ch = key[i];
				if ((i & 1) == 0)
				{
					hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
				}
				else
				{
					hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
				}
			}
			return hash;
		}
	};

	struct DJBHash
	{
		size_t operator()(const string& key)
		{
			size_t hash = 5381;
			for (auto ch : key)
			{
				hash += (hash << 5) + ch;
			}
			return hash;
		}
	};

	template<size_t N, class K = string,
		    class Hash1 = BKDRHash, 
			class Hash2 = DJBHash,
			class Hash3 = APHash>
	class BloomFilter
	{
	public:
		void set(const K& key)
		{
			size_t hash1 = Hash1()(key) % N;		//需要%N,防止溢出(除留余数法)
			size_t hash2 = Hash2()(key) % N;
			size_t hash3 = Hash3()(key) % N;
			
			_bits.set(hash1);
			_bits.set(hash2);
			_bits.set(hash3);
		
		}

		// 一般不支持删除,删除一个值可能会影响其他值
		// 非要支持删除,也是可以的,用多个位标记一个值,存引用计数
		// 但是这样话,空间消耗的就变大了
		void Reset(const K& key);

		bool Test(const K& key) 
		{
			size_t hash1 = Hash1()(key) % N;		//需要%N,防止溢出(除留余数法)
			size_t hash2 = Hash2()(key) % N;
			size_t hash3 = Hash3()(key) % N;

			if (_bits.test(hash1) && _bits.test(hash2) && _bits.test(hash3))	//存在误判
				return true;

			return false;		//不存在误判
		}

	private:
		bitset<N> _bits;
	};

使用

布隆过滤器可以理解为哈希与bitset的结合体

对于其他类型的在不在,且数据量很大,那就要借助哈希 + bitset的结合体。

类型不同,只需要借助合理的HashFunc即可。

HashFunc越多,性能越好吗?

布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,它用于测试一个元素是否属于集合。布隆过滤器之所以在处理大量哈希函数(Hash Functions)时性能好,主要有以下几个原因:

减少哈希碰撞的概率:布隆过滤器使用多个独立的哈希函数来将一个元素映射到位数组中的不同位置。当使用多个哈希函数时,即使某个哈希函数产生了碰撞,其他哈希函数也可能产生不同的位位置,从而减少总体上的错误率。这提高了判断元素是否可能存在于集合中的准确性。

更高的并行性:使用多个哈希函数可以让布隆过滤器在判断元素是否存在时并行地检查多个位,这在计算上可以更加高效。

灵活的错误率控制:布隆过滤器的错误率(即假阳性率)可以通过调整哈希函数的数量来控制。增加哈希函数的数量可以降低错误率,而减少哈希函数的数量则会提高错误率。这使得布隆过滤器可以根据具体的应用需求来调整其性能。

以下是具体的几个点:

空间效率:布隆过滤器不需要存储元素本身,只需要一个位数组和几个哈希函数。这使得它在空间上非常高效,特别是当集合中元素数量很大时。

时间效率:查询操作只涉及几个简单的哈希计算和位操作,这些操作都非常快速。

可扩展性:布隆过滤器可以很容易地扩展以处理更多的元素和更大的数据集,只需增加位数组的大小和/或哈希函数的数量。

需要注意的是,虽然布隆过滤器在处理大量哈希函数时性能好,但是哈希函数的数量也不是越多越好。过多的哈希函数会增加计算的开销,而且超过一定数量后,减少错误率的收益会逐渐降低。因此,通常需要根据具体的应用场景和可接受的错误率来选择合适的哈希函数数量。

一般来说,三个就很好了!

如何尽量避免误判?

增加位数组的大小:更大的位数组可以减少误判的概率,因为每个元素有更多的空间进行映射。

增加哈希函数的数量:更多的哈希函数可以减少不同元素共享位的概率,但同时也增加了计算的开销。

选择好的哈希函数:使用高质量的哈希函数可以最小化哈希碰撞的概率。

应用

近似算法就是布隆过滤器,精确算法就是bitset        两个都需要借助位图

使用的哈希算法相同,相同的小文件是相同的query

哈希切割问题:

A和B相同的query一定是进入了相同的小文件

可以把小文件理解成一个哈希桶,冲突的值进入了相同的桶

让相同序号的桶进入内存中,借助set去重,找交集 

总结:

采用一致的哈希算法进行切割,分配到小文件中

序号相同的小文件内部的资源(出现冲突)进入setA和setB中进行找交集

(原因:相同的数据即交集,相同的数据通过相同的哈希算法一定进入相同序号的小桶(得到相同的hashi))

缺陷

但是有可能哈希切割之后某个文件太大,无法加载到内存中

1.大多数都是相同的query(继续切割效果不好)

2.有很多不同的query(思路:换一个哈希函数,继续切割)

解决思路:不管何种原因,都插入到set中,

第一种情况,后续会插入失败。

第二种情况,不断set之后,内存出现不足,会抛异常,此时更换新的哈希函数

哈希切割的核心思想是,相同的数据总是会因为哈希碰撞进入相同的小桶

举例: 

对于去重,我们用set,对于计数,我们用map

问题2:

一种支持删除的方法:将布隆过滤器中的每个比特位扩展成一个小的计数器(自己实现一个自定义类型),插入时,set成1,同时将内部的计数器++;删除时,采用引用计数的思想删除。
缺陷:
1. 无法确认元素是否真正在布隆过滤器中!
2. 存在计数回绕!
3.增加几倍的存储,消耗巨大,得不偿失!

布隆过滤器优点

1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无
关(只需要查K个位置就可以)
2. 哈希函数相互之间没有关系,方便硬件并行运算
3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势
5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能
6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算
4.2.7 布隆过滤器缺陷
1. 有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再
建立一个白名单,存储可能会误判的数据)
2. 不能获取元素本身(hashfunc不可逆)
3. 一般情况下不能从布隆过滤器中删除元素
4. 如果采用计数方式删除,可能会存在计数回绕问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2194980.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

wc命令:统计文本行数、单词数、字节数

一、命令简介 ​wc​&#xff08;word count&#xff09;是一个在类 Unix 系统中常用的命令行工具&#xff0c;用于统计文本文件的 行数​、单词数 ​和 字节数​。 ​​ ‍ 二、命令参数 ​wc​ 命令的基本语法如下&#xff1a; wc [选项] 文件选项&#xff1a; ​-c​…

Spring Validation 参数校验框架

目录 一.Maven依赖 二.参数校验 常用注解 1.Body参数校验 2.Params参数校验 2.1.Query参数校验 2.2.Path参数校验 三.全局异常处理器捕获校验异常 四.分组校验 1.分组校验 2.案例 2.1.登录 2.2.注册 五.嵌套校验 六.集合校验 七.自定义校验 八.快速失败(Fail …

全球IP归属地查询-IP地址查询-IP城市查询-IP地址归属地-IP地址解析-IP位置查询-IP地址查询API接口-IP查询城市-IP解析城市

IP地址查询接口是指能够返回IP地址相关信息的网络接口&#xff0c;其返回的信息通常包括IP地址的归属地&#xff08;如国家、省份、城市等&#xff09;、运营商信息以及其他技术细节。以下是一些常见的IP地址查询接口及其特点&#xff1a; 一、国内IP地址查询接口 百度IP地址查…

Burp Suite为何能抓到HTTPS的明文流量,Wireshark可以吗,公司电脑的加密流量也是被监控了吗?

在前期博文《万字图文详解HTTPS协议通信过程&#xff0c;结合抓包实战解析带你一次看透HTTPS&#xff01;》中&#xff0c;我们知悉HTTPS通信内容是用会话密钥加密的&#xff0c;但不少细心的读者存在疑问&#xff1a;为何对于使用HTTPS协议的站点&#xff0c;在Burp Suite中拦…

5.人员管理模块(以及解决运行Bug)——帝可得管理系统

目录 前言一、页面修改表单展示修改 二、新增对话框修改三、修改对话框修改修改时展示创建时间 四、解决页面展示错误五 、 解决【java.lang.NullPointerException: null】 Bug 前言 提示&#xff1a;本篇完成人员管理模块的开发&#xff0c;具体需求、修改代码的路径和最终效…

2024年国庆节有哪些必囤的好物?搜罗到了五款超实用的数码好物!

​今年国庆节好多商家推出了一系列促销的活动&#xff0c;以庆祝这一重要节日。在这举国欢腾的日子里&#xff0c;除了享受假期带来的闲暇时光&#xff0c;也是时候犒劳一下自己&#xff0c;添置一些实用的数码用品了。为此&#xff0c;我特别为您搜罗到了五款超实用的数码好物…

考研笔记之操作系统(四) - 文件管理

文件管理 1. 简介1.1 前情回顾1.2 文件的属性1.3 文件内部数据的组织方式1.4 操作系统向上提供的文件功能1.5 文件应如何放在外存 2. 文件的逻辑结构2.1 无结构文件2.2 有结构文件2.2.1 顺序文件2.2.2 索引文件2.2.3 索引顺序文件2.2.4 多级索引顺序文件 3. 文件目录3.1 基本概…

PCIe配置篇(1)——如何进行配置操作(一)

一、功能的唯一标识——BDF 首先我们简单回顾一下总线&#xff08;Bus&#xff09;、设备&#xff08;Device&#xff09;、功能&#xff08;Function&#xff09;这几个概念&#xff1a; 功能&#xff08;function&#xff09;&#xff1a;是PCI设备中独立的功能单元&#xff…

文心一言 VS 讯飞星火 VS chatgpt (364)-- 算法导论24.3 6题

六、给定有向图 G ( V , E ) G(V,E) G(V,E)&#xff0c;每条边 ( u , v ) ∈ E (u,v)∈E (u,v)∈E 有一个关联值 r ( u , v ) r(u,v) r(u,v) &#xff0c;该关联值是一个实数&#xff0c;其范围为 0 ⩽ r ( u , v ) ⩽ 1 0⩽r(u,v)⩽1 0⩽r(u,v)⩽1 &#xff0c;其代表的意…

Sleuth、Zipkin学习

系列文章目录 JavaSE基础知识、数据类型学习万年历项目代码逻辑训练习题代码逻辑训练习题方法、数组学习图书管理系统项目面向对象编程&#xff1a;封装、继承、多态学习封装继承多态习题常用类、包装类、异常处理机制学习集合学习IO流、多线程学习仓库管理系统JavaSE项目员工…

去掉最大最小值的部门平均薪水

有员工薪资表t3_salary,包含员工ID(emp_id)&#xff0c;部门ID(depart_id)&#xff0c;薪水(salary),请计算去除最高最低薪资后的平均薪水&#xff1b;&#xff08;每个部门员工数不少于3人&#xff09; CREATE TABLE t3_salary (emp_id bigint,depart_id bigint,salary decima…

使用springCache实现缓存

简介 这个springCache貌似jdk8或者以上才可以 cache最好加在controller层,毕竟返回给前端的数据,在这一步才是最完整的,缓存controller的数据才有意义配置 导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-bo…

业务封装与映射 -- OTUk/ODUk/OPUk开销帧结构

开销是为了保证净荷正常、灵活传送所必须附加的供网络运行、管理和维护&#xff08;OAM&#xff09;使用的字节。 OTN电层开销包括OTUk开销、ODUk开销、OPUk开销、OTUCn开销、ODUCn开销、OPUCn开销和帧对齐开销。 SM开销属于OTU开销&#xff0c;占用3个字节&#xff1b;PM开销…

【HappyCoding 之前,如何做好需求分析?】

“代码没写完&#xff0c;哪有脸睡觉”&#xff1f;代码爱好者们如是说。在工作当中&#xff0c;开发者往往也要担任需求分析的角色&#xff0c;承担一些需求分析设计文档编写等工作&#xff0c;这对于一些刚入行的新手或是一些自我封闭的“代码高手”来说是比较头疼的&#xf…

用Python Turtle绘制天安门技术讲解

概述 Python的Turtle模块是一个简单的绘图库&#xff0c;它允许用户通过简单的命令控制一个小海龟在屏幕上移动&#xff0c;绘制出各种图形。本文将通过一个具体的示例——绘制简化版的天安门&#xff0c;来详细讲解如何使用Turtle模块。 环境准备 确保你的Python环境中已经…

【CF2021E】Digital Village(All Version)

题目 给你一张 n n n 个点 m m m 条边的无向图&#xff0c;有 p p p 个关键点。你需要选择 k k k 个点染黑&#xff0c;使得这 p p p 个关键点到这 k k k 个黑点的代价和最小。定义代价为两点之间边权最大的边的最小值。 你需要求出 k 1,2,…,n 的所有答案 E1 n,m,p&l…

OBOO鸥柏丨数字化展厅液晶拼接屏联动展馆触摸屏查询一体机信息化

在OBOO鸥柏精心雕琢的多媒体展厅展馆解决方案中&#xff0c;鸥柏液晶拼接屏的多屏联动互动技术犹如一条无形的数字科技纽带&#xff0c;OBOO鸥柏巧妙地将多台商用显示设备编织成一幅幅动态共生的视觉盛宴。鸥柏这项技术&#xff0c;不仅仅是简单的显示设备互联&#xff0c;鸥柏…

73.【C语言】C/C++的内存区域划分

1.内存里的几个区域 除了耳熟能详的栈区,堆区,静态区,还有内核空间,内存映射段,数据段,代码段 2.示意图 3.解释 栈区(stack area):局部变量,函数参数,返回数据,返回地址 内存映射段:将文件映射到内存 映射: 如果看过王爽老师的 《汇编语言 第四版》,其中写到了可以操作B800…

【可答疑】基于51单片机的倒车雷达测距(含仿真、代码、报告、演示视频等)

✨哈喽大家好&#xff0c;这里是每天一杯冰美式oh&#xff0c;985电子本硕&#xff0c;大厂嵌入式在职0.3年&#xff0c;业余时间做做单片机小项目&#xff0c;有需要也可以提供就业指导&#xff08;免费&#xff09;~ &#x1f431;‍&#x1f409;这是51单片机毕业设计100篇…

三、数据链路层(下)

目录 3.6以太网 以太网的分类 Mac地址 以太网数据格式 3.7互联网 数据是如何传输的&#xff1f; 3.8以太网、局域网、互联网的区别 总结&#xff1a; 3.9 vlan基本概念与基本原理 Vlan实现 划分 VLAN 例题 3.10广域网及相关协议 ppp协议 PPP协议所满足的要求 P…