【数据结构取经之路】布隆过滤器BloomFilter原理、误判率推导、代码实现

news2024/9/22 8:30:34

目录

背景介绍 

简介

布隆过滤器的实现思路

布隆过滤器的作用

布隆过滤器误判率推导过程

布隆过滤器的实现

布隆过滤器的删除问题 

 布隆过滤器的优缺点

布隆过滤器的应用


背景介绍 

在一些场景下面,有大量数据需要判断是否存在,而这些数据不是整形,导致位图就派不上用场。这时,时代无比呼唤一种新的解决方案,布隆过滤器也就应运而生了。

简介

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数(哈希函数)。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好得多,缺点是有一定的误判率和删除困难。

布隆过滤器的实现思路

BloomFilter的实现思路就是把key通过哈希函数转换成整型后在映射一个二进制位。也就是说,BloomFilter = bitset(位图) + Hash函数。考虑到只映射一个位的话哈希冲突的概率较大,所以可以通过几个哈希函数转换出几个整型,然后映射多个二进制位,降低冲突率。

布隆过滤器的作用

布隆过滤器可以告诉我们“某样东西一定不存在或者可能存在”。换句话说,它判断一个值key在是不准确的,但是判断一个值key不在是准确的。下面对这句话做出解释。

判断一个值在是不准确的。原因在于布隆过滤器存在误判,也就是说不同的key映射的3个位置上都恰好与其他元素冲突,而且这些位置都被置为了1,返回结果就是在——这就是误判。

判断一个值不在是准确的。首先,导致返回结果为不存在有两种情况,第一:元素key本来就存在,但是由于误判,导致返回结果为不存在。第二:元素key本来就不存在,然后返回结果为不存在。针对第一种情况,因为布隆过滤器保证元素不被错误的删除,元素存在的话它映射的3个二进制位一定为1,所以这种情况不可能发生。只能是第二种情况,即只有不存在的值返回结果才是不存在,证明了判断一个值不在是准确的。

布隆过滤器误判率推导过程

数据量:n

误判率:p

bit数组的大小:m

哈希函数的个数:k

针对某个二进制位:

经过1次哈希函数映射后,不被置为1的概率:1 - \frac{1}{m}

经过k个哈希函数映射后该bit位仍未被置为1的概率:(1 - \frac{1}{m})^{k}(某一个二进制位被置为1后,后面还是有可能会再次映射到该位置,故总的二进制位数还是m)

该二进制位在插入n个值后依旧未被置为1的概率:(1 - \frac{1}{m})^{kn}

则某个二进制位在插入n个值后被置为1的概率:1 - (1 - \frac{1}{m})^{kn}

故误判的概率:(1 - (1 - \frac{1}{m})^{kn})^{k} ①

根据 lim(1 + \frac{1}{x})^{x}= e(x\rightarrow \Join ) 

①式可化为:(1 - (1 - \frac{1}{m})^{kn})^{k}=  (1 - (1 + \frac{1}{-m})^{-m\cdot \frac{kn}{-m}})^{k}= (1 - e^{-\frac{kn}{m}})^{k}

b= e^{\frac{n}{m}},则②式可化为:(1 - b^{-k})^{k}

误判率为k的函数,有 f(k)= (1 - b^{-k})^{k}

两边同时取对数,有 lnf(k)= kln(1 - b^{-k})

两边同时求导,有 \frac{1}{f(k)}\cdot {f(k)}'= ln(1 - b^{-k})+k\cdot \frac{1}{1-b^{-k}}\cdot b^{-k}\cdot lnb

f(k)取最值时,{f(k)}'= 0(最值点的导数为0,除了端点),则③式可化为: ln(1 - b^{-k})+k\cdot \frac{1}{1-b^{-k}}\cdot b^{-k}\cdot lnb= 0

下面对④式进行化简:

ln(1 - b^{-k})+k\cdot \frac{1}{1-b^{-k}}\cdot b^{-k}\cdot lnb= 0

(1 - b^{-k})ln(1 - b^{-k})+kb^{-k}lnb= 0(两边同时乘(1 - b^{-k})

(1 - b^{-k})ln(1 - b^{-k})= -kb^{-k}lnb(移项)

(1 - b^{-k})ln(1 - b^{-k})= b^{-k}lnb^{-k}(把-k移到lnb内)

观察等式两边的形式,可以得到 1 - b^{-k}= b^{-k}

从⑤式中,推出b^{-k}= \frac{1}{2}

在⑥式中,把b换成e^{\frac{n}{m}},有 e^{-\frac{n}{m}k}= \frac{1}{2}

两边同时取对数,推出最佳的哈希函数个数 k= ln2 \frac{m}{n}

根据上述描述,误判概率也可写成p= (1-b^{-k})^{k}

把⑥式代入⑦式,有p= 2^{-k}

上面已推出k= ln2 \frac{m}{n}p=2^{-ln2\frac{m}{n}}

两边同时取对数,有lnp=ln2^{-ln2\frac{m}{n}}

可化简为lnp={-ln2\frac{m}{n}}ln2

进一步化简lnp={-\frac{m}{n}}(ln2)^{2}

进而推出bit数组的大小m=-\frac{nlnp}{(ln2)^{2}}

\frac{}{}由误判率公式可知,在k⼀定的情况下,当n增加时,误判率增加,m增加时,误判率减少。

布隆过滤器的实现

经过上述大篇幅的推导,终于得于推出BloomFilter的误判率,接下来我们着手实现。

各种字符串Hash函数——这是一篇关于各种字符串Hash函数分析的博客,我们选出3个效率较好的来作为我们布隆过滤器的Hash函数。前面在BloomFilter的实现思路中提到,BloomFilter = bitset(位图) + Hash函数,我们的BloomFilter将基于标准库里的位图(当然,你也可以基于自己实现的位图)。

#pragma once
#include <bitset>
#include <string>
#include <iostream>

//字符串Hash函数
struct HashFuncBKDR
{
	size_t operator()(const std::string& str)
	{
		size_t hash = 0;
		for (auto ch : str)
		{
			hash += hash * 31 + ch;
		}
		return hash;
	}
};

//字符串Hash函数
struct HashFuncAP
{
	size_t operator()(const std::string& str)
	{
		size_t hash = 0;
		for (size_t i = 0; i < str.size(); i++)
		{
			if ((i & 1) == 0)
				hash ^= ((hash << 7) ^ (str[i]) ^ (hash >> 3));
			else
				hash ^= (~((hash << 11) ^ (str[i]) ^ (hash >> 5)));
		}
		return hash;
	}
};

//字符串Hash函数
struct HashFuncDJB
{
	size_t operator()(const std::string& str)
	{
		size_t hash = 5381;
		for (auto ch : str)
		{
			hash = hash * 33 ^ ch;
		}
		return hash;
	}
};

template <size_t N,
	size_t X = 6,
	class K = std::string,
	class Hash1 = HashFuncBKDR,
	class Hash2 = HashFuncAP,
	class Hash3 = HashFuncDJB>
	class BloomFilter
{
public:
	void set(const K& key)
	{
		size_t hash1 = HashFuncBKDR()(key) % M;
		size_t hash2 = HashFuncAP()(key) % M;
		size_t hash3 = HashFuncDJB()(key) % M;

		//映射多个位
		_bs->set(hash1);
		_bs->set(hash2);
		_bs->set(hash3);
	}

	bool test(const K& key)
	{
		//有一个为0,则不存在
		size_t hash1 = HashFuncBKDR()(key) % M;
		if (_bs->test(hash1) == 0)
			return false;

		size_t hash2 = HashFuncAP()(key) % M;
		if (_bs->test(hash2) == 0)
			return false;

		size_t hash3 = HashFuncDJB()(key) % M;
		if (_bs->test(hash3) == 0)
			return false;

		return true;
	}
private:
	static const size_t M = X * N;
	std::bitset<M>* _bs = new std::bitset<M>;
};

void TestBloomFilter()
{
	BloomFilter<10> bf;
	std::string arr[] = { "百度", "字节", "腾讯" };
	for (auto& str : arr)
	{
		bf.set(str);
	}
	std::cout << bf.test("百度") << std::endl;
	std::cout << bf.test("摆度") << std::endl;
	std::cout << bf.test("摆渡") << std::endl;
}

布隆过滤器的删除问题 

先说结论,布隆过滤器默认是不支持删除的。下面我们来分析原因。

请看上图,我们发现,obj1和obj2都映射到了3号位上(哈希冲突),当我们删除obj1时,3号位会被置为0,导致我们再去查找obj2时会找不到,这就相当于间接的把obj2删除了。关于这个问题,有这样一个解决方案:引用计数!一个位置用多个位标记,记录映射这个位的计数值,删除时仅仅减减计数值。我们思考一下,这个方案能完美解决布隆过滤器不好删除的问题吗?这个问题不着急回答,我们先来看看下面的场景。

当我们删除一个值key时,本来key是不在布隆过滤器里的,但由于误判(假设其中冲突的一个位置为上图的4号位),结果认为是key在,然后我们删除它。此时, 4号位的计数值减减,由1减为了0,这样也间接删除了tencent。上述问题的答案就不言而喻了。还有人提出这样一种思路,支持计数方式删除,但是定期重建布隆过滤器。

 布隆过滤器的优缺点

优点:

1)空间效率高。

2)查询速度快。

3)保密性强。因为布隆过滤器不存储数据本身。

缺点:

1)存在误判。

2)删除困难。

布隆过滤器的应用

1)爬虫系统中的URL去重

在爬虫系统重,为了避免重复的爬取相同的URL,可以使用布隆过滤器来进行URL的去重。爬取到的URL可以通过布隆过滤器进行判断,已经存在的URL可以直接忽略,避免重复的网络请求和数据处理。

2)垃圾邮件过滤

在垃圾邮件过滤系统中,布隆过滤器可以用来判断邮件是否为垃圾邮件。系统可以将已知的垃圾邮件特征信息存储在布隆过滤器中,当新的邮件到达时,可以通过布隆过滤器快速判断是否为垃圾邮件,从而提高过滤的效率。

3)预防缓存穿透

在分布式缓存系统中,布隆过滤器可以用来解决缓存穿透的问题。缓存穿透是指恶意用户大量请求不存在的数据,导致请求直接访问数据库,造成数据库压力过大。布隆过滤器可以先判断请求的数据是否在布隆过滤器中,如果不在,直接返回不存在,避免对数据库的无效查询。

4)对数据库查询提效

在数据库中,布隆过滤器可以用来加速查询操作。例如:一个APP要快速判断一个电话号码是否注册过,可以用布隆过滤器来判断一个用户的电话号码是否存在,如果不存在,可以直接返回不存在,避免对数据库的无效查询。如果在,再去数据库进行二次确认。


本文到这就结束啦,感谢支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098768.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物联网之MQTT

一&#xff0c;MQTT 及其在物联网中的应用 MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级的消息传输协议&#xff0c;设计用于低带宽、延迟高、不稳定的网络环境&#xff0c;特别适合物联网&#xff08;IoT&#xff09;应用。它采用了发布/订…

案例 | 稳石机器人赋能日化企业内部物流提质增效

近年来&#xff0c;日化产业高速发展&#xff0c;以“清洁类”及“化妆品类”为主的日化品在人们生活中扮演着不可或缺的角色。然而在发展过程中&#xff0c;诸多难点也开始显头&#xff0c;招工难用工贵、生产速度受到掣肘等难题&#xff0c;都对日化企业可持续发展构成挑战。…

智慧安防EasyCVR视频监控汇聚管理平台云端录像时间轴拖动不跳转,是什么原因?

视频汇聚EasyCVR视频智能管理系统以其强大的拓展性、灵活的部署方式、高性能的视频能力和智能化的分析能力&#xff0c;为各行各业的视频监控需求提供了优秀的解决方案。EasyCVR平台支持多种视频流的外部分发&#xff0c;如RTMP、RTSP、HTTP-FLV、WebSocket-FLV、HLS、WebRTC、…

国产SaaS的挑战与未来:探索用户增长的新路径

在数字化转型的浪潮中&#xff0c;SaaS&#xff08;软件即服务&#xff09;行业扮演着至关重要的角色&#xff0c;为企业提供了灵活、高效的数字化解决方案。然而&#xff0c;国产SaaS行业在快速发展的同时&#xff0c;也面临着诸多挑战&#xff0c;包括客户定制化需求高、市场…

上门家政系统源码开发详解

引言 随着现代生活节奏的加快&#xff0c;越来越多的家庭选择聘请家政服务人员来解决日常生活中诸如清洁、烹饪等琐事。面对这一市场需求&#xff0c;开发一个高效的上门家政服务系统显得尤为重要。本文旨在探讨如何构建这样一个系统&#xff0c;并分享一些开发过程中需要注意的…

五、代理模式

代理模式&#xff08;Proxy Pattern&#xff09;是一种结构型设计模式&#xff0c;它为其他对象提供一个代理以控制对这个对象的访问。代理对象通常会对真实对象的请求进行一些处理&#xff08;例如延迟初始化、访问控制、日志记录等&#xff09;&#xff0c;它能够在不改变目标…

K8s搭建过程,新手闭眼入!!!超详细教程

一、k8s搭建harbor仓库 前提&#xff1a;在另一台主机已搭建好harbor私人仓库&#xff0c;之前博客中有详细记录 环境&#xff1a;准备三台主机&#xff0c;一台master&#xff0c;一台node1&#xff0c;一台noed2 1.本地解析 将harbor镜像仓库所在的主机的域名写在所有主机…

Redis String 类型详解:操作命令、底层编码与使用案例

文章目录 一 . 常见命令1.1 set1.2 get1.3 mset、mget1.4 setnx、setex、psetex1.5 incr、incrby1.6 decr、decrby、incrbyfloat1.7 append1.8 getrange1.9 setrange1.10 strlen小结 二 . string 的编码方式三 . 应用场景3.1 缓存3.2 计数器3.3 共享会话3.4 手机验证码 Hello ,…

# 利刃出鞘_Tomcat 核心原理解析(十一)-- Tomcat 附加功能 WebSocket -- 2

利刃出鞘_Tomcat 核心原理解析&#xff08;十一&#xff09;-- Tomcat 附加功能 WebSocket – 2 一、Tomcat专题 - WebSocket - 案例 - 登录功能 1、在项目 dzs168_chat_room 中&#xff0c;导入 tomcat 项目依赖&#xff08; dzs168_chat_room/web/lib/ &#xff09; idea -…

花生壳的登录及获取二级域名

1、下载花生壳客户端 2、安装完毕 3、扫码登录 4、微信登录花生壳管理后台 5、二级域名的注册 已经帮我们自动生成了一个免费的二级域名。 我们可以用这个二级域名快速的建立网站了。

[YM]课设-C#-WebApi-Vue-员工管理系统 (七)员工统计表

前端&#xff1a; 注&#xff1a;这里主要解释下echarts组件&#xff0c;需要一定的Vue基础 emmmmm 明显能看到上面写“对不起暂未开发” 是的 这个是博主自己加上去的 but 这个统计表也是类似于Element UI的小组件 Element&#xff1a;Element - 网站快速成型工具 &am…

Quartz.Net_依赖注入

简述 有时会遇到需要在IJob实现类中依赖注入其他类或接口的情况&#xff0c;但Quartz的默认JobFactory并不能识别具有有参构造函数的IJob实现类&#xff0c;也就无法进行依赖注入 需要被依赖注入的类&#xff1a; public class TestClass {public TestClass(Type jobType, s…

Python 从入门到实战5(列表的其它操作)

我们的目标是&#xff1a;通过这一套资料学习下来&#xff0c;通过熟练掌握python基础&#xff0c;然后结合经典实例、实践相结合&#xff0c;使我们完全掌握python&#xff0c;并做到独立完成项目开发的能力。 之前的文章我们通过举例学习了python 中列表的简单操作&#xff0…

虚拟机输入ip addr不显示IP地址

本机配置 Window10 VMware Workstation 17 CentOS 7 虚拟机输入ip addr查询不到ip地址&#xff08;下图&#xff09; 解决办法&#xff1a; 查看配置文件&#xff0c;输入下面命令(用于编辑文件) vi /etc/sysconfig/network-scripts/ifcfg-ens33进入配置配置文件&#xf…

交叉编译 gmp

文章目录 交叉编译 gmp1 概述2 源码下载2.1 官网下载2.2 使用 apt source 下载 3 交叉编译4 关于 DESTDIR 的说明 交叉编译 gmp 1 概述 GMP (GNU Multiple Precision Arithmetic Library) 是一个用于任意精度计算设计的数学库&#xff0c;它的主要目标应用是密码学应用和研究…

ARP协议和DNS的工作原理

ARP协议 ARP协议的工作原理&#xff1a; 首先主机向自己的网络广播发送一个arp请求&#xff0c;请求报文包括目的端的ip地址和目的端的以太网地址。网络上的其他机器收到这个请求&#xff0c;但只有被请求的才会回应一个应答报文&#xff0c;报文中有自己的物理地址。 arp维护了…

【python因果推断库1】协方差分析(ANCOVA)用于处理前/后非等效组设计

目录 生成合成数据 分析 这是一个基于合成数据的初步示例。希望不久之后能用真实研究的数据进行更新。 在只有一次预处理测量和一次后处理测量的情况下&#xff0c;我们可以使用类似于协方差分析(ANCOVA)的方法来分析非等效组设计(NEGD)实验的数据。基本模型是&#xff1a; i指…

Vue(五). 安装脚手架及一些基本配置

文章目录 vue脚手架前言1. 安装脚手架1. 安装nvm2. 使用nvm安装node3. 配置node的全局路径和缓存路径4. 配置npm默认镜像源5. 安装脚手架全局路径和缓存测试 2. 文件结构及项目配置2.1 文件结构2.2 项目基本配置补充. vue项目安装依赖的一个问题 vue脚手架前言 脚手架也叫Vue …

敏捷需求管理,推动敏捷项目成功——Leangoo领歌敏捷工具

在敏捷项目管理中&#xff0c;需求管理是决定项目成功的关键环节。准确捕捉和高效管理需求&#xff0c;不仅能避免项目偏航&#xff0c;还能确保最终交付的产品与客户预期高度契合。Leangoo领歌敏捷工具&#xff0c;正是为此而生&#xff0c;助力团队轻松实现需求管理的每一步。…

vue中使用原生的video播放flv和mp4格式的视频

安装 npm i flv.js html <video v-if"videoId"controls id"videoElement"preload"metadata"controlslist"nodownload noremoteplayback" ><source :type"video/${videoType}" />您的浏览器不支持HTML5视频播…