C++ 布隆过滤器

news2025/1/12 21:42:29

1. 布隆过滤器提出

我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉 那些已经看过的内容。问题来了,新闻客户端推荐系统如何实现推送去重的? 用服务器记录了用 户看过的所有历史记录,当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选,过滤掉那 些已经存在的记录。 如何快速查找呢?

1. 用哈希表存储用户记录,缺点:浪费空间

2. 用位图存储用户记录,缺点:位图一般只能处理整形,如果内容编号是字符串,就无法处理了。

3. 将哈希与位图结合,即布隆过滤器

2. 布隆过滤器概念

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。

3. 布隆过滤器的实现代码

#include<iostream>
#include<bitset>
using namespace std;
//哈希函数
struct BKDRHash
{
	size_t operator()(const string& s)
	{
		// BKDR
		size_t value = 0;
		for (auto ch : s)
		{
			value *= 31;
			value += ch;
		}
		return value;
	}
};
struct APHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (long i = 0; i < s.size(); i++)
		{
			if ((i & 1) == 0)
				hash ^= ((hash << 7) ^ s[i] ^ (hash >> 3));
			else
				hash ^= (~((hash << 11) ^ s[i] ^ (hash >> 5)));
		}
		return hash;
	}
};
struct DJBHash
{
	size_t operator()(const string & s)
	{
		size_t hash = 5381;
		for (auto ch : s)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};
//第一个参数为插入的个数,第二个参数为容器要开空间为插入个数的倍数大小,
//第三个参数为插入的元素类型,后三个参数为哈希函数
template<size_t N,size_t X = 5,class K = string,class Hash1= BKDRHash,
	class Hash2 = APHash, class Hash3 = DJBHash >
class BloomFilter
{
public:
	void set(const K& key)
	{
		size_t len = N * X;
		size_t index1 = Hash1()(key) % len;
		size_t index2 = Hash2()(key) % len;
		size_t index3 = Hash3()(key) % len;
		_bitset.set(index1);
		_bitset.set(index2);
		_bitset.set(index3);
	}
	bool test(const K& key)
	{
		size_t len = N * X;
		size_t index1 = Hash1()(key) % len;
		if (_bitset.test(index1) == false)
			return false;
		size_t index2 = Hash2()(key) % len;
		if (_bitset.test(index2) == false)
			return false;
		size_t index3 = Hash3()(key) % len;
		if (_bitset.test(index2) == false)
			return false;
		return true;
	}

private:
	bitset<N* X> _bitset;
};

3.1 布隆过滤器的插入

假设我们要插入元素x,使用个哈希函数分别计算元素x,得到个位置。将这三个位置的值从0改为1。

3.2 布隆过滤器的查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中,因此被映射到的位置的比特位一定为1 。所以可以按照以下方式进行查找: 分别计算每个哈希值对应的比特位置存储的是否为 零,只要有一个为零,代表该元素一定不在哈希表中,否则可能在哈希表中
注意:布隆过滤器如果说某个元素不存在时,该元素一定不存在,如果该元素存在时,该元素可
能存在,因为有些哈希函数存在一定的误判。

3.3 布隆过滤器删除 

布隆过滤器(Bloom Filter)的一个重要特性是它不支持删除操作。这是因为布隆过滤器使用哈希函数将元素映射到位数组中,当一个元素被插入到布隆过滤器时,它会将与该元素对应的多个位设置为1。一个位可能被多个元素的哈希函数命中。如果删除一个元素时将这些位设置回0,这可能会破坏其他元素的表示,导致原本正确的存在性检查变为误报。
一种支持删除的方法:将布隆过滤器中的每个比特位扩展成一个小的计数器,插入元素时给 k 个计数器(k 个哈希函数计算出的哈希地址 ) 加一,删除元素时,给 k 个计数器减一,通过多占用几倍存储
空间的代价来增加删除操作。

4.布隆过滤器的优缺点

布隆过滤器优点
1. 增加和查询元素的时间复杂度为 :O(K), (K 为哈希函数的个数,一般比较小 ) ,与数据量大小无关
2. 哈希函数相互之间没有关系,方便硬件并行运算
3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
布隆过滤器缺陷
1. 有误判率,即存在假阳性 (False Position) ,即不能准确判断元素是否在集合中 ( 补救方法:再建立一个白名单,存储可能会误判的数据)
2. 不能安全地删除元素,因为多个元素可能会映射到同一个位置。一旦位被设置为1,就无法确定是哪个元素造成的。
3. 如果采用计数方式删除,可能会存在计数回绕问题。

5.布隆过滤器的应用场景

布隆过滤器广泛应用于各种计算机系统中,用于提高数据处理的效率和减少不必要的磁盘或网络I/O操作。一些典型的应用场景包括:

  • 缓存穿透防护:在分布式缓存系统中,布隆过滤器可以用来检测一个请求的键是否可能存在于缓存中,从而避免不必要的数据库查询。

  • 网络爬虫:布隆过滤器可以帮助网络爬虫避免重复访问同一个URL。

  • 垃圾邮件过滤:通过维护一个包含已知垃圾邮件特征的布隆过滤器,可以快速过滤掉疑似垃圾邮件。

  • 社交网络内容过滤:布隆过滤器可以用来避免向用户推荐他们已经查看过的内容。

  • 数据库优化:在数据库中,布隆过滤器可以用来减少对不存在的行或列的查找,从而提高查询效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1968675.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenStack——存储服务

存储侧&#xff1a; 块存储 文件存储 对象存储 存储简介 特点&#xff1a; 1、OS盘只能使用块存储 2、不能实现共享【不能解决两个主机同时去读写同一个block的问题】 3、性能最优 filesystem——文件存储 VIMS&#xff1a;高可用文件系统 ——提供了锁机制 对象存储 ——解…

MySQL搭建主从复制和读写分离(数据库管理与高可用)

集群&#xff1a; 高可用&#xff1b; 负载均衡&#xff1b; 高性能 1、MySQL主库在事务提交时把数据变更&#xff08;insert、delet、update&#xff09;作为事件日志记录在二进制日志表&#xff08;binlog&#xff09;里面。 2、主库上有一个工作线程 binlog dump thread…

蓝桥杯 DNA序列修正

今天再刷蓝桥的题目时&#xff0c;发现这道题目的第二种更为简洁的做法&#xff1b; 首先题目描述如下&#xff1a; 样例输入 5 ACGTG ACGTC 样例输出 2 对于这道题目&#xff0c;我们想的是用两个数组将其分别存储下来&#xff0c;然后再根据A-T、G-C的配对关系将数组二&a…

【C语言】堆排序

堆排序即利用堆的思想来进行排序&#xff0c;总共分为两个步骤&#xff1a; 1. 建堆 升序&#xff1a;建大堆 降序&#xff1a;建小堆 原因分析&#xff1a; 若升序建小堆时间复杂度是O(N^2) 升序建大堆&#xff0c;时间复杂度O&#xff08;N*logN&#xff09; 所以升序建大堆…

记一次对HTB:Carpediem的渗透测试

信息收集 端口扫描 通过nmap对靶机端口进行探测&#xff0c;发现存在22和80端口。 访问web页面。发现是一个静态页面&#xff0c;没有可利用的部分。 目录扫描 子域枚举 通过对域名进行fuzz子域名&#xff0c;发现存在portal一级域名。 将它加入/etc/hosts&#xff0c;访问之…

vue3+gsap实现圆形路径动画

同学们可以私信我加入学习群&#xff01; 正文开始 前言一、引入并使用gsap二、详解gsap.to的各参数三、路径svg四、其他路径文字路径动画总结 前言 我开发的桌面端软件最近增加了在线更新功能&#xff0c;其中更新动画部分是由gsap实现的&#xff0c;整体实现思路已经在elect…

用Python打造精彩动画与视频,3.2 基本的剪辑和合并操作

3.2 基本的剪辑和合并操作 在这一节中&#xff0c;我们将学习如何使用 MoviePy 库对视频进行基本的剪辑和合并操作。MoviePy 是一个用于视频编辑的 Python 库&#xff0c;可以轻松地实现视频的剪辑、合并、添加音频等操作。 准备工作 首先&#xff0c;确保你已经安装了 Movi…

花几千上万学习Java,真没必要!(三十九)

1、BufferedReader的使用&#xff1a; 测试代码&#xff1a; package test.com; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; import java.util.List; public class FileReadToList { pu…

OpenHarmony 入门——初识JS/ArkTS 侧的“JNI” NAPI基本开发步骤(三)

引言 前面文章OpenHarmony 入门——初识JS/ArkTS 侧的“JNI” NAPI&#xff08;一&#xff09; 和 OpenHarmony 入门——初识JS/ArkTS 侧的“JNI” NAPI 常见的函数详解&#xff08;二&#xff09;介绍了NAPI的基础理论知识&#xff0c;今天重点介绍下如何去开发一个自己的NAP…

maven插件2(spring-api-auth-valid-plugin)

https://maven.apache.org/guides/mini/guide-configuring-plugins.htmlhttps://maven.apache.org/plugin-testing/maven-plugin-testing-harness/getting-started/index.html plugin-desc 业务功能 所有的endpoint,必须带有指定的安全校验标签,如spring-security的PreAuthori…

RabbitMQ 集群安装

在 linux 下手动安装 RabbitMQ 集群。 准备 安装之前的准备工作。 准备内容说明其他3 台服务器centos、redhat 等ErlangRabbitMQ 运行需要的基础环境socatRabbitMQ 运行需要的基础环境logrotateRabbitMQ 运行需要的基础环境这个服务器一般自带了 下面的安装示例中使用的版本…

一键测量仪,能否彻底解决燃气灶配件缺陷问题?

燃气灶配件是指用于燃气灶的附件或零部件&#xff0c;用于安装、维护或改进燃气灶的功能和性能。这些配件通常包括各种零部件、附件和替换件&#xff0c;以确保燃气灶的正常运行和安全使用。燃气灶的火焰头是产生火焰的部件&#xff0c;通常根据不同的燃气类型和火力需求选择合…

python-求四位数(赛氪OJ)

[题目描述] 3025 这个数具有一种独特的性质&#xff1a;将它平分为二段&#xff0c;即 30 和 25&#xff0c;使之相加后求平方&#xff0c;即 (3025)^2&#xff0c;恰好等于 3025 本身。请求出具有这样性质的全部四位数。输入格式&#xff1a; 此题没有输入。输出格式&#xff…

详解并掌握AXI4总线协议(一)、AXI4-FULL接口介绍

系列文章目录 文章目录 系列文章目录一、AXI介绍二、AXI4、AXI-Lite、AXI4-Stream区别三、AXI4读写架构3.1 通道定义3.2 读突发时序3.3 写突发时序 四、AXI4-FULL 总线信号介绍4.1全局信号4.2 写地址通道信号4.3 写数据通道信号4.4 写响应通道信号4.5 读地址通道信号4.6 读数据…

Animate软件基础:在时间轴中添加或插入帧

FlashASer&#xff1a;AdobeAnimate2021软件零基础入门教程https://zhuanlan.zhihu.com/p/633230084 FlashASer&#xff1a;实用的各种Adobe Animate软件教程https://zhuanlan.zhihu.com/p/675680471 FlashASer&#xff1a;Animate教程及作品源文件https://zhuanlan.zhihu.co…

抖音爆火的“拆盲盒”直播,是如何将昂贵的废品卖给消费者的?

抖音直播间掀起了一股“拆盲盒”热潮。 最初&#xff0c;这股热潮主要集中在拆卡直播间。一盒10包起卖的卡牌&#xff0c;价格在100~200不等。拆卡主播拿起剪刀行云流水的开盒、拆卡、过牌&#xff0c;一晚上能轻松跑出数万元的营业额。数据显示&#xff0c;头部卡牌公司卡游仅…

Redis+Unity 数据库搭建

游戏中需要存放排行榜等数据&#xff0c;而且是实时存放&#xff0c;所以就涉及到数据库的问题。这里找服务器大神了解到可以用Redis来做存储&#xff0c;免费的效率极高。 Redis的搭建参考上文的文章&#xff0c;同时也感谢这位网友。 搭建Redis 并测试数据 搭建Redis 1.下…

玩转云服务:Google Cloud谷歌云永久免费云服务器「白嫖」 指南

前几天&#xff0c;和大家分享了&#xff1a; 玩转云服务&#xff1a;Oracle Cloud甲骨文永久免费云服务器注册及配置指南 相信很多同学都卡在了这一步&#xff1a; 可用性域 AD-1 中配置 VM.Standard.E2.1.Micro 的容量不足。请在其他可用性域中创建实例&#xff0c;或稍后…