哈希的应用 -- 布隆过滤器

news2024/9/23 9:23:15

作者:@小萌新
专栏:@C++进阶
作者简介:大二学生 希望能和大家一起进步!
本篇博客简介:介绍并模拟实现哈希的应用 – 布隆过滤器

布隆过滤器

  • 布隆过滤器的提出
  • 布隆过滤器的概念
  • 布隆过滤器的实现
    • 框架与算法
    • 插入函数
    • 查找函数
    • 删除函数
  • 布隆过滤器的优点
  • 布隆过滤器的缺点
  • 布隆过滤器的使用场景

布隆过滤器的提出

我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉那些已经看过的内容。问题来了,新闻客户端推荐系统如何实现推送去重的? 用服务器记录了用户看过的所有历史记录,当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选,过滤掉那 些已经存在的记录。 如何快速查找呢?

这里提出三种解决方案

  • 使用哈希表来储存用户记录 但是哈希表来储存的会浪费许多空间
  • 使用位图来储存用户记录 但是位图只能储存整型数据 如果是字符串类型的数据便无法处理了
  • 将哈希和位图相结合 即布隆过滤器

布隆过滤器的概念

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。

  • 布隆过滤器其实是位图的变形和延申 我们无法解决哈希冲突 但是可以采取一些措施来降低误判率
  • 当一个数据被映射到位图中时 布隆过滤器会使用多种哈希算法将其映射到多个位置 当我们判断一个数是否在位图中的时候需要再通过多种哈希算法判断多个位置是否都存在 否则该数据不存在
  • 布隆过滤器判断存在是一种可能性事件 因为有可能多个位置全部发生哈希冲突
  • 布隆过滤器判断不存在是一种必然时间 因为只要有一个位置不存在就说明该位置没有被映射过 即该数据不存在

下面我们给出一张图来展示布隆过滤器的一些特点

在这里插入图片描述

我们假设数据的插入顺序是 URL1 2 3 4

URL1 2 3 插入的时候都通过hash算法找到了没有被设置的位 所以说都顺利插入成功了

但是轮到了URL4插入的时候通过hash算法算出来的三个位置缺都被设置了 因此会造成插入失败 但是实际上该数据并不存在

这也就是我们说的误判的情况

那么这里就会抛出来一个问题了 一个误判率很高的容器是我们不想要的 那么我们应该如何降低误判率呢

这里涉及到两个方面

  1. 布隆过滤器的大小

如果布隆过滤器的大小过小 则很快就会被填满 从而导致误判率升高

  1. 哈希算法的个数

如果哈希算法的个数过多 则会导致布隆过滤器中被设置的位数过多 造成误判率的上升

而如果哈希算法的个数过少 也会导致误判率的上升

所以说哈希算法的个数一般控制在2~3个比较合适

布隆过滤器的实现

框架与算法

布隆过滤器可以被实现位一个模板类

因为插入布隆过滤器的元素大部分情况下是字符串 所以我们可以将缺省值设置为string类

如果是其他类型的参数我们只要提供对应的算法将其转化为整型即可

代码表示如下

template<size_t N , class K = string ,
	class Hash1 = BKDRHash, class Hash2 = APHash, class Hash3 = DJBHash>
class BloomFilter
{
	Hash1 h1;
	Hash2 h2;
	Hash3 h3;
public:
	// ...
private:
	bitset<N> _bs;
};

我们使用的三种算法分别是BKDRHash算法 APHash算法和DJBHash算法

我们写出这三种算法的类并且给出它们的仿函数

struct BKDRHash
{
	size_t operator()(const string& s)
	{
		size_t value = 0;
		for (auto x : s)
		{
			value = value * 131 + x;
		}
		return value;
	}
};
struct APHash
{
	size_t operator()(const string& s)
	{
		size_t value = 0;
		for (size_t i = 0; i < s.size(); i++)
		{
			if ((i & 1) == 0)
			{
				value ^= ((value << 7) ^ s[i] ^ (value >> 3));
			}
			else
			{
				value ^= (~((value << 11) ^ s[i] ^ (value >> 5)));
			}
		}
		return value;
	}
};

struct DJBHash
{
	size_t operator()(const string& s)
	{
		if (s.empty())
		{
			return 0;
		}
		size_t value = 5381;
		for (auto ch : s)
		{
			value += (value << 5) + ch;
		}
		return value;
	}
};

插入函数

布隆过滤器的插入很简单 我们这里不考虑是否之前存在数据的影响

要插入一个数据就将通过哈希函数计算出来的位置设置位

	// 插入
	void Insert(const K& k)
	{
		size_t i1 = h1(k) % N;
		size_t i2 = h2(k) % N;
		size_t i3 = h3(k) % N;

		// 设置位
		_bs.set(i1);
		_bs.set(i2);
		_bs.set(i3);
	}

我们这里使用了三种哈希算法类创建出来的对象调用仿函数来处理数据

当然如果不想创建对象也可以使用匿名对象的方式来使用 代码表示如下

	size_t i1 = Hash1()(k);

查找函数

布隆过滤器的查找的关键是判断不存在的位

如果有位不存在 那么它一定不存在

如果全部位存在 那么它可能存在

	// 查找
	bool Test(const K& k)
	{
		size_t i1 = h1(k) % N;
		size_t i2 = h2(k) % N;
		size_t i3 = h3(k) % N;


		if (_bs.test(i1) == false)
		{
			return false;
		}

		if (_bs.test(i2) == false)
		{
			return false;
		}

		if (_bs.test(i3) == false)
		{
			return false;
		}
		return true;
	}

删除函数

布隆过滤器的删除函数是不存在的

因为删除一个数据会影响其他数据的真实性

并且这个数据也不一定存在 只是有可能存在

那么我如何能够让布隆过滤器支持删除呢

  1. 保证删除后不会影响到其他数据 将位图中的每个bit位置设置一个对应的计数值 插入++ 删除–
  2. 保证删除的数据一定存在 当我们觉得这个数据可能存在的时候 遍历整个数据库查找这个数据 验证它是否存在

但是布隆过滤器没有提供删除函数 这是为什么呢?

因为布隆过滤器本身就是为了提高效率和节省空间被发明出来的

如果我们将每个bit位置设置一个对应的计数值 对于空间会有一个极大的消耗

磁盘的读取数据是很慢的 如果我们每次删除都要读取一遍磁盘这对于效率又是一个极大的消耗

考虑以上种种因素 布隆过滤器不设置删除成员函数

布隆过滤器的优点

  • 增加和查找的时间复杂度是O(K) K一般为常数 和数据量大小无关
  • 哈希函数之间相互没有关联 方便硬件进行计算
  • 布隆过滤器本身不需要储存元素 对于某些需要保密性的场景有很大优势
  • 布隆过滤器对比其他传统的数据存储结构 空间比较节省
  • 数据量很大的时候布隆过滤器可以表示全集 其他的数据结构不能
  • 使用同一组哈希函数的布隆过滤器可以进行交 并 差集运算

布隆过滤器的缺点

  • 最致命的当然是存在误判的可能性
  • 不能删除元素
  • 不能够读取数据

布隆过滤器的使用场景

布隆过滤器的使用场景有一个大前提 那就是它的误判不会对业务逻辑有很大的影响

比如说当我们重新改变我们的用户名字的时候(网站规则用户名字不能重复)

  1. 如果不使用布隆过滤器就要使用红黑树这样的结构来存储用户的名字 当用户数量很大的时候这样子左是极其浪费空间的 因为我们只需要判断在不在就好了
  2. 我们使用布隆过滤器 判断不存在是不可能误判的 如果不存在则表示这个用户名字可以使用
  3. 因为规则规定了用户名字不能重复 如果重复的话可能会引起一些系统bug 所以说假设用户名字在布隆过滤器中被判断为可能存在 那么不管这个用户名字是否存在 就可以直接告诉用户该用户名已存在 请用户重新输入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/181736.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM学习(五):JVM运行时参数

一、JVM参数选项1.1 标准参数选项标准参数选项的特点是以-开头&#xff0c;比较稳定&#xff0c;后续版本基本不会变化也就是在命令行输入java 或 java -help之后显示的参数&#xff0c;其中选项包括:-d32 使用 32 位数据模型 (如果可用)-d64 使用 64 位数据模型 (如果可用)-…

Spring Security in Action 第十章 SpringSecurity应用CSRF保护和CORS跨域请求

本专栏将从基础开始&#xff0c;循序渐进&#xff0c;以实战为线索&#xff0c;逐步深入SpringSecurity相关知识相关知识&#xff0c;打造完整的SpringSecurity学习步骤&#xff0c;提升工程化编码能力和思维能力&#xff0c;写出高质量代码。希望大家都能够从中有所收获&#…

分布式链路追踪SkyWalking快速入门之环境安装界面指标介绍(一)

目录 一、先抛几个分布式常见的问题 二、分布式链路追踪Skywalking介绍 2.1 Skywalking是什么 2.2 市场上同类解决方案 2.3 skywalking的性能对比 三、Apache Skywalking特点和整体架构组件介绍 3.1 Skywalking特点 3.2 Skywalking整体架构 3.3 部署组件介绍 四.Apac…

HTML当中元素的id属性

<!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>HTML当中元素的id属性</title> </head> <body> <!-- 1、在HTML文档当中&#xff0c;任何元素/节…

详解promise与手写实现

详解promise与手写实现Promise1、Promise介绍与基本使用1.1 Promise概述1.2 Promise的作用1.3 Promise的使用2、Promise API3、Promise关键问题4、Promise自定义封装5、async与await5.1. mdn文档5.2.async函数5.3.await表达式5.4.注意Promise 1、Promise介绍与基本使用 1.1 P…

5.1 频率响应概述

一、研究放大电路频率响应的必要性 在放大电路中&#xff0c;由于电抗元件&#xff08;如电容、电感线圈等&#xff09;及半导体管极间电容的存在&#xff0c;当输入信号的频率过低或过高时&#xff0c;不但放大倍数的数值会变小&#xff0c;而且还将产生超前或者滞后的相移&a…

LightOJ 1197 - Help Hanzo (区间筛)

题目链接&#xff1a;Help Hanzo - LightOJ 1197 - Virtual Judge (vjudge.net) 题意 多组数据&#xff0c;每组输入两个数a&#xff0c;b&#xff0c;求区间a&#xff0c;b内的素数个数。 其中. 思路 首先我们看到数据范围就能知道&#xff0c;传统的质数筛肯定行不通了 …

苹果营收下降,但仍赚钱!

导读苹果公司今天发布2016财年第四财季财报&#xff0c;财报数据虽然略微超过分析师预期&#xff0c;但苹果公司的股价在盘后交易中曾上涨不过财报发布后很快下跌。 敲黑板概括苹果公司的财报的重点有&#xff1a;营收和盈利同比双双下滑、连续第三个季度下滑并出现2001年来首次…

高阶数据结构 位图的模拟实现

作者&#xff1a;学习同学 专栏&#xff1a;数据结构进阶 作者简介&#xff1a;大二学生 希望能和大家一起进步&#xff01; 本篇博客简介&#xff1a;模拟实现高阶数据结构位图 位图的模拟实现bitset类要实现的接口函数总览bitset类的模拟实现位图结构构造函数set reset flip …

全国地级市1999—2020年用地面积指标(建设用地\居住用地\绿地\建成区等)

在之前的文章中我们介绍过基于2000-2021年《中国城市统计年鉴》整理的人口相关指标&#xff0c;包括人口及户数数据和人口变动数据&#xff08;可查看之前推送的文章&#xff09;。 本次我们对2000—2021年的《中国城市统计年鉴》中的用地面积相关的指标进行了整理&#xff0c…

lego-loam学习笔记(二)

前言&#xff1a; 对于lego-loam中地面点提取部分的源码进行学习。 地面点提取在src/imageProjection.cpp中的函数groundRemoval()。内容比较少&#xff0c;容易理解。 size_t lowerInd, upperInd;float diffX, diffY, diffZ, angle; lowerInd表示低线数的点云&#xff1b; …

从网络摄像头拉流的几种方法(python代码)

文章目录摘要&#x1f407;1、直接使用OpenCV&#x1f407;2、使用ffmpeg&#x1f407;2.1、安装方法 &#x1f407;2.1.1、安装ffmpeg-python &#x1f407;2.1.2、安装FFmpeg &#x1f407;2.2、代码实现&#x1f407;3、多线程的方式读取图片&#x1f407;4、多进程的方式拉…

DocuWare 智能文档控制——杜绝成堆的文件和文件混乱,保证业务连续性,创建企业新阶段

一、智能文档控制——杜绝成堆的文件和文件混乱&#xff0c;保证业务连续性&#xff0c;创建企业新阶段 清晰有条理和即时可用的信息是成功的业务流程的关键&#xff0c;随时随地安全管理业务文档&#xff0c;快速查找并智能使用它们。 1、安全存储 使用安全的集中式平台存放…

44.Isaac教程--姿态估计

二维骨骼姿态估计 ISAAC教程合集地址: https://blog.csdn.net/kunhe0512/category_12163211.html 文章目录二维骨骼姿态估计应用概述推理运行推理在嵌入式平台上运行推理消息类型小码推理示例训练步骤 1. 先决条件 安装 Docker 容器步骤 2. 安装步骤 3. 下载 COCO 2017 和预处理…

高效学 C++|函数参数的引用传递和函数重载

在节前拜读张哥dvlinker的博客_CSDN博客-VC常用功能代码封装,C相关,C软件调试与异常排查从入门到精通系列教程领域博主的C专栏后&#xff0c;毅然决然&#xff0c;想在春节期间系统的学习下C入门知识&#xff0c;本文算是学习过程的小结及感悟&#xff01; C语言中函数的声明形…

pytorch深度学习一机多显卡训练设置,流程

最近在学习在服务器的ubuntu环境上配置用多个显卡训练&#xff0c;之前只用一个显卡训练实在是太慢了点 先看看服务器上有几个显卡&#xff1a; nvidia-smi即可得到具体的显卡信息&#xff1a; 每个显卡之前有对应的编号。 然后得知自己服务器上总共有多少显卡后&#xff0…

第一章:Go语言简介

Go语言&#xff08;或 Golang&#xff09;起源于 2007 年&#xff0c;并在 2009 年正式对外发布。Go 是非常年轻的一门语言&#xff0c;它的主要目标是“兼具 Python 等动态语言的开发速度和 C/C 等编译型语言的性能与安全性”。 Go语言是编程语言设计的又一次尝试&#xff0c…

41-剑指 Offer 43. 1~n 整数中 1 出现的次数

题目 输入一个整数 n &#xff0c;求1&#xff5e;n这n个整数的十进制表示中1出现的次数。 例如&#xff0c;输入12&#xff0c;1&#xff5e;12这些整数中包含1 的数字有1、10、11和12&#xff0c;1一共出现了5次。 示例 1&#xff1a; 输入&#xff1a;n 12 输出&#x…

【Activiti工作流引擎】基本认识Activiti

Activiti工作流引擎 表的命名结构 ACT_RE &#xff1a;RE’表示 repository。这个前缀的表包含了流程定义和流程静态资源 &#xff08;图片&#xff0c;规则&#xff0c;等等&#xff09;。 ACT_RU&#xff1a;RU’表示 runtime。这些运行时的表&#xff0c;包含流程实例&am…

海外拥有最庞大社区人群的Verasity($VRA),后市值得期待

在2023年开年以来&#xff0c;随着主流标的回暖进一步带动大盘的上涨&#xff0c;并且加密货币总市值重回1亿美元以上。而加密货币市场大多数资产都迎来普涨。我们看到&#xff0c;短时的上涨虽然为市场重新注入信心&#xff0c;但能够持续具备上涨趋势的标的并不多。此前&…