C++进阶篇5---番外-位图和布隆过滤器

news2024/11/19 23:37:31

哈希的应用

一、位图

情景:给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中???

看到查找元素的范围,暴力肯定是过不了的,我们要么二分要么哈希,但是二分要求排序,题目说没排过序,只剩下哈希,但是如果用正常的哈希表肯定不行,数据量太大了(可以算一下,大概15G),根本加载不进内存,更别谈放到哈希表中了,那怎么办? 

这时候就需要用到位图---本质就是状态压缩版的哈希表,用一个比特位表示一个数字,大大压缩了数据量,(整形是4字节,如果是哈希表只能用来表示一个数字,但是位图可以用来表示4*8=32个数),数据量缩小了32倍,大概0.5G,具体的实现如下

namespace zxws
{
	template <size_t N=100>
	class bitset
	{
	public:
		bitset()
		{
			bit.resize(N/32+1);
		}

		void set(size_t x)//增
		{
			size_t i = x / 32;
			size_t j = x % 32;
			bit[i] |= (1u << j);//1u代表unsigned int类型的1
		}

		void reset(size_t x)//删
		{
			size_t i = x / 32;
			size_t j = x % 32;
			bit[i] &= ~(1u << j);
		}

		bool test(size_t x)//查
		{
			size_t i = x / 32;
			size_t j = x % 32;
			return (bit[i] >> j) & 1u;
		}
	private:
		vector<int>bit;
	};
}

模拟实现没啥难度,就是要了解位运算,当然这只是位图的最重要的几个函数,还有一些其他的不常用的就不模拟实现了,有兴趣大家可以去查看文档

那么了解了位图的实现原理,我们再来看看下面的几个题

1. 给定100亿个整数,设计算法找到只出现一次的整数?
2. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?
3. 位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
题1:正常用一个位图,不好做,因为一个数字对应一个比特位,而一个比特位只有0 / 1两个状态,无法表示没出现,出现1次和出现多次这3个状态,那怎么办?既然一个比特位无法表示,那两个比特位呢?共有00,01,10,11四个状态,绰绰有余,实现如下
namespace zxws
{
	template <size_t N = 100>
	class twobitset
	{
	public:
		void set(size_t x)
		{
			size_t i = x / 32;
			size_t j = x % 32;
			if (bs1.test(x) == false && bs2.test(x) == false)//00->01
			{
				bs1.set(x);
			}
			else if (bs1.test(x) == true && bs2.test(x) == false)//01->10
			{
				bs1.reset(x);
				bs2.set(x);
			}
		}
        void test(size_t x)
		{
			return bs1.test(x) == true && bs2.test(x) == false;//01--代表只出现一次
		}
	private:
		bitset<N>bs1;
		bitset<N>bs2;
	};
}

题2:找文件交集,这个就很明显了,两个位图分别存放两个文件中的数字,然后比特位之间&一下,比特位上为1的就是交集

题3:这题其实和第1题一样,都是查看数字出现次数,要求不出现两次,即有没出现,出现1次,出现2次和出现2次以上四个状态,两个位图正好够了,实现同题1

二、布隆过滤器

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间

实现原理图

一般来说用三个哈希函数就差不多了

上图是网上的研究数据显示结果,仅供参考(k,m,n满足上诉关系时,不容易发生哈希冲突)

布隆过滤器的作用范围还是很广泛的,尤其是在不怎么关心某一个东西是否真的存在的场景下,举个例子,比如说取用户ID,当你取的id没人用时,OK你创建成功,当你取的id显示有人用时,如果是真的有人用了,那我们就换一个,如果没人用,它误判了,那我们也就是不能用这个id而已,没有啥太大影响,这时布隆过滤器就非常合适

当然如果说用户投诉说明明没人用这个id,却不让用,要求我们修复bug,这时我们只要让在布隆过滤器过滤后显示为存在的数据再去数据库中校验一下即可,

当然也有人会觉得反正都要去数据库校验还要布隆过滤器干嘛,注意:1.布隆过滤器它为啥叫过滤器,关键就是它只能确定不存在的数据,不能确定存在的数据。2.网络上通讯会比较耗时,如果每一个id的确认都需要与服务器上的数据库校验,就会浪费时间

实现如下

//哈希函数就自行去网上找哪些不容易产生哈希冲突的就行
template <size_t N, 
	class K=string, 
	class HashFunc1=HashFun<K>, 
	class HashFunc2=DGBHash<K>, 
	class HashFunc3=APHash<K> >
class BloomFiler {
public:
	void set(const K& key)
	{
		size_t hash1 = HashFunc1()(key) % N;
		size_t hash2 = HashFunc2()(key) % N;
		size_t hash3 = HashFunc3()(key) % N;

		_bs.set(hash1);
		_bs.set(hash2);
		_bs.set(hash3);
	}

	bool test(const K& key)
	{
		size_t hash1 = HashFunc1()(key) % N;
		size_t hash2 = HashFunc2()(key) % N;
		size_t hash3 = HashFunc3()(key) % N;
		if (_bs.test(hash1) == false
			|| _bs.test(hash2) == false
			|| _bs.test(hash3) == false)
			return false;

		return true;
	}
private:
	bitset<N*5>_bs;
};

两个问题:

1. 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法(具体下面一个专题讲)

2. 如何扩展BloomFilter使得它支持删除元素的操作?一般来说是不能支持的,因为删除一个元素的映射会影响其他元素的哈希映射(因为它们会出现冲突),但是我们可以给它们加一个引用计数,这样就能在删除它的同时不影响其他元素的映射

优点
1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关
2. 哈希函数相互之间没有关系,方便硬件并行运算
3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势
5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能
6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算

三、哈希分割---哈希思想的扩展

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?如何找到top K的IP?

100G的file很显然太大,我们的想法是将它分割成一个个小文件,然后在小文件中计数,我们将文件按Hash(id) % 100,得到100个1G的小文件(理想情况),然后我们就可以在小文件中统计每个id出现的次数(因为同一个id经过哈希映射会在同一个小文件中),但是,上面的只是理想情况,如果某一个小文件的大小为10G,也就是分完之后还是太大了,我们又该怎么办?

出现上诉情况共分两种可能:

1.相同的id太多
2.哈希冲突太多,导致多个不同的id都放在了同一个小文件中

如果是情况一,我们不用管,map中只会插入一次这个id,空间足够

如果是情况二,会报内存错误,这时我们就对这个小文件进行二次哈希分割即可

top K问题用堆实现就行,之前再二叉树数据结构中讲过的


下面,我们回过头去看看

给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法

近似算法就是用布隆过滤器,但是精确的算法呢?

这个query的大小也要考虑到,假设query的大小为50字节,那么一共5000亿字节,约等于500G,很明显了哈希切割,当然我们得先将query转成整数,Hash(query)%500,两个文件各自分成500个1G的小文件(理想情况),这样两个文件中相同的query会分别放在同一个余数的两个小文件中,如下图

当然它也会出现小文件太大的情况,处理方法同上,注意这个不能用位图的原因是query里面存的不一定是整数,这样不同的query查询也有可能映射到用一个比特位(这也是布隆过滤器不准确的原因之一),就不精确了


如果上诉内容对你理解哈希有帮助的话,不要忘记点赞+评论哟!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1263759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

P25 C++ const关键字

前言 本期我们要讲的是 C 中的 const 关键字。 const 在改变生成代码方面做不了什么&#xff0c;它有点像类和结构体的可见性&#xff0c;这是一个机制&#xff0c;可以让我们的代码更加干净&#xff0c;并对开发人员写代码强制特定的规则。 const 就像你做出的承诺&#xf…

fiddler设置过滤你就这样做,一做一个不只声!

fiddler设置过滤 基本的过滤操作流程以百度为例 步骤&#xff1a; 1、右侧高级工具栏点击Filters》勾选Use Filters》选择Show only Internet Hosts和Show only the following Hosts》在文本框中输入host地址 2、点击Changes not yet saved》再点击Actions》Run Filterset …

【C++ 程序设计入门基础】- 第3节-循环结构01

目录 循环结构 一、for 语句 for 循环案例 输入一个整数n&#xff0c;输出1&#xff5e;n的所有整数。 编译运行&#xff0c;查看输出结果 编译调试 for 循环结构语义分析 二、beak 语句 三、continue 语句 案例1&#xff1a; 案例2&#xff1a; 案例3&#xff1a; 循环…

fiddler设置手机端抓包看这篇文章就足够了,轻松解决!

fiddler设置手机端抓包 安卓手机抓包 第一步&#xff1a;配置电脑和安卓的相关设置 1、手机和fiddler位于同一个局域网内&#xff1b;首先从fiddler处获取到ip地址和端口号&#xff1a; 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; &#xff0c;点…

Week-T11-优化器对比试验

文章目录 一、准备环境二、准备数据三、搭建训练网络三、训练模型&#xff08;1&#xff09;VSCode训练情况&#xff1a;&#xff08;2&#xff09;jupyter notebook训练情况&#xff1a; 四、模型评估 & 模型预测1、绘制Accuracy-Loss图2、显示model2的预测效果 五、总结1…

Java使用263和qq邮箱发邮件

一、添加依赖 <dependency><groupId>com.sun.mail</groupId><artifactId>javax.mail</artifactId><version>1.6.2</version></dependency>二、263邮箱 1&#xff0c;邮箱配置 public static void sendEmail(String host, in…

你敢信?四行Python代码就能知道你那的天气!

今天给大家带来的Python实战项目是四行Python代码获取所在城市的天气预报&#xff0c;我们隐隐听到唏嘘声&#xff0c;不信四行Python代码可以获取是吗?那我们一起来看看&#xff1a; 四行Python代码就能知道你那的天气&#xff0c;你敢信&#xff1f; 使用Python获取天气预报…

Linux内存回收:LRU算法

linux操作系统再内存不足时会使用Swap机制&#xff0c;将一些不经常使用的匿名内存页放到磁盘当中&#xff0c;等下次需要时再读取到内存当中&#xff0c;而这个LRU算法就是用来选择把哪些不常使用的匿名内存页放到磁盘当中的。 LRU&#xff08;Least Recently Used&#xff09…

Gossip协议理解

概述 Gossip协议&#xff0c;又称epidemic协议&#xff0c;基于流行病传播方式的节点或进程之间信息交换的协议&#xff0c;在分布式系统中被广泛使用。 在1987年8月由施乐-帕洛阿尔托研究中心发表ACM上的论文《Epidemic Algorithms for Replicated Database Maintenance》中…

CorelDRAW Graphics Suite2023破解版含2024最新注册机下载

CorelDRAW Graphics Suite2023是Corel公司的平面设计软件&#xff1b;该软件是Corel出品的矢量图形制作工具软件&#xff0c;这个图形工具给设计师提供了矢量动画、页面设计、网站制作、位图编辑和网页动画等多种功能。在日常科研绘图中&#xff0c;若较为轻量&#xff0c;通常…

【Redis实现全局唯一ID】

一、全局唯一ID的需求产生。 在订单业务中&#xff0c;我们需要保证id是绝对唯一的。 使用数据库自增长的id在分布式的情况下把表做了拆分处理后有可能会出现id重复的情况&#xff0c;这就违背了唯一性。而且数据自增长的id有很强的规律性&#xff0c;可以根据id推断出订单的数…

人工智能_机器学习053_支持向量机SVM目标函数推导_SVM条件_公式推导过程---人工智能工作笔记0093

然后我们再来看一下支持向量机SVM的公式推导情况 来看一下支持向量机是如何把现实问题转换成数学问题的. 首先我们来看这里的方程比如说,中间的黑线我们叫做l2 那么上边界线我们叫l1 下边界线叫做l3 如果我们假设l2的方程是上面这个方程WT.x+b = 0 那么这里 我们只要确定w和…

Anaconda离线下载torch与安装包

一、下载离线安装包 命令&#xff1a; pip download 安装包名 -d 安装到文件夹名 -i https://pypi.tuna.tsinghua.edu.cn/simple执行这样的命令就会把安装包的离线文件下载到指定文件夹中。 操作&#xff1a; 打开cmd命令行&#xff0c;并进入相应的目录中。 如果是tor…

hutool工具连接数据库实现数据处理重新入库

1 引入依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.7.18</version></dependency><!--mysql驱动包--><dependency><groupId>mysql</groupId><ar…

详解原生Spring中的控制反转和依赖注入-构造注入和Set注入

&#x1f609;&#x1f609; 学习交流群&#xff1a; ✅✅1&#xff1a;这是孙哥suns给大家的福利&#xff01; ✨✨2&#xff1a;我们免费分享Netty、Dubbo、k8s、Mybatis、Spring...应用和源码级别的视频资料 &#x1f96d;&#x1f96d;3&#xff1a;QQ群&#xff1a;583783…

KMP算法【数据结构】

KMP算法 KMP算法是一种改进的字符串匹配算法 Next[j] k :一个用来存放子串返回位置的数组&#xff0c;回溯的位置用字母k来表示。其实就是从匹配失败位置&#xff0c;找到他前面的字符串的最大前后相等子串长度。默认第一个k值为-1(Next[0] -1),第二个k值为0(Next[1] 0),我…

C++ 背包理论基础01 + 滚动数组

背包问题的重中之重是01背包 01背包 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品只能用一次&#xff0c;求解将哪些物品装入背包里物品价值总和最大。 每一件物品其实只有两个状态&#xff0c;取或者不…

E云管家开发自动转发朋友圈

简要描述&#xff1a; 转发朋友圈&#xff0c;直接xml数据。(对谁不可见) 请求URL&#xff1a; http://域名地址/forwardSns 请求方式&#xff1a; POST 请求头Headers&#xff1a; Content-Type&#xff1a;application/jsonAuthorization&#xff1a;login接口返回 参…

手机便签app哪个比较好用?

手机便签类软件的种类是比较多的&#xff0c;不管是安卓手机品牌还是苹果手机品牌的手机&#xff0c;在手机的应用商店中搜索“便签”&#xff0c;大家会找到很多便签类软件。那么&#xff0c;手机便签APP哪个比较好用呢&#xff1f; 在选择手机便签APP时&#xff0c;大家比较…

STM32F103C8T6第7天:

1. 智能小车&#xff1a;让小车动起来&#xff08;360.64&#xff09; 硬件接线 B-2A – PB0B-1A – PB1A-1B – PB2A-1A – PB10其余接线参考上官一号小车项目。 cubemx配置 代码&#xff08;28.smartCar_project1/MDK-ARM&#xff09; 2. 智能小车&#xff1a;串口控制小…