C++ 哈希思想应用:位图,布隆过滤器,哈希切分

news2024/11/24 10:44:39

C++ 哈希思想应用:位图,布隆过滤器,哈希切分

  • 一.位图
    • 1.位图的概念
      • 1.问题
      • 2.分析
      • 3.位图的概念
      • 4.演示
    • 2.位图的操作
    • 3.位图的实现
      • 1.char类型的数组
      • 2.int类型的数组
      • 3.解决一开始的问题
        • 位图开多大呢?
        • 小小补充
        • 验证
    • 4.位图的应用
      • 1.给定100亿个整数,设计算法找到只出现一次的整数?
        • 1.位图开多大?
        • 2.思路
        • 3.代码
        • 4.验证
      • 2.给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?
      • 3.一个文件有100亿个整数,1G内存,设计算法找到出现次数不超过2次的所有整数
      • 4.给定100亿个整数,0.5G内存,设计算法找到只出现一次的整数?
        • 1.思路
        • 2.验证代码实现
  • 二.布隆过滤器
    • 1.布隆过滤器的提出
    • 2.布隆过滤器的概念
    • 3.布隆过滤器的应用场景
      • 1.能够容忍误判的场景
      • 2.无法容忍误判的场景
    • 4.代码实现
      • 1.选择字符串哈希函数
      • 2.推导出布隆过滤器长度
      • 3.大致结构
      • 4.具体实现
      • 5.测试
        • 1.小型测试
        • 2.大型测试
    • 5.标准非STL容器 : bitset
      • 验证
      • 改造
    • 6.布隆过滤器的优缺点
  • 三.哈希切分
    • 1.给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法
      • 1.近似算法
      • 2.精确算法
    • 2.给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?与上题条件相同,如何找到top K的IP?如何直接用Linux系统命令实现?
  • 四. 如何扩展BloomFilter使得它支持删除元素的操作?
    • 1.布隆过滤器删除的局限及其问题
    • 2.代码
    • 3.验证布隆过滤器删除的坑点
    • 4.使用额外的数据结构来进行扩展
      • 1.如何做呢?
      • 2.代码
      • 3.验证

一.位图

1.位图的概念

1.问题

给你40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中?

2.分析

1 Byte = 8 bit
1KB = 1024 Byte
1MB = 1024KB = 10241024 大约= 10的6次方Byte
1GB = 1024MB = 1024
10的6次方 大约= 10的9次方Byte = 10亿字节
因此4GB 约等于40亿字节

其实最快的方式就是记住1GB约等于10亿字节,这种题就好算了

我们知道40亿个整数,大概就是16GB
如果用排序+二分,
排序需要开16GB大的数组,就算用外排序(归并排序)排完序了,但是二分也需要数组啊…

如果用AVL树红黑树和哈希表
红黑树:三叉链结构+颜色 AVL树:三叉链结构+平衡因子 哈希表:负载因子每个节点的next指针等问题
内存当中更存不下

因此就需要用到位图了

3.位图的概念

在这里插入图片描述

4.演示

假设我们的位图使用一个char类型的数组实现的话
我们这个arr数组的最大值是22,因此只需要22个比特位即可
因此我们用一个char类型的数组,数组中有3个char即可
存放之前:
在这里插入图片描述
存放方式:
在这里插入图片描述
存放过程:
在这里插入图片描述
存放完毕后:
在这里插入图片描述

2.位图的操作

位图的三个核心操作:
set将x对应的比特位设置为1

将某一个比特位置为1,同时不影响其他比特位:
按位或一个数,这个数对应的那个比特位为1,其余比特位为0

void set(size_t x)
{
	size_t i = x / 8;
	size_t j = x % 8;
	_bits[i] |= (1 << j);
}

reset将x对应的比特位设置为0

将某一个比特位置为0,同时不影响其他比特位:
按位与一个数,这个数对应的那个比特位为0,其余比特位为1

void reset(size_t x)
{
	size_t i = x / 8;
	size_t j = x % 8;
	_bits[i] &= ~(1 << j);
}

test检查x在不在

跟一个数进行按位与
按位与一个数,这个数对应的那个比特位为1,其余比特位为0
如果结果
为0:说明不存在,
不为0说明存在

bool test(size_t x)
{
	size_t i = x / 8;
	size_t j = x % 8;

	return _bits[i] & (1<<j);
}

3.位图的实现

1.char类型的数组

实现了set reset test之后
位图其实就已经实现完毕了

namespace wzs
{
	// N是需要多少比特位
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_bits.resize(N/8+1, 0);
		}
	
		void set(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_bits[i] |= (1 << j);
		}
	
		void reset(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_bits[i] &= ~(1 << j);
		}
	
		bool test(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
	
			return _bits[i] & (1<<j);
		}
	private:
		vector<char> _bits;
	};
}

2.int类型的数组

也可以采用int类型的数组来搞
此时就不是除8模8了
而是除32模32了
因为一个int类型有32个比特位

namespace wzs
{
	// N是需要多少比特位
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			//_bits.resize(N/32+1, 0);
			_bits.resize((N>>5) + 1, 0);
		}

		void set(size_t x)
		{
			size_t i = x / 32;
			size_t j = x % 32;
			_bits[i] |= (1 << j);
		}

		void reset(size_t x)
		{
			size_t i = x / 32;
			size_t j = x % 32;
			_bits[i] &= ~(1 << j);
		}

		bool test(size_t x)
		{
			size_t i = x / 32;
			size_t j = x % 32;

			return _bits[i] & (1<<j);
		}
	private:
		vector<int> _bits;
	};
}

3.解决一开始的问题

因此对于一开始的那个问题:
在这里插入图片描述

位图开多大呢?

注意: 使用位图,且没有指定范围时,我们要按照该数据的范围大小来开位图

无符号整数的范围是0~4,294,967,295
因此我们需要开0~4,294,967,295大的范围

0~2的32次方-1的范围
一共有2的32次方个整数,

2的10次方是1024
2的30次方就是1024*1024*1024=1024*1024K=1024M=1G
因此2的32次方就是4G个整数

而我们使用一个比特位表示一个整数的,一个字节有8个比特位
因此我们只需要4G/8=0.5G个字节即可

因此我们的位图大小就是0.5G,正常情况下内存当中完全能存的下
无需担心

小小补充

而这个数字也不好记,其实它还有下面3种写法

  1. (size_t)-1 将-1强转为无符号整形
  2. UINT_MAX (unsigned_intMAX)
  3. 0xffffffff(16进制:8个f)
  4. pow(2,32)-1

一定注意:^在C++/C当中是异或,不是幂
因此(2^32)-1不等于那个数字

pow的返回值类型是double类型
在这里插入图片描述

验证

下面我们来验证一下位图能否完成这一任务
在这里插入图片描述
在这里插入图片描述
成功完成这一任务

4.位图的应用

1.给定100亿个整数,设计算法找到只出现一次的整数?

1.位图开多大?

我们先算一下100亿个整数要占多少G的内存?
一个比特位映射一个整数,一个字节有8个比特位
100亿个整数=100亿个比特位=100亿/8个字节=12.5亿字节=1.25G

我们真的要用1.25G的空间吗?
并不是!!!
而是刚才我们算的0.5G就足以

因为我们只存范围
如果要求必须使用位图来做,就算只有2个整数,不给我们范围,还是要用0.5G大小的位图

2.思路

找到只出现一次的整数,因为一个比特位只有0和1这两种状态,因此无法表示出现了1次以上的数字的状态

那么怎么办?
如果用2个比特位来表示一个整数的状态呢?
00就是出现0次
01就是出现1次
10就是出现2次
出现2次以后这个数我们就不再统计次数了

因此我们可以:
1.修改上面的位图,用2个比特位来表示一个整数
此时位图的大小就要乘以2,成为1G
2.用2个位图来做,每个位图依然是0.5G
只不过set,test函数要修改一下即可

下面我们就按照第2种来做吧,这个清晰易懂

3.代码

因为我们没有统计2次以上的次数,因此我们不允许进行reset操作

//利用组合来进行封装
template<size_t N>
class two_bitset
{
public:
	void set(int x)
	{
		//00 -> 01
		if (_bits1.test(x) == false && _bits2.test(x) == false)
		{
			_bits2.set(x);
		}
		//01 -> 10
		else if (_bits1.test(x) == false && _bits2.test(x) == true)
		{
			_bits1.set(x);
			_bits2.reset(x);
		}
		//10,不记录了
	}

	//返回x出现了多少次
	//返回2表示2次及以上
	int test(int x)
	{
		if (_bits1.test(x) == false && _bits2.test(x) == false)
		{
			return 0;
		}
		else if (_bits1.test(x) == false && _bits2.test(x) == true)
		{
			return 1;
		}
		return 2;
	}

private:
	bitset<N> _bits1;
	bitset<N> _bits2;
};
4.验证

在这里插入图片描述
成功

2.给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

经过刚才的那道题
我们已经能够很轻松的解决了

管你100亿还是200亿,统统开0.5G的位图

因为有2个文件,因此开2个位图,正好1个G

每个文件当中的每个整数还是按照一个比特位来映射
只不过取交集的时候要求两个位图当中的test都为true才是交集
因此我们直接用一开始的位图即可,不用再去写位图了
在这里插入图片描述
集合是具有互异性的,而我们的位图是天然去重的,因此无需担心交集当中出现重复值

下面我们来玩一下
在这里插入图片描述

3.一个文件有100亿个整数,1G内存,设计算法找到出现次数不超过2次的所有整数

跟第一个问题的思路一样,只不过找的条件不一样
此时就需要记录超过2次的次数了
可以用11表示出现3次即以上的次数
然后稍稍改一下即可,这里就不赘述了

4.给定100亿个整数,0.5G内存,设计算法找到只出现一次的整数?

1.思路

这不还是第1题吗?
不是的,因为这里只有0.5G,而我们的一个位图是0.5G,需要使用2个位图才可以

因此按照第1题的思路来做的话,内存当中是存不下的
怎么办?

首先我们要知道:我们一定还是需要2个位图的,一个位图搞不定
而一共就只有0.5G内存,分配给2个位图的话
一个位图才只有0.25G啊,存不下0~2的32次方-1这么大的范围,只能存一半

此时我们发现,只能存一半,那么我一次存一半,一共存2次不就行了吗?
第一次位图当中只查找0到2的31次方-1的范围当中只出现1次的整数
第二次位图当中只查找2的31次方到2的32次方-1的范围当中只出现1次的整数不就行了吗?

只不过第二次存的时候,只存大于等于2的31次方的值,而且所有的值要先减去2的31次方再存入,然后取的时候取出来再加上2的31次方

因此我们就可以这样玩

2.验证代码实现

因为第一次存完之后,存第二次之前要先把位图当中的原有数据清空
因此我们要提供一个clear操作,将位图当中的x对应的比特位置为0

void clear(int x)
{
	_bits1.reset(x);
	_bits2.reset(x);
}
void test_bitset4()
{
	//-1 -3 -4 -5都是转为无符号之后大于2的31次方的整数
	int a[] = { 1,1,2,2,2,2,5,6,1,9,7,-1,-3,-4,-5 };
	set_int::two_bitset<(1 << 31) - 1> bs;

	for (auto& e : a)
	{
		if ((size_t)e < (1 << 31))
		{
			bs.set(e);
		}
	}

	for (auto& e : a)
	{
		if ((size_t)e < (1 << 31))
		{
			int ret = bs.test(e);
			if (ret == 1)
			{
				cout << e << endl;
			}
			bs.clear(e);
		}
	}
	cout<<"第一次位图完成,下面开始第二次"<<endl;
	for (auto& e : a)
	{
		if ((size_t)e >= (1 << 31))
		{
			bs.set((size_t)e - (1 << 31));
		}
	}

	for (auto& e : a)
	{
		if ((size_t)e >= (1 << 31))
		{
			int ret = bs.test((size_t)e - (1 << 31));
			if (ret == 1)
			{
				cout << e << endl;
			}
		}
	}
}

在这里插入图片描述

二.布隆过滤器

这是知乎的一位大佬写的关于布隆过滤器的文章的开头的内容
我也觉得这句话写的特别好,分享给大家
在这里插入图片描述
我觉得不仅仅布隆过滤器是这句话的代表,我们后面要讲的哈希切分更是这句话典型的代表
完美的体现了对于数据结构选择的灵活性

1.布隆过滤器的提出

在这里插入图片描述
下面我们来分析一下,这种方法的准确性到底如何?
在这里插入图片描述
也就是说这个方法是走不通的,因为存在误判的可能

2.布隆过滤器的概念

但是布隆这个大佬是这么考虑的:
这个方法的确是行不通,但是这个方法对于不在的判定结果是准确的
那么我能否利用这个方法来进行一层过滤,把不在的完全过滤出去呢
在这里插入图片描述
而这就是我们今天要介绍的布隆过滤器
在这里插入图片描述

3.布隆过滤器的应用场景

1.能够容忍误判的场景

对于一些能够容忍误判的场景(也就是能够接受把不在误判为在),这个方法完全可以
比如说:
在这里插入图片描述
在这里插入图片描述

2.无法容忍误判的场景

在这里插入图片描述
对于一些无法容忍误判的场景,这个方法可以提高我查询的效率
也就是如果判定为不在,那么这个字符串一定不在,直接返回即可
如果判断为在,那么我再去相应的数据库当中进行查找,看看这个字符串到底是不是真的存在

因此布隆过滤器才叫做"过滤器"嘛

4.代码实现

下面我们来一起实现一下布隆过滤器吧

1.选择字符串哈希函数

很多大佬设计的很多字符串哈希算法:字符串哈希函数
我们就选上3个哈希函数吧
在这里插入图片描述

2.推导出布隆过滤器长度

这是知乎上的一位大佬写的关于布隆过滤器的一篇文章,感兴趣的话大家可以看一看
详解布隆过滤器的原理,使用场景和注意事项
在这里插入图片描述

3.大致结构

在这里插入图片描述
下面请大家思考一个问题:布隆过滤器支持删除吗?
在这里插入图片描述
答案是:一般是不支持的
当然也可以支持,此时就不能用一个比特位来进行映射了,而要用一个char/int来进行映射,采用类似于引用计数的方式进行映射

不过那样做的缺陷是,本来一个比特位就能解决问题,现在要用8个甚至32个比特位才能解决问题,对于空间的消耗一下子扩大为8被甚至32倍

4.具体实现

1.set

//插入x
void set(const K& x)
{
	//Hash1()是匿名对象,是仿函数对象,调用operator(),传入x作为参数
	size_t hashi1 = Hash1()(x) % M, hashi2 = Hash2()(x) % M, hashi3 = Hash3()(x) % M;
	//将3个比特位全部置为1即可
	_bits.set(hashi1);
	_bits.set(hashi2);
	_bits.set(hashi3);
}

2.test

//查找x
bool test(const K& x)
{
	//只要有一个比特位为0,就是false
	//3个比特位都为1,返回true(但是存在误判)
	size_t hashi1 = Hash1()(x) % M, hashi2 = Hash2()(x) % M, hashi3 = Hash3()(x) % M;
	if (_bits.test(hashi1) == false) return false;
	if (_bits.test(hashi2) == false) return false;
	if (_bits.test(hashi3) == false) return false;
	return true;
}

5.测试

1.小型测试
void test_bloom_filter()
{
	string strs[] = { "小明","小红" ,"小刚","李明","李华","小强" };
	BloomFilter<6> bf;
	for (auto& e : strs)
	{
		bf.set(e);
	}
	cout << "查看是否能够成功查找" << endl;
	for (auto& e : strs)
	{
		cout << e << " : " << bf.test(e) << endl;
	}
	cout << "查看是否存在误判" << endl;
	for (auto& e : strs)
	{
		cout << e << " : " << bf.test(e + 'a') << endl;
	}
	cout << "查看是否存在误判" << endl;
	string s[] = { "小名","小鸣","小茗","小铭",
"小洪","小虹","小宏","小鸿" };
	for (auto& e : s)
	{
		cout << e << " : " << bf.test(e) << endl;
	}
}

在这里插入图片描述

2.大型测试
void test_bloom_filter2()
{
	srand(time(0));
	const size_t N = 1000000;//N是100万
	BloomFilter<N> bf;

	std::vector<std::string> v1;
	std::string url = "https://zhuanlan.zhihu.com/p/43263751/";

	for (size_t i = 0; i < N; ++i)
	{
		v1.push_back(url + std::to_string(i));
	}

	for (auto& str : v1)
	{
		bf.set(str);
	}

	// v2跟v1是相似字符串集(前缀一样),但是后缀不一样
	std::vector<std::string> v2;
	for (size_t i = 0; i < N; ++i)
	{
		std::string urlstr = url;
		urlstr += std::to_string(9999999 + i);
		v2.push_back(urlstr);
	}

	size_t n2 = 0;
	for (auto& str : v2)
	{
		if (bf.test(str)) // 误判
		{
			++n2;
		}
	}
	cout << "相似字符串误判率:" << (double)n2 / (double)N << endl;

	// 不相似字符串集  前缀后缀都不一样
	std::vector<std::string> v3;
	for (size_t i = 0; i < N; ++i)
	{
		string url = "布隆过滤器";
		url += std::to_string(i + rand());
		v3.push_back(url);
	}

	size_t n3 = 0;
	for (auto& str : v3)
	{
		if (bf.test(str))
		{
			++n3;
		}
	}
	cout << "不相似字符串误判率:" << (double)n3 / (double)N << endl;
}

在这里插入图片描述
误判率大概是百分之9,百分之6左右
我们将M=5N调大一些,也就是把位图开大一些来看看
M=7
N:
在这里插入图片描述
误判率大概是百分之3,百分之4左右
已经很小了
M=9*N
在这里插入图片描述
误判率大概是百分之2,百分之1左右
知乎那位大佬针对于这一点也给出了折线图分析
在这里插入图片描述
感兴趣的话大家可以看一下那篇文章

5.标准非STL容器 : bitset

下面我们来说一下一个非常容易被忽视的点:
标准非STL容器 : bitset
这是一位大佬的博客,里面详细

bitset其实并不满足STL的所有要求

bitset内部是使用静态数组(类似于int arr[N])分配内存的,
也就是说bitset的数组并不是开辟在堆区的,而是开辟在栈区的
所以,使用bitset时要小心栈溢出

验证

下面我们来验证一下:
我们知道,如果bitset的数组是动态数组,也就是开辟在堆区的数组
那么bitset对象当中应该就只有一个指针也就是4/8个字节
如果bitset内部使用的是vector,那么bitset对象的大小就等于vector对象的大小
而我们知道vector的底层就是3个指针
start,finish,endOfStorage
因此大小就是12/24个字节
在这里插入图片描述
在这里插入图片描述
可以看出,随着位图越来越大,两者栈空间的差距也越来越大
在这里插入图片描述
那么怎么办呢?
难不成库里面的bitset就用不成了吗?
当然不是,new一个bitset对象,解引用调用其方法即可
下面我们改造一下布隆过滤器
封装std的bitset

改造

template <size_t N,class K = string,class Hash1 = HashFuncBKDR,class Hash2 = HashFuncAP,class Hash3 = HashFuncDJB>
class BloomFilter
{
public:
	//插入x
	void set(const K& x)
	{
		//Hash1()是匿名对象,是仿函数对象,调用operator(),传入x作为参数
		size_t hashi1 = Hash1()(x) % M, hashi2 = Hash2()(x) % M, hashi3 = Hash3()(x) % M;
		//将3个比特位全部置为1即可
		_pbits->set(hashi1);
		_pbits->set(hashi2);
		_pbits->set(hashi3);
	}
	//查找x
	bool test(const K& x)
	{
		//只要有一个比特位为0,就是false
		//3个比特位都为1,返回true(但是存在误判)
		size_t hashi1 = Hash1()(x) % M;
		if (_pbits->test(hashi1) == false) return false;
		size_t hashi2 = Hash2()(x) % M;
		if (_pbits->test(hashi2) == false) return false;
		size_t  hashi3 = Hash3()(x) % M;
		if (_pbits->test(hashi3) == false) return false;
		return true;
	}
private:
	//这里定义一个M,表示布隆过滤器的长度
	//因为N是布隆过滤器的非类型模板参数,M是位图的非类型模板参数,因此这里要加static和const来修饰M
	static const int M = 5 * N;
	//set_int::bitset<M> _bits;
	//std::bitset<M> _bits;
	std::bitset<M>* _pbits = new bitset<M>;
};

在这里插入图片描述
N=100万验证成功

6.布隆过滤器的优缺点

在这里插入图片描述

三.哈希切分

1.给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法

query:查询,比如SQL语句,网址等等,都是一个查询
这里我们把它当成字符串即可

1.近似算法

利用布隆过滤器+分批次读取
在这里插入图片描述

2.精确算法

利用哈希切分+set求交集
在这里插入图片描述
哈希切分时间复杂度:O(N)
每个query只遍历常数次
在这里插入图片描述
平均切分:时间复杂度O(N^2)
文件B当中的每个query读N次

从这就可以看出哈希切分的强大之处

2.给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?与上题条件相同,如何找到top K的IP?如何直接用Linux系统命令实现?

如何找到次数最多和TOP-K的IP地址?
在这里插入图片描述
如何利用linux系统命令来实现,这是文心一言给的答案
在这里插入图片描述

四. 如何扩展BloomFilter使得它支持删除元素的操作?

1.布隆过滤器删除的局限及其问题

在这里插入图片描述
将布隆过滤器中的每个比特位扩展成一个char/int,插入元素时给k个char/int加一,删除元素时,给k个char/int减一,通过多占用几倍的存储空间的代价来增加删除

但是有几个问题:

  1. 无法确认元素是否真正在布隆过滤器中
  2. 存在计数回绕

2.代码

template <size_t N, class K = string,class Hash1 = HashFuncBKDR, class Hash2 = HashFuncAP, class Hash3 = HashFuncDJB>
class BloomFilterExtendedVersion
{
public:
	BloomFilterExtendedVersion()
	{
		_v.resize(5 * N, 0);
	}
	//插入x
	void set(const K& x)
	{
		size_t hashi1 = Hash1()(x) % _v.size(), hashi2 = Hash2()(x) % _v.size(), hashi3 = Hash3()(x) % _v.size();
		_v[hashi1]++;
		_v[hashi2]++;
		_v[hashi3]++;
	}
	//查找x
	bool test(const K& x)
	{
		size_t hashi1 = Hash1()(x) % _v.size(), hashi2 = Hash2()(x) % _v.size(), hashi3 = Hash3()(x) % _v.size();
		if (_v[hashi1] == 0) return false;
		if (_v[hashi2] == 0) return false;
		if (_v[hashi3] == 0) return false;
		return true;
	}
	//删除x
	bool erase(const K& x)
	{
		if (test(x) == false) return false;
		size_t hashi1 = Hash1()(x) % _v.size(), hashi2 = Hash2()(x) % _v.size(), hashi3 = Hash3()(x) % _v.size();
		_v[hashi1]--;
		_v[hashi2]--;
		_v[hashi3]--;
	}
private:
	vector<int> _v;
};

3.验证布隆过滤器删除的坑点

在这里插入图片描述

4.使用额外的数据结构来进行扩展

1.如何做呢?

因此,仅仅只用计数器来做是不行的,那么怎么办呢?
在这里插入图片描述
其实跟我们上面讲的布隆过滤器在学校B无法容忍误判的场景相似
删除时先进行查找,如果不在布隆过滤器当中,那就返回false即可,
如果在布隆过滤器当中,那么就先到数据库当中查找,如果真的在,那么久把计数器–,并且在数据库当中删除该元素

此时我们用一个unordered_set/set充当数据库,存储实际的元素

下面我们写代码

2.代码

template <size_t N, class K = string,class Hash1 = HashFuncBKDR, class Hash2 = HashFuncAP, class Hash3 = HashFuncDJB>
class BloomFilterExtendedVersion
{
public:
	BloomFilterExtendedVersion()
	{
		_v.resize(5 * N, 0);
	}
	//插入x
	void set(const K& x)
	{
		size_t hashi1 = Hash1()(x) % _v.size(), hashi2 = Hash2()(x) % _v.size(), hashi3 = Hash3()(x) % _v.size();
		_v[hashi1]++;
		_v[hashi2]++;
		_v[hashi3]++;
		_us.insert(x);
	}
	//查找x
	bool test(const K& x)
	{
		size_t hashi1 = Hash1()(x) % _v.size(), hashi2 = Hash2()(x) % _v.size(), hashi3 = Hash3()(x) % _v.size();
		if (_v[hashi1] == 0) return false;
		if (_v[hashi2] == 0) return false;
		if (_v[hashi3] == 0) return false;
		if (_us.count(x) == 0) return false;
		return true;
	}
	//删除x
	bool erase(const K& x)
	{
		if (test(x) == false) return false;
		size_t hashi1 = Hash1()(x) % _v.size(), hashi2 = Hash2()(x) % _v.size(), hashi3 = Hash3()(x) % _v.size();
		_v[hashi1]--;
		_v[hashi2]--;
		_v[hashi3]--;
		_us.erase(x);
	}
private:
	vector<int> _v;
	unordered_set<K> _us;
};

3.验证

在这里插入图片描述
经过上面的一系列分析
我们可以得出
如果该布隆过滤器是应用在能够容忍误判的场景
那么建议不要实现删除操作,否则既浪费空间,又会产生计数回绕和误删的坑点
如果该布隆过滤器是应用在无法容忍误判的场景,
那么可以实现删除操作,唯一的不太好的点就是浪费空间,不过没有计数回绕和误删的问题了

以上就是C++ 哈希思想应用:位图,布隆过滤器,哈希切分的全部内容,希望能对大家有所帮助!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1564002.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Redis】NoSQL之Redis的配置和优化

关系型数据库与非关系型数据库 关系型数据库 关系型数据库是一个结构化的数据库&#xff0c;创建在关系型模型&#xff08;二维表&#xff09;的基础上&#xff1b;一般面向于记录&#xff1b; SQL语句(标准数据查询语句)就是一种基于关系型数据库的语言&#xff0c;用于执行…

转圈游戏(acwing)

题目描述&#xff1a; n 个小伙伴&#xff08;编号从 0 到 n−1&#xff09;围坐一圈玩游戏。 按照顺时针方向给 n 个位置编号&#xff0c;从 0 到 n−1。 最初&#xff0c;第 0 号小伙伴在第 0 号位置&#xff0c;第 1 号小伙伴在第 1 号位置&#xff0c;…

FastAPI Web框架教程 第14章 部署

14-1 在Linux上安装Python 【环境】 腾讯云服务器 Centos 8 【安装方式】 源码编译安装 安装步骤&#xff1a; 第1步&#xff1a;更新yum源 cd /etc/yum.repos.d/ sed -i s/mirrorlist/#mirrorlist/g /etc/yum.repos.d/CentOS-* sed -i s|#baseurlhttp://mirror.centos.…

SV学习笔记(一)

SV&#xff1a;SystemVerilog 开启SV之路 数据类型 內建数据类型 四状态与双状态 &#xff1a; 四状态指0、1、X、Z&#xff0c;包括logic、integer、 reg、 wire。双状态指0、1&#xff0c;包括bit、byte、 shortint、int、longint。 有符号与无符号 &#xff1a; 有符号&am…

ObjectiveC-03-XCode的使用和基础数据类型

本节做为Objective-C的入门课程&#xff0c;笔者会从零基础开始介绍这种程序设计语言的各个方面。 术语 ObjeC&#xff1a;Objective-C的简称&#xff0c;因为完整的名称过长&#xff0c;后续会经缩写来代替&#xff1b;项目/工程&#xff1a;也称工程&#xff0c;指的是一个A…

记某客户的一次无缝数据迁移

背景 客户需要将 Elasticsearch 集群无缝迁移到移动云&#xff0c;迁移过程要保证业务的最小停机时间。 实现方式 通过采用成熟的 INFINI 网关来进行数据的双写&#xff0c;在集群的切换恢复过程中来记录数据变更&#xff0c;待全量数据恢复之后再追平后面增量数据&#xff…

Node.js------Express

◆ 能够使用 express.static( ) 快 速 托 管 静 态 资 源◆ 能够使用 express 路 由 精 简 项 目 结 构◆ 能够使用常见的 express 中间件◆ 能够使用 express 创建API接口◆ 能够在 express 中启用cors跨域资源共享 一.初识Express 1.Express 简介 官方给出的概念&#xff…

Discuz! X3.5苗木_苗木网_苗木价格_苗木求购信息_苗木批发网模板utf-8

适合做苗木行业平台苗木网站、苗木信息网,提供苗木报价、各地苗木求购信息、绿化苗木采购招标、苗木基地展示、苗木百科知识、花木交易及苗木资讯、各地苗木信息网络行情。解压上传到template目录下&#xff0c;后台安装即可&#xff0c;包含PC手机端模板 下载地址&#xff1a;…

Windows 上路由、端口转发配置,跨网络地址段

一、背景 有时候我们会遇到这样的场景&#xff0c;一批同一局域网中只有某一台主机带外且系统为windows&#xff0c;局域网中其他非带外的主机要想访问外网&#xff0c;本文将介绍如何配置在带外主机上开启路由及端口转发。 二、配置操作 2.1、带外主机开启路由转发 1&#x…

QA测试开发工程师面试题满分问答6: 如何判断接口功能正常?从QA的角度设计测试用例

判断接口功能是否正常的方法之一是设计并执行相关的测试用例。下面是从测试QA的角度设计接口测试用例的一些建议&#xff0c;包括功能、边界、异常、链路、上下游和并发等方面&#xff1a; 通过综合考虑这些测试维度&#xff0c;并设计相应的测试用例&#xff0c;可以更全面地评…

一文盘点Mendix在SAP之上的那些事儿

前言 近来接手了2个与SAP有关的低代码案子&#xff0c;客户都会问Mendix和SAP之间怎么回事。 2017年开始Mendix 成为SAP Endorsed APP级别合作伙伴&#xff0c;并再度升级为Solution Extension最高级别。 两家公司风雨同舟七载&#xff0c;服务的全球大客户不胜枚举。 商业…

【嵌入式智能产品开发实战】(十四)—— 政安晨:通过ARM-Linux掌握基本技能【链接静态库与动态库】

目录 链接静态库 动态链接 与地址无关的代码 全局偏移表 延迟绑定 共享库 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收录专栏: 嵌入式智能产品开发实战 希望政安晨的博客能够对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论…

穿什么有这么重要?--装饰模式

1.1 穿什么有这么重要&#xff1f; 约会穿什么&#xff1f; "那要看你想给人家什么印象&#xff1f;是比较年轻&#xff0c;还是比较干练&#xff1b;是比较颓废&#xff0c;还是要比较阳光&#xff1b;也有可能你想给人家一种极其难忘的印象&#xff0c;那穿法又大不一样…

算法错题本

这里写目录标题 错题本注意数据的耦合性对于无解情况的处理思路一组数据以0为结束标记&#xff0c;如何输入到数组中&#xff0c;并计数多个数据进行比较链表删除重复元素的启发循环体里谨慎写类型定义并初始化&#xff08;一般写上就是错&#xff09;队列中读取队尾元素数组当…

基于ssm的三省学堂-学习辅助系统(java项目+文档+源码)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的三省学堂-学习辅助系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 三省学堂-学习辅助系统的…

深入理解数据结构第二弹——二叉树(2)——堆排序及其时间复杂度

看这篇前请先把我上一篇了解一下&#xff1a;深入理解数据结构第一弹——二叉树&#xff08;1&#xff09;——堆-CSDN博客 前言&#xff1a; 相信很多学习数据结构的人&#xff0c;都会遇到一种情况&#xff0c;就是明明最一开始学习就学习了时间复杂度&#xff0c;但是在后期…

回顾快速排序

快速排序 快速排序的核心&#xff1a; 找到一个key 通常左边的数比key小&#xff0c;右边的数比key大。 找key通常有三种方法&#xff1a; 1. 挖坑法&#xff1a; 代码实现&#xff1a; // int _pivot(int* a, int left, int right) {int begin left, end right;int in…

开源AGV调度系统OpenTCS中的任务分派器(dispatcher)详解

OpenTCS中的任务分派器dispatcher详解 1. 引言2. 任务分派器(dispatcher)2.1 默认的停车位置选择2.2 可选停车位置属性2.3 默认的充电位置选择2.4 即时运输订单分配 3. 默认任务分派器的配置项4. 参考资料与源码 1. 引言 openTCS是一项著名的开源运输控制系统&#xff0c;我在…

Go 源码之 Chan

Go 源码之 chan go源码之chan - Jxy 博客 目录 Go 源码之 chan一、总结二、源码&#xff08;一&#xff09;hchan&#xff08;二&#xff09;创建&#xff08;三&#xff09;发送&#xff08;四&#xff09;接收&#xff08;五&#xff09;关闭 三、常见问题1.为什么要使用环形…

[Linux] 排查问题指令top/ps/netstat

在Linux下查看某个端口运行的指令 1. 首先通过netstat来查看端口对应的进程号 比如抓取端口53这个DNS服务的进程 netstat -tulnp | grep 53 可以看到53这个端口号对应的pid是720 2. 通过ps指令来对进程号执行的命令查询 ps aux | grep 720 可以看到pid为720这个进程对应的执…