C++实现位图与布隆过滤器

news2024/11/23 17:14:18

文章目录

  • 前言
  • 1.位图相关介绍
  • 2.位图的实现
  • 3.位图的简单总结
  • 4.布隆过滤器的相关介绍
  • 5.布隆过滤器的实现
  • 6.布隆过滤器总结
    • 1.布隆过滤器的特点
    • 2.布隆过滤器的优点
    • 3.布隆过滤器的缺点
  • 7.位图的应用海量数据面试题

前言

之前介绍了哈希表,本文要介绍另一种基于哈希思想的数据结构——位图。位图也是基于哈希思想将数据进行映射,位图在处理一些海量数据问题方面有着高效,占用内存资源较少等诸多优点。布隆过滤器本质也是位图结构,在一些场景下可以高效的过滤筛选出一些数据,是一种极其有用的工具。


1.位图相关介绍

在Liunx相关博客中就提到了位图结构,位图简单来说就是哈希的变形,采用的是直接定址法来进行映射。位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。我们知道传统的这种直接映射当数据量太多的时候就会需要很大的空间,如果我们是按照比特位建立映射的时候就会节省很多空间,也保证了查找效率。这也就是位图的实现方式。

在这里插入图片描述

那位图应该怎么映射呢?我们知道一个字节有8个比特位,我们先用数据除上8得出该数据应该映射在第几个字节上,再用数据模上8得到在该字节的第几个比特位上,这样就可以将数据映射到对应的比特位了。

2.位图的实现

位图的实现起来比较简单,这里也是vector数组作为映射容器,这个vector的应该开多大呢?如果我们的数据范围刚好可以被8整除,N就可以开/8的大小,但是如果不能被整除那就需要多个一个字节将余下的数据进行映射,综合来说直接开N/8+1即可,这样的话最多也就浪费几个比特位而已。

template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_bitset.resize(N / 8 + 1, 0);
		}
		//将映射的比特位置为1
		void set(int x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_bitset[i] |= (1 << j);
		}
		//将映射的比特位置为0
		void reset(int x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_bitset[i] &= ~(1 << j);
		}
		//得到对应比特位的1或0的情况
		bool test(int x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			return _bitset[i] & (1 << j);
		}
	private:
		vector<char>_bitset;
	};

这里位图主要就3个接口,将映射的位置设置为0,将映射的位置设置为1,以及获得映射位置的0或者1的情况。这些通过逻辑运算即可实现,将1左移对应的比特位数再或运算,这样就可以将映射位置设为1,同时也不影响其他的比特位,同理剩下的接口也是采用类似的逻辑运算进行设置。这些实现起来都不是特别难。

位图简单测试

#include<iostream>
#include<vector>
using namespace std;
namespace Ly
{
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_bitset.resize(N / 8 + 1, 0);
		}
		void set(int x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_bitset[i] |= (1 << j);
		}
		void reset(int x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_bitset[i] &= ~(1 << j);
		}
		bool test(int x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			return _bitset[i] & (1 << j);
		}
	private:
		vector<char>_bitset;
	};
}
#include"BitSet.h"
void test_bitset1()
{
	Ly::bitset<100> bs;
	bs.set(10);
	bs.set(11);
	bs.set(15);
	cout << bs.test(10) << endl;
	cout << bs.test(15) << endl;
	cout << endl;

	bs.reset(10);
	cout << bs.test(10) << endl;
	cout << bs.test(15) << endl;
	cout << endl;

	bs.reset(10);
	bs.reset(15);
	cout << bs.test(10) << endl;
	cout << bs.test(15) << endl;
}

int main()
{
	test_bitset1();
	return 0;
}

在这里插入图片描述

3.位图的简单总结

位图的作用场景

快速查找某个数据是否在一个集合中.;排序;求两个集合的交集、并集等;操作系统中磁盘块记。

位图的优缺点

优点:节省空间,效率较高,缺点:处理场景比较单一,只能处理整形,不能重复处理数字

4.布隆过滤器的相关介绍

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概
率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。布隆过滤器主要用在字符串的处理上。

我们知道位图的效率虽然很高,而且节省空间。但是位图只能处理整形,但是实际需求中,我们可能需要处理字符串。布隆过滤器本质也是位图结构,通过对应的哈希函数将字符串转成特定的数字后再将其映射到位图中,但是哈希转化函数可能会将不同的字符串转成相同的key,从而引发冲突产生误判,为了减少误判的产生,我们可以设计多个不同的哈希转成函数,将一个字符串转成多个key进行映射,减少误判的风险。

在这里插入图片描述

从以上分析可以得出:布隆过滤器一定可以判断出不存在的元素,但是判断出元素存在未必是正确的结果。

5.布隆过滤器的实现

布隆过滤器本质也是一种位图结构,主要是应用场景是处理字符串,布隆过滤器中有多个哈希函数进行key值转化映射到特定的位置上.

struct BKDRHash
	{
		size_t operator()(const string& s)
		{
			size_t hash = 0;
			for (auto ch : s)
			{
				hash += ch;
				hash *= 31;
			}

			return hash;
		}
	};

	struct APHash
	{
		size_t operator()(const string& s)
		{
			size_t hash = 0;
			for (long i = 0; i < s.size(); i++)
			{
				size_t ch = s[i];
				if ((i & 1) == 0)
				{
					hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
				}
				else
				{
					hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
				}
			}
			return hash;
		}
	};


	struct DJBHash
	{
		size_t operator()(const string& s)
		{
			size_t hash = 5381;
			for (auto ch : s)
			{
				hash += (hash << 5) + ch;
			}
			return hash;
		}
	};
template<size_t N,class K = string,class Hash1 = BKDRHash,class Hash2 = APHash,
class Hash3 = DJBHash>
class BloomFilter
{
	public:
		void set(const K& key)
		{
			size_t len = N * _X;
			size_t hash1 = Hash1()(key) % len;
			_bs.set(hash1);

			size_t hash2 = Hash2()(key) % len;
			_bs.set(hash2);

			size_t hash3 = Hash3()(key) % len;
			_bs.set(hash3);
		}

		bool test(const K& key)
		{
			size_t len = N * _X;

			size_t hash1 = Hash1()(key) % len;
			if (!_bs.test(hash1))
			{
				return false;
			}

			size_t hash2 = Hash2()(key) % len;
			if (!_bs.test(hash2))
			{
				return false;
			}

			size_t hash3 = Hash3()(key) % len;
			if (!_bs.test(hash3))
			{
				return false;
			}
			return true;
		}
	private:
		static const size_t _X = 6;
		bitset<N*_X> _bs;
	};

}

布隆过滤器在一些对数据要求不是那么严格出场景下可以快速处理筛选海量数据,比如:判断某个昵称是否被注册。当然在一些对数据要求比较严格的场景下也可以起到辅助作用快速过滤出不存在的数据,布隆过滤器的要解决的问题就是减低通过单一哈希函数计算出的key产生的冲突概率。

6.布隆过滤器总结

1.布隆过滤器的特点

很显然,过小的布隆过滤器很快所有的 bit 位均为 1,那么查询任何值都会返回“可能存在”,起不到过滤的目的了。布隆过滤器的长度会直接影响误报率,布隆过滤器越长其误报率越小。另外,哈希函数的个数也需要权衡,个数越多则布隆过滤器 bit 位置位 1 的速度越快,且布隆过滤器的效率越低;但是如果太少的话,那我们的误报率会变高。因此布隆过滤器的位图长度和对应的哈希函数的个数决定着布隆过滤器的性能。布隆过滤器不能直接支持删除工作,因为在删除一个元素时,可能会影响其他元素

2.布隆过滤器的优点

1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关
2. 哈希函数相互之间没有关系,方便硬件并行运算3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势.
4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势.
5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能.
6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算.

3.布隆过滤器的缺点

1. 有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据)
2. 不能获取元素本身一般情况下不能从布隆过滤器中删除元素
3.如果采用计数方式删除,可能会存在计数回绕问题.

7.位图的应用海量数据面试题

1. 面试题:给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。【腾讯】

这道题最优的解法就是利用位图来解决,在或者不在这是两种状态用1和0表示即可,我们将40亿的数据都可以映射到对应的比特的位上进行判断,这样既可以快速遍历判断,还可以节省空间,大概只使用512M的空间即可。

2.给定100亿个整数,请设计算法找到只出现一次的整数.

100亿个整数,肯定有元素是重复的,而位图是采用1个比特位表示数据存在与否的状态信使用息,不能处理重复故采用两个比特位来映射元素:00代表该数据不存在;01:代表数据出现一次;10:代表数据出现多次(两次及以上)。我们直接使用两个位图,将数据映射到这两个位图中,开始遍历的时候如果映射位置位图是00说明一次都没出现过,就将其设置为01,如果对应位置是01,说明出现过一次将其设置为10即可。

3. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

这里100亿个整数肯定是有重复的,我们将其中其中一份文件的数据映射到一个位图中,在和另一个文件进行对比,如果该文件中出现的数据另一个位图也存在就说明该元素就是交集的一部分,将其记录下来即可。这样哪怕数据范围在到最大的整形,位图也才消耗512M大小的空间。

4.给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?与上题条件相同,如何找到top K的IP。

这里文件很大,不能一次性加载到内存中处理,我们可以先进行分割将其分割成等大的1024份文件,这样每个文件也才100M。我们将求每个文件topK,最后将1024个topK求一次topK,这样的处理看起来很好,但是会有一个小问题就是当有一些重复的数据的时候,可能这些重复的数据没有在一个文件中,从而影响最后的结果。因此我们可以利用哈希的思想相同的key会有相同的哈希地址,我们将ip作为key值进行转化作为文件名,这样大量重复的文件就会在相同的文件中,在通过哈希表(unordered_map)统计次数即可。这样的切割方式被称为哈希切割,当有重复大量的ip的时候哈希表中只会插入(映射)一份ip,但是这种方式就需要注意必须知道文件中确实存在大量重复的数据,不然这样存在大量不重复的数据的数据插入unordered_map时可能就会插入失败,从而程序报错。这个时候就需要重新更改计算key的函数了。

以上内容,如有问题,欢迎指正,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/703379.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java爬虫与Python爬虫有什么区别

Java爬虫和Python爬虫是两种常见的网络爬虫实现方式&#xff0c;它们在语言特性、开发环境和生态系统等方面存在一些区别。 1. 语言特性&#xff1a;Java是一种面向对象的编程语言&#xff0c;而Python是一种脚本语言。Java较为严谨&#xff0c;需要明确定义类、方法和变量&…

快速生成数据库表说明文档

背景 项目过程中需要对数据库字段说明归纳总结成文档&#xff0c;每个字段都用驼峰命名的话会比较低效繁琐。 现在分享一个在工作中使用的工具&#xff0c;可以一键生成数据库说明文档&#xff0c;简单的改改即可。 支持的数据库类型 MySql Oracle SqlServer PostgreSql Ma…

【vue3】15-Vue全家桶-Pinia-更优雅的管理vue状态

Pinia状态管理 Pinia和Vuex的对比Pinia详解Pinia基本使用创建pinia创建Store 核心概念statestate基本使用sate其他操作 核心概念gettersgetters基本使用getters其他操作 核心概念actionsactions基本使用actions异步操作 Pinia和Vuex的对比 什么是Pinia呢&#xff1f; Pinia&a…

使用OPC UA客户端工具Softing OPC Client读写OPC节点数据

Softing OPC Client工具介绍 Softing OPC Client工具是德国Softing公司出品的标准OPC客户端。是最完备的OPC UA客户端工具。全部的数据类型都支持,功能齐备。是查看或测试OPC服务器的最好工具了。功能齐全、使用方便、而且免费 官方下载地址: https://industrial.softing.co…

AI视频融合平台EasyCVR添加上级平台提示语出现错位现象的排查与优化

EasyCVR视频融合平台基于云边端一体化架构&#xff0c;具有强大的数据接入、处理及分发能力&#xff0c;平台支持多协议、多类型的设备接入&#xff0c;包括主流标准协议国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大…

web自动化测试——pytest快速上手

目录 1. pytest 1.1 安装 1.2 验证安装 1.3 pytest文档 1.4 创建测试用例 1.5 执行测试用例 1.5.1 使用命令行执行 1.5.2 IDE&#xff08;PyChram&#xff09;执行 1.5.3 执行指定文件指定方法 1.5.3.1 命令行编写方式 1.5.3.2 pycharm 编写方式 1.5.4 带参数执行 …

spring Cloud使用Skywalking搭建笔记

skywalking支持dubbo&#xff0c;SpringCloud&#xff0c;SpringBoot集成&#xff0c;代码无侵入&#xff0c;通信方式采用GRPC&#xff0c;性能较好&#xff0c;实现方式是java探针&#xff0c;支持告警&#xff0c;支持JVM监控&#xff0c;支持全局调用统计等等&#xff0c;功…

品牌方的brief怎么写,注意事项

我们都知道&#xff0c;对于产品传播来说&#xff0c;达人起着重要的作用。可又是什么影响着达人的传播结果呢?今天给大家分享下&#xff0c;品牌方的brief怎么写的注意事项。 一、什么是brief 可能有的朋友&#xff0c;还不太清楚&#xff0c;到底什么是brief。Brief&#xf…

【openGauss数据库】---设置开机自启动openGauss数据库服务

【openGauss数据库】---设置开机自启动openGauss数据库服务 &#x1f53b; 一、openGauss 自定义服务的配置文件了解&#x1f53b; 二、设置openGauss 开机自启动&#x1f53b; 三、总结—温故知新 &#x1f448;【上一篇】 &#x1f496;The Begin&#x1f496; 点点关注&am…

基于边缘计算AidLux的自动驾驶智能预警应用方案

上传源码至AidLux&#xff08;具体操作见前面AIGC帖子&#xff09; 配置环境&#xff1a; cd YOLOP/YOLOP pip install -r requirements.txt pip install torch1.8.1 torchvision0.9.1 -i https://pypi.mirrors.ustc.edu.cn/simple/ pip install onnxruntime -i https://py…

Linux--删除目录:

一、删除空目录&#xff1a;rmdir rmdir是remove director的简写 语法&#xff1a; rmdir 目录名 功能&#xff1a; 删除空目录 示例&#xff1a; 删除空目录&#xff1a;成功 删除非空目录&#xff1a;失败 删除一切&#xff1a;rm 语法&#xff1a; 1.rm 文件名2.rm -r…

Unity wav2Audioclip知识点记录

链接&#xff1a;hanachiru/Wav2AudioClipSample: Sample project to convert Wav files to AudioClip. (github.com) public static class Wav {/// <summary>/// Create AudioClip/// </summary>/// <param name"fileBytes">.wav</param>/…

ajax根据经纬度 获取地址

address 参数格式&#xff0c;经度在前&#xff0c;维度在后&#xff0c;以逗号隔开。 开放地址&#xff0c;有可能失效 var address 30.67,104.06; //经纬度格式一 //var address11620.12’,3912.34’;//经纬度格式二 var url "http://api.map.baidu.com/geocoder/…

什么台灯护眼效果好?注意这些选灯细节!

每个人对一个事物的接受能力跟使用体验是不一样的&#xff0c;但是护眼灯可以说是大部分人使用下来都觉得好用的产品&#xff0c;我自己大学毕业后&#xff0c;面对电脑比较多&#xff0c;我也会买个护眼台灯用&#xff0c;可以舒缓眼部疲劳&#xff0c;给孩子使用也是&#xf…

【【51单片机的DS1302模块-9】】

51单片机的DS1302模块使用 DS1302时钟显示 显示年月日 时钟秒 再可以通过按键调节时间 有种当初买的小手表的感觉 其实我们芯片内部也是可以用计时的&#xff0c;但是过分占用了芯片内部的计时模块&#xff0c;我们不如通过外部的时间模块DS1302来操作 单片机的定时器不能掉电…

Linux教程——Linux用户和用户组(包含两者之间的关系)

Linux 是多用户多任务操作系统&#xff0c;换句话说&#xff0c;Linux 系统支持多个用户在同一时间内登陆&#xff0c;不同用户可以执行不同的任务&#xff0c;并且互不影响。 例如&#xff0c;某台 Linux 服务器上有 4 个用户&#xff0c;分别是 root、www、ftp 和 mysql&…

想知道通行密钥如何取代密码吗?看完这篇文章你就懂了

密码作为一种广泛应用的身份验证方式&#xff0c;已经成为我们日常生活中不可或缺的一部分。然而&#xff0c;随着技术的不断发展和安全威胁的增加&#xff0c;传统的用户名-密码组合逐渐显示出一些弊端。幸运的是&#xff0c;通行密钥作为一种新兴的身份验证方法&#xff0c;正…

Springboot 处理BigDecimal 数据科学计数格式,展示E+8的问题

如图&#xff1a; 处理方式&#xff1a; 我们基于springboot的 JsonSerializer &#xff0c;我们自定义一下 针对BigDecimal类型属性的JsonSerializer处理。 import com.fasterxml.jackson.core.JsonGenerator; import com.fasterxml.jackson.databind.JsonSerializer; import…

vue 3.0 + vite + flv 视频流播放

官方提供的 demo 地址&#xff0c;大家可以用自己的流地址&#xff0c;先试试是否符合需求&#xff1b; http://bilibili.github.io/flv.js/demo/ Flv.js API https://gitee.com/mirrors/flv.js/blob/master/docs/api.md 安装 Flv.js npm install --save flv.js更改 tscon…

CASAIM 与ABB 达成三维数字化测量技术合作,CASAIM 国有专业尺寸检测实验室助力机器人轨道检测

近期&#xff0c;CASAIM与ABB达成三维数字化测量技术合作&#xff0c;CASAIM 国有专业尺寸检测实验室助力ABB完成机器人轨道检测&#xff0c;提高机器人的运动精度和稳定性。 ABB集团位列全球500强企业&#xff0c;是全球领先的工业机器人制造商之一&#xff0c;致力于提供高质…