《位图布隆过滤器》

news2024/11/18 20:41:59

【一】位图的概念

位图,就是用每一个比特位来存放某种状态,适用于海量数据,整数,数据无重复的场景,通常是用来判断某个数据存不存在的。例如:10个整数本应该存放四十个字节,此时用位图只需要十个比特位,也就是三个字节。

【二】位图的实现

class MyBitmap
{
public:
	MyBitmap()
	{	
		//默认为两个字节,且为16个比特位
		this->elem = new char[1];
	}

	MyBitmap(int n)
	{
		this->elem = new char[n / 16 + 1];
	}
	void set(int val)//存放这个值
	{
		if (val < 0) {
			assert("输入的值有误,请重新检查!");
		}
		int ArrayIndex = val / 16;
		int BitIndex = val % 16;
		this->elem[ArrayIndex] |= (1 << BitIndex);
		usedSize++;
	}
	
	bool get(int val)//寻找这个值是否是真的在这个位图上面
	{
		if (val < 0)
		{
			assert("输入的值有误,请重新检查!");
		}
		int ArrayIndex = val / 16;
		int BitIndex = val % 16;
		if (this->elem[ArrayIndex] & (1 << BitIndex) != 0)
		{
			return true;
		}
		return false;
	}

	void CancelSet(int val)
	{
		if (val < 0)
		{
			assert("输入的值有误,请重新检查!");
		}
		int ArrayIndex = val / 16;
		int BitIndex = val % 16;
		this->elem[ArrayIndex] &= ~(1 << BitIndex);
		usedSize--;
	}

private:
	char* elem;
public:
	int usedSize;
};

【三】位图的缺陷应用

应用:

1.快速查找某一个数据是否在一个集合中

2.排序+去重

3.求两个集合的交集,并集

4.操作系统中磁盘块标记

缺陷:

1.只能存放整数,对字符串类型是没有办法进行存储的

2.只能知道一个数据是否存在,并不能知道这个数据是存在几次

【四】布隆过滤器

1.布隆过滤器的提出

一般来说,计算机中的集合是用哈希表来存储的是,它的好处是快速准确,缺点是废内存,当集合较小时,这个问题不是十分明显,但是如果集合是很巨大的时,哈希表存储效率是非常低下的。如:Yahoo,Hotmaill这种公众电子邮件提供商,需要去过滤那些发送垃圾邮件的人的垃圾邮件,其中一个办法就是记下这些垃圾邮件的地址,但是因为邮件地址是可以随意注册的,所有目前来说最少有几十亿个发垃圾邮件的地址,将他们存起来则需要大量的网络服务器。如果使用哈希表来存储,则需要200g左右的内存,而一般的电脑上是很难达到这样的内存规格的。

1.用哈希表存储用户地址,缺点:浪费空间

2.用位图存储用户地址,缺点:如果那个地址是字符串,这是非常无能为力的

3.所以将哈希表和位图相结合,就是布隆过滤器

【五】布隆过滤器概念

布隆过滤器由布隆在布隆在1970年提出的一种紧凑型,比较巧妙的概率型数据结构,特点是高效的插入和查询,可以用来告诉你某样东西一定不存在或者可能存在,它由多个哈希函数,将一个数据映射到位图结构中,此种方式不仅可以提升查询效率吗,也可以节省大量的空间。

 【六】布隆过滤器的插入

向布隆过滤器中插入:“baidu”,“tenxun”

 【七】布隆过滤器的查找

布隆过滤器思想是将一个元素用多个哈希函数映射多个哈希函数映射到每一个位图中,因此映射到的位置比特位一定为一,所以可以按照以下方式进行查找;分别计算每个哈希值对应的值是否为0,只有一个为零,就代表该元素一定不在哈希表中,否则可能在哈希表中。

比如:在布隆过滤器中查找“alibaba”时,假设3个哈希计算的哈希值为1,3,7,刚好和其他元素的比特位重叠,此时布隆过滤器告诉该元素存在,但是该元素是不存在的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/125130.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ajax(JavaWebAjax、源生Ajax、跨域)

1.JavaWeb - Ajax 概念&#xff1a;AJAX&#xff08;Asynchronous Java JavaScript And Xml &#xff09;&#xff1a;异步的JavaScript和Xml AJAX作用&#xff1a; 与服务器进行数据交换&#xff1a;通过AJAX可以给服务器发送请求&#xff0c;并获取服务器响应的数据。 使用…

2022-12-28-面试题整理

1. Spring中Bean创建完成后执行指定代码的几种实现方式 实现ApplicationListener接口 实现ApplicationListener接口并实现方法onApplicationEvent()方法&#xff0c;Bean在创建完成后会执行onApplicationEvent()方法 Component public class DoByApplicationListener impleme…

Java操作redis数据库之读取csv文件

csv文件 要想对某个文件进行具体操作&#xff0c;首先要了解这个文件的结构。csv 全称“Comma-Separated Values”&#xff0c;是一种逗号分隔值格式的文件&#xff0c;是一种用来存储数据的纯文本格式文件。CSV 文件由任意数目的记录组成&#xff0c;记录间以某种换行符分隔&…

FPGA再入门——UART IP核调用

我的工作偏向硬件设计与调试&#xff0c;但是经过几年的发展&#xff0c;发觉不会调程序发展真的很受限制。最近越来越被这种限制折磨的很难受&#xff0c;所以开始学习调调程序。其实&#xff0c;本科与研究生阶段都有过做写代码的经历&#xff0c;算是入过门。但是&#xff0…

[3]ESP32连接MQTT服务端

MQTT库&#xff1a;PubSubClient 连接MQTT服务端 #include <Arduino.h> #include <WiFi.h> #include <PubSubClient.h>const char *ssid "613专属"; const char *password "613613613"; const char *mqttServer "test.ranye-…

CDGA|持续投入开展数据治理工作可以从这四大方向着手

数字化转型趋势下&#xff0c;外部监管以及内部数据使用都对数据治理提出更高效、更准确、更完备、更合规的要求&#xff0c;企业如何抓住新形势下的要求&#xff0c;开展自身数据治理工作&#xff1f; 纵观数据治理的发展历程&#xff0c;剖析数据治理的建设路径&#xff0c;持…

3. 中断向量是( )。 ————计算机组成原理

中断向量是&#xff08; &#xff09; A.子程序入口地址 B.中断向量表的首地址 C.终端服务程序入口地址 D.终端服务入口地址的地址 答案&#xff1a; C 知识点&#xff1a; 终端的概念&#xff1a; 1 机器出现了一些紧急事务&#xff0c;CPU不得不停下当前正在执行的程序&…

SQL经典练习:电脑商店

表结构 本文使用的表结构如下&#xff1a; 以下是创建表的语句&#xff1a; -- 厂商表 CREATE TABLE Manufacturers (Code INTEGER NOT NULL PRIMARY KEY, -- 编号&#xff0c;主键Name VARCHAR(255) NOT NULL, -- 名称 );-- 产品表 CREATE TABLE Products (Code INTEGER NO…

深蓝学院-多传感器融合定位课程-第10章-基于图优化的建图方法

专栏文章: 深蓝学院-多传感器融合定位课程-第1章-概述_goldqiu的博客-CSDN博客 深蓝学院-多传感器融合定位课程-第2章-3D激光里程计I_goldqiu的博客-CSDN博客 深蓝学院-多传感器融合定位课程-第3章-3D激光里程计II_goldqiu的博客-CSDN博客 深蓝学院-多传感器融合定位课程-第…

Spring动态数据源的简单理解

连接数据库时&#xff0c;需要url&#xff0c;userName&#xff0c;和password&#xff0c;怎么做到动态呢&#xff0c;那就是在使用时&#xff0c;根据你的设置&#xff0c;去连接不同的url&#xff0c;userName&#xff0c;和password&#xff0c;实现数据源的切换。 1.先写…

【JavaScript】JS飞机大战网页简易版

文章目录一、效果演示设计思路二、鼠标版飞机大战代码展示1.HTML结构代码2.CSS样式代码3.JavaScript代码js.js文件plane.js文件三、键盘版飞机大战代码展示1.HTML结构代码2.CSS样式代码3.JavaScript代码四、代码资源分享一、效果演示 利用html&#xff0c;css&#xff0c;js制…

php进程管理

PHP-FPM 先来了解一些名词概念&#xff1a; CGI是Common Gateway Interface&#xff08;通用网管协议&#xff09;&#xff0c;用于让交互程序和Web服务器通信的协议。它负责处理URL的请求&#xff0c;启动一个进程&#xff0c;将客户端发送的数据作为输入&#xff0c;由Web服…

首发!飞凌嵌入式i.MX9系列核心板重磅发布

来源&#xff1a;飞凌嵌入式官网www.forlinx.com为了让更多设备实现高能效、高安全性和智能化升级&#xff0c;NXP推出了全新的i.MX 93x系列处理器。作为NXP的重要合作伙伴&#xff0c;飞凌嵌入式在i.MX 9352的α阶段便进行该款处理器的产品研发工作。今天&#xff0c;飞凌嵌入…

HNU编译原理实验三cminus_compiler-2022-fall

前言&#xff1a;实验难度再次提升&#xff0c;不过会一个就可以做其他部分&#xff0c;很多都是相同的&#xff0c;个人认为更难的还是配置环境部分&#xff0c;真的会折磨死人 lab3 实验报告实验要求 第一部分: 了解LLVM IR。通过clang生成的.ll&#xff0c;了解LLVM IR与c代…

Windows10下CLion配置说明

Windows10下CLion配置说明 CLion 是 C/C的 IDE&#xff0c;可以配置多种编译环境&#xff0c;本文以配置MinGW编译环境为例。 安装 CLion 的安装可直接到官网下载 ZIP,文件解压后直接运行即可。我在安装过程中没有遇到困难&#xff0c;网上关于安装的教程很多&#xff0c;如…

TCP连接积压导致服务假死问题

目录 一、事故表现 二、事故问题分析 三、测试环境重现 四、解决方案 一、事故表现 2022-01-14日凌晨00:00开始&#xff0c;TCP_alloc&#xff1a;已分配TCP连接&#xff0c;一直未释放。导致未释放的 TCP连接一直积压。最终服务LOGISTICS-DS-ES-COMMON-SERVICE假死&#x…

jenkins下载安装

目录 1.下载安装 2.初始化配置 3.新建项目 3.1.安装插件 3.2.配置项目 3.2.1.选择项目类型 3.2.1.源码管理 3.3.3.配置maven 1.下载安装 安装清单&#xff1a; JDK 1.8Maven 3.6.3gitJenkins 2.334 环境&#xff1a; centos 7 Jenkins是JAVA编写的&#xff0c;需要JDK环…

年终报告:通过3个维度,回看2022全球电商市场的“多样性”

回顾年中&#xff0c;各国由于经济政策的调整导致贸易壁垒的层层叠加&#xff0c;也有非常复杂多变的因素在发酵&#xff0c;今年下半年突然爆发的俄乌两国的冲突使得原来就脆弱的全球经济再次遭受动荡&#xff0c;这一系列的动荡因素直接导致了今年全球经济的整体不景气&#…

鼠标拖拽菜单栏控制宽度大小及flex实现经典左右两栏布局

目录 1. 实现的效果如下图所示&#xff1a; 2. 思路 3.代码 3.1 js核心代码简单理解版&#xff1a; 3.2 实际应用-react版 4. 使用flex实现左右两栏式经典布局 4.1 图示&#xff1a; 4.2 代码实例&#xff1a; 1. 实现的效果如下图所示&#xff1a; 2. 思路 1. 使用定…

欧科云链接受北京电视台采访以创新科技助力《反电信网络诈骗法》

近日&#xff0c;欧科云链作为创新科技企业的代表&#xff0c;就《反电信网络诈骗法》实施的相关问题接受了来自北京电视台的采访。 编辑&#xff5c;小O 出品&#xff5c;欧科云链 近年来&#xff0c;随着数字技术的快速发展&#xff0c;越来越多的交易都转移到线上&#xff0…