布隆过滤器初探

news2024/12/29 10:14:23

1、什么是布隆过滤器

布隆过滤器是一个很长的二进制向量和一系列随机hash函数。布隆过滤器可以用于检索一个元素是否在一个集合中。
常见的hash函数的应用hashMap、hashSet等
回顾一下hashMap的结构
在这里插入图片描述在这里插入图片描述

hashMap由数组+链表+红黑树(java1.8后,链表元素长度大于8,且数组长度大于64时,链表转为红黑树,优化查询于插入的效率),散列值通过hash函数确定key(桶数组的下标),key冲突(散列冲突)时,存入后续的链表中。
在数据量较小的情况下hash散列表是能够支撑我们的业务场景的,无hash冲突情况下时间复杂度为log(1),hash冲突时为log(n)。当存储数据达到百万、千万时,散列所需的存储空间越来越大,检索速度也越来越慢,而布隆过滤器在查询于插入的时间与空间复杂度都为log(k)。

2、布隆过滤器原理

2.1 bitmap

布隆过滤器的数据存储是基于bitmap的。bitmap的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。
在bitmap的位数组中每一位表示一个数,0表示不存在,1表示存在,如下表示{1,2,4,6}这个数组。

假设需要存储2亿个int整数
在Java中,int占4字节,1字节=8位(1 byte = 8 bit)
每个数字用int存储,那就是2亿个int,占用的空间约为 (200000000*4/1024/1024/1024)≈735M
按位存储,2亿个数就是2亿位,占用空间约为 (200000000/8/1024/1024/1024)≈23.8M

2.2 布隆过滤器的原理

bitmap只能存储整数,其他数据类型就捉襟见肘了。布隆过滤器把一个元素,通过 K 个 Hash 函数将这个元素映射成bitmap中的 K 个点,把它们置为1。检索时,我们只要看看这些点是不是都是 1 就(大约)知道集合中有没有它了:
如果这些点有任何一个 0,则被检索元素一定不在;
如果都是 1,则被检索元素很可能在。
以hello的存储为例,把1,3,5置为1,查询时hash值为1,3,5为1,则认定hello存在
在这里插入图片描述

2.3 缺点

误判率
假设保存两个值,hello和wordhello对应的index为1,3,5word对应的index为2,4,6
而此时来了一个值java,对应的index为1,4,5查询得出结果:exist(java) = true但其实,java这个数据并不存在,这就会产生一定的误判。
删除
如果hash(hello)=1,3,5这时候hash(java)=1,4,6如果删除了hello的值,index = 1,3,5置为0,同时意味着java在判定是否存在时为false

3、布隆过滤器的实现

布隆过滤器使用时需要确定两个变量,容量(位数组的大小,容量越大,hash冲突可能性越小)与误判率(误判率越小hash运算次数越多,效率越低)。要根据实际业务场景预判容量,再设定误判率。
误判率与容量关系推导:https://juejin.cn/post/6888209593378291720

3.1guava布隆过滤器

Google提供的guava包里面也提供了布隆过滤器,
引入pom坐标

<dependency>
	<groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
</dependency>

运用Demo

 @Test
 public void bloomFilterTest() {
   BloomFilter<String> b = BloomFilter.create(Funnels.stringFunnel(Charset.forName("utf-8")), 10000, 0.001);
   b.put("121");
   b.put("122");
   b.put("123");
   Assert.assertEquals(false, b.mightContain("12321"));
 }

3.2 Redis布隆过滤器

redis里的setbit指令,对于布隆过滤器的实现十分便利:

setbit key offset value

key是键,offset是偏移量,value就是1或者0。比如下面的就是将key1 的第5位置为1。
在这里插入图片描述

引入redission插件

<dependency>
  <groupId>org.redisson</groupId>
  <artifactId>redisson</artifactId>
</dependency>

使用demo

@Test
public void redissionBoolFilter() {
  Config config = new Config();
  config.useSingleServer().setAddress("redis://127.0.0.1:6379");
  RedissonClient redisson = Redisson.create(config);

  RBloomFilter<String> bloomFilter = redisson.getBloomFilter("user");
  // 初始化布隆过滤器,预计统计元素数量为10000,期望误差率为0.01
  bloomFilter.tryInit(10000L, 0.01);
  bloomFilter.add("Tom");
  bloomFilter.add("Jack");
  Assert.assertEquals(true, bloomFilter.contains("Tom"));  //true
  Assert.assertEquals(false, bloomFilter.contains("Linda"));  
}

4、布隆过滤器在特征计算平台的应用

特征计算平台在统计ip维度、设备标识维度的数据时,数据量是巨大的,在统计以天为统计维度时,使用布隆过滤器不仅减少服务器压力,也提升服务性能。

4.1 guava布隆过滤器与redis过滤器的对比

guava过滤器

优点
1、基于内存,性能高

缺点
1、基于JVM内存的一种布隆过滤器,重启即失效
2、本地内存无法用在分布式场景
3、不支持大数据量存储

redis过滤器

优点:
1、可扩展性Bloom过滤器:一旦Bloom过滤器达到容量,就会在其上创建一个新的过滤器
2、基于redis,不存在重启即失效或者定时任务维护的成本
3、支持分布式场景,拓展性高

缺点:
1、有网络io延迟,性能较guava布隆过滤器低

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1611190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis入门到通关之GEO实现附近的人功能

文章目录 ☃️概述☃️命令演示☃️API将数据库表中的数据导入到redis中去☃️实现附近功能 ☃️概述 GEO就是Geolocation的简写形式&#xff0c;代表地理坐标。Redis在3.2版本中加入了对GEO的支持&#xff0c;允许存储地理坐标信息&#xff0c;帮助我们根据经纬度来检索数据。…

OpenHarmony 蓝牙相关API用法

介绍 本示例通过使用蓝牙低功耗心率服务&#xff0c;展示蓝牙相关API用法。实现了以下几点功能&#xff1a; 发现具有特定服务的设备。连接到设备。发现服务。发现服务的特征、如何读取给定特征的值、为特征设置通知等。 相关概念 BLE扫描&#xff1a;通过BLE扫描接口实现对…

【DA-CLIP】图像复原在AutoDL上部署测试

起因&#xff1a; 虽然在本机Windows部署成功运行&#xff0c;但是由于计算资源少只有6G的GPU无法计算手机拍摄图像复原和其他一些数据集测试&#xff0c;尝试租用AutoDL的服务器部署测试 租AutoDL 租的人很多&#xff0c;刚确定运行的镜像环境就报告说这个机子已经没卡了&am…

《QT实用小工具·二十八》基于qt开发的各种曲线

1、概述 源码放在文章末尾 该项目实现了各种曲线的绘制&#xff0c;下面是项目的demo演示&#xff1a; 项目部分代码如下&#xff1a; #include "frmsmoothcurve.h" #include "ui_frmsmoothcurve.h" #include "smoothcurve.h" #include "…

中颖51芯片学习7. printf重定向到串口与自定义日志输出函数

中颖51芯片学习7. printf重定向到串口与自定义日志输出函数 一、 printf 重定向1. 概念2. 实现方式3. C51 中printf数值格式化 二、日志函数1. 实现方案分析2. 代码&#xff08;1&#xff09;log_utils.h&#xff08;2&#xff09;main.c 3. 通过预定义宏实现日志分级输出&…

偏微分方程算法之二维初边值问题(紧交替方向隐格式)

目录 一、研究对象 二、理论推导 2.1 二维紧差分格式 2.2 紧交替方向格式 2.2.1 紧Peaceman-Rachford格式 2.2.2 紧D’Yakonov格式 2.2.3 紧Douglas格式 三、算例实现 四、结论 一、研究对象 继续以二维抛物型方程初边值问题为研究对象: 为了确保连续性,公式…

OpenHarmony移植的加解密库—libsodium [GN编译]

简介 libsodium主要是易用&#xff0c;可移植的加解密库。 下载安装 直接在OpenHarmony-SIG仓中搜索libsodium并下载。 使用说明 以OpenHarmony 3.1Beta的rk3568版本为例 库代码存放路径&#xff1a;./third_party/libsodium 修改添加依赖的编译脚本&#xff0c;路径&#…

区间图着色问题:贪心算法设计及实现

区间图着色问题&#xff1a;贪心算法设计及实现 1. 问题定义2. 贪心算法设计2.1 活动排序2.2 分配教室2.3 算法终止 3. 伪代码4. C语言实现5. 算法分析6. 结论7. 参考文献 在本文中&#xff0c;我们将探讨如何使用贪心算法解决一个特定的资源分配问题&#xff0c;即区间图着色问…

网站备案期间怎么关闭首页显示无法访问-文章及其它页面正常访问

自从做了开发者之后才发现每个人博主的需求都是不同的&#xff0c;的的确确颠覆了我的观点&#xff0c;无论是页面布局还是SEO相关的设置&#xff0c;可能是因为站点属性不同所以需求不同&#xff0c;慢慢的就会在主题加入一些自定接口来满足不同人的需求&#xff0c;有人需要P…

什么是IIoT?

什么是IIoT? IIoT,即工业物联网(Industrial Internet of Things),是指将物联网技术应用到工业领域,通过微型低成本传感器、高带宽无线网络等技术手段,实现工业设备、系统和服务的互联互通,从而提高生产效率、降低能耗和成本,实现智能化和自动化生产。 IIoT的应用范围…

使用isort和autopep8统一代码风格

前言 今天和大家分享一篇关于python代码风格统一的方法。我自己之前有使用过&#xff0c;但都是使用公司现成的&#xff0c;没有自己动手去实操&#xff0c;所以为了一探究竟&#xff0c;今天专门花了一点时间去研究&#xff0c;这个过程还挺顺利的&#xff0c;这里我将这个过…

【最新可用】Claude国内镜像,可上传图片,可用Claude3全系模型,包括Pro版本的Opus),亲测比GPT好用

Claude对话、上传图片的超详细教程来啦&#xff01; 近期&#xff0c;Claude 3 Opus的发布引发了网络上的广泛关注与热议&#xff0c;有观点认为其性能已经凌驾于GPT-4之上。虽然网络上已经出现了大量基于这两款先进AI技术的实际应用案例&#xff0c;但仍有许多人对在国内如何…

利用代码批量删减文件夹里面指定数量的图片

这段代码会遍历 parent_directory_path 下的所有子文件夹&#xff0c;并在每个子文件夹中删除指定数量 num_to_keep_per_folder 的图片。请确保 parent_directory_path 变量指向了你的父文件夹路径&#xff0c;并根据需要修改 num_to_keep_per_folder。 import osdef delete_i…

day03-(Centos7安装Docker)

0.安装Docker Docker 分为 CE 和 EE 两大版本。CE 即社区版&#xff08;免费&#xff0c;支持周期 7 个月&#xff09;&#xff0c;EE 即企业版&#xff0c;强调安全&#xff0c;付费使用&#xff0c;支持周期 24 个月。 Docker CE 分为 stable test 和 nightly 三个更新频道…

大模型的RAG(检索增强生成) ----大模型外挂

目录 1 什么是RAG 2 为什么需要RAG 3 如何使用RAG 3.1 RAG技术原理 3.2 RAG工作流程 3.2.1 最基础的RAG流程 3.2.2 增加预处理查询的 RAG 3.2.3 带有聊天历史的 RAG 3.2.4 增加自动排序的 RAG 1 什么是RAG 检索增强生成&#xff08;RAG&#xff09;是一个概念&#xff…

curlftpfs和fusermount

curlftpfs 是一种 Linux 系统下用来将 FTP 服务器挂载为文件系统的工具&#xff0c;这意味着可以通过本地目录来访问和操作 FTP 服务器上的文件。 挂载FTP服务器到本地系统 为了挂载FTP服务器到本地系统中&#xff0c;使用curlftpfs工具&#xff0c;可以按照以下格式书写命令…

鼎信通达语音网关怎么对接VOS3000

鼎信通达语音网关对接VOS3000的具体步骤可能会因版本和模型的不同而有所差异&#xff0c;但通常包括以下几个基本步骤&#xff1a; 登录VOS端&#xff1a;首先需要登录到VOS系统中&#xff0c;添加落地网关和账户。 添加账户&#xff1a;在账户管理中添加账户&#xff0c;并应…

线性表的链式存储(单循环链表)

文章目录 前言一、循环链表是什么&#xff1f;二、单循环链表三、单循环链表基本操作的实现总结 前言 T_T此专栏用于记录数据结构及算法的&#xff08;痛苦&#xff09;学习历程&#xff0c;便于日后复习&#xff08;这种事情不要啊&#xff09;。所用教材为《数据结构 C语言版…

PyTorch深度解析:Tensor——神经网络的核心构建块

在深度学习和神经网络的研究与应用中&#xff0c;Tensor&#xff08;张量&#xff09;无疑是一个核心概念。特别是在PyTorch这一强大的深度学习框架中&#xff0c;Tensor更是扮演了举足轻重的角色。本文将深入探讨PyTorch中的Tensor&#xff0c;从其基本定义、特性、操作到实际…

对组合模式的理解

目录 一、场景1、题目描述 【[案例来源](https://kamacoder.com/problempage.php?pid1090)】2、输入描述3、输出描述4、输入示例5、输出示例 二、实现&#xff08;假的组合模式&#xff09;1、代码2、为什么上面的写法是假的组合模式&#xff1f; 三、实现&#xff08;真的组合…