聊一聊布隆过滤器

news2024/12/23 4:12:43

布隆过滤器是一个精巧而且经典的数据结构。

你可能没想到:RocketMQ、 Hbase 、Cassandra 、LevelDB 、RocksDB 这些知名项目中都有布隆过滤器的身影。

对于后端程序员来讲,学习和理解布隆过滤器有很大的必要性。下面,一起看一看布隆过滤器的设计之美。

1 缓存穿透

先来看一个商品服务查询详情的接口:

public Product queryProductById (Long id) {
   // 查询缓存
   Product product = queryFromCache(id);

   if (product != null) {
     return product ;
   }

   // 从数据库查询
   product = queryFromDataBase(id);

   if (product != null) {
       saveCache(id, product);
   }

   return product;
}

假设此商品既不存储在缓存中,也不存在数据库中,则没有办法回写缓存,当有类似这样大量的请求访问服务时,数据库的压力就会极大。

这是一个典型的缓存穿透的场景。

为了解决这个问题呢,通常可以向分布式缓存中写入一个过期时间较短的空值占位,但这样会占用较多的存储空间,性价比不足。

问题的本质是:"如何以极小的代价检索一个元素是否在一个集合中?"

现在主角布隆过滤器出场了,它就能游刃有余的平衡好时间和空间两种维度

2 原理解析

布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率查询时间远远超过一般的算法,缺点是有一定的误识别率和删除困难。

布隆过滤器的原理:当一个元素被加入集合时,通过 K 个散列函数将这个元素映射成一个位数组中的 K 个点,把它们置为 1。检索时,我们只要看看这些点是不是都是 1 就(大约)知道集合中有没有它了:如果这些点有任何一个 0,则被检元素一定不在;如果都是 1,则被检元素很可能在

简单来说就是准备一个长度为 m 的位数组并初始化所有元素为 0,用 k 个散列函数对元素进行 k 次散列运算跟 len (m) 取余得到 k 个位置并将 m 中对应位置设置为 1。

如上图,位数组的长度是8,散列函数个数是 3,先后保持两个元素x,y。这两个元素都经过三次哈希函数生成三个哈希值,并映射到位数组的不同的位置,并置为1。元素 x 映射到位数组的第0位,第4位,第7位,元素y映射到数组的位数组的第1位,第4位,第6位。

保存元素 x 后,位数组的第4位被设置为1之后,在处理元素 y 时第4位会被覆盖,同样也会设置为 1。

当布隆过滤器保存的元素越多被置为 1 的 bit 位也会越来越多,元素 x 即便没有存储过,假设哈希函数映射到位数组的三个位都被其他值设置为 1 了,对于布隆过滤器的机制来讲,元素 x 这个值也是存在的,也就是说布隆过滤器存在一定的误判率

误判率

布隆过滤器包含如下四个属性:

  • k : 哈希函数个数

  • m : 位数组长度

  • n : 插入的元素个数

  • p : 误判率

若位数组长度太小则会导致所有 bit 位很快都会被置为 1 ,那么检索任意值都会返回”可能存在“ , 起不到过滤的效果。位数组长度越大,则误判率越小。

同时,哈希函数的个数也需要考量,哈希函数的个数越大,检索的速度会越慢,误判率也越小,反之,则误判率越高。

从张图可以观察到相同位数组长度的情况下,随着哈希函数的个人的增长,误判率显著的下降。

误判率 p 的公式是:

  1. k 次哈希函数某一 bit 位未被置为 1 的概率为

  2. 插入 n 个元素后某一 bit 位依旧为 0 的概率为

  3. 那么插入 n 个元素后某一 bit 位置为1的概率为

  4. 整体误判率为

    ,当 m 足够大时,误判率会越小,该公式约等于

会预估布隆过滤器的误判率 p 以及待插入的元素个数 n 分别推导出最合适的位数组长度 m 和 哈希函数个数 k。

布隆过滤器支持删除吗

布隆过滤器其实并不支持删除元素,因为多个元素可能哈希到一个布隆过滤器的同一个位置,如果直接删除该位置的元素,则会影响其他元素的判断。

时间和空间效率

布隆过滤器的空间复杂度为 O(m) ,插入和查询时间复杂度都是 O(k) 。存储空间和插入、查询时间都不会随元素增加而增大。空间、时间效率都很高。

哈希函数类型

Murmur3,FNV 系列和 Jenkins 等非密码学哈希函数适合,因为 Murmur3 算法简单,能够平衡好速度和随机分布,很多开源产品经常选用它作为哈希函数。

3 Guava实现

Google Guava是 Google 开发和维护的开源 Java开发库,它包含许多基本的工具类,例如字符串处理、集合、并发工具、I/O和数学函数等等。

1、添加Maven依赖

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>31.0.1-jre<</version>
</dependency>

2、创建布隆过滤器

BloomFilter<Integer> filter = BloomFilter.create(
    //Funnel 是一个接口,用于将任意类型的对象转换为字节流,
    //以便用于布隆过滤器的哈希计算。
    Funnels.integerFunnel(), 
    10000,  // 插入数据条目数量
    0.001  // 误判率
);

3、添加数据

@PostConstruct
public void addProduct() {
    logger.info("初始化布隆过滤器数据开始");
    //插入4个元素
     filter.put(1L);
     filter.put(2L);
     filter.put(3L);
     filter.put(4L);
     logger.info("初始化布隆过滤器数据结束");
}

4、判断数据是否存在

public boolean maycontain(Long id) {
    return filter.mightContain(id);
}

接下来,查看 Guava 源码中布隆过滤器是如何实现的 ?

static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions, double fpp, BloomFilter.Strategy strategy) {
    // 省略部分前置验证代码 
    // 位数组长度
    long numBits = optimalNumOfBits(expectedInsertions, fpp);
    // 哈希函数次数
    int numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);

    try {
      return new BloomFilter<T>(
                    new LockFreeBitArray(numBits), 
                    numHashFunctions, 
                    funnel,
                    strategy
      );
    } catch (IllegalArgumentException e) {
      throw new IllegalArgumentException("Could not create BloomFilter of " + numBits + " bits", e);
    }
}
//计算位数组长度
//n:插入的数据条目数量
//p:期望误判率
@VisibleForTesting
static long optimalNumOfBits(long n, double p) {
   if (p == 0) {
     p = Double.MIN_VALUE;
   }

   return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
}

// 计算哈希次数
@VisibleForTesting
static int optimalNumOfHashFunctions(long n, long m) {
    // (m / n) * log(2), but avoid truncation due to division!
    return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
}

Guava 的计算位数组长度和哈希次数和原理解析这一节展示的公式保持一致。

重点来了,Bloom filter 是如何判断元素存在的 ?

方法名就非常有 google 特色 ,  ”mightContain“ 的中文表意是:”可能存在“ 。方法的返回值为 true ,元素可能存在,但若返回值为 false ,元素必定不存在。

public <T extends @Nullable Object> boolean mightContain(
    @ParametricNullness T object,
    //Funnel 是一个接口,用于将任意类型的对象转换为字节流,
    //以便用于布隆过滤器的哈希计算。
    Funnel<? super T> funnel,  
    //用于计算哈希值的哈希函数的数量
    int numHashFunctions,
    //位数组实例,用于存储布隆过滤器的位集
    LockFreeBitArray bits) {
    long bitSize = bits.bitSize();
    //使用 MurmurHash3 哈希函数计算对象 object 的哈希值,
    //并将其转换为一个 byte 数组。
    byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
    long hash1 = lowerEight(bytes);
    long hash2 = upperEight(bytes);

    long combinedHash = hash1;

    for (int i = 0; i < numHashFunctions; i++) {
        // Make the combined hash positive and indexable
        // 计算哈希值的索引,并从位数组中查找索引处的位。
        // 如果索引处的位为 0,表示对象不在布隆过滤器中,返回 false。
        if (!bits.get((combinedHash & Long.MAX_VALUE) % bitSize)) {
            return false;
        }

       // 将 hash2 加到 combinedHash 上,用于计算下一个哈希值的索引。
       combinedHash += hash2;
    }

    return true;
}

4 Redisson实现

Redisson 是一个用 Java 编写的 Redis 客户端,它实现了分布式对象和服务,包括集合、映射、锁、队列等。Redisson的API简单易用,使得在分布式环境下使用Redis 更加容易和高效。

1、添加Maven依赖

<dependency>
   <groupId>org.redisson</groupId>
   <artifactId>redisson</artifactId>
   <version>3.16.1</version>
</dependency>

 2、配置 Redisson 客户端

@Configuration
public class RedissonConfig {

    Bean
    public RedissonClient redissonClient() {
        Config config = new Config();
        config.useSingleServer().setAddress("redis://localhost:6379");
        return Redisson.create(config);
    }
 
}

3、初始化

RBloomFilter<Long> bloomFilter = redissonClient.getBloomFilter("myBloomFilter");
//10000表示插入元素的个数,0.001表示误判率
bloomFilter.tryInit(10000, 0.001);
//插入4个元素
bloomFilter.add(1L);
bloomFilter.add(2L);
bloomFilter.add(3L);
bloomFilter.add(4L);

4、判断数据是否存在

public boolean mightcontain(Long id) {
    return bloomFilter.contains(id);
}

来从源码分析 Redisson 布隆过滤器是如何实现的 ?

public boolean tryInit(long expectedInsertions, double falseProbability) {
    // 位数组大小
    size = optimalNumOfBits(expectedInsertions, falseProbability);
    // 哈希函数次数
    hashIterations = optimalNumOfHashFunctions(expectedInsertions, size);
    CommandBatchService executorService = new CommandBatchService(commandExecutor);
    // 执行 Lua脚本,生成配置
    executorService.evalReadAsync(configName, codec, RedisCommands.EVAL_VOID,
            "local size = redis.call('hget', KEYS[1], 'size');" +
                    "local hashIterations = redis.call('hget', KEYS[1], 'hashIterations');" +
                    "assert(size == false and hashIterations == false, 'Bloom filter config has been changed')",
                    Arrays.<Object>asList(configName), size, hashIterations);
    executorService.writeAsync(configName, StringCodec.INSTANCE,
                                            new RedisCommand<Void>("HMSET", new VoidReplayConvertor()), configName,
            "size", size, "hashIterations", hashIterations,
            "expectedInsertions", expectedInsertions, "falseProbability", BigDecimal.valueOf(falseProbability).toPlainString());

    try {
        executorService.execute();
    } catch (RedisException e) {
    }

    return true;
}

Bf配置信息

                         

Redisson 布隆过滤器初始化的时候,会创建一个 Hash 数据结构的 key ,存储布隆过滤器的4个核心属性。 

那么 Redisson 布隆过滤器如何保存元素呢 ?

public boolean add(T object) {
    long[] hashes = hash(object);

    while (true) {
        int hashIterations = this.hashIterations;
        long size = this.size;
        long[] indexes = hash(hashes[0], hashes[1], hashIterations, size);
        CommandBatchService executorService = new CommandBatchService(commandExecutor);
        addConfigCheck(hashIterations, size, executorService);
        //创建 bitset 对象, 然后调用setAsync方法,该方法的参数是索引。
        RBitSetAsync bs = createBitSet(executorService);

        for (int i = 0; i < indexes.length; i++) {
            bs.setAsync(indexes[i]);
        }

        try {
            List<Boolean> result = (List<Boolean>) executorService.execute().getResponses();

            for (Boolean val : result.subList(1, result.size()-1)) {
                if (!val) {
                    return true;
                }
            }

            return false;
        } catch (RedisException e) {
        }
    }
}

从源码中,发现 Redisson 布隆过滤器操作的对象是 位图(bitMap) 。

在 Redis 中,位图本质上是 string 数据类型,Redis 中一个字符串类型的值最多能存储 512 MB 的内容,每个字符串由多个字节组成,每个字节又由 8 个 Bit 位组成。位图结构正是使用“位”来实现存储的,它通过将比特位设置为 0 或 1来达到数据存取的目的,它存储上限为 2^32 ,可以使用getbit/setbit命令来处理这个位数组。

为了方便理解,做了一个简单的测试。

通过 Redisson API 创建 key 为 mybitset 的 位图  ,设置索引 3 ,5,6,8 位为 1 ,右侧的二进制值也完全匹配。

5 实战要点

通过 Guava 和 Redisson 创建和使用布隆过滤器比较简单,下面讨论实战层面的注意事项。

1、缓存穿透场景

首先我们需要初始化布隆过滤器,然后当用户请求时,判断过滤器中是否包含该元素,若不包含该元素,则直接返回不存在。

若包含则从缓存中查询数据,若缓存中也没有,则查询数据库并回写到缓存里,最后给前端返回。

 

2、元素删除场景

现实场景,元素不仅仅是只有增加,还存在删除元素的场景,比如说商品的删除。

原理解析这一节,已经知晓:布隆过滤器其实并不支持删除元素,因为多个元素可能哈希到一个布隆过滤器的同一个位置,如果直接删除该位置的元素,则会影响其他元素的判断

 下面有两种方案:

▍计数布隆过滤器

计数过滤器(Counting Bloom Filter)是布隆过滤器的扩展,标准 Bloom Filter 位数组的每一位扩展为一个小的计数器(Counter),在插入元素时给对应的 k (k 为哈希函数个数)个 Counter 的值分别加 1,删除元素时给对应的 k 个 Counter 的值分别减 1。

虽然计数布隆过滤器可以解决布隆过滤器无法删除元素的问题,但是又引入了另一个问题:“更多的资源占用,而且在很多时候会造成极大的空间浪费”。

▍ 定时重新构建布隆过滤器

从工程角度来看,定时重新构建布隆过滤器这个方案可行也可靠,同时也相对简单。

 

  1. 定时任务触发全量商品查询 ;

  2. 将商品编号添加到新的布隆过滤器 ;

  3. 任务完成,修改商品布隆过滤器的映射(从旧 A 修改成 新 B );

  4. 商品服务根据布隆过滤器的映射,选择新的布隆过滤器 B进行相关的查询操作 ;

  5. 选择合适的时间点,删除旧的布隆过滤器 A。

 6 总结

布隆过滤器是一个很长的二进制向量和一系列随机映射函数,用于检索一个元素是否在一个集合中

它的空间效率查询时间远远超过一般的算法,但是有一定的误判率 (函数返回 true , 意味着元素可能存在,函数返回 false ,元素必定不存在)。

布隆过滤器的四个核心属性:

  • k :  哈希函数个数

  • m : 位数组长度

  • n :  插入的元素个数

  • p :  误判率

Java 世界里 ,通过 Guava 和 Redisson 创建和使用布隆过滤器非常简单。

布隆过滤器无法删除元素,但我们可以通过计数布隆过滤器定时重新构建布隆过滤器两种方案实现删除元素的效果。

为什么这么多的开源项目中使用布隆过滤器 ?

因为它的设计精巧且简洁,工程上实现非常容易,效能高,虽然有一定的误判率,但软件设计不就是要 trade off 吗 ?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/686696.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能客服外包服务在医药行业的应用

随着科技的不断进步&#xff0c;智能客服已经在各个行业得到了广泛应用&#xff0c;医药行业也不例外。那么&#xff0c;智能客服在医药行业中又有哪些应用呢&#xff1f;让我们一起来看看吧。 医药行业作为一个高度专业化且具有广泛需求的行业&#xff0c;每天都会涉及到大量…

10个免费PDF转PPT方法,请收好以备不时之需!

众所周知&#xff0c;PDF&#xff08;便携式文档格式&#xff09;文件广泛用于交换各种信息&#xff0c;包括文本、图像和图形。但有时&#xff0c;您可能想将 PDF 文件转换为其他格式&#xff0c;例如 PowerPoint。在本文中&#xff0c;我们将讨论 10 种将 PDF 转换为 PPT 的免…

6-js基础-2

JavaScript 基础 - 2 理解什么是流程控制&#xff0c;知道条件控制的种类并掌握其对应的语法规则&#xff0c;具备利用循环编写简易ATM取款机程序能力 类型转换语句综合案例 今日重点单词&#xff1a; 类型转换 类型转换&#xff1a;把一种数据类型转换成另外一种数据类型 为…

快速搭建 Nuxt2 项目

文章目录 01 Nuxt 能提供哪些功能&#xff1f;有什么益处&#xff1f;02 快速搭建项目2.1 安装 create-nuxt-app 脚手架工具2.2 使用脚手架搭建项目 01 Nuxt 能提供哪些功能&#xff1f;有什么益处&#xff1f; 服务端渲染&#xff1a;Nuxt 是基于 Vue.js 的 服务端渲染 框架&…

文献学习-联合抽取-Joint entity and relation extraction based on a hybrid neural network

目录 1、Introduction 2、Related works 2.1 Named entity recognition 2.2 Relation classification 2.3 Joint entity and relation extraction 2.4 LSTM and CNN models On NLP 3、Our method 3.1 Bidirectional LSTM encoding layer 3.2 Named entity recogniton …

OpenStack(1)--创建实例

目录 一、上传镜像 1.1 新建目录 1.2 上传至glance 1.3 查看镜像 二、新建实例 2.1 获取秘钥 2.2 新建实例 2.3 新建实例admin-vm 2.4 获取实例VNC的url 2.5 nova常用命令 一、上传镜像 1.1 新建目录 上传名为cirros-0.3.4-x86_64-disk.img的Linux测试镜像&#xf…

Clock Rules(C Rules)

scan clocks的规则检查确保它们被正确的定义和操作。可以选择任意时钟规则检查的handling为error、warning、not或ignore。 Clock Terminology 时钟规则信息包含两个重复发生的概念,为了更好地使用这些信息,应该理解以下概念。 Clock Signals 如果一个信号能够改变一个se…

unity发布apk获取读写权限

实测版本&#xff1a;unity2019 操作&#xff1a;1.修改Manifest文件 2.在代码中直接调用API代码设置&#xff08;可能不用这一步&#xff09; Mac系统&#xff1a;Unity.app同级目录&#xff1a; PlaybackEngines/AndroidPlayer/Apk/ Win系统&#xff1a;Unity安装目录下…

5-响应式

01-媒体查询 基本写法 max-width&#xff1a;最大宽度&#xff08;小于等于&#xff09;min-width&#xff1a;最小宽度&#xff08;大于等于&#xff09; 书写顺序 min-width&#xff08;从小到大&#xff09;max-width&#xff08;从大到小&#xff09; 案例-左侧隐藏 需…

measure 一维测量 Metrology 二维测量

1维测量就是测长度&#xff0c;一个物体的长度。 2维测量就是在2维空间上测量&#xff0c;圆和矩形。 gen_measure_rectangle2 (TmpCtrl_Row, TmpCtrl_Column, TmpCtrl_Phi, TmpCtrl_Len1, TmpCtrl_Len2, 2464, 2056, nearest_neighbor, MsrHandle_Measure_01_0) * Measure 01:…

ChatGPT 实战:快速了解一个新领域

前段时间在社区里看到有人在分享&#xff1a;如何用 ChatGPT 麦肯锡方法论洞察一个行业&#xff0c;感觉这个方法在陌生行业的研究上很有帮助&#xff0c;同时我也一直好奇&#xff0c;投资经理在一两周的时间里如何快速了解一个新领域并做出投资决策的。先解决你的第一个疑问…

网络安全学习心得

我的学习心得&#xff0c;我认为能不能自学成功的要素有两点。 第一点就是自身的问题&#xff0c;虽然想要转行学习安全的人很多&#xff0c;但是非常强烈的想要转行学好的人是小部分。而大部分人只是抱着试试的心态来学习安全&#xff0c;这是完全不可能的。 所以能不能学成并…

Redis6之持久化操作

目录 RDB 触发 工作流程 持久化备份 优点 缺点 AOF 触发 频率配置 持久化流程 数据修复 优点 缺点 混合持久化 触发 优点 缺点 如何选择 redis是一个内存数据库&#xff0c;一旦断电或服务器进程退出&#xff0c;内存数据库中的数据将全部丢失&#xff0c;所以…

【计算机视觉】中科院发布Fast SAM,精度相当SAM,速度提升了50倍!

文章目录 一、导读二、介绍三、方法3.1 实例分割3.2 提示引导选择3.2.1 点提示3.2.2 框提示3.2.3 文本提示 四、实验结果五、不足之处六、结论 一、导读 SAM已经成为许多高级任务&#xff08;如图像分割、图像描述和图像编辑&#xff09;的基础步骤。然而&#xff0c;其巨大的…

【云原生丶Docker】Docker容器常用命令大全

在 Docker 核心概念理解 一文中&#xff0c;我们知道 Docker容器 其实就是一个轻量级的沙盒&#xff0c;应用运行在不同的容器中从而实现隔离效果。容器的创建和运行是以镜像为基础的&#xff0c;容器可以被创建、销毁、启动和停止等。本文将介绍下容器的这些常用操作命令。 1、…

2、电商数仓(业务数据采集平台)电商业务流程、电商常识、电商系统表结构、业务数据模拟、业务数据采集模块

1、电商业务简介 1.1 电商业务流程 电商的业务流程可以以一个普通用户的浏览足迹为例进行说明&#xff0c;用户点开电商首页开始浏览&#xff0c;可能会通过分类查询也可能通过全文搜索寻找自己中意的商品&#xff0c;这些商品无疑都是存储在后台的管理系统中的。 当用户寻找…

imx6ull——多点电容触摸

电容触摸寄存器 触点最多5个 触摸屏实现由 IIC驱动、中断驱动、 input子系统组成 触摸屏类型Type A和 Type B Type A&#xff1a;适用于触摸点不能被区分或者追踪&#xff0c;此类型的设备上报原始数据 (此类型在实际使 用中非常少&#xff01; Type B&#xff1a;适用于有…

SikuliX 实战

一. SikuliX是什么 SikuliX的前身是 Sikuli。Sikuli是由MIT&#xff08;麻省理工学院&#xff09;研究团队发布的一种基于OpenCV图像识别技术的自动化工具软件。 Sikuli 是2009 年由在麻省理工学院用户界面设计小组作为一个开源研究项目&#xff0c;负责人分别是Tsung-Hsiang …

42 # 前端 blob 类型

前端的二进制 文件类型 Blob&#xff1a;二进制文件类型input 的 typefile&#xff1a;file 类型&#xff0c;继承于 Blob 前端实现下载功能 实现下载字符串到文件里&#xff0c;需要将字符串包装成二进制类型 <!DOCTYPE html> <html lang"en"><h…

文字对话如何配音?安利你三款制作对话配音的软件

对话配音怎么配&#xff1f;安利三个好用的对话配音软件给你 一分钟告诉你对话配音怎么配 对话配音怎么配&#xff1f;超简单的对话配音制作教程来啦 对话配音软件有哪些&#xff1f;给你安利这三款对话配音软件 对话配音如何操作&#xff1f;分享你三个对话配音小技巧 在电…