143.布隆过滤器原理以及Go使用示例

文章目录

1. 是什么？
2. 干什么？
3. 为什么？
4. 有什么问题？
5. Go使用布隆过滤器
- 单机版(Golang)
- 分布式版(Java)

1. 是什么？

它是一个二进制bit数组，初始为 0
采用位存储数据结构，节省存储空间
1 存在，0 不存在
可以添加，但是不能删除
存在误判

2. 干什么？

用于快速查找一个集合中是否存在某个元素。尤其是大数据量中快速查找判断是否存在的问题。目的就是“大海捞针”

使用场景：

从10亿个手机号中如何快速判断10万个号码是否存在？
白名单设置，如何正确识别合法用户？
黑名单校验垃圾短信
…

3. 为什么？

因为它主要的作用在于快速查找，我们通过元素查找的过程说明具体的原理和可能存在的问题。

假设，现有一个集合【码，道】，我们查找某元素是否存在？

1、存储逻辑

使用多个不同hash散列函数对“码”“道”进行计算，对应下标标记为 1

在这里插入图片描述

2、查找逻辑

1、查找示例

例如，在这个集合中，我们查找一个元素“易”。

2、查找步骤

使用多个不同hash散列函数对“易”进行计算

查找标记位全为 1代表存在，有一个为 0 代表不存在

如图示，“易”字在最后的位置计算的hash值对应为0，判定不存在集合中。

在这里插入图片描述

4. 有什么问题？

（1）什么是误判？

因为hash计算会产生hash冲突（或者hash碰撞）的问题。这就意味着：不同的字符可能存在相同的hash结果值。如下图，“ 有” 和“道” 经过多个hash计算出相同的值。那么可能判定“有” 也存在于集合中，从而产生误判。

在这里插入图片描述

总结：不存在一定不存在，存在不一定存在。

（2）为什么不能删？

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，它允许一定的误报率。但是它不支持删除操作。

主要由于哈希函数可能存在冲突（即不同的元素映射到相同的位置），因此一旦某个位置被设置为1，它就可能表示多个元素。如果尝试删除一个元素，那么就需要将该元素映射到的所有位置都重置为0。但是，这样做可能会影响到其他也映射到这些位置的元素，因为无法确定哪些1是由当前要删除的元素设置的，哪些是由其他元素设置的。

例如，紧跟上边的思路，要是删除“有”，就要将下标【3,7,8】同时置为 0 。显然误删了 “道”。

在这里插入图片描述

（3）有没有办法解决Hash冲突？

关于这个问题。只能说，减小出现hash碰撞的概率。而不能彻底杜绝. 对此，有同学肯定想：

拉长点：增加bit位数
更散列：再多用点hash函数

事实上，在实际使用中，我们也会根据预估的业务数据，设置总位数和容错率这两个重要参数。这就是怎么用的问题。

5. Go使用布隆过滤器

Go语言里有必要用布隆过滤器嘛？

在Go语言中是否需要使用布隆过滤器取决于您的具体应用需求。布隆过滤器是一种用于判断一个元素是否属于一个集合的数据结构，它具有高效的查询速度和较小的内存占用，但也有一定的误判率。

因此，使用布隆过滤器通常是基于以下考虑：

需要快速查询元素的存在性：如果您的应用程序需要快速确定一个元素是否属于一个集合，而不需要精确的存在性验证，布隆过滤器是一个合适的选择。它的查询速度比在数据库或其他数据结构中搜索要快得多。
内存资源有限：如果您希望在内存资源受限的情况下存储大量的元素或数据，布隆过滤器可以节省内存。它的内存占用通常比存储实际元素的数据结构小得多。
容忍一定的误判率：布隆过滤器具有一定的误判率，即它可能会将不存在于集合中的元素误报为存在。如果您的应用程序可以容忍一些误报，那么使用布隆过滤器是合理的。
需要高性能：布隆过滤器的查询速度非常快，因为它通常只需要几个哈希计算和位操作。这使它非常适合需要高性能的应用。

布隆过滤器在一些应用场景下非常有用，例如缓存缺失优化、重复数据过滤、恶意输入检测等。但它并不适用于所有情况，特别是对于需要绝对准确性的情况。

在使用布隆过滤器时，需要仔细考虑误判率和容忍度，并根据应用的需求来选择合适的配置参数。布隆过滤器通常用于辅助数据结构，而不是替代传统数据库或数据存储。

布隆过滤器通常用于以下场景：

缓存缺失优化：当需要查找的数据量很大，而内存有限时，可以使用布隆过滤器来快速判断某个数据是否存在于缓存中，从而减少磁盘或网络访问。
重复数据过滤：在某些情况下，需要避免重复数据的插入。布隆过滤器可以用来快速判断一个数据是否已经存在，避免重复。
防止恶意输入：在网络应用中，可以使用布隆过滤器来检测恶意输入，例如防止恶意爬虫或垃圾邮件。
分布式系统：在分布式系统中，布隆过滤器可以用来判断某个数据是否需要从远程节点获取，从而减少网络开销。

单机版(Golang)

下面是一个简单的示例，演示如何在Go中使用布隆过滤器。您可以使用第三方库来实现布隆过滤器，如 github.com/wangjia184/sortedset/bf。

首先，您需要安装这个库：

go get github.com/wangjia184/sortedset/bf

然后，您可以编写代码来创建和使用布隆过滤器：

package main

import (
    "fmt"
    "github.com/wangjia184/sortedset/bf"
)

func main() {
    // 创建一个布隆过滤器，参数分别是预期的元素数量和错误率
    filter := bf.New(10000, 0.01)

    // 添加元素到布隆过滤器
    filter.Add([]byte("example"))

    // 检查元素是否存在于布隆过滤器中
    if filter.Has([]byte("example")) {
        fmt.Println("Element 'example' is in the filter.")
    } else {
        fmt.Println("Element 'example' is not in the filter.")
    }

    if filter.Has([]byte("nonexistent")) {
        fmt.Println("Element 'nonexistent' is in the filter.")
    } else {
        fmt.Println("Element 'nonexistent' is not in the filter.")
    }
}

布隆过滤器的大小和误判率是可以配置的，根据具体需求进行调整。但需要注意，随着误判率的降低，过滤器所需的内存空间也会增加。

在使用布隆过滤器时，应该考虑到误判率的问题，确保它在实际应用中的误判不会导致严重问题。布隆过滤器对于快速的存在性检查非常有用，但不适用于需要精确匹配的情况。

上面介绍的是单机版的布隆过滤器，但大部分时候我们需要一个分布式场景下的全局布隆过滤器，Go版本的暂时没有找到，可以先看一个Java版的。字节内部有分布式版的布隆过滤器Golang SDK ，但并未开源使用

分布式版(Java)

Java Redisson中的布隆过滤器就是分布式的。

使用 Redisson 创建布隆过滤器，插入元素，并检查某个元素是否存在。

在 pom.xml 文件中添加 Redisson 依赖：

<dependencies>
    <dependency>
        <groupId>org.redisson</groupId>
        <artifactId>redisson</artifactId>
        <version>3.16.1</version> <!-- 使用最新版本 -->
    </dependency>
</dependencies>

编写代码来创建布隆过滤器，插入元素，并检查元素：

import org.redisson.Redisson;
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;
import org.redisson.config.Config;

public class RedissonBloomFilterExample {

    public static void main(String[] args) {
        // 配置 Redisson 客户端
        Config config = new Config();
        config.useSingleServer()
              .setAddress("redis://127.0.0.1:6379"); // 替换为你的 Redis 服务器地址

        // 创建 Redisson 客户端实例
        RedissonClient redisson = Redisson.create(config);

        // 创建布隆过滤器
        // 注意：这里的名称 "myBloomFilter" 是布隆过滤器的唯一标识，你可以根据需要更改
        RBloomFilter<String> bloomFilter = redisson.getBloomFilter("myBloomFilter");

        // 初始化布隆过滤器，设置预期插入的元素数量和误报率
        bloomFilter.tryInit(10000L, 0.03);

        // 插入元素
        bloomFilter.add("example");
        bloomFilter.add("example1");

        // 查找元素
        boolean mightContain = bloomFilter.contains("example");
        System.out.println("布隆过滤器中可能包含'example'：" + mightContain);

        // 关闭 Redisson 客户端
        redisson.shutdown();
    }
}