探秘布隆过滤器:高效数据查找与去重利器

news2025/1/22 19:12:16

探秘布隆过滤器:高效数据查找与去重利器

引言

在现代计算机科学中,数据的查找与去重是一个至关重要的问题。本文将介绍一种高效的数据结构——布隆过滤器,它能够在海量数据中快速判断某个元素是否存在,同时具有出色的空间效率。

什么是布隆过滤器?

布隆过滤器是一种概率型数据结构,用于快速检查一个元素是否属于一个集合。它基于一系列的哈希函数和一个位数组实现。与传统的数据结构相比,布隆过滤器具有较小的内存占用和快速的查询速度。

布隆过滤器的优点和缺点

  • 优点
    • 高效的查找速度。
    • 节省内存空间。
  • 缺点
    • 可能会出现误判。
    • 无法删除元素。

布隆过滤器的原理

布隆过滤器内部结构

布隆过滤器由一个位数组和一组哈希函数构成。位数组的长度取决于预期的元素数量和容忍的误判率。

添加元素

  1. 使用多个哈希函数将要添加的元素映射到位数组的不同位置。
  2. 将这些位置对应的位设置为1。

查询元素

  1. 使用相同的哈希函数映射要查询的元素。
  2. 检查这些位置的位是否都为1,若有一个为0则可以确定元素不存在于集合中。

布隆过滤器的应用场景

实际案例:在搜索引擎中的URL去重

搜索引擎需要处理大量的URL,并且需要确保相同的URL不会被重复索引。布隆过滤器可以快速地检查一个URL是否已经被索引,从而避免不必要的重复工作。

其他常见应用场景

  • 缓存系统
  • 网络爬虫
  • 分布式系统

如何实现一个简单的布隆过滤器?

以下是一个简单的Python实现示例:

import hashlib

def md5_hash_to_int(input_string):
    # 使用MD5对输入字符串进行哈希
    md5_hash = hashlib.md5(input_string.encode()).hexdigest()
    
    # 将哈希结果转为整数
    hash_integer = int(md5_hash, 16)
    
    return hash_integer

def sha1_hash_to_int(input_string):
    # 使用SHA-1对输入字符串进行哈希
    sha1_hash = hashlib.sha1(input_string.encode()).hexdigest()
    
    # 将哈希结果转为整数
    hash_integer = int(sha1_hash, 16)
    
    return hash_integer

def sha256_hash_to_int(input_string):
    # 使用SHA-256对输入字符串进行哈希
    sha256_hash = hashlib.sha256(input_string.encode()).hexdigest()
    
    # 将哈希结果转为整数
    hash_integer = int(sha256_hash, 16)
    
    return hash_integer

class BloomFilter:
    def __init__(self, size, hash_functions):
        self.size = size
        self.bit_array = [0] * size
        self.hash_functions = hash_functions

    def add(self, item):
        for fn in self.hash_functions:
            index = fn(item) % self.size
            self.bit_array[index] = 1

    def contains(self, item):
        for fn in self.hash_functions:
            index = fn(item) % self.size
            if self.bit_array[index] == 0:
                return False
        return True


if __name__ == "__main__":
    # 创建一个布隆过滤器,使用3个哈希函数和一个大小为100的位数组
    bloom_filter = BloomFilter(100, [md5_hash_to_int, sha1_hash_to_int, sha256_hash_to_int])

    # 添加一些元素
    elements_to_add = ["apple", "banana", "cherry", "date"]
    for element in elements_to_add:
        bloom_filter.add(element)

    # 检查元素是否存在于布隆过滤器中
    elements_to_check = ["apple", "grape", "kiwi"]
    for element in elements_to_check:
        if bloom_filter.contains(element):
            print(f"{element} 可能在布隆过滤器中")
        else:
            print(f"{element} 一定不在布隆过滤器中")

调试运行示例

python3 bloomDemo.py

请添加图片描述

在这个示例中,我们首先创建了一个布隆过滤器对象,然后添加了一些元素。接着,我们检查了一些元素是否存在于布隆过滤器中,并根据结果输出相应的消息。

布隆过滤器的性能与限制

布隆过滤器的性能取决于位数组的长度和哈希函数的数量。同时,误判率是一个需要权衡的指标。

布隆过滤器的最佳实践

在使用布隆过滤器时,需要注意以下几点:

  • 选择合适的位数组长度和哈希函数数量。
  • 定期检查误判率并调整参数。
  • 仔细考虑适用场景,避免删除操作。

结论

布隆过滤器是一个强大的工具,可以在海量数据中快速查找和去重。在合适的场景下,它可以提升程序的性能,同时节省内存资源。

参考资料

Bloom Filters by Example

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1063357.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态调整系统主题色(4): CssVar 与 Variant 方案的探索

动态调整系统主题色(4): CssVar 与 Variant 方案的探索 动态调整系统主题色(4): CssVar 与 Variant 方案的探索 前言方案的介绍与比较 CssVar (CSS 变量方案)CSS 变量方案与 tailwindcss 的结合Variant 方案 2种方案在小程序上的示例之前的几篇 前言 这篇已经是动态调整系统…

深度学习模型部署与优化:策略与实践;L40S与A100、H100的对比分析

★深度学习、机器学习、生成式AI、深度神经网络、抽象学习、Seq2Seq、VAE、GAN、GPT、BERT、预训练语言模型、Transformer、ChatGPT、GenAI、多模态大模型、视觉大模型、TensorFlow、PyTorch、Batchnorm、Scale、Crop算子、L40S、A100、H100、A800、H800 随着生成式AI应用的迅猛…

python打开浏览器并模拟搜索

打开已存在的浏览器 打开已存在的浏览器有个很重要的作用就是,可以对于一些登录场景,提前登录好,不需要模拟登录了。 在命令行中执行打开chrome的命令,在图标上找到chrome的安装位置 在cmd命令行下执行命令 C:\Program Files\…

工厂管理软件中的计划排产是什么

一、计划排产的定义: 计划排产是指根据工厂的生产能力、订单需求和资源限制等因素,合理安排生产任务和时间,以实现高效的生产计划。它涉及到生产订单的分配、生产线的调度和资源的优化利用,旨在提高生产效率、缩短交货时间和降低…

高速公路堵车动力学

S/t trace 图可以分析牛顿力学时间序列的一切。 下例分析了当车距太小时,一个轻微的刹车扰动如何触发大堵车的: 堵车由以下因素促成: 刹车反应时间,刹车反应很快,看见灯即可,即使这样越往后刹车必须越狠&…

对于对象初始化的加深理解

一道有一定难度和挑战性的注重细节的有趣的面试题 目录 案例需求不同写法与角度下写法一写法二写法三写法四A类B类测试类 注参考视频 案例需求 不同写法与角度下 写法一 注:方法的修饰符为private package com.xie.interview;/*** 对象属性初始化相关的面试笔试题*…

Stable diffusion的架构解读(本博客还是以unet架构为主)

博客只是简单的记录一下自己学的,基于自己的一些情况,所以简单了一些只是将来忘记,用来回顾用。 论文的大体框架 unet结构位于 unet会接受prompt特征、latent特征、和t时间步特征,最后生成新一轮的特征 可以参考知乎大佬htt…

re学习(37)DASCTF 2023 0X401七月暑期挑战赛 controflow

程序通过改变栈里面的返回地址来控制程序的控制流 从而达到混淆的效果 左侧有许多被hook的函数 在每个函数开头设置断点 然后观察程序的运行流程 会发现输入的数据会进行 异或 相加 异或 相减 相乘 异或等操作 要注意部分运算的索引是 从[10]开始的 具体思路参考&#xf…

三十、【进阶】B-Trees的演变过程

1、索引结构 (1)二叉树 (2)B-Tree树 B-Tree树最大度数为5,代表每一个节点最多存储4个key(每个节点最多存储4个数据),5个指针(可以指向5个子节点)。 2、演变过程(最大度数为5) &…

gorm 自定义时间、字符串数组类型

文章目录 自定义时间类型自定义字符串数组测试与完整代码测试代码测试结果 GORM 是GO语言中一款强大友好的ORM框架,但在使用过程中内置的数据类型不能满足以下两个需求,如下: time.Time类型返回的是 2023-10-03T09:12:08.5352808:00这种字符串…

基于Java的家政公司服务平台设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

在windows 10 里安装并设置了gvim 9.0

在windows 10 里安装并设置了gvim 9.0 。由于电脑里有联想软件商店,搜索vim,找到gvim 9.0 ,顺利安装了该软件。安装好以后,打开该软件,界面背景是白色,字体小。因此在网上搜索:设置gvim背景&…

Docker 的数据管理与Docker 镜像的创建

------------------Docker 的数据管理--------------------- 管理 Docker 容器中数据主要有两种方式:数据卷(Data Volumes)和数据卷容器(DataVolumes Containers)。 1.数据卷 数据卷是一个供容器使用的特殊…

FM5888协议系列-USB充电控制器 移动电源应用

产品描述: FM5888是一款USB快速充电控制IC,符合USB电池充电规范1.2版本,允许充电装置吸取的电流类似于使用原装充电器。FM5888可自动识别充电设备类型,支持多种智能手机,并通过对应的USB充电协议与设备握手&#xff0c…

Video Caption / 视频字幕:数据集总结

目录 一、背景 二、介绍 2.1 MSR-VTT 2.2 MSVD 2.3 VATEX 三、参考文献 一、背景 Video Caption / 视频字幕:常用指标(BELU-4,ROUGE-L,METEOR,CIDEr,SPICE)和数据集总结-CSDN博客Video C…

Windows照片查看器无法查看某些照片的解决方案

windows11中将默认的照片查看器替换成了Windows照片查看器,但是在查看某些手机截屏的照片时出现如下报错: Windows照片查看器无法显示此图片,因为计算机上的可用内存可能不足。请关闭一些目前没有使用的程序或者释放部分硬盘空间(如果硬盘几乎已满)&…

AOP

Spring AOP 1.什么是AOP AOP(Aspect Oriented Programming):面向切面编程,它是⼀种思想,它是对某⼀类事情的集中处理。 AOP 是⼀种思想,而 Spring AOP 是⼀个框架,提供了⼀种对 AOP 思想的实现…

关于C语言的一些尘封记忆的唤醒

文章目录 size_t类型stddef.hstdint.h math.h如何生成静态链接库优化单片机的执行效率 这两天要搞一个动态背光的项目,涉及到单片机。十几年没有接触了。 size_t类型 size_t是C语言中用于表示大小和索引的无符号整数类型。它是一种与平台相关的类型,在不…

计算机专业毕业设计项目推荐10-饮食搭配平台(Go+微信小程序+Mysql)

饮食搭配平台(Go微信小程序Mysql) **介绍****系统总体开发情况-功能模块****各部分模块实现** 介绍 本系列(后期可能博主会统一为专栏)博文献给即将毕业的计算机专业同学们,因为博主自身本科和硕士也是科班出生,所以也比较了解计算机专业的毕业设计流程…

好用的 WAF 工具(SafeLine)

好用的 WAF 工具(SafeLine) SafeLine安装访问 Web应用防火墙(WAF)是一种工作在应用层的防火墙,主要对Web请求/响应进行防护 WAF可以帮助保护Web应用程序免受各种常见攻击,比如SQL注入,跨站脚本漏…