【布隆过滤器】如何防止缓存穿透、海量邮箱的垃圾邮件过滤等问题?

news2025/1/17 17:59:28

目录

一、布隆过滤器是什么?

二、布隆过滤器的模拟实现

2.1、模拟实现

2.2、布隆过滤器的优点和缺点

优点:

缺点:

2.3、布隆过滤器的删除功能

2.4、布隆过滤器的使用场景


一、布隆过滤器是什么?

        

        它是一种概率型数据结构,特点是高效的插入和查询,作用是可以告诉你“某个数据一定不存在,或是可能存在”,原理是通过多个哈希函数,将一个数据映射到位图中,好处是不仅提高了查询效率,也可以节省大量的内存空间,底层相当于 哈希+位图;

解读:为什么能知道“某样东西一定不存在,或者可能存在”?

        哈希冲突。因为他的原理是通过多个哈希函数来进行映射,好比我要存放两个字符串,有可能,这两个字符串经过哈希函数计算,映射到的位置正好相同,如下图:

但是,不难理解的一点是,假设有三个哈希函数进行哈希,那么如果我要查找某一个字符串,是否一定不存在,那么一定是肯定的,因为三个位置上只要有一个不为1,就说明要查找的这个字符串一定不存在

PS:

1.一般使用布隆过滤器来说,是会给定一个误判率的;

2.布隆过滤器没有存储当前的数据(如上图);

二、布隆过滤器的模拟实现

2.1、模拟实现

        这里的逻辑实现太简单了,就不展开论述了,对于添加和查找功能,就是通过不同的哈希函数进行哈希来存入或查找不同元素,查找元素时,一旦有一个数值经过哈希函数无法在位图中找到,就说明一定不存在;

代码如下:

class SimpleHash {

    public int cap;//容量
    public int seed;//随机

    public SimpleHash(int cap, int seed) {
        this.cap = cap;
        this.seed = seed;
    }

    /**
     * 根据seed的不同,创建不同点哈希函数
     * @param key
     * @return
     */
    int hash(String key) {
        int h;
        return (key == null) ? 0 : (seed * (cap-1)) & ((h = key.hashCode()) ^ (h >>> 16));
    }

}
public class MyBloomFilter {
    //bitSet的初始化大小
    public static final int DEFAULT_SIZE = 1 << 20;
    //位图
    public BitSet bitSet;
    //记录存储的数据数量
    public int usedSize;

    public static final int[] seeds = {3,5,12,6,24,32};

    public SimpleHash[] simpleHashes;

    public MyBloomFilter() {
        bitSet = new BitSet(DEFAULT_SIZE);
        //创建哈希函数
        simpleHashes = new SimpleHash[seeds.length];
        for(int i = 0; i < simpleHashes.length; i++) {
            simpleHashes[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    /**
     * 添加元素到布隆过滤器
     * @param val
     */
    public void add(String val) {
        //让每个哈希函数分别处理当前数据,并存入位图中
        for(int i = 0; i < simpleHashes.length; i++) {
            bitSet.set(simpleHashes[i].hash(val));
        }
    }

    /**
     * 是否包含val,这里会存在一定的误判
     * @param val 一定是通过这几个哈希函数看对应的位置
     * @return
     */
    public boolean contains(String val) {
        //只要有1个为0 那么一定不存在
        for(int i = 0; i < simpleHashes.length; i++) {
            if(!bitSet.get(simpleHashes[i].hash(val))) {
                return false;
            }
        }
        return true;
    }

    //测试
    public static void main(String[] args) {
        MyBloomFilter myBloomFilter = new MyBloomFilter();
        myBloomFilter.add("hello");
        myBloomFilter.add("hello2");
        myBloomFilter.add("hello3");
        myBloomFilter.add("hehe");
        myBloomFilter.add("haha");
        System.out.println(myBloomFilter.contains("hello4"));
    }
}

PS:布隆过滤器不支持删除工作,因为删除元素时,可能会影响到其他元素;例如有两个字符串在位图中若有一个占用相同的比特位,那么删除其中任意一个字符串,都有可能造成另一个字符串找不到的情况;

2.2、布隆过滤器的优点和缺点

优点:

1.增加和查询时间复杂度都是:O(k)  ,这里k是哈希函数的个数;

2.布隆过滤器不需要存储元素本身,对有保密要求的场合有一定优势;

3.能够承受一定的误判;

4.因为底层是位图实现,因此可以存放海量数据,其他数据结构不行;

缺点:

1.有误判率,即假阳性,不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据)

2.不能获取元素本身;

3.一般情况下布隆过滤器不能删除元素;

4.如果采用计数方式删除,可能会存在计数回绕问题。

2.3、布隆过滤器的删除功能

布隆过滤器不能直接删除数据,因为删除元素时可能会影响到其他元素。

        但是办法总还是有的(计数器):将布隆过滤器中的每一个bit位扩展成一个小的计数器,插入元素时给计数器加一,删除元素时给计数器减一,这是一种多占用几倍的存储空间代价来进行删除功能;

存在缺陷:

1.无法确认元素是否真正在布隆过滤器中;

2.存在计数回绕

2.4、布隆过滤器的使用场景

1.去重功能;

2.判断给定数据是否存在:海量数据(数据亿级)存储校验、防止缓存穿透、邮箱的垃圾邮件过滤、黑名单功能等;
 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/161975.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

敏捷.概念辨析

第一部分 1. 最小可行产品MVP&#xff08;Minimum Viable Product&#xff09; 在很多同学的脑海里&#xff0c;MVP就是你想传达给用户的功能的最小集合。 错&#xff0c;完全错。 问题不在于“你觉得应该……”&#xff0c;关键是“用户目前感觉……”。我们预设了立场&am…

Android Glide 4.9 常见方法总结

转载请标明出处&#xff1a;http://blog.csdn.net/zhaoyanjun6/article/details/128665358 本文出自【赵彦军的博客】 文章目录依赖submit 下载图片DrawableImageViewTargetRequestListener 加载圆角图片回调圆形 CircleCrop圆角 RoundedCornersFitCenterCenterCropCenterInsid…

RK3399平台开发系列讲解(中断篇)ARM64异常处理详解

🚀返回专栏总目录 文章目录 一、异常级别二、异常分类三、异常向量表四、异常处理沉淀、分享、成长,让自己和他人都能有所收获!😄 一、异常级别 📢ARM64的处理器支持多个异常等级(exception level),其中EL0是用户模式,EL1是内核模式,也称为特权模式;EL2 是虚拟化…

算力狂热时代的冷静之道:宁畅总裁秦晓宁分享企业的算力最优解

算力是数字化时代的生产力之源&#xff0c;近年来已经成为共识。所以&#xff0c;我们能看到各个层面对算力的追逐&#xff0c;无论是国家层面的政策利好&#xff0c;算力基础设施建设的加速&#xff0c;还是诸多行业和企业积极地增加算力部署&#xff0c;呈现出一片如火如荼的…

958. 二叉树的完全性检验

958. 二叉树的完全性检验 难度中等 给定一个二叉树的 root &#xff0c;确定它是否是一个 完全二叉树 。 在一个 完全二叉树 中&#xff0c;除了最后一个关卡外&#xff0c;所有关卡都是完全被填满的&#xff0c;并且最后一个关卡中的所有节点都是尽可能靠左的。它可以包含 …

AWVS扫描Web应用程序

AWVS扫描Web应用程序 系列文章 AWVS安装与激活 1.账户密码登录扫描 我们准备了一个靶场用来做测试扫描&#xff1a; 1.点击【Targets】&#xff0c;点击【add Target】 2.输入扫描地址和扫描描述,点击【save】 3.点击【Site Login】 4.选择【try to auto-login into the si…

降本增效,软件质量是要降还是要升?

最近一年&#xff0c;裁员潮席卷而来&#xff0c;意味着许多企业经营遇到了很大困难&#xff0c;“降本增效”自然成了企业的主旋律&#xff1a;内部研发和运营要努力降低成本&#xff0c;外部市场想突出重围、开拓新局面&#xff0c;创造新营收&#xff0c;企业才能渡过难关&a…

DeViSE: A Deep Visual-Semantic Embedding Model

摘要 现代视觉识别系统受限于其能力为&#xff1a;扩大大规模数量的目标类别。 scale to large numbers of object categoriestext data :文本数据这篇文章我们提出一个a new deep visual-semantic embedding model从unannotated text 中收集的语义信息和有标签的图像数据。o…

经纬恒润荣膺2022年度中国港口协会科学技术奖一等奖!

近日&#xff0c;2022年度中国港口协会科学技术奖评终审答辩会在青岛圆满闭幕&#xff0c;经纬恒润和山东港口日照港集装箱发展有限公司共同申报的“顺岸开放式全自动化集装箱码头集卡无人驾驶关键技术研究和应用”获得2022年度中国港口协会科技进步奖一等奖。 中国港口协会科学…

[go]深入学习Go总结

Go 深入学习 文章目录Go 深入学习编译过程概念编译四阶段词法分析 语法分析类型检查中间代码生成机器码生成类型系统分类底层类型类型相同类型赋值类型强制转换类型方法自定义类型方法方法调用方法调用时的类型转换类型断言接口类型查询数据结构数组初始化访问和赋值切片数据结…

【Java】Java的面向对象笔记(上)(二)

再谈方法 Overload 重载 定义&#xff1a;在同一个类中&#xff0c;允许存在一个以上的同名方法&#xff0c;只要它们的参数个数或者参数类型不同即可。 两同一不同 同一个类、相同方法名参数列表不同&#xff1a;参数个数不同&#xff0c;参数类型不同&#xff0c;参数顺序不…

SpringBoot 数据源的自动配置HikariDataSource以及使用Druid数据源

目录 &#xff08;一&#xff09;、数据源的自动配置-HikariDataSource 1、导入JDBC场景 2、分析自动配置 3、修改配置项 4、测试 &#xff08;二&#xff09;、使用Druid数据源 1、druid官方github地址 2、自定义方式 3、使用官方starter方式 &#xff08;一&#xf…

汇编语言【王爽】实验一、二

实验一&#xff1a;查看CPU和内存&#xff0c;用机器指令和汇编指令编程 debug环境搭建&#xff1a;参考此文 assignment 1 用A命令向内存中写入汇编指令&#xff0c;用U命令查看 用R命令分别修改CS、IP寄存器&#xff0c;即CS:IP的指向&#xff0c;用T命令逐条执行 assignm…

小兔子在终端给大家拜年啦

小兔子在终端给大家拜年啦前言创作过程小兔子模型制作实现思路代码小结耐心和持久胜过激烈和狂热。 哈喽大家好&#xff0c;我是陈明勇&#xff0c;本文分享的内容是 使用 Go 语言实现小兔子在终端给大家拜年。如果觉得作品有趣&#xff0c;不妨点个赞&#xff0c;如果本文有错…

【学习笔记】决策树 (1.简介+基本构建思想)

简单问题引入 如何判断今天是什么季节&#xff1f;春天、夏天、秋天、冬天&#xff1f; 如果是我们的话&#xff0c;可以通过日期一下子知道今天的季节——“7月份&#xff0c;所以是夏天&#xff01;”大概是这样的发言。 但如果不让你通过日期来判断呢&#xff1f;选择还是…

摸鱼快报:golang net/http中的雕虫小技

以后会开一个板块&#xff0c;摸鱼快报&#xff0c;快速记录这几周开发中雕虫小技&#xff0c; 也算一个错题集。1. 向开发环境localhost:3000种植cookie前端使用Create React App脚手架&#xff0c;默认以localhost:3000端口启动&#xff1b;后端使用golang-gin框架&#xff0…

python在多卡服务器中指定某块显卡允许程序 -- 本机为mac,服务器为Linux, nvidia

1 在pychram环境变量中设置 在pycharm端操作&#xff0c;操作步骤如下&#xff1a; &#xff08;1&#xff09;操作右上角&#xff1a;Edit Configurations... (2)在 Edit Configurations界面可以选择设置哪个程序的cuda&#xff0c;如图&#xff1a; &#xff08;3&#xff0…

java基于ssm框架开发的视频论坛网站源码

简介 Java基于ssm开发的视频论坛网站&#xff0c;普通用户可以浏览视频搜索视频评论点赞收藏视频&#xff0c;关注用户。还可以浏览新闻&#xff0c;发布帖子到论坛。 演示视频 https://www.bilibili.com/video/BV15T4y1P7kk/?p2&share_sourcecopy_web&vd_sourceed0…

【阶段三】Python机器学习24篇:机器学习项目实战:XGBoost回归模型

本篇的思维导图: 项目实战(XGBoost回归模型) 项目背景 为了降低不良贷款率,保障自身资金安全,提高风险控制水平,银行等金融机构会根据客户的信用历史资料构建信用评分卡模型给客户评分。根据客户的信用得分,可以预估客户按时还款的可能性,并据此决定是否发放贷款…

DX-BT18 双模蓝牙模块介绍

DX-BT18双模蓝牙模块简介DX-BT18 双模蓝牙模块是深圳大夏龙雀科技有限公司专为智能无线数据传输而打造&#xff0c;遵循蓝牙4.2标准协议的双模蓝牙模块&#xff08;Dual-Mode&#xff09; 同时支持 BT3.0 Classic 和 BT4.2 BLE模式。 DX-BT18模块应用于无线数据传输领域&#x…