c++学习(布隆过滤器)[23]

c++学习(布隆过滤器)[23]

news2026/4/14 0:13:17

布隆

布隆过滤器（Bloom Filter）是一种概率型数据结构，用于判断一个元素是否可能存在于一个集合中。它使用多个哈希函数和位图来表示集合中的元素。

布隆过滤器的基本原理如下：

初始化：创建一个长度为m的位图（bitmap），并将所有位都置为0。
插入元素：对于要插入的元素，使用k个哈希函数对其进行哈希计算，得到k个哈希值。然后将位图中对应的位置置为1。
查询元素：对于要查询的元素，同样使用k个哈希函数对其进行哈希计算，得到k个哈希值。然后检查位图中对应的位置，如果所有位置都为1，则认为元素可能存在于集合中；如果有任何一个位置为0，则元素一定不存在于集合中。

布隆过滤器的优点是占用空间小、插入和查询速度快，且不需要存储实际的元素值。但布隆过滤器也存在一定的误判率（False Positive），即可能将不存在的元素误判为存在。误判率取决于位图的长度和哈希函数的个数。

布隆过滤器适用于需要高效判断元素是否存在的场景，如缓存穿透问题、URL去重、黑名单过滤等。但它不适用于需要精确判断元素是否存在的场景，因为存在一定的误判率。在使用布隆过滤器时，需要根据实际情况选择合适的位图长度和哈希函数个数，以平衡空间占用和误判率。

哈希切分

问题：两个文件分别有100亿个query，只有1G内存，如何找到两个文件的交集？分别给出精确算法和近似算法

1.假设每个query 30byte ，100亿query需要多少空间？ -> 3000亿byte -> ≈ 300G （10亿byte约等于1G）
2.假设两个文件叫A和B
在这里插入图片描述

在相同编号的小文件中找交集 A0和B0 …
如果小文件过大也可以切分（递归即可），没有必要分成1000份（分成适当大小即可）

问题
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/806949.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ARM 详解

ARM 详解

一、ARM 的发展史 ARM 的发展历史可以追溯到 1978 年，当年克里斯库里（Chris Currry）所任职的公司遭遇财务危机，发展每况愈下，库里在和创始人深入沟通后，决定离职。当时的库里对微型计算机很感兴趣&#xf…

阅读更多...

大致了解Redis

大致了解Redis

为了保证数据的可靠性，Redis 需要在磁盘上读写 AOF 和 RDB，但在高并发场景里，这就会直接带来两个新问题：一个是写 AOF 和RDB 会造成 Redis 性能抖动，另一个是 Redis 集群数据同步和实例恢复时，读 RDB 比较慢…

阅读更多...

什么是EPC？

什么是EPC？

文章目录一、什么是EPC？二、EPC的优势和特征2.1、EPC的优势2.2、EPC的特征三、EPC项目管理平台3.1、平台简介3.2、平台优势3.3、平台功能模块一、什么是EPC？ EPC（Engineering Procurement Construction）是指公司受业主委托&am…

阅读更多...

MySQL中锁的简介——表级锁-元数据锁、意向锁

MySQL中锁的简介——表级锁-元数据锁、意向锁

1.元数据锁查看元数据锁 select object_type,object_scheme,object_name,lock_type,lock_duration from perfomance_scheme.metadata_locks;2.意向锁线程A开启事务后在执行update更新语句时候，会给数据加上行锁，加上行锁以后，会对整张表加…

阅读更多...

JMM是如何保证原子性呢？

JMM是如何保证原子性呢？

3.3.1加锁锁是一种通用技术，比如Java提供的Synchronized关键字就是锁的一种实现，Synchronized是排他锁/独占锁，就是有你没我的意思，只要其他线程到来访问，发现锁还未释放，就要在外面等待，因为S…

阅读更多...

【雕爷学编程】Arduino动手做（175）---机智云ESP8266开发板模块6

【雕爷学编程】Arduino动手做（175）---机智云ESP8266开发板模块6

37款传感器与执行器的提法，在网络上广泛流传，其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块，依照实践出真知（一定要动手做）的理念，以学习和交流为目的&am…

阅读更多...

Docker 入门终极指南[详细]

Docker 入门终极指南[详细]

前言富 Web 时代，应用变得越来越强大，与此同时也越来越复杂。集群部署、隔离环境、灰度发布以及动态扩容缺一不可，而容器化则成为中间的必要桥梁。本节我们就来探索一下 Docker 的神秘世界，从零到一掌握 Docker 的基本原理与实…

阅读更多...

Nginx配置WebSocket反向代理

Nginx配置WebSocket反向代理

1、WebSocket协议 WebSocket协议相比较于HTTP协议成功握手后可以多次进行通讯，直到连接被关闭。但是WebSocket中的握手和HTTP中的握手兼容，它使用HTTP中的Upgrade协议头将连接从HTTP升级到WebSocket。这使得WebSocket程序可以更容易的使用现已存在的…

阅读更多...

Java8使用CompletableFuture实现多异步任务同步等待结果

Java8使用CompletableFuture实现多异步任务同步等待结果

一、应用场景在实际的开发工作中，我们可能会遇到一些比较复杂且耗时的功能，例如一个业务数据表格的导出，假定业务数据表本身都很大，需要组装的数据又比较多，就会造成整个实现过程很耗时甚至可能出现接口请求超时&…

阅读更多...

Android 之 MediaPlayer 播放音频与视频

Android 之 MediaPlayer 播放音频与视频

本节引言： 本节带来的是Android多媒体中的——MediaPlayer，我们可以通过这个API来播放音频和视频该类是Androd多媒体框架中的一个重要组件，通过该类，我们可以以最小的步骤来获取，解码和播放音视频。它支持三种不同的…

阅读更多...

Carla教程三：参考线平滑理论完全解析(二次规划)

Carla教程三：参考线平滑理论完全解析(二次规划)

参考线平滑理论决策规划流程第一步是参考线的生成，然后将障碍物进行投影到以参考线为坐标轴的frenet坐标系。参考线是很关键的一部，解决了导航路径过长，不平滑，不利于坐标转换找匹配点的问题。利用参考线，每一个规划…

阅读更多...

LeetCode 2050. Parallel Courses III【记忆化搜索,动态规划,拓扑排序】困难

LeetCode 2050. Parallel Courses III【记忆化搜索,动态规划,拓扑排序】困难

本文属于「征服LeetCode」系列文章之一，这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁，本系列将至少持续到刷完所有无锁题之日为止；由于LeetCode还在不断地创建新题，本系列的终止日期可能是永远。在这一系列刷题文章…

阅读更多...

适用于 Windows 10/11 的 10 款最佳免费 PDF 阅读器软件

PDF 文档非常受欢迎，因为它们可以在任何操作系统上打开，并且很容易附加到电子邮件、消息或网站中。PDF 文档还具有不易更改的优点。因此，它被个人和组织广泛用于简历、学习材料、文档以及外围设备和设备手册的数字副本。 PDF 阅读器软件可帮…

阅读更多...

【JavaEE初阶】Servlet (三)MessageWall

【JavaEE初阶】Servlet (三)MessageWall

在我们之前博客中写到的留言墙页面,有很严重的问题:(留言墙博客) 如果刷新页面/关闭页面重开,之前输入的消息就不见了.如果一个机器上输入了数据,第二个机器上是看不到的. 针对以上问题,我们的解决思如如下: 让服务器来存储用户提交的数据,由服务器保存. 当有新的浏览器打开页…

阅读更多...

Python 基础（十七）：库

Python 基础（十七）：库

❤️ 博客主页：水滴技术 🌸 订阅专栏：Python 入门核心技术 🚀 支持水滴：点赞👍 + 收藏⭐ + 留言💬 文章目录一、Python库的概念二、常用标准库2.1、数字和数学2.2、文件和目录操作2.3、时间和日期2.4、网络通信2.5、并发和多线程2.6、数据压缩和归档2.7、数据序列化…

阅读更多...

深度专访盖国强丨《TVP技术指针：共创国产数据库的“中国时刻”》

深度专访盖国强丨《TVP技术指针：共创国产数据库的“中国时刻”》

日前，腾讯云《TVP技术指针》栏目对云和恩墨创始人盖国强进行了深度专访。从专业DBA到创立云和恩墨公司，从 Oracle ACE 国内第一人到国产数据库的践行者，伴随中国数据库成长的二十年，他有哪些思考、判断、行动和远见？在…

阅读更多...

苍穹外卖-day05

苍穹外卖-day05

苍穹外卖-day05 本项目学自黑马程序员的《苍穹外卖》项目，是瑞吉外卖的Plus版本功能更多，更加丰富。结合资料，和自己对学习过程中的一些看法和问题解决情况上传课件笔记视频：https://www.bilibili.com/video/BV1TP411v7v6/?sp…

阅读更多...

深入浅出对话系统——可控文本生成

深入浅出对话系统——可控文本生成

引言主要是介绍一篇引用800的论文 CTRL: A Conditional Transformer Language Model for Controllable Generation 它的Pytorch源码在 https://huggingface.co/transformers/v3.1.0/_modules/transformers/modeling_ctrl.html 主要思想是通过加入控制代码(control code)来控…

阅读更多...

空中出租车运营公司【Flewber Global】申请纳斯达克IPO上市

空中出租车运营公司【Flewber Global】申请纳斯达克IPO上市

猛兽财经获悉，总部位于美国纽约的空中出租车运营公司Flewber Global Inc，近期已向美国证券交易委员会（SEC）提交招股书，申请在纳斯达克IPO上市，股票代码为（FLYF）,Flewber Global计划通…

阅读更多...

[语义分割] DeepLab v2（膨胀卷积、空洞卷积、多尺度信息融合、MSc、ASPP、空洞空间金字塔池化、Step学习率策略、Poly学习率策略）

[语义分割] DeepLab v2（膨胀卷积、空洞卷积、多尺度信息融合、MSc、ASPP、空洞空间金字塔池化、Step学习率策略、Poly学习率策略）

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 论文地址：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs源码地址&…

阅读更多...

推荐文章

最新文章