哈希知识点总结:哈希、哈希表、位图、布隆过滤器

news2024/11/18 21:38:12

目录

哈希

哈希表

哈希常用方法

1、直接定址法

2、存留余数法

哈希冲突

哈希冲突的解决办法

1、闭散列:开放定址法

(1)线性探测法

(2)二次探测法

2、开散列

哈希桶 / 拉链法

哈希的运用

位图

set操作

reset操作

 总结

位图的运用

 布隆过滤器

引入

思想讲解

【拓展阅读】

经典问题

1、给两个文件,分别有100亿个字符串,我们只有1G内存,如何找到两个文件的交集?分别给出精确算法和近似算法

近似算法:布隆过滤器

精确算法:哈希切分

2、给一个超过100G的logfile,log文件中存折IP地址,设计算法找到出现次数最多的地址,与上题条件相同,如何找到topK的IP?


哈希

哈希也叫散列,它表示的是“一种映射,关键字和存储位置建立一个关联关系”。

哈希表

关键字和存储位置建立一个关联关系

哈希常用方法

1、直接定址法

关键字和存储位置是一 一对应的关系,可能该数就是地址,也可能是通过某种运算得到该地址

使用场景:关键字范围集中(否则容易空间浪费),数据量较小

2、存留余数法

通常计算方法为:

存储位置 = 该数 % 哈希表.size()

【注】

负数也可以用该种方法确定位置,因为%上的数是size(),而size()的结果是size_t,也就是无符号数,这意味着运算时会发生隐式类型转换,也就是说不用担心得出的位置的下标为负数的情况

在这里,就要扩展一下哈希冲突了

哈希冲突

哈希冲突也叫哈希碰撞,表示的是:不同的值映射到同一位置

上面介绍的“存留余数法”获取存储位置的方法是通过模上一个数,但是我们应该很容易想到,不同的数很可能模到同一位置,如哈希表长度为5,当要存储5这个数据时,将会映射到0这个位置,但是后面如果要存储10这个数据时,我们通过计算,会发现存储位置仍然是0,但这个位置已经有数据了,这就引发了哈希冲突

哈希冲突的解决办法
1、闭散列:开放定址法

顾名思义,“开放定址法”也就是将“地址开放”,也就是说,数据可以占用其他位置,只要该位置还处于开放状态,也就是该位置未存储数据。开放定址法的定址有两种探测方法:

(1)线性探测法

通常是 存储位置 = hahi + i (i >= 1),也就是  存储位置 = 上一次哈希映射的位置 + i (i >= 1),直到找到可以存储的位置

(2)二次探测法

通常是 存储位置 = hahi + i ^ 2

2、开散列
哈希桶 / 拉链法

所谓的拉链,就是用一个链条拉起来,和普通的哈希数组不同,拉链法的哈希数组是一个指针数组,每个元素存的是一个节点的指针

哈希的运用

位图

首先我用一个题目来引入

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在
这40亿个数中

解决方案:

(1)二分查找

缺点:要有序 ----> 排序花时间且数据都要存在数组中 -----> 占内存大 --------> 40亿个数据 = 4,0000,000,000 * 4 byte = 14.9G,但是在普通电脑中,用14.9G的内存存数据是比较困难的,而且是要在连续的空间下,这难上加难

(2)位图

因为该题只需要我们判断一个数是否存在,而是否存在我们可以用0和1两种状态来表示,我们很容易能想到二进制,而计算机中,每个比特位就是一个二进制,而一个字节有32个比特位,因此我们可以用一个字节来表示32个数哪些存在,哪些不存在,显然,这种方法所需空间大小远远小于上面那种方法的大小。

接下来我们就要看位图到底怎么使用

假如我们要用一个字节表示下面这个数组哪些数字存在,哪些数字不存在,我们可以这样子做

❁ x在第几个区?(该图是8个比特位一个区)

 区号 = x / 8

❁ x在该区的第几个位?

 位数 = x % 8

我们得到了x在哪个区的哪个位后,我们只需要通过位运算就可以得出该数是否存在,存在则该比特位为1,否则为0

接下来将讲解的是位图中最重要的两个操作:set,reset

set操作

该操作是将某数据设置为“存在”,也就是将其对应的比特位设置为1

假如我们需要将j位处理成1,那我们需要注意的是:我们不应该影响其他位

将某位设置,很明显,我们需要进行移位操作,假如我们要将 j 位设置为1,我们只需要:

bits[i] |= (1 << j)

i表示的是x所在的区号,而bits是整个位图

reset操作

该操作是将某数据设置为“不存在”,也就是将其对应的比特位设置为0

假如我们需要将j位处理成0,那我们仍然需要注意的是:我们不应该影响其他位

将某位设置为0,我们只需要:

bits[i] &= (~(1 << j))

【注】

原位 &= (~(1 << j))后,将会被置为0

 总结

其实位图就是数组,只是数组的每个元素是一个比特位,这样子一个整型可以表示32个数,大大节省了空间

位图的运用

1、给定100亿个整数,涉及算法找到只出现一次的整数

解答:

仍然和最原始的题目一样,它仍然是判断在不在的问题,只是多加了一个条件:只出现一次

我们可以将不同次数分个类

                                                        ❂ 出现 0 次

                                                        ❂ 出现 1 次

                                                        ❂ 出现两次及以上

位图建立在二进制的基础上,因此我们再用二进制数表示这三种情况:

                                                        ❂ 出现 0 次        ——————  00

                                                        ❂ 出现 1 次        ——————  01

                                                        ❂ 出现两次及以上 —————  10

两个位置的数都是0和1,因此我们可以用位图来表示

由于有两位,所以我们用两个位图来表示即可,再根据次数的变化,分别更新两个位图对应位的数字就好

2、给两个文件,分别由100亿个整数,我们只有1G内存,如何找到两个文件的交集

解答:

该题和上题一样,需要用到两个位图,把两个处理100亿个数据的问题分离出来,就是该文章第一个提的关于位图的问题,也就是我们只需要把两个文件中的数据都对应到自己所属的位图中去就可以了,最后遍历位图,如果两个位图的同一个位置都位1,则表明该数属于两个文件的交集

 布隆过滤器

引入

现在我们来思考一个问题:

我们学过哪些可以用来搜索数据的算法或者数据结构,它们有哪些缺点?

答:

1、暴力查找

      缺点:数量大了,效率就低

2、排序 + 二分查找

      缺点:排序有代价,时间复杂度、空间复杂度,学过位图我们也可以直到,面对数量特别大的情况下,虽然二分查找很快,但是在空间上有问题的话,再快的算法没有空间也进行不起来

3、搜索树(如AVL树、红黑树)

4、哈希

以上讲的所有方法,在数据量特别大的时候将无法进行

我们怎么优化呢?🤔🤔🤔

学完了位图,我们可以知道:

整型的数据,判断在不在 ——————> 可以用位图😯🤨😲

现在就提出一个问题,那其他类型的数据呢?

答:这里就要引入布隆过滤器的概念了

思想讲解

整型用位图很好处理,那我们是不是可以将其他的数据结构转化为整型来处理呢?

我将用字符串来举例,如果我们将字符串的ASCII的和作为一个key,我们就可以映射到特定的位置了,假如:

其实这种记录方法是可能会出错的,这里就需要大家思考一个问题 :判断在的情况是准确的呢?还是不在的情况是准确的呢?🤨😣🧐

解答:

判断不在的情况是准确的

因为判断结果并一定准确,因此:布隆过滤器用在可以接收误判的情况下 

我来举一个能接受误判的例子

我们注册用户时,通常会要求“用户名不能重复”,但是一个软件的用户成千上万,如果每次都去服务器上找某个昵称是否存在,那将非常低效,这个时候,就会在用户层 和 服务器层 之间加一个布隆过滤器

✦ 对于不在的情况,就不需要再去服务器查找了,直接就可以返回 ——————> 判断不存在时是准确的

✦ 对于在的情况,就需要再去服务器查找了,确认后再返回 ——————> 判断存在时是准确的,但是,如果不去服务器查找,也是可以的,因为这种误判存在的情况,并不影响运行结果(它并不会导致昵称重复而出错)-------> 这种情况是接受误判的

因为布隆过滤器是会误判的,因此很多读者会提出下列问题:

1、一个值映射多个位,不就可以减少误判了吗?

确实是的,但是它仍然存在误判,但是

(1) 只是降低了误判概率

(2) 布隆过滤器的涉及原因和位图一样,是为了节省空间而涉及的,但是如果为了减少误判,而增加位图数目,以达到一个值映射多个位的实现,这与 节省空间  这一点相冲突了

【拓展阅读】

因为布隆过滤器的结果并不准确,一个key可能是多个值的映射,所以布隆过滤器不能像位图一样设置Reset函数,因为可能影响其他的值,当然这种情况是可以解决的,我们可以用引用计数来解决,但是这样子扩大了空间消耗,因此布隆过滤器大多数情况下并不设置引用计数

经典问题

1、给两个文件,分别有100亿个字符串,我们只有1G内存,如何找到两个文件的交集?分别给出精确算法和近似算法

近似算法:布隆过滤器

精确算法:哈希切分

但是,即使哈希切分后,仍然有问题:如果某个小文件太大,仍然无法加载到内存

 可能有两种情况:

(1) 这个小文件大多是同一个字符串

(2)这个小文件是不同的字符串

第一种情况很好解决,将读取到的字符串放到set即可(set去重),Ai和Bi分别放到setA和setB中,再找交集

第二种情况会出现:不断插入set以后,内存不足,会抛异常,这个时候就需要换一个哈希函数,进行二次切分,再找交集

2、给一个超过100G的logfile,log文件中存折IP地址,设计算法找到出现次数最多的地址,与上题条件相同,如何找到topK的IP?

答:和上题一样,用哈希函数,将不同的IP映射到不同的 i ,相同的IP进入同一个小文件,这个时候我们只需要用map统计IP的次数就好了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2175959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

07-阿里云镜像仓库

07-阿里云镜像仓库 注册阿里云 先注册一个阿里云账号&#xff1a;https://www.aliyun.com/ 进入容器镜像服务控制台 工作台》容器》容器服务》容器镜像服务 实例列表》个人实例 仓库管理》镜像仓库》命名空间》创建命名空间 仓库管理》镜像仓库》镜像仓库》创建镜像仓库 使…

c++11~c++20 内联命名空间

在工作&#xff0c;我们经常会引入第三方库&#xff0c;偶尔会碰到同名的函数和类型&#xff0c;造成编译冲突的问题。一般我们可以使用命名空间&#xff0c;例如 #include <iostream> #include <iostream> using namespace std;namespace S1 {void foo(){cout &l…

Meta首款多模态Llama 3.2开源:支持图像推理,还有可在手机上运行的版本 | LeetTalk Daily...

“LeetTalk Daily”&#xff0c;每日科技前沿&#xff0c;由LeetTools AI精心筛选&#xff0c;为您带来最新鲜、最具洞察力的科技新闻。 Meta最近推出的Llama Stack的发布标志着一个重要的里程碑。这一新技术的推出不仅为开发者提供了强大的多模态能力&#xff0c;还为企业和初…

重构部队信息安全:部队涉密载体建设新策略

一、完善保密体系架构 1. 加强保密规章制度&#xff1a;制定或刷新关于机密信息管理的相关规定&#xff0c;明确机密信息的生成、复制、传输、使用、储存及销毁等核心环节的操作准则与责任分配&#xff0c;确保整个流程的标准化运作。 2. 明确个人保密义务&#xff1a;通过保密…

古老的啤酒酿造技艺:传承与发扬

在人类文明的浩瀚历史中&#xff0c;啤酒酿造技艺源远流长&#xff0c;承载着世代匠人的智慧与匠心。这些古老的技艺&#xff0c;不仅是一种手艺&#xff0c;更是一种文化的传承。今天&#xff0c;我们将一起走进这神秘的酿造世界&#xff0c;探寻古老啤酒酿造技艺的传承与发扬…

性能调优知识点(mysql)三

SQL底层执行原理 MySQL的内部组件结构&#xff1a;大体来说&#xff0c;MySQL 可以分为 Server 层和存储引擎层store两部分 Server层:主要包括连接器、查询缓存、分析器、优化器、执行器等&#xff0c;涵盖 MySQL 的大多数核心服务功能&#xff0c;以及所有的内置函数&#xf…

基于Python大数据可视化的民族服饰数据分析系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏&#xff1a;Java精选实战项目…

基于51单片机的多通道数字电压表proteus仿真

地址&#xff1a;https://pan.baidu.com/s/1zfDI2sjSGFHkYh33Sw6gHQ 提取码&#xff1a;1234 仿真图&#xff1a; 芯片/模块的特点&#xff1a; AT89C52/AT89C51简介&#xff1a; AT89C52/AT89C51是一款经典的8位单片机&#xff0c;是意法半导体&#xff08;STMicroelectron…

【数据结构】链表(1)

【概念】 一种物理存储结构上的非连续存储结构&#xff0c;数据元素的逻辑顺序是通过链表中的引用链接次序来实现的 也就是说&#xff0c;链表是由一个一个的节点组织起来的&#xff0c;如车厢一般&#xff0c;整体就叫做链表 【链表结构】 节点可以理解为”节点对象“&#…

详解代理模式-【静态代理与JDK动态代理】(非常的斯国一)

目录 静态代理 什么是静态代理: ​ 特点: 例子&#xff1a; JDK动态代理&#xff08;主要讲点&#xff09; 大纲&#xff1a; 1、与静态代码的联系 2、JDK动态代理的主流程 3、Proxy的源码 整体概述&#xff1a; 重要点的翻译 &#xff1a; newProxyInstance源码&am…

Adobe Photoshop 2024 v25.12 (macOS, Windows) 发布下载 - 照片和设计软件

Adobe Photoshop 2024 v25.12 (macOS, Windows) - 照片和设计软件 Acrobat、After Effects、Animate、Audition、Bridge、Character Animator、Dimension、Dreamweaver、Illustrator、InCopy、InDesign、Lightroom Classic、Media Encoder、Photoshop、Premiere Pro、Adobe XD…

算法宝典——二分查找算法

1.认识二分查找 二分查找的时间复杂度:O(logN) 二分查找属于算法中耳熟能详的一类&#xff0c;通常的我们会说只有数组有序才可以使用二分查找&#xff0c;不过这种说法并不完全正确&#xff0c;只要数据具有"二段性"就可以使用二分查找&#xff0c;即我们可以找出一…

Spring 事务管理-AOP

1. 事务管理 1.1 事务回顾 概念 事务是一组操作的集合&#xff0c;它是一个不可分割的工作单位&#xff0c;这些操作要么同时成功&#xff0c;要么同时失败。 操作 开启事务(一组造作开始前&#xff0c;开启事务)&#xff1a;start transaction / begin ; 提交事务(这组操…

网络:TCP协议-报头字段

个人主页 &#xff1a; 个人主页 个人专栏 &#xff1a; 《数据结构》 《C语言》《C》《Linux》《网络》 文章目录 前言一、TCP协议格式16位源端口号 和 16位目的端口号4位首部长度16位窗口大小32位序号 和 32位确认序号6种标记位 和 16位紧急指针 总结 前言 本文是我对于TCP协…

毕业设计选题:基于ssm+vue+uniapp的校园二手交易平台小程序

开发语言&#xff1a;Java框架&#xff1a;ssmuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;M…

cmd命令大全详解

CMD是Windows操作系统中的命令行解释器&#xff0c;它允许用户通过键入命令来执行各种操作。以下是一些常用的CMD命令及其简要说明&#xff1a; dir - 显示目录中的文件和子目录。 cmddir cd - 更改当前目录。 cmdcd [目录路径] mkdir - 创建新目录。 cmdmkdir [目录名] rmd…

银河麒麟操作系统设置网卡混杂模式的方法

银河麒麟操作系统设置网卡混杂模式的方法 1、使用场景2、操作方法步骤1&#xff1a;查看网络接口信息步骤2&#xff1a;设置网卡进入混杂模式退出混杂模式 3、注意事项 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在网络管理和监控中&am…

Anki 学习日记 - 卡片模版 - 单选ABCD(纯操作)

摘要&#xff1a;在不懂前端语言的情况下自定义卡片模版&#xff0c;卡片模版的字段 安装&#xff08;官网&#xff09;&#xff1a;Anki - powerful, intelligent flashcards (ankiweb.net) 一、在哪能修改卡片模版 管理笔记模板 - > 添加 -> 问答题 -> 设置名称 二…

C++学习9.27

1、顺序表、栈、队列都更改成模板类 &#xff08;1&#xff09;顺序表 #include <iostream> #include <cstring>using namespace std;template <typename T1,typename T2,typename T3> class My_string { private:T1 *ptr; //指向字符数组的指针T2…

【GAN】生成对抗网络Generative Adversarial Networks理解摘要

【Pytorch】生成对抗网络实战_pytorch生成对抗网络-CSDN博客 【损失函数】KL散度与交叉熵理解-CSDN博客 [1406.2661] Generative Adversarial Networks (arxiv.org) GAN本质是对抗或者说竞争&#xff0c;通过生成器和鉴别器的竞争获取有效地结果&#xff0c;换句话说&#xff0…