【追求卓越09】算法--散列表(哈希表)

news2024/9/30 21:30:53

引导

        通过前面几个章节的学习(二分查找,跳表),我们发现想要快速查找某一个元素,首先需要将所有元素进行排序,再利用二分法思想进行查找,复杂度是O(logn)。有没有更快的查找方式呢?

        本章介绍一下我们工作中经常接触到的散列表(哈希表)。它能够使查找的效率达到O(1)。主要是理论方面,让大家开始了解哈希思想。

散列表

        提到查找复杂度是O(1),我们在前面接触到的就是数组了。散列思想就是基于数组支持下标随机访问数据特想实现的。那么问题就是如何将元素和数组下标进行映射?

        例:学校开运动会,有100个运动员,编号是0~99。我要查找86号运动员的信息,该怎么做呢?

        思路:我们可以建立一个数组,将标号和数组下标一一对应,访问哪一个标号的运动员,直接查找对应数组下标即可

        该散列思想中,编号我们称作为键或者关键字。将关键字转换为数组下标的,我们称作为散列函数。而散列函数计算得到的值就叫做散列值(数组下标)。

        散列思想:散列表用的就是数组支持按照下标随机访问。当我们通过散列函数将元素的键值映射为数组下标时,然后将数组保存到数组对应位置中。当我们查找都一个元素时,我们使用同一个散列函数,将键值转化为数组下标,从对应的数组下标获取数据。

散列函数

        从散列思想中,我们可以知道散列表中散列函数起到很重要的作用。针对不同的问题,散列函数都可能不同。比如上面的例子,我可以设置这样的哈希函数:

int hash(int key)
{
    return key;
}
/*
将关键字作为下标*/

由于该例子较为简单,也比较容易想到。但是无论什么想的问题,我觉得散列函数应该尽量做到一下几点:

  1. 散列函数计算得到的散列值是一个非负整数。因为散列值会作为数组下标。
  2. 如果key1 == key2,那么hash(key1)==hash(key2)。
  3. 如果key1 != key2,那么hash(key1)!=hash(key2)。

其中1,2好理解,但是3实际上是很实现的。因为数组的大小是有限的,但是不同元素可能会有很多。这就导致肯定会存在key1 != key2,hash(key1)==hash(key2)的情况。这种情况我们称之为散列冲突。再优秀的散列函数也避免不了散列冲突

散列冲突的解决方式

散列冲突的解决方式有两种:开放寻址法,链表法。

开放寻址法

开放寻址法的思想是:出现了散列冲突,我们就重新探测到一个空闲位置,将其插入

如何探测空闲位置?

        如果某个数据经过散列函数之后,存储位置已经被占用了,我们就从当前位子开始,依次往后查找,看是否有空闲位子,直到找到为止。

如何查找?

        通过散列函数求出要查找出的键值对应的散列值,然后比较数组中下标为散列值的元素和要查找的元素。如果相等,则说明是我们要找的元素;否则继续往后查找。如果遍历到空闲位子,还没有找到,则说明散列表中没有要查找的元素。

删除的注意事项?

        我们知道散列表有查找操作肯定也有删除操作。当我们删除一个元素时,如果将其设置为空闲,那么在查找的过程中就会出现问题(原本在散列表中的元素,会认定为不存在)。我们可以将删除的元素置为delete状态。该状态的位子,可以插入数据。查找的时候,不必停下来,继续向后查找。

开放寻址法的缺点?

        从开放寻址法的思想中,我们可以考虑到,当散列表中的元素越来越多的时候,散列冲突可能性越来越大,空闲位置越来越少,线性探测的时间就会越来越久。极端情况下,我们可能需要探测整个散列表,最坏的情况下,时间复杂度是O(n)。

装载因子

一般情况下,我们会尽量保证散列表中有一定比例的空闲槽位,我们用装载因子表示空位的多少。

散列表的装载因子=填入表中的元素个数/散列表的长度

链表法

        链表法相对于开发寻址法较为简单,也容易理解。使用的是指针数组结构。数组元素对应的是一个链表,所有散列值相同的元素都在一个链表中。如图:

        那么链表法的插入操作,我们选择链表的头插,所以时间复杂度是O(1)。

        但是查找和删除操作的时间复杂度是O(k),k表示链表的长度。理论上每个链表的长度应该是均匀的,k=n/m。m是散列表的长度。这就要求散列表的优秀。若散列表不够好,那么查找和删除的复杂度可能会退化到O(n)。

如何设计散列函数

        我们知道散列函数是散列表中重要的一个部分,它的好坏,决定了散列冲突的概率以及散列表的性能。

        散列函数在设计的时候除了尽量遵循,上章节中指明的三点,还要考虑下面几点因素:

  1. 散列函数不能设计的太复杂。复杂的散列函数会消耗过多的资源,间接影响性能。
  2. 散列值尽量随机并且分布均匀。这样才能降低散列冲突的概率,即使出现散列冲突,每个链表长度也比较均匀(针对链表法)

        常见的散列函数的设计方法:数据分析法,直接寻址法,平方取中法,折叠法,随机数法等。

装载因子调整

        我们知道当装载因子过大的时候,说明散列表中的元素越多,空闲位置越少,散列冲突的概率就会越大。

        对于没有频繁插入和删除的静态散列表,我们可以设计出一个完美的散列表。因为数据都是我们提前已知的。

        但是对于动态的散列表,数据集合是动态变化的。我们无法事先申请一个足够大的散列表。但是当装载因子逐渐变大,散列冲突变得无法接受的时候,我们就需要动态扩容。

        比如当散列表的装载因子是0.8时,我们将散列表扩容一倍,那么装载因子就变为了0.4。仅仅将散列表扩容就可以吗?

        散列表扩容之后,我们需要将原先的散列表拷贝到新的散列表中。这个过程需要重新进行散列函数计算。

问题:我们知道在扩容的时候,涉及到数据的搬移,这会消耗很多时间。这就导致响应不及时。该如何处理?

解:这种动态扩容,直接将数据进行搬移的方式,非常的耗时,用户体验很不好(出现概率较低)。我们可以进行优化,将数据搬移的操作进行分批处理。第一次进行扩容,我们只申请散列表,并将数据插入,不进行数据的搬移。当下次再插入数据时,我们从旧的散列表中拷贝一个到新的散列表(旧的delete)。一直当旧的散列表全部被搬移完。在这个过程中,我们查询时,需要先旧的散列表中查询,查询不到,再到新的散列表中查询。如果都没有,说明不存在。这种均摊的方式,将任何情况下,插入操作的时间复杂度是O(1);

选择散列冲突的解决方案

        完全通过动态扩容来解决散列冲突是不可能的。从上一节中,我们知道解决散列冲突的方法有两种,开放地址法和链表法。这两者都项目中都有使用,但是场景不同。

开放地址法

开放地址法,我们知道是将数据都放到数组中,这就能够利用操作系统的局部性原理(CPU缓存),提高访问效率。这是它的优点

缺点:

  1. 删除较为麻烦,需要进行特殊标记
  2. 冲突概率较高
  3. 因为装载因子不能大于1,故相比较于链表法,更加浪费内存空间

总结:开放地址法适用于数据量较小,装载因子较小的情景

链表法

链表法的优点:

  1. 内存的利用率较高,可以使用时再申请
  2. 能够容忍大装载因子。只要元素均分,即使装载因子为10,也只是链表长度变长了。即使链表长度很长,我们也可以通过跳表,红黑树等方式,增加查询效率。

缺点:

  1. 储存在内存中不连续,对CPU不友好
  2. 需要存储指针,浪费内存。(对于大的数据对象,也可以忽略)

总结:链表法适用于数据量大,装载因子较大的场景。适合储存对象比较大

总结

        本章我们主要介绍一些散列表相关的概念:散列函数,散列冲突,散列值,关键值,以及散列冲突的解决方式。

        散列函数设计的好坏决定了散列冲突的概率,也决定了散列表的性能。想要设计一个好的散列表,需要从散列函数,装载因子,散列冲突解决方案着手。

        关于散列函数,我们不能设计的太复杂,并且尽量使散列值均匀分布,这样尽可能减少散列冲突,即便散列冲突,链表长度也较为均匀。

        关于装载因子,我们需要设置一个合理的装载因子上限,并在动态扩容的过程中,需要考虑均分搬移数据

        关于散列冲突解决方案,有开放地址法和链表法。两者都有适用的情景,那么我们就要针对情况进行选择。不过链表法总体而言较为通用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1241896.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

png,jpg图片透明度化demo

使用opencv对各种图片进行透明度化操作 1.如何配置opencv,相信大家已经会了,那直接跳到第2步,我给不会的同学们讲讲 1,下载opencv官方库文件,https://docs.opencv.org/ 我这里下载的是4.5.5版本。 2,在你…

实现el-input-number数字框带单位

实现的效果展示&#xff0c;可以是前缀单位&#xff0c;也可以是后缀单位。实现的思路就是动态修改伪元素 ::before 和 ::after 的 content值 实现二次封装数字框的代码如下&#xff1a; <template><el-input-numberref"inputNumber"v-model"inputVal…

一体化大气环境监测设备实时守护我们的空气质量

WX-CSQX12 随着空气污染问题的日益严重&#xff0c;大气环境监测设备成为了我们生活中不可或缺的一部分。而一体化的大气环境监测设备&#xff0c;更是为我们的环境保护工作带来了更多的便利和效益。 一体化大气环境监测设备是一种集成了多种功能于一体的环保设备&#xff0c;…

线上ES集群参数配置引起的业务异常案例分析

作者&#xff1a;vivo 互联网数据库团队- Liu Huang 本文介绍了一次排查Elasticsearch node_concurrent_recoveries 引发的性能问题的过程。 一、故障描述 1.1 故障现象 1. 业务反馈 业务部分读请求抛出请求超时的错误。 2. 故障定位信息获取 故障开始时间 19:30左右开始…

tp8 使用rabbitMQ

php8.0 使用 rabbitmq 要使用 3.6版本以上的&#xff0c; 并且还要开启 php.ini中的 socket 扩展 php think make:command SimpleMQProduce //创建一个生产者命令行 php think make:command SimpleMQConsumer //创建一个消费者命令行 生产者代码 <?php declare (strict_ty…

2014年10月6日 Go生态洞察:Go在Google I/O和Gopher SummerFest的应用

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

Oracle-客户端连接报错ORA-12545问题

问题背景: 用户在客户端服务器通过sqlplus通过scan ip登陆访问数据库时&#xff0c;偶尔会出现连接报错ORA-12545: Connect failed because target host or object does not exist的情况。 问题分析&#xff1a; 首先&#xff0c;登陆到连接有问题的客户端数据库上&#xff0c;…

redis-cluster集群模式

Redis-cluster集群 1 Redis3.0引入的分布式存储方案 2集群由多个node节点组成,redis数据分布在节点之中,在集群之中分为主节点和从节点3集群模式当中,主从一一对应,数据写入和读取与主从模式一样&#xff0c;主负责写&#xff0c;从只能读4集群模式自带哨兵模式&#xff0c;可…

Java开源ETL工具-Kettle

一、背景 公司有个基于Kettle二次开发产品主要定位是做一些数据ETL的工作, 所谓的ETL就是针对数据进行抽取、转换以及加载的过程&#xff0c;说白了就是怎么对原始数据进行清洗&#xff0c;最后拿到我们需要的、符合规范的、有价值的数据进行存储或者分析的过程。 一般处理ETL的…

【Vue入门篇】基础篇—Vue指令,Vue生命周期

&#x1f38a;专栏【JavaSE】 &#x1f354;喜欢的诗句&#xff1a;更喜岷山千里雪 三军过后尽开颜。 &#x1f386;音乐分享【如愿】 &#x1f384;欢迎并且感谢大家指出小吉的问题&#x1f970; 文章目录 &#x1f354;Vue概述&#x1f384;快速入门&#x1f33a;Vue指令⭐v-…

首批!创邻科技入选《图数据库金融应用场景优秀案例》

11月11日&#xff0c;“全球金融科技中心网络年会”在第三届全球金融科技大会暨第五届成方金融科技论坛上成功在京举办。会上&#xff0c;北京前沿金融监管科技研究院发布了基于国际标准组织——国际关联数据基准委员会&#xff08;LDBC&#xff09;的《图数据库金融应用场景优…

vivado联合modelsim测试覆盖率

&#xff08;1&#xff09;配置环境 安装modelsim和vivado。点击vivado菜单栏中的tools&#xff0c;在下拉选项中选择compile simulation libraries。simulator选项选择&#xff1a;modelsim simulator。compile library location表示编译库存放的路径。simulator executable p…

CSGO搬砖干货,全网最详细教学!

CSGO游戏搬砖全套操作流程及注意事项&#xff08;第一课&#xff09; 在电竞游戏中&#xff0c;CSGO&#xff08;Counter-Strike: Global Offensive&#xff09;被广大玩家誉为经典之作。然而&#xff0c;除了在游戏中展现个人实力和团队合作外&#xff0c;有些玩家还将CSGO作为…

前向传播与损失函数

在机器学习和深度学习中&#xff0c;前向传播和损失函数是两个关键概念。它们在神经网络的训练过程中起着重要的作用&#xff0c;帮助模型学习和优化参数。 一、前向传播 前向传播是机器学习和深度学习中一种信息传递的过程。在神经网络中&#xff0c;前向传播指的是将输入数…

【追求卓越10】算法--跳表

引导 在上一节中&#xff0c;我们学习到二分查找&#xff0c;惊叹于它超高的效率&#xff08;时间复杂度为O(logn)&#xff09;。但是二分查找有一个局限性就是依赖于数组&#xff0c;这就导致它应用并不广泛。 那么适用链表是否可以做到呢&#xff1f;答案是可以的。只不过要复…

c语言:回文字符串

题目&#xff1a; 思路&#xff1a; 创建一个字符数组&#xff0c;然后判断字符串长度&#xff0c;用循环&#xff0c;看对应字符是否相等&#xff0c;相等则输出&#xff0c;不相等则将对应字符ascll较大的改成ascll较小的&#xff08;题目要求字典最小的情况&#xff09;。…

【MySQL】内连接和外连接

内连接和外连接 前言正式开始内连接外连接左外连接右外连接 前言 前一篇讲多表查询的时候讲过笛卡尔积&#xff0c;其实笛卡尔积就算一种连接&#xff0c;不过前一篇讲的时候并没有细说连接相关的内容&#xff0c;本篇就来详细说说表的连接有哪些。 本篇博客中主要用到的还是…

WifiManager的getConnectionInfo被弃用了?快来使用ConnectivityManager获取更全的网络信息吧

前言 最近在使用flutter写桌面端的一个adb工具&#xff0c;可以使用adb命令无线连接设备&#xff0c;需要电脑和手机在同一局域网内&#xff0c;但是需要手机的ip地址。于是我想到写一个android桌面小组件&#xff0c;点一下就获取WiFi的ipv4地址并显示出来&#xff0c;先去找…

提升性能测试效率:JMeter中的用户自定义变量!

前言 在测试过程中&#xff0c;我们经常会碰到测试服务地址有改动的情况&#xff0c;为了方便&#xff0c;我们会把访问地址参数化&#xff0c;当访问地址变化了&#xff0c;我们只需要把参数对应的值改动一下就可以了。 一&#xff1a;添加配置元件-用户定义的变量&#xff…

P8599 [蓝桥杯 2013 省 B] 带分数(dfs+全排列+断点判断)

思路&#xff1a;1.深度枚举所有排列情况 2.设置为每个排列设置两个断点&#xff0c;分为三部分&#xff1a;a,b,c 3.转换为乘法判断条件&#xff0c;满足加一 代码如下&#xff1a;&#xff08;可用next_permutation全排列函数代替dfs&#xff09; #include<iostream>…