哈希闭散列的实现与机制

哈希的介绍

哈希冲突

原因

影响

解决方法

实例

哈希函数

哈希函数设计原则：

常见哈希函数

闭散列

线性探测的实现

代码解读

1. 命名空间和枚举定义

2. 哈希表节点结构体

3. 哈希函数模板

4. 哈希表类

5. 插入、查找和删除逻辑

二次探测

哈希的介绍

顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素

时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即

O(logN)，搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。 如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。

这就是哈希思想的体现。

当向该结构中：

插入元素

根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放

搜索元素

对元素的关键码进行同样的计算，把求得的函数值当做元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功。

该方式即为哈希(散列)方法，哈希方法中使用的转换函数称为哈希(散列)函数，构造出来的结构称

为哈希表(Hash Table)(或者称散列表)

例如：数据集合{1，7，6，4，5，9}；

哈希函数设置为：hash(key) = key % capacity; capacity为存储元素底层空间总的大小

哈希冲突

哈希冲突（哈希碰撞）是指在使用哈希表（或哈希函数）的过程中，两个或多个不同的输入值（键）通过哈希函数映射到同一个输出值（哈希值）的情况。这是哈希表实现中的一个基本问题，因为理想的哈希函数应该能够为每个可能的键生成唯一的哈希值，但实际上这是不可能的，因为键的空间通常远大于哈希值的范围。我们把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

以下是哈希冲突的几个关键点：

原因

有限的范围：哈希函数通常将输入映射到一个有限的整数范围，而可能的输入（键）的数量是无限的，这导致必然会有多个输入映射到同一个输出。
哈希函数设计：如果哈希函数设计不当，可能会增加冲突的概率。一个好的哈希函数应该尽可能均匀地分布键。

影响

性能下降：哈希冲突会导致哈希表的性能下降，因为需要额外的步骤来解决冲突，这可能会增加查找、插入和删除操作的时间复杂度。
数据结构复杂化：为了处理冲突，哈希表通常需要额外的数据结构和算法，如链表法（separate chaining）或开放寻址法（open addressing）。

解决方法

链表法：每个哈希桶（bucket）维护一个链表，所有映射到同一个哈希值的键都存储在这个链表中。当发生冲突时，只需将新键插入到对应链表中。
开放寻址法：当发生冲突时，哈希表会寻找下一个空闲的槽位来存储冲突的键。这可以通过线性探测（linear probing）、二次探测（quadratic probing）或双重哈希（double hashing）等方法实现。
再哈希：当哈希表中的元素太多，导致冲突率上升时，可以通过增加哈希表的大小并重新计算所有元素的哈希值来减少冲突。
更好的哈希函数：设计或选择能够更均匀分布键的哈希函数，可以减少冲突的概率。

实例

假设有一个简单的哈希函数 h(k) = k % m，其中 k 是键，m 是哈希表的大小。如果 m = 10，那么键 15 和 25 都会映射到同一个哈希值 5，因为 15 % 10 = 5 和 25 % 10 = 5。

哈希冲突是哈希表实现中不可避免的问题，但通过合理的设计和策略，可以有效地管理和减少它们的影响。

哈希函数

引起哈希冲突的一个原因可能是：哈希函数设计不够合理。

哈希函数设计原则：

哈希函数的定义域必须包括需要存储的全部关键码，而如果散列表允许有m个地址时，其值

域必须在0到m-1之间 哈希函数计算出来的地址能均匀分布在整个空间中哈希函数应该比较简单

常见哈希函数

1. 直接定址法--(常用)

取关键字的某个线性函数为散列地址：Hash（Key）= A*Key + B

优点：简单、均匀

缺点：需要事先知道关键字的分布情况

使用场景：适合查找比较小且连续的情况

2. 除留余数法--(常用)

设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，

按照哈希函数：Hash(key) = key% p(p<=m),将关键码转换成哈希地址

3. 平方取中法--(了解)

假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；

再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址

平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况

4. 折叠法--(了解)

折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这

几部分叠加求和，并按散列表表长，取后几位作为散列地址。

折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况

5. 随机数法--(了解)

选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中

random为随机数函数。

通常应用于关键字长度不等时采用此法

6. 数学分析法--(了解)

设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定

相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只

有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散

列地址

注意：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

解决哈希冲突两种常见的方法是：闭散列和开散列

本文着重介绍闭散列的实现与机制。

闭散列

闭散列：也叫开放定址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有

空位置，那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置

呢？

1. 线性探测

比如2.1中的场景，现在需要插入元素44，先通过哈希函数计算哈希地址，hashAddr为4，

因此44理论上应该插在该位置，但是该位置已经放了值为4的元素，即发生哈希冲突。

线性探测：从发生冲突的位置开始，依次向后探测，直到寻找到下一个空位置为止。

插入 通过哈希函数获取待插入元素在哈希表中的位置 如果该位置中没有元素则直接插入新元素，如果该位置中有元素发生哈希冲突， 使用线性探测找到下一个空位置，插入新元素

删除

采用闭散列处理哈希冲突时，不能随便物理删除哈希表中已有的元素，若直接删除元素会影响其他元素的搜索。比如删除元素4，如果直接删除掉，44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。