C++数据结构重要知识点（5）（哈希表、unordered_map和unordered

C++数据结构重要知识点（5）（哈希表、unordered_map和unordered_set封装）

news2026/2/13 21:04:52

1.哈希思想和哈希表

（1）哈希思想和哈希表的区别

哈希（散列、hash）是一种映射思想，本质上是值和值建立映射关系，key-value就使用了这种思想。
哈希表（散列表，数据结构），主要功能是值和存储位置建立映射关系，它通过key-value模型中的key来定位数组的下标，将value存进该位置。

哈希思想和哈希表数据结构这两个概念要分清，哈希是哈希表的核心思想。

（2）unordered_map、unordered_set是什么？

C++11提供了新容器unordered_map、unordered_set，它们的底层都是hash，你可能会注意到这两个容器和set、map名字很像，其实这两个容器和map、set功能基本一样，都提供非常高效的搜索，但unordered_map、unordered_set中序遍历不是有序的，map、set中序有序不同。

（3）哈希表的实现

由于unordered_map、unordered_set源于hash表，它们封装的方式和前面AVL树和红黑树的思路一致，所以本篇文章在封装这件事情上仅会简单讲解。

①初步流程

整个过程其实很好理解，就是一个一对一的函数关系，如果我们要存key，直接找到映射位置存进去即可，如果存的是key-value，单独提取key再做映射也是很轻松的。如果key是string等非整型类型，需要先转换一次，也就是需要两层映射。

②第一层映射

我们先前就说过，key有可能不是数字，所以这里要进行一次转换，为保证统一性，我们都写上转换函数，其中针对要处理的key写特化

这里的K就是key的类型，专门为string写了一个特化，其实库里面也是这么做的，string毕竟还是太常见了。

string直接将它的每一个字符对应的ASCII码值 * 31，最后加起来，对应转换后的key，经过它人的实验和证明，在这个时候重复的概率很低，比如"abcd"和"dcba"如果直接将ASCII值相加得到的转换的key就会重复。我们也可以自己去找转换的方式，这不是唯一的。

③第二层映射（哈希函数）

哈希函数是哈希里面最关键的函数，为什么？我们试想，如果我们按照取模的的思想，一个size为10的vector，10 % 10 == 0，所以10放在数组下标0这个位置。而当20要放进数组里，20 % 10 == 0，也要放在0，这个时候就冲突了，20就要放在10下一个位置，数组下标为1，这就是典型的哈希冲突。

哈希冲突其实是零和博弈的体现，即资源有限，不同的人之间互相竞争。

哈希冲突几乎无法避免，但可以通过不同的哈希函数缓解。

第一种哈希函数就是直接定址法，在计数排序中我们就见识过它了，它必须针对已知的数据来开辟数组。比如我明确知道要存放的数据范围是-200 ~ 600，我就直接开辟800个空间，保证所有数据都能不冲突地存放进来。这其实是用key的值映射一个绝对位置或相对位置。优点就是这种方法解决了哈希冲突并且效率高。但缺点最致命，就是不仅数据要集中，而且要事先知道数据的范围。这只能说过于严苛了，所以看似诱惑力大，但实际情况基本不用。

第二种哈希函数就是除留余数法，这也是最轻松、最好理解的办法。就是我前面举的例子，按照数组大小来取模确定位置。hashi = key % N， N是表的大小。这使得就算数据未知，范围波动大，但我们依然可以用取模的操作让它们强制约束在一个数组的范围内做选择。但接下来就必须面对另一个问题，哈希冲突。

④闭散列（开放定址法）

为什么叫闭散列？就是像我最开始举的那个例子，第一个位置不够了就去下一个位置，这个哈希冲突是在数组内部解决的，并没有向外部申请空间。

开放定址法又分为线性探测、二次探测、三次探测等。线性探测是把这个坑占了去找挨着的下一个，二次探测是是按照第一次走1^2，如果这个位置也被占了就走2^2，以此类推，三次探测也一样。这些都是缓解哈希冲突，不想让数据挨得太近，但也只是缓解了。

如果我们想要找到这个数据，我们只需要再次映射，先找到本来该待的位置，比较数据是否一样，一样就找到了，不一样就证明发生了哈希冲突，按照规则向后找。如果走到空还没找到就说明没有这个数据。