算法导论总结索引 | 第三部分第十一章：散列表

1、动态集合结构，它至少要支持 INSERT、SEARCH 和 DELETE字典操作

散列表是实现字典操作的一种有效的数据结构。尽管最坏情况下，散列表中查找一个元素的时间与链表中查找的时间相同，达到了 Θ(n)。在实际应用中，散列表的性能是极好的。在一些合理的假设下，在散列表中查找一个元素的平均时间是 O(1)

2、散列表是普通数组概念的推广。如果存储空间允许，可以提供一个数组，为每个可能的关键字保留一个位置，以利用直接寻址的技术优势

当实际存储的关键字数目比全部的可能关键字总数要小时，采用散列表就成为直接数组寻址的一种有效替代，因为散列表使用一个长度与实际存储的关键字数目成比例的数组来存储

在散列表中，不是直接把关键字作为数组的下标，而是根据关键字计算出相应的下标

1、直接寻址表

1、当关键字的全域U 比较小时，直接寻址是一种简单而有效的技术

2、用一个数组，或称为直接寻址表，记为T[0…m-1]。其中每个位置，或称为槽，对应全域U中的一个关键字。槽k指向集合中一个关键字为k的元素。如果该集合中没有关键字为k 的元素，则 T[k] = NIL

几个字典操作

DIRECT-ADDRESS-SEARCH(T, k)
	return T[k]

DIRECT-ADDRESS-INSERT(T, x)
	T[x.key] = x

DIRECT-ADDRESS-DELETE(T, x)
	T[x.key] = NIL

直接寻址表本身就可以存放动态集合中的元素。直接把该对象存放在表的槽中，从而节省了空间。我们使用对象内的一个特殊关键字来表明该槽为空槽（比如-1）

3、假设一动态集合S 用一个长度为m的直接寻址表T 来表示。给出一个查找S中最大元素的过程

DIRECT-ADDRESS-MAXIMUM(T)
    max = -∞
    for i = 1 to m
        if T[i] ≠ NIL and T[i].key > max
            max = T[i].key
            j = i
    return T[j]

过程在最坏情况下的运行时间是 O(m)

4、位向量是一个仅包含0和1的数组

2、散列表

1、直接寻址技术的缺点：如果全域U很大，要存储大小为 |U| 的一张表T 也许不太实际

如果实际存储的关键字集合K 相对U来说可能很小，使得分配给T的大部分空间都将被浪费掉

2、当存储在字典中的关键字集合K 比所有可能的关键字的全域U 要小许多时，散列表需要的存储空间要比直接寻址表少得多。将散列表的存储需求降至 Θ(|K|)，同时散列表中查找一个元素的优势仍得到保持，只需要 O(1)的时间。问题是这个界是针对平均情况时间的，而对于直接寻址来说，它是适用于最坏情况时间的

3、在直接寻址方式下，具有关键字k的元素被存放在槽k中。在散列方式下，该元素被放在h(k)中；即利用散列函数h，由关键字k 计算出槽的位置。函数h 将关键字的全域U 映射到散列表 T[0…m - 1]的槽位上

可以说一个具有关键字k的元素被散列到槽 h(k) 上，也可以说 h(t) 是关键字的散列值。即减少了数组的大小，使其由|U|减少为m
散列方式示意图
4、两个关键字可能映射到同一个槽中，我们称这种情形为冲突

可以试图选择一个适合的散列函数h 来做到避免冲突
一个想法就是使h尽可能的“随机”。但是 |U|>m，故至少有两个关键字其散列值相同，所以要想完全避免冲突是不可能的

一方面可以通过精心设计的散列函数来尽量减少冲突的次数，另一方面仍需要有解决可能出现冲突的方法

5、最简单的冲突解决方法：链接法

在链接法中，把散列到同一槽中的所有元素都放在一个链表中，槽j中有一个指针，它指向存储所有散列到j的元素的链表的表头；如果不存在这样的元素，则槽j中为NIL

CHAINED-HASH-INSERT(T, x)
	insert x at the head of list T[h(x.key)]

CHAINED-HASH-SEARCH(T, k)
	search for an element with key k in list T[h(k)]

CHAINED-HASH-DELETE(T, x)
	delete x from the list T[h(x.key)]

插入操作的最坏情况运行时间为 O(1)。查找操作的最坏情况运行时间与表的长度成正比

6、如果散列表中的链表是双向链接的，则删除一个元素x的操作可以在 O(1) 时间内完成

CHAINED-HASH-DELETE 以元素x 而不是它的关键字k 作为输入，所以无需先搜索x。如果散列表支持删除操作，则为了能够更快地删除某一元素，应该将其链表设计为双向链接的（可以直接找到前驱）
如果表是单链接的，则为了删除元素x，我们首先必须在表 T[h(x.key)] 中找到元素x，然后通过更改x前驱元素的next属性，把x从链表中删除
双向链接的链表
7、链接法散列分析：给定一个能存放n个元素的、具有 m个槽位的散列表T，定义T的装载因子α为 n/m，即一个链的平均存储元素数

用链接法散列的最坏情况性能很差：所有的两个关键字都散列到同一个槽中，从而产生出一个长度为n的链表。这时，最坏情况下查找的时间为 Θ(n)，再加上计算散列函数的时间

8、散列方法的平均性能依赖于所选取的散列函数h，将所有的关键字集合分布在m个槽位上的均匀程度

先假定任何一个给定元素等可能地散列到m个槽位中的任何一个（等可能），且与其他元素被散列到什么位置上无关（独立），我们称这个假设为简单均匀散列

列表 T[j] 的长度用nj表示，有
总长度
并且 nj 的期望值为 E[nj] = a = n/m

假定可以在 O(1) 时间内计算出散列值 h(k)，从而查找关键字为k的元素的时间线性地依赖于表T[A(k)] 的长度 nh(k)
分两种情况来考虑。在第一种情况中，查找不成功：表中没有一个元素的关键字为k。在第二种情况中，成功地查找到关键字为k的元素

9、在简单均匀散列的假设下，对于用链接法解决冲突的散列表，一次不成功查找的平均时间为 Θ(1+α)
证明：当查找一个关键字时，在不成功的情况下，查找的期望时间就是查找至链表 T[h(k)] 末尾的期望时间，这一时间的期望长度为E[nh(k)] = α，于是，一次不成功的查找平均要检查α个元素，并且所需要的总时间（包括计算 h(k) 的时间）为 Θ(1+α）

对于成功的查找来说，情况略有不同，这是因为每个链表并不是等可能地被查找到的。某个链表被查找到的概率与它所包含的元素数成正比
期望的查找时间仍然是 Θ(1+α）

10、在简单均匀散列的假设下，对于用链接法解决冲变的散列表，一次成功查找所需的平均时间为 Θ(1+α)
证明：在对元素x的一次成功查找中，所检查的元素数就是x所在的链表中x前面的元素多1。新的元素都是在表头插入的，所以出现在x之前的元素都是在x之后插入的。在简单均匀散列的假设下，有 Pr{h(ki) = h(kj)} = 1/m，有 E[Xij] = 1/m

于是，在一次成功的查找中，所检查元素的期望数目为
成功的查找中所检查元素的期望数目
一次成功的查找所需要的全部时间（包括计算散列函数的时间）为 Θ(2 + α / 2 - α / 2n) = Θ(1 + α)

如果散列表中槽数至少与表中的元素数成正比，则有 n=O(m)，从而 a = n / m = O(m) / m = O(1) 。所以，查找操作平均需要常数时间。当链表采用双向链接时，插入操作在最坏情况下需要 O(1）时间，删除操作最坏情况下也需要 O(1) 时间，因而，全部的字典操作平均情况下都可以在 O(1) 时间内完成

11、假设采用的是简单均匀散列，对关键字k和l，定义指示器随机变量 Xkl= Ⅰ{h(k)=h(l)}。在简单均匀散列的假设下，有Pr{h(k)=h(l)}=1/m，从而有E[Xkl] = 1/m。于是，集合{{k，l}：k≠l，且h(k)=h(l)}基的期望值是 E[X]=∑nk=1∑nl=k+11m=∑nk=1n−km=n(n−1)m
12、假设将n个关键字存储到一个大小为m 且通过链接法解决冲突的散列表中，关键字均源于全域U，且 |U| > nm
因为 |U| > nm，所以当将全域U中的所有关键字存储到一个大小为 m 的散列表中时，每个槽位中至少有 n 个关键字。因此，U中有一个大小为n的子集，其由散列到同一槽位中的所有关键字构成，使得链接法散列的查找时间最坏情况下为 Θ(n)

3、散列函数

1、其中的两种方法（用除法进行散列和用乘法进行散列）本质上属于启发式方法，而第三种方法（全域散列）则利用了随机技术来提供可证明的良好性能

2、好的散列函数的特点：一个好的散列函数应（近似地）满足简单均匀散列假设，遗憾的是，一般无法检查这一条件是否成立，因为很少能知道关键字散列所满足的概率分布，而且各关键字可能并不是完全独立的

常常可以运用启发式方法来构造性能好的散列函数。设计过程中，可以利用关键字分布的有用信息
一些很相近的符号经常会出现在同一个程序中，如 pt 和 pts。好的散列函数应能将这些相近符号散列到相同槽中的可能性最小化

一种好的方法导出的散列值，在某种程度上应独立于数据可能存在的任何模式
注意到散列函数的某些应用可能会要求比简单均匀散列更强的性质。例如，可能希望某些很近似的关键字具有截然不同的散列值

3、将关键字转换为自然数：多数散列函数都假定关键字的全域为自然数集 N = {0，1，2…}。因此，如果所给关键字不是自然数，就需要找到一种方法来将它们转换为自然数。例如，一个字符串可以被转换为按适当的基数符号表示的整数

这样，就可以将标识符pt 转换为十进制整数对（112，116），这是因为在 ASCII字符集中：p = 112，t = 116。然后，以128为基数（二进制转十进制就是以2为基数的） 来表示，pt 即为（112×128）+116 = 14452
假定所给的关键字都是自然数

3.1 除法散列法

1、通过 k除以m的余数，将关键字k 映射到m个槽中的某一个上，即散列函数为：

当应用除法散列法时，要避免选择m的某些值。例如，m 不应为2的幂，因为如果m=2^p，则h(k)就是 k的p个最低位数字，除非已知各种最低p位的排列形式为等可能的

当 k是一个按基数2^p表示的字符串时，选 m = 2^p - 1 可能是一个槽糕的选择
如果串x可由串y通过其自身的字符置换排列导出，则 x和y具有相同的散列值

证明：
用除法散列表来计算一个字符串的散列值，如何才能在除了该串本身占用的空间外，只利用常数个机器字
在这里插入图片描述
在模运算下，加法和乘法都满足分配律，这样可以在乘法过程中保持结果的大小在合适范围内

设字符串x表示成以2^p为基数的数为 k = a1 a2 … ar，根据上一题的结果，
在这里插入图片描述
因为 ai 在 0~2^p-2 之间，所以 mod(2^p-1) 可以直接去

2、一个不太接近2的整数幂的素数，常常是m的一个较好的选择。例如，假定我们要分配—张散列表并用链接法解决冲突，表中大约要存放2000个字符串，其中的每个字符有8位。如果我们不介意一次不成功的查找需要平均检查3个元素，这样分配散列表的大小为 m=701（它是一个接近 2000/3 但又不接近2的任何次幂的素数）

散列函数为：h(k) = k mod 701

3.2 乘法散列法

1、乘法散列法包含两个步骤，第一步，用关键字k乘上常数A(0<A<1），并提取 kA 的小数部分。第二步，用m乘以这个值，再向下取整
陈发散列法散列函数
乘法散列法的一个优点是对m的选择不是特别关键，一般选择它为2的某个幂次（m=2^p，p为某个整数），这是因为我们可以在大多数计算机上按下面所示方法较容易地实现散列函数

假设某计算机的字长为w位，而k正好可用一个单字表示。限制A为形如 s/2^w 的一个分数，其中s是一个取自 0<s<2^w 的整数
示意图
先用w位整数 s = A * 2^w （左移一个字长）乘上k，其结果是一个 2w 位的值 r1*2^w + r0，这里 r1 为乘积的高位字，r0 为乘积的低位字。所求的 p位散列值中，包含了 r0的p个最高有效位（m = 2^p）

虽然这个方法对任何的A值都适用，但对某些值的效果更好。最佳选择与待散列的数据的特征有关
A的选取
假设 k = 123456，p = 14，m = 2¹⁴ = 16384，且 w = 32。取A为形如 s/2³² 的分数，它与 (√5-1) / 2 最为接近，于是 A = 2654435769 / 2 （s = 2654435769），那么，k x s = 327706022297664 = (76300 X 2³²) + 17612864，从而有 r1 = 76300 和 r0 = 17612864。r0 的 14个最高位产生了散列值 h(k) = 67（将17612864转成二进制，并在前面加上7个零凑够32位，取前14位就是67）
忽略多余黑字

3.3 全域散列法

1、将 n个关键字全部散列到同一个槽中，使得平均的检索时间为 Θ(x)。任何一个特定的散列函数都可能出现这种令人恐怖的最坏情况。唯一有效的改进方法是随机地选择散列函数，使之独立于要存储的关键字。这种方法称为全域散列，不管选择了怎么样的关键字，其平均性能都很好

2、全域散列法在执行开始时就从一组精心设计的函数中，随机地选择一个作为散列函数。就像在快速排序中一样，随机化保证了没有哪一种输入会始终导致最坏情况性能
算法在每一次执行时都会有所不同，甚至对于相同的输入都会如此。这样就可以确保对于任何输入，算法都具有较好的平均情况性能

设 H为一组有限散列函数，它将给定的关键字的全域U 映射到 {0, 1, …, m-1} 中，这样的一个函数组为全域的。如果从H中随机地选择一个散列函数，当关键字 k!=l 时，两者发生冲突的概率不大于 1/m，这也是正好从集合 {0，1，…，m - 1} 中独立地随机选择 h(k) 和 h(l) 时发生冲突的概率

3、ni 表示链表 T[i] 的长度。h选自一组全域散列函数。如果关键字k不在表中，则 k被散列至其中的链表的期望长度 E[nh(k)] 至多为 α = n/m。如果关键字k在表中，则包含关键字k的链表的期望长度 E[nh(k)] 至多为 1+α

证明：期望值与散列函数的选择有关，且不依赖于任何有关关键字分布的假设。因为由全域散列函数的定义，一对关键字发生冲突的概率至多为 1/m，有 Pr{h(k) = h(l)} <= 1/m，所以有 E[Xkl] <= 1/m
对于每个关键字k，定义随机变量Yk，它表示与k散列到同一槽位中的非k的其他关键字的数目
与k散列到同一槽位中的非k的其他关键字的数目
继续计算
余下部分按关键字k是否在表T中，分情况讨论

如果 k!∈T，则 nh(k) = Yk，并且 |{l：l∈T 且 l!=k}| = n。于是，E[nh(k)] = E[Yk] <= n / m = α
如果 k∈T，由于关键字k出现在链表 T[h(k)] 中，且计数Yk中并没有包括关键字k，所以 nh(k) = Yk + 1，并且 |{l：l∈T 且 l != k}| = n - 1。于是 E[nh(k)] = E[Yk] + 1 <= (n - 1) / m + 1 = 1 + α - 1/m < 1 + α

已经无法通过选择一个操作序列来迫使达到最坏情况运行时间了

4、对于一个具有m个槽位，且初始时为空的表，利用全域散列法和链接法解决冲突，需要 Θ(n) 的期望时间来处理任何包含了n个 INSERT、SEARCH和DELETE的操作序列，其中该序列包含了 O(m) 个INSERT操作

证明：
在全域散列法和链接法中，解决冲突的时间复杂度取决于散列函数的质量和表的装载因子。在这种情况下，我们假设：
散列函数是良好设计的，并且在平均情况下能够均匀地将元素分布到表的不同槽位中。
表的装载因子是 Θ(1) 的，即元素数量与表的大小之比是常数。
在这样的假设下，全域散列法和链接法解决冲突的平均时间复杂度是 Θ(1)。

对于链接法（也称为开放地址法）：
在平均情况下，对于一个给定的槽位，搜索或删除一个元素的时间复杂度是 Θ(1)，因为每个槽位是一个链表，查找或删除一个元素只需要遍历链表
在 INSERT 操作中，我们需要计算元素的哈希值，然后将其插入到对应槽位的链表中。由于散列函数是均匀的，每个槽位的链表平均长度为 Θ(n/m)，因此插入的平均时间复杂度是 Θ(1)。
因此，链接法的平均时间复杂度是 Θ(1)

对于全域散列法：
在平均情况下，搜索或删除一个元素的时间复杂度也是 Θ(1)，因为我们可以直接计算出元素所在的槽位
在 INSERT 操作中，我们需要计算元素的哈希值，并找到对应的槽位。由于散列函数是均匀的，每个槽位平均只包含 Θ(n/m) 个元素，因此插入的平均时间复杂度是 Θ(1)。
因此，全域散列法的平均时间复杂度也是 Θ(1)

综上所述，无论是链接法还是全域散列法，对于一个具有 m 个槽位的哈希表，在平均情况下，处理包含了 n 个 INSERT、SEARCH 和 DELETE 操作的序列的时间复杂度都是 Θ(1)，所以整个n个操作序列的期望时间为 Θ(n)

5、设计一个全域散列函数类：设 Zp 表示集合 {0，1，…，p - 1}，Zp* 表示集合 {1，2，…，p - 1}，由于 p是一个素数
对于任何 a∈Zp* 和任何 b∈Zp，定义散列函数 hab

散列函数构成的函数簇为

这个函数簇是全域的

一个散列函数被称为全域散列函数，如果它满足以下两个性质：
1）均匀性：对于任意不同的输入键，散列函数产生的哈希值在哈希表中的每个槽位中出现的概率相等。换句话说，对于任意两个不同的键 𝑘1 和 𝑘2，如果哈希函数 ℎ是全域散列函数，则满足：Pr[h(k1) = h(k2)] = 1/m
其中 m 是哈希表的大小，Pr[⋅] 表示概率

2）独立性：全域散列函数的输出在给定一个键的情况下是不可预测的，并且与其他键的哈希值无关。换句话说，对于一个给定的键 k 和任意给定的哈希值 𝑦，如果哈希函数 ℎ是全域散列函数，则满足：Pr[h(k) = y] = 1 / m
其中 𝑚 是哈希表的大小

全域散列函数的均匀性和独立性保证了在散列过程中，每个键被哈希到哈希表的每个槽位的概率是相等的，并且每个键的哈希值都是不可预测的。这样可以最大程度地减少冲突，提高哈希表的性能

证明这个函数簇是全域的：
散列函数hab

可以导出 r != s，因为 p是素数，且 a和(k - l)模p的结果不为0，所以它们乘积模p后也不为0。所以计算任何 hab∈Hpm，不同的输入k和l会被映射到不同的值r和s（模p）(r != s)；在模p层次上，不会产生冲突（线性函数，一一对应）此外，数对(a, b)(a != 0) 有 p(p - 1)中可能的选择。其中的每一种都会产生一个不同的结果数对 (r, s) (r != s)
解出 a和b
解出a和b
因为 (r, s) 有p(p - 1)种可能，所以数对(a, b) 和数对(r, s)之间存在一一对应的关系。对任意给定的输入对 k和l，如果从 Zp* × Zp 中均匀地随机选择(a, b)，则结果数对 (r, s) 就等可能地为任何不同的数值对（模p）
当 r和s为随机选择的不同的值（模p）时，不同的关键字k和l发生冲突的概率等于 r ≡ s(mod m) 的概率。对于某个给定的r值，s的可能取值就为余下的 p - 1 种，其中满足 s != r 且 s ≡ r(mod m) 的s值的数目至多为（s与r之差正好是m的倍数）
在这里插入图片描述

当模m进行归约时，s与r发生冲突的概率至多为 ((p - 1) / m) / (p - 1) = 1 / m
判断全域
6、查找的时候怎么确定关键字使用的是哈希函数族中的哪个哈希函数
在构建好哈希表后，可以使用相同的哈希函数来执行查找操作。由于哈希函数在构建哈希表时已经确定了，在构建的时候参数的值会随着一起保存，因此在查找时不需要再确定关键字使用的是哪个哈希函数。相反，只需根据哈希函数的定义将关键字哈希到哈希表中的相应槽位上，然后执行相应的查找操作即可

在这里插入图片描述
在全域散列法中，参数 a 和 b 通常是选定一个固定的范围，并且对于每个不同的关键字都随机选择一组 a 和 𝑏的值。换句话说，对于哈希函数族中的每个哈希函数 h(a, b)，都会为每个不同的关键字选择不同的 a 和 b 的值

4、开放寻址法

1、在开放寻址法中，所有的元素都存放在散列表里。每个表项或包含动态集合的一个元素，或包含 NIL；其装载因子α绝对不会超过1

也可以将用作链接的链表存放在散列表未用的槽中，但开放寻址法的好处就是它不用使用指针，而是计算出要存取的槽序列。不用存储指针而节省空间，使得可以用同样的空间来提供更多的槽，潜在地减小了冲突，提高了检索速度

2、为了使用开放寻址法插入一个元素，需要连续地检查散列表，或称为探查，直到找到一个空槽来放置待插入的关键字为止
对于每一个关键字k，使用开放寻址法的探查序列

h(k, 1) 为第一个备用…
使得当散列表逐渐填满时，每一个表位最终都可以被考虑为用来插入新关键字的槽
HASH-INSERT
查找过程中碰到一个空槽时，查找算法就（非成功地）停止，因为如果在表中，它就应该在此处，而不会在探查序列随后的位置上
HASH-SEARCH
从开放寻址法的散列表中删除操作元素比较困难。当我们从槽i中删除关键字时，不能仅将 NIL置于其中来标识它为空，如果这样做，就会有问题：在插人关键字k时，发现槽i被占用了，则就被插人到后面的位置上；此时将i中的关键字删除后，就无法检索到关键字了（到空就停）
在槽i中置一个特定的值DELETED替代NIL来标记该槽，这样就要对过程HASH-INSERT做相应的修改，将这样的一个槽当做空槽，使得在此仍然可以插人新的关键字。对HASH-SEARCH无需做什么改动，因为它在搜索时会绕过DELETED标识。但是，当我们使用特殊的值DELETED时，查找时间就不再依赖于装载因子了，为此，在必须删除关键字的应用中，更常见的做法是采用链接法来解决冲突

由于删除操作不会改变表的大小，因此装载因子𝑎 不再影响查找操作的性能。在使用开放寻址法时，查找操作的性能取决于表中空槽位的数量，而不仅仅是已插入元素的数量。它取决于表中空槽位的数量，即 1−a，因为空槽位的数量越多，冲突的可能性就越小，查找操作的性能就越好

3、做一个均匀散列的假设：每个关键字的探查序列等可能地为（0，1，…，m-1）的m!种排列中的任一种。均匀散列将前面定义过的简单均匀散列的概念加以了一般化，推广到散列函数的结果不只是一个数，而是一个完整的探查序列

有三种技术常用来计算开放定址法中的探查序列：线性探查、二次探查和双重探查

这些技术都不能满足均匀散列的假设，因为他们能产生的不同探查序列数都不超过m²个（均匀散列要求有 m! 个探查序列）。双重散列产生的探查序列数最多，似乎能给出最好的结果

4.1 线性探查

1、给定一个普通的散列函数 h’：U->{0, 1, …, m - 1}，称之为辅助散列函数，线性探查采用的散列函数为
线性探查采用的散列函数
对于关键字k，首先探查槽 T[h’(k)]，即由辅助散列函数所给出的槽位，再探查槽 T[h’(k) + 1]，依次类推，直到槽 T[m - 1]。然后，又绕到槽 T[0]，T[1]，…，直到最后探查到槽 T[h’(k) - 1]。在线性探查方法中，初始探查位置决定了整个序列，故只有m种不同的探查序列

2、线性探查存在一个问题，称为一次群集。随着连续被占用的槽不断增加，平均查找时间也随之不断增加。因为当一个空槽前有i个满的槽，该空槽下一个将被占用的概率是 (i + 1) / m。连续被占用的槽就会变得越来越长，因而平均查找时间也会越来越大

4.2 二次探查

1、散列函数：

h’ 是一个辅助散列函数，c1和c2 为正的辅助常数，i = 0，1，…，m - 1。初始的探查位置为 T[h’(k)]。后续的探查位置要加上一个偏移量，该偏移量以二次的方式依赖于探查序号i。这种探查方法的效果要比线性探查好得多（连续被占用的槽就会变得越来越长的情况会缓解）

2、如果两个关键字的初始探查位置相同，那么它们的探查序列也是相同的，这是因为 h(k1, 0) = h(k2, 0）蕴涵着 h(k1, i) = h(k2, i)。
这一性质可导致一种轻度的群集，称为二次群集。像在线性探查中一样，初始探查位置决定了整个序列，这样也仅有m个不同的探查序列被用到

4.3 双重散列

1、双重散列是用于开放寻址法的最好方法之一，因为它所产生的排列具有随机选择排列的许多特性。散列函数
双重散列散列函数
初始探查位置为 T[h1(k)]，后续的探查位置是前一个位置加上偏移量h2(k)模m。因此，不像线性探查或二次探查，这里的探查序列以两种不同方式依赖于关键字k，因为初始探查位置、偏移量或者二者都可能发生变化

2、为了能查找整个散列表，值h2(k) 必须要与表的大小m 互素（两个整数的最大公约数为1）。有一种简便的方法确保这个条件成立，就是取m为2的幂，并设计一个总产生奇数的h2。另一种方法是取m为素数，并设计一个总是返回较m小的正整数的函数h2

如果 k = 123456，m = 701，m’ = 700，则有 h1(k) = 80，h2(k) = 257

当m为素数或者 2的幂时，双重散列法中用到了 Θ(m²) 种探查序列，而线性探查或二次探查中用了 Θ(m) 种
因为每一对可能的 (h1(k), h2(k)) 都会产生一个不同的探查序列。因此，对于m的每一种可能取值，双重散列的性能看起来就非
常接近“理想的”均匀散列的性能

尽管除素数和2的幂以外的m值在理论上也能用于双重散列中，但是在实际中，要高效
地产生 h2(k) 确保使其与m互素很困难。部分原因是这些数的相对密度 ɸ(m) / m 可能比较小

3、开放寻址散列的分析：像在链接法中的分析一样，开放寻址法的分析也是以散列表的装载因子 α = n / m 来表达的
当然，使用开放寻址法，每个槽中至多只有一个元素，因而 n <= m，也就意味着 α ≤ 1

每一种探查序列都是等可能的：
给定一个装载因子为 a = n/m ≤ 1 的开放寻址散列表，并假设是均匀散列的，则对于一次不成功的查找，其期望的探查次数至多为 1 / (1 - a)

证：在不成功的查找中，除了最后一次探查，每一次探查都要检查一个被占用但并不包含所求关键字的槽，最后检查的槽是空的。先定义随机变量X 为一次不成功的探查次数，再定义事件 Ai（i = 1, 2, …) 为第i次探查且探查到的是一个已经被占用的槽。事件 {X>=i} 即为事件 A1∩A2∩…∩Ai - 1的交集
计算事件
由于有n个元素和m个槽，所以 Pr{A1} = n / m。在前j - 1次探查到的都是已经占用槽的前提下，第j次探查且探查到的仍是已占用槽的概率是 (n - j + 1) / (m - j + 1)。因为要在 (m - (j - 1)) 个未探查的槽中，查找余下的 (n - (j - 1)) 个元素中的某一个。注意到 n<m，对于所有j（0 <= j < m），就有 (n - j) / (m - j) <= n/m。
计算过程
等比计算公式

4、假设采用的是均匀散列，平均情况下，向一个装载因子为α的开放寻址散列表中插入一个元素至多需要做 1/(1 - α) 次探查

证明：只有当表中有空槽时，才可以插入新元素，故 α<1。插入一个关键字要先做一次不成功的查找，然后将该关键字置入第一个遇到的空槽中，所以跟不成功的查找一样，期望的探查次数至多为 1/(1 - α)

5、对于一个装载因子为 α<1 的开放寻址散列表，一次成功查找中的探查期望数至多为
一次成功查找中的探查期望数至多为
假设采用均匀散列，且表中的每个关键字被查找的可能性是相同的
证明：根据4，如果 k是第 i+1 个被插入表中的关键字，则对k的一次查找中，探查的期望次数至多为 1/(1 - i / m) = m / (m - i)，对散列表中所有n个关键字求平均，则得到一次成功查找的探查期望次数为
一次成功查找的探查期望次数
综合 3，5：
当装载因子为3/4 和 7/8 时，一次不成功查找的探查期望数上界分别为4和8，一次成功查找的探查期望数上界分别为 4/3 ln4
和 8/7 ln8

6、写出 HASH-DELETE 的伪代码；修改 HASH-INSERT，使之能处理特殊值 DELETED

HASH-DELETE(T, k)
    for i = 0 to m-1
        j = h(k, i)
        if T[j] == k
            T[j] = DELETED
            return
 
HASH-INSERT(T, k)
    i = 0
    repeat
        j = h(k, i)
        if T[j] == NIL or T[j] == DELETED // 区别
            T[j] = k
            return j
        else i = i + 1
    until i == m
    error "hash table overflow"

5、完全散列

1、使用散列技术通常是个好的选择，不仅是因为它有优异的平均情况性能，而且当关键字集合是静态时，散列技术也能提供出色的最坏情况性能。所谓静态，就是指一旦各关键字存入表中，关键字集合就不再变化了

2、一种散列方法称为完全散列，如果该方法进行查找时，能在最坏情况下用 O(1) 次访存完成

采用两级的散列方法来设计完全散列方案，在每级上都使用全域散列
在每级上都使用全域散列
第一级与带链接的散列表基本上是一样的：利用从某一全域散列函数族中仔细选出的一个散列函数h，将n个关键字散列到 m个槽中
然后采用了一个较小的二次散列表 Sj 及相关的散列函数 hj，利用精心选择的散列函数hj，可以确保在第二级上不出现冲突

为了确保在第二级上不出现冲突，需要让散列表 Sj 的大小 mj 为散列到槽j中的关键字数 nj 的平方，尽管 mj 对 nj 的这种二次依赖看上去可能使得总体存储需求很大，通过适当地选择第一级散列函数，可以将预期使用的总体存储空间限制为 O(n)

3、如果从一个全域散列函数类中随机选出散列函数h，将 n个关键字存储在一个大小为 m = n² 的散列表中，那么表中出现冲突的概率小于 1/2

证明共有 Cn² 对关键字可能发生冲突；如果A 是从一个全域散列函数类H 中随机选出，那么每一对关键字冲突的概率为 1 / m。当 m = n² 时，期望的冲突次数为

运用马尔可夫不等式，

4、下面的定理和一个推论给出了所有二级散列表的大小加起来后的期望值的界，第二个推论给出了所有二级散列表的大小加起来后超过线性时的概率的一个上界(实际上，后面的证明中，超过线性是指等于或大于4n）

1）定理：如果从某一个全域散列函数类中随机选出散列函数h，用它将n个关键字存储到一个大小为 m = n 的散列表中，则有
在这里插入图片描述
这里 nj 为散列到槽j中的关键字数

证明：从下面的恒等式开始，这个等式对任何非负的整数a成立

所以有
在这里插入图片描述

里面涉及到加法原理

2）推论1：如果从某一全域散列函数类中随机选出散列函数h，用它将n个关键字存储到一个大小为 m = n 的散列表中，并将每个二次散列表的大小设置为 mj = (nj)²（j = 0，1，…，m-1），则在一个完全散列方案中，存储所有二次散列表所需的存储总量的期望值小于2n

证明：由 (1)
推论1证明
3）推论2：如果从某一全域散列函数类中随机选出散列函数h，用它将n个关键字存储到一个大小为 m = n 的散列表中，并将每个二级散列表的大小置为 mj = (nj)² (j = 0, 1, …, m - 1)，则用于存储所有二级散列表的存储总量等于或大于 4n的概率小于 1/2
证明：用马尔可夫不等式，即 Pr{X >= t} <= E[X] / t。并将在这里插入图片描述入推论1中不等式

从推论2 可得，只需从全域散列函数类中随机选出几个散列函数，尝试几次就可以快速找到一个所需存储量较为合理的函数