一、散列表
根据 key 计算 key 在表中的位置的数据结构;是 key 和其所在 存储地址的映射关系;
注意:散列表的节点中 kv 是存储在一起的;
结构:
二、选择hash的原因
1、需要很强的查找效率
2、强随机分布,等概率、均匀的分布在整个地址空间。
常用的哈希算法:
murmurhash1,murmurhash2,murmurhash3,siphash ( redis6.0 当中使用,rust 等大多数语言选用的 hash 算法来实 现 hashmap),cityhash 都具备强随机分布性;siphash 主要解决字符串接近的强随机分布性 ;
三、负载因子
数组存储元素的个数 / 数组长度;用来形容散列表的存储密 度;负载因子越小,冲突概率越小,负载因子越大,冲突概率越 大;
四、hash 冲突处理
1、链表法(拉链法)
引用链表来处理哈希冲突;也就是将冲突元素用链表链接起 来;这也是常用的处理冲突的方式;但是可能出现一种极端情 况,冲突元素比较多,该冲突链表过长,这个时候可以将这个 链表转换为红黑树、最小堆;由原来链表时间复杂度 转 换为红黑树时间复杂度 ;
2、开放寻址法
将所有的元素都存放在哈希表的数组中,不使用额外的数据结 构;一般使用线性探查的思路解决; 1. 当插入新元素的时,使用哈希函数在哈希表中定位元素位 置; 2. 检查数组中该槽位索引是否存在元素。如果该槽位为空,则 插入,否则3; 3. 在 2 检测的槽位索引上加一定步长接着检查2; 加一定步长 分为以下几种: i+1,i+2,i+3,i+4, ... ,i+n i- ,i+ ,i- ,1+ , ... 这两种都会导致同类 hash 聚 集;也就是近似值它的hash值也近似,那么它的数组槽 位也靠近,形成 hash 聚集;第一种同类聚集冲突在前, 第二种只是将聚集冲突延后; 另外还可以使用双重哈希 来解决上面出现hash聚集现象:
在.net HashTable类的hash函数Hk定义如下:
Hk(key) = [GetHash(key) + k * (1 +
(((GetHash(key) >> 5) + 1) %
(hashsize – 1)))] % hashsize
在此 (1 + (((GetHash(key) >> 5) + 1) %
(hashsize – 1))) 与 hashsize
互为素数(两数互为素数表示两者没有共同的质因⼦);
执⾏了 hashsize 次探查后,哈希表中的每⼀个位置都有
且只有⼀次被访问到,也就是
说,对于给定的 key,对哈希表中的同⼀位置不会同时使⽤
Hi 和 Hj;
五、布隆过滤器
1、背景
布隆过滤器是一种概率型数据结构,它的特点是高效地插入和 查询,能确定某个字符串一定不存在或者可能存在; 布隆过滤器不存储具体数据,所以占用空间小,查询结果存在 误差,但是误差可控,同时不支持删除操作;
2、构成
位图(BIT 数组)+ n 个 hash 函数
m % 2^n = m & (2^n - 1)
3、原理
当一个元素加入位图时,通过 k 个 hash 函数将这个元素映射到 位图的 k 个点,并把它们置为 1;当检索时,再通过 k 个 hash 函数运算检测位图的 k 个点是否都为 1;如果有不为 1 的点,那 么认为该 key 不存在;如果全部为 1,则可能存在;
为什么不支持删除操作?
1、在位图中每个槽位只有两种状态(0 或者 1),一个槽位被 设置为 1 状态,但不确定它被设置了多少次;也就是不知道 被多少个 key 哈希映射而来以及是被具体哪个 hash 函数映 射而来;
2、不存在只要一个索引位为0;如果都为1,是否一定存在? 不一定,可控的(假阳率)
4、应用场景
布隆过滤器通常用于判断某个 key 一定不存在的场景,同时允 许判断存在时有误差的情况;
常见处理场景:① 缓存穿透的解决;② 热 key 限流;
描述缓存场景,为了减轻数据库(mysql)的访问压力,在 server 端与数据库(mysql)之间加入缓存用来存储热点数据;
描述缓存穿透,server端请求数据时,缓存和数据库都不包含该 数据,最终请求压力全部涌向数据库;
数据请求步骤,如图中 2 所示;
发生原因:黑客利用漏洞伪造数据攻击或者内部业务 bug 造成 大量重复请求不存在的数据;
解决方案:如图中 3 所示;