一致性哈希(Consistent Hashing)是一种用于分布式系统中数据分布和负载均衡的哈希技术。它通过减少数据迁移、支持动态扩展和高容错等特点,在分布式缓存、存储、负载均衡等系统中有广泛应用。以下是对一致性哈希的详细介绍:
一致性哈希的实现步骤
场景描述
想象一个城市里有几个快递员负责不同区域的快递配送。为了确保每个快递员的工作量均衡且随着快递员的增减不会对整体配送造成太大的影响,我们采用一致性哈希算法来分配快递。
实现步骤
1、构建哈希环:
- 将整个城市看作一个圆形的街区(哈希环)。
- 使用一个哈希函数将每个快递员的名字或ID映射到这个圆环上的某个位置。
2、分配快递员:
- 比如有四个快递员:快递员A、快递员B、快递员C区和快递员D。
- 通过哈希函数计算出每个快递员在圆环上的位置,例如:
-
- 快递员A在90度
- 快递员B在180度
- 快递员C在270度
- 快递员D在360度
3、分配快递包裹:
- 每个快递包裹通过相同的哈希函数计算出一个位置,比如:
-
- 包裹1在50度
- 包裹2在150度
- 包裹3在250度
- 包裹4在350度
- 顺时针找到第一个遇到的快递员,并将包裹分配给他:
-
- 包裹1在50度,顺时针第一个遇到的是A(90度),所以包裹1由A负责。
- 包裹2在150度,顺时针第一个遇到的是B(180度),所以包裹2由B负责。
- 包裹3在250度,顺时针第一个遇到的是C(270度),所以包裹3由C负责。
- 包裹4在350度,顺时针第一个遇到的是D(360度,环形结构),所以包裹4由D负责。
4、增加节点
在原本四个快递员:快递员A、快递员B、快递员C区和快递员D的基础上,假设新增一个快递员E,位置在170度。
重定位:
- 计算出新快递员E的位置,170度。
- 此时当时包裹2(150度)顺时针第一个遇到的是E(170度),而不是B(180度),将其包裹2分配给新快递员E。
- 之前负责这部分包裹的快递员B现在工作量减少了。
- 包裹1、包裹3和包裹4的位置和分配保持不变。
5、减少节点
在原本四个快递员:快递员A、快递员B、快递员C区和快递员D的基础上,假设快递员B离职,位置在180度。
重定位:
- 找到离职快递员B的位置,180度。
- 此时当时包裹2(150度)顺时针第一个遇到的是C(270度),而不是B(180度),将其重新分配给快递员C。
- 之前负责这部分包裹的快递员B离职后,C接管了这部分工作。
- 其他包裹的位置和分配的快递员保持不变。
一致性哈希的基本原理
一致性哈希的核心思想是将所有参与的节点和要存储的数据对象都映射到一个虚拟的哈希环上,节点和数据通过同一个哈希函数计算哈希值,确定其在环上的位置。数据被顺时针存储到第一个遇到的节点上。
哈希环
- 构建哈希环:
-
- 将整个哈希空间组织成一个环形结构,例如[0, 2^32-1]的整数空间。
- 使用哈希函数(如MD5、SHA-1)将每个节点映射到哈希环上的某个位置。
- 映射数据到哈希环:
-
- 将数据对象通过相同的哈希函数映射到哈希环上的某个位置。
- 顺时针找到第一个节点,该节点即为存储或处理该数据对象的节点。
虚拟节点
一致性哈希算法在服务节点太少时,容易因为节点分部不均匀而造成数据倾斜问题。为了避免由于节点数较少导致数据倾斜、分布不均匀的问题,一致性哈希常引入虚拟节点(Virtual Nodes)。每个物理节点对应多个虚拟节点,这些虚拟节点均匀分布在哈希环上。