什么是一致性哈希?一致性哈希是如何工作的?如何设计一致性哈希?

news2024/10/6 14:36:30

1.什么是一致性哈希?一致性哈希是如何工作的?如何设计一致性哈希?05-25

2.系统设计:从零用户扩展到百万用户05-28

收起

如果你有 n 个缓存服务器,一个常见的负载均衡方式是使用以下的哈希方法:

服务器索引 = 哈希(键) % N,其中 N 是服务器池的大小。

让我们通过一个例子来说明这是如何工作的。如表5-1所示,我们有4台服务器和8个字符串键及其哈希值。

为了获取存储某个键的服务器,我们执行模运算 f(键) % 4。例如,哈希(键0) % 4 = 1 意味着客户端必须联系服务器1来获取缓存的数据。图5-1展示了基于表5-1的键的分布。

当服务器池的大小固定且数据分布均匀时,这种方法工作得很好。然而,当新的服务器被添加,或者现有的服务器被移除时,就会出现问题。例如,如果服务器1离线,服务器池的大小就变成了3。使用相同的哈希函数,我们得到的键的哈希值是相同的。但是应用模运算会因为服务器数量减少了1而得到不同的服务器索引。我们应用 哈希 % 3 得到的结果如表5-2所示:

图5-2展示了基于表5-2的新键分布。

如图5-2所示,大多数键都被重新分配了,而不仅仅是那些最初存储在离线服务器(服务器1)中的键。这意味着,当服务器1离线时,大多数缓存客户端将连接到错误的服务器来获取数据。这导致了一场缓存未命中的风暴。一致性哈希是一种有效的技术来缓解这个问题。

一致性哈希

引用自维基百科:"一致性哈希是一种特殊的哈希,使得当哈希表大小改变且使用一致性哈希时,平均只有 k/n 个键需要被重新映射,其中 k 是键的数量,n 是槽位的数量。相比之下,在大多数传统哈希表中,数组槽位数量的变化导致几乎所有的键都需要被重新映射[1]”。

哈希空间和哈希环

现在我们理解了一致性哈希的定义,让我们了解它是如何工作的。假设使用SHA-1作为哈希函数f,哈希函数的输出范围是:x0, x1, x2, x3, ..., xn。在密码学中,SHA-1的哈希空间从0到2^160 - 1。也就是说,x0 对应0,xn 对应2^160 - 1,所有其他的哈希值都落在0和2^160 - 1之间。图5-3展示了哈希空间。

通过连接两端,我们得到一个如图5-4所示的哈希环:

哈希服务器

使用相同的哈希函数f,我们根据服务器的IP或名字将服务器映射到环上。图5-5显示了4台服务器被映射到哈希环上。

哈希键

值得一提的是,这里使用的哈希函数与“重哈希问题”中的不同,并且没有模运算。如图5-6所示,4个缓存键(key0,key1,key2和key3)被哈希到哈希环上。

服务器查找

为了确定一个键存储在哪个服务器上,我们从环上的键位置顺时针方向进行寻找,直到找到一个服务器。图5-7解释了这个过程。顺时针方向,key 0 存储在 server 0上;key1 存储在 server 1 上;key2 存储在 server 2 上;key3 存储在 server 3 上。

添加服务器

使用上述逻辑,添加新服务器只需要重新分配一部分键。

在图5-8中,新增 server 4 后,只有 key0 需要被重新分配。k1, k2, 和 k3 仍然在相同的服务器上。让我们仔细看看这个逻辑。在 server 4 添加之前,key0 存储在 server 0 上。现在,key0 将存储在 server 4 上,因为 server 4 是它从环上的 key0 位置顺时针方向遇到的第一个服务器。其他的键根据一致性哈希算法不需要重新分配。

移除服务器

当服务器被移除时,只有少部分的键需要通过一致性哈希进行重新分配。在图5-9中,当 server 1 被移除时,只有 key1 必须被映射到 server 2。其余的键不受影响。

基本方法中的两个问题

一致性哈希算法是由MIT的Karger等人提出的[1]。基本步骤如下:

  • 使用均匀分布的哈希函数将服务器和键映射到环上。
  • 要找出键映射到哪个服务器,从键位置开始顺时针方向找到环上的第一个服务器。

这种方法存在两个问题。首先,考虑到服务器可能会被添加或移除,不可能在环上为所有服务器保持相同大小的分区。分区是相邻服务器之间的哈希空间。每个服务器被分配到的环上的分区大小可能非常小或者相当大。在图5-10中,如果s1被移除,s2的分区(双向箭头高亮表示)就是s0s3分区的两倍大。

第二,环上的键分布可能非均匀。例如,如果服务器映射到图5-11中列出的位置,大部分的键都存储在server 2上。然而,server 1和 server 3 没有任何数据。

一种被称为虚拟节点或副本的技术被用来解决这些问题。

虚拟节点

虚拟节点是指实际节点,每个服务器在环上都由多个虚拟节点表示。在图5-12中,server 0 和 server 1 都有3个虚拟节点。这个3是随意选择的;在实际系统中,虚拟节点的数量要多得多。我们不再使用 s0,而是使用 s0_0, s0_1 和 s0_2 来在环上表示 server 0。同样,s1_0, s1_1 和 s1_2 在环上表示 server 1。有了虚拟节点,每个服务器就负责多个分区。标签为 s0 的分区(边)由 server 0 管理。另一方面,标签为 s1 的分区由 server 1 管理。

要找出一个键存储在哪个服务器上,我们从键的位置顺时针方向去找环上遇到的第一个虚拟节点。在图5-13中,要找出k0存储在哪个服务器上,我们从k0的位置顺时针方向找到虚拟节点s1_1,它指向server 1

随着虚拟节点数量的增加,键的分布变得更加均衡。这是因为随着虚拟节点数量的增加,标准差变得更小,导致数据分布均衡。标准差衡量了数据的分散程度。在线研究的一项实验结果[2]表明,当有一百或两百个虚拟节点时,标准差在均值的5%(200个虚拟节点)到10%(100个虚拟节点)之间。当我们增加虚拟节点数量时,标准差会变小。然而,我们需要更多的空间来存储虚拟节点的数据。这是一个权衡,我们可以调整虚拟节点的数量以适应我们的系统需求。

找到受影响的键

当添加或移除一个服务器时,部分数据需要被重新分布。我们如何找到受影响的范围以重新分配键呢?

在图5-14中,server 4被添加到环中。受影响的范围从s4(新添加的节点)开始,逆时针移动到找到一个服务器(s3)。因此,位于s3s4之间的键需要被重新分配给s4

当一个服务器(s1)如图5-15所示被移除时,受影响的范围从s1(被移除的节点)开始,逆时针绕环移动到找到一个服务器(s0)。因此,位于s0s1之间的键必须被重新分配给s2

总结

在这一章,我们深入讨论了一致性哈希,包括为什么需要它以及它是如何工作的。一致性哈希的好处包括:

  • 当服务器被添加或移除时,最小化键的重新分布。
  • 因为数据更均匀地分布,所以易于横向扩展。
  • 缓解热点键问题。过度访问特定的分片可能导致服务器过载。想象一下,Katy Perry、Justin Bieber和Lady Gaga的数据全部都在同一个分片上。一致性哈希通过更均匀地分布数据来缓解这个问题。

一致性哈希在现实世界的系统中被广泛应用,包括一些著名的系统:

  • Amazon的Dynamo数据库的分区组件 [3]
  • Apache Cassandra中跨集群的数据分区 [4]
  • Discord聊天应用 [5]
  • Akamai内容分发网络 [6]
  • Maglev网络负载均衡器 [7]

恭喜你走到这一步!现在给自己一个赞。干得好!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/588353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UE5的IK Rig重定向注意问题

推荐先把官方文档看仔细,明白IK Rig重定向原理,对理解UE5怎么进行动画骨骼重定向,以及重定向后骨骼出现问题应该怎么调整非常有帮助。 IK Rig重定向 主要功能点 IK Rig IK Rig的作用是定义两个转化关系中的源骨骼和目标骨骼的主要部件的骨…

【大数据之Hive】四、配置Hive元数据存储到MySQL

需求:   把Hive元数据写道MySQL的metastore数据库中(MySQL默认没有metastore数据库,需要提前创建:create database metastore;)   连接地址:jdbc:mysql//hadoop102:3306/metastore   驱动&#xff1a…

Spring Boot 如何处理分布式事务?

Spring Boot分布式事务处理 分布式事务是指跨多个数据库或服务的事务,它需要确保所有参与者都能以一致的方式处理事务。在微服务架构中,由于每个服务都有自己的数据库,因此实现分布式事务非常重要。在本文中,我们将介绍如何在Spr…

Three.js——七、Group层级模型

关于Group Group 层级模型 通过 THREE.Group 类创建一个组对象 group,然后通过 add 方法把网格模型 mesh1、mesh2 作为设置为组对象 group 的子对象,然后在通过执行 scene.add(group)把组对象 group 作为场景对象的 scene 的子对象。也就是说场景对象是 scene 是 …

计算机底层的密码读书笔记

线程池的理解协程的理解高并发服务器的考量内存管理函数调用与栈影响多线程性能的缓存问题 线程池的理解 重复创建和销毁线程会存在开销,线程过多会消耗大量内存,较多线程之间的切换也存在开销 线程池用来复用线程,控制线程数量 线程池中…

(二)K8S常见集群架构搭建

1.基于KubeAdm搭建多节点K8S集群 安装docker(主节点工作节点) # 1.安装 Docker CE 的依赖软件包: yum install -y yum-utils device-mapper-persistent-data lvm2# 2.设置阿里云镜像 sudo yum-config-manager --add-repo http://mirrors.al…

【C语言】【典例详解】【刷题】猜名次猜凶手【循环练习】

目录 猜名次问题 典例题目 题目分析: 代码实现: 运行结果: 猜凶手问题 典例题目 题目分析 代码实现: 运行结果: 猜名次问题 典例题目 猜名次: 5位运动员参加了10米台跳水比赛,有人让…

VM虚拟机配置

1、安装环境 1)需要安装的软件 2)安装vm 3)安装centos系统 2、VM虚拟机NAT模式上网设置 1)vm虚拟机设置 启动虚拟机选择【虚拟网络编辑器】 选择NAT模式,更改下面的子网IP,改成你需要的任何一个子网…

大数据:诞生大数据,概述、大数据软件生态,Apache Hadoop概述

大数据: 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学&#x…

专业的 Code 128 条码标签如何创建?

Aspose.Words是一种高级Word文档处理API,用于执行各种文档管理和操作任务。API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsoft Word。 Aspose API支持流行文件格式处理,并…

Linux 系统的中断子系统基本框架(一)

中断是大家用的最多的功能,不管是单片机还是 Linux 系统,都需要用到中断,对它的深入理解是非常必要的。 为什么需要中断? 答案:处理器的速度比外设快很多,内核必须要处理其他任务,只有当外设准…

在centos上安装splint

lint lint是最著名的C语言工具之一,是由贝尔实验室SteveJohnson于1979在PCC(PortableC Compiler)基础上开发的静态代码分析,一般由UNIX系统提供。 工具介绍 与大多数C语言编译器相比,lint可以对程序进行更加广泛的错误分析,是一…

Day56【动态规划】583.两个字符串的删除操作、72.编辑距离

583.两个字符串的删除操作 力扣题目链接/文章讲解 视频讲解 1、确定 dp 数组下标及值含义 dp[i][j]:以下标 i 为结尾的字符串 word1,和以下标 j 为结尾的字符串 word2,想要达到相等,所需要删除元素的最少次数为 dp[i][j] 2、…

【1110. 删点成林】

来源:力扣(LeetCode) 描述: 给出二叉树的根节点 root,树上每个节点都有一个不同的值。 如果节点值在 to_delete 中出现,我们就把该节点从树上删去,最后得到一个森林(一些不相交的…

LeetCode——可被三整除的偶数的平均值

#全国科技者工作日—为创新和未来而努力# 目录 1、题目 2、题目解读 3、代码 1、题目 2455. 可被三整除的偶数的平均值 - 力扣(Leetcode) 给你一个由正整数组成的整数数组 nums ,返回其中可被 3 整除的所有偶数的平均值。 注意&#xff…

论文阅读:Directed Greybox Fuzzing

一、论文相关信息 二、现有研究的不足 现有的Greybox模糊器(GF)无法有效地定向到有问题的更改或补丁、关键系统调用或危险位置、或定向到我们希望重现的已报告漏洞的堆栈跟踪中的函数。 三、知识点 (1)introduction 定向模糊测试…

第二章(一):Django框架的模型(Model)

系列文章目录 备注:这里是Django系列文章的所有文章的目录 第一章(一) : Django框架如何创建项目、创建应用、创建templates;如何启动django项目; 第一章(二):Django框架的模式、路由、视图; 第一章(三):Dj…

learn C++ NO.7——C/C++内存管理

引言 现在是5月30日的正午,图书馆里空空的,也许是大家都在午休,也许是现在37摄氏度的气温。穿着球衣的我已经汗流浃背,今天热火战胜了凯尔特人,闯入决赛。以下克上的勇气也激励着我,在省内垫底的大学中&am…

JS的异或运算XOR

概念 异或(xor)是一个数学运算符。它应用于逻辑运算。异或的数学符号为“⊕”,计算机符号为“xor”。 两个值相同时,返回false,否则返回true。也就是说,XOR可以用来判断两个值是否不同。 JavaScript 语言…

企业级信息系统开发——Spring Boot加载自定义配置文件

文章目录 一、使用PropertySource加载自定义配置文件(一)创建Spring Boot Web项目ConfigDemo01(二)创建自定义配置文件(三)创建自定义配置类(四)编写测试方法(五&#xf…