Redis系列之Redis Sentinel

news2024/12/27 11:55:27

概述

Redis主从集群,一主多从模式,包括一个Master节点和多个Slave节点。Master负责数据的读写,Slave节点负责数据的查询。Master上收到的数据变更,会同步到Slave节点上实现数据的同步。通过这种架构实现可以Redis的读写分离,提升数据的查询性能。
在这里插入图片描述
主从集群不提供容错和恢复功能,一旦Master节点宕机,不会自动选出新的Master,导致后续客户端所有写请求直接失败。

引入

Redis引入Redis Sentinel,即哨兵机制,哨兵会监控Redis主从集群节点的状态,当Master节点出现故障,会自动从剩余的Slave节点中选择新的Master:

  • 一旦监控发现redis主节点失效,将选举出一个哨兵节点作为领导者;
  • sentinel的领导者从剩余的从redis节点中选出一个redis节点作为新的主redis节点对外服务。

Redis Sentinel用于实现Redis集群的高可用,本身也是分布式的,作为一个哨兵集群去运行,可以监控一个或者多个主从集群:

  • 故障转移时,判断一个Master节点是否宕机,需要大部分的哨兵都同意才行,涉及到分布式选举的问题
  • 即使部分哨兵节点挂掉,哨兵集群还是能正常工作

Redis Sentinel,能够自动完成故障发现和故障转移并通知应用方,具备如下功能:

  • 集群监控:负责监控Master和Slave进程是否正常工作;
  • 消息通知:如果某个Redis实例有故障,那么哨兵负责发送消息作为报警通知给管理员;
  • 故障转移:如果Master节点宕机,会自动转移到Slave节点上;
  • 配置中心:如果发生故障转移,通知客户端新的Master地址;

另外

  • 哨兵至少需要3个实例,来保证自己的健壮性
  • 哨兵 + Redis主从的部署架构,是不保证数据零丢失的,只能保证Redis集群的高可用性
  • 对于哨兵 + Redis主从这种复杂的部署架构,尽量在测试环境和生产环境,都进行充足的测试和演练

安装

安装Redis Sentinel之前,需要确保已经成功安装至少一套Redis主从集群,即集群启动成功。生产环境里,Redis主从集群节点和Redis Sentinel集群节点最好是不同的IP节点。为了满足过半原则,Redis Sentinel至少需要3台节点。

安装时,提前创建好sentinel运行时需要的几个文件夹:conf、data、log,以及sentinel.conf配置文件,仅供参考:

port 26379
daemonize yes
logfile "26379.log"
# Sentinel实例的目录
dir "/data/redis/sentinel/"
# 格式:sentinel [option_name] [master_name] [ip] [port] [quorum],sentinel监控的master为mymaster,最后的2表示当集群中有2个sentinel认为master不可用时,才真正认为该master不可用,即客观下线
sentinel monitor mymaster 10.215.20.7 6379 2
# sentinel会向master发送心跳PING来确认master是否存活,如果master在down-after-milliseconds内不回应PONG或回复错误消息,则这个sentinel会主观地认为这个master不可用
sentinel down-after-milliseconds master 30000
# 在发生failover主备切换时,指定最多可以有多少个slave同时对新的master进行同步,这个数字越小,完成failover所需的时间就越长,但是如果这个数字越大,就意味着越多的slave因为replication而不可用。可以通过将这个值设为1来保证每次只有一个slave处于不能处理命令请求的状态
sentinel parallel-syncs mymaster 1
# failover过期时间,当failover开始后,在此时间内仍然没有触发任何failover操作,当前sentinel将会认为此次failoer失败,单位为秒
sentinel failover-timeout mymaster 180000

以Redis用户执行启动命令:sudo -u redis /opt/redis/bin/redis-sentinel /data/redis/sentinel/conf/sentinel.conf,从启动日志可判断Sentinel集群是否正常启动。

在节点执行info sentinel命令,查看sentinel的信息。

心跳检查

Sentinel通过三个定时任务来检测各个节点是否存活及出现超时:

  1. 每隔10秒,每个哨兵节点会向已知的主从节点发送info命令获取最新的主从架构。哨兵节点通过解析响应信息,获取当前Redis数据节点的最新拓扑结构。如果是新增节点,哨兵就会与其建立连接;
  2. 每隔2秒,哨兵节点都会向主从节点的__sentinel__:hello频道发送自己的信息。两个目的:
    • 发现新的哨兵节点
    • 哨兵节点之间交换主节点的状态,作为后面客观下线以及领导者选择的依据
  3. 每隔1秒,哨兵会给每个主从节点、其他哨兵节点发送PING命令。此定时任务是哨兵心跳机制中的核心,它涉及到Redis数据节点的运行状态监控,哨兵领导者的选举等细节操作。当哨兵节点发送PING命令后,若超过down-after-milliseconds后,没有收到有效回复(错误的回复不是有效回复),当前哨兵节点会认为该节点主观下线。

发送的消息内容格式为:
<哨兵地址>,<哨兵端口>,<哨兵运行ID>,<哨兵配置版本>,<主数据库名称>,<主库地址>,<主库端口>,<主库配置版本>

自动发现机制

哨兵互相之间的发现,是通过Redis的pub/sub系统实现的,每个哨兵都会往__sentinel__:hello这个channel里发送消息,此时其他所有哨兵都可以消费这个消息,并感知到其他哨兵的存在。

每隔两秒钟,每个哨兵都会往自己监控的某个Master+Slaves对应的__sentinel__:hello channel里发送一个消息,内容是自己的host、ip和Run ID,还有对这个Master的监控配置。

每个哨兵也会去监听自己监控的每个Master+Slaves对应的__sentinel__:hello channel,然后去感知到同样在监听这个Master+Slaves的其他哨兵的存在。

每个哨兵还会跟其他哨兵交换对Master的监控配置,互相进行监控配置的同步。

Slave配置的自动纠正

哨兵会负责自动纠正Slave的一些配置,如Slave如果要成为潜在的 Master候选人,哨兵会确保Slave复制现有Master的数据;如果Slave连接到错误的Master上,比如故障转移之后,那么哨兵会确保它们连接到正确的Master上。

下线

有主观下线和客观下线两种。

主观下线

Subjectively Down,缩写sdown,也叫主观宕机。

在第三个定时任务中,每隔1秒哨兵节点会向每个Redis数据节点发送PING命令,若超过down-after-milliseconds设定的时间没有收到响应,则会对该节点做失败判定,这种行为叫做主观下线。是某一个哨兵节点的判断,存在误判概率。

客观下线

Objectively Down,缩写sdown,也叫客观宕机。

当哨兵节点判定一个主节点为主观下线后,则会通过sentinelis-master-down-by-addr命令询问其他哨兵节点对该主节点的状态,当收到quorunm个其他哨兵节点认为主节点也存在问题的应答后,这时该哨兵节点会对主节点做客观下线的决定。

客观下线是针对主机节点,如果主观下线的是从节点或者其他哨兵节点,则不会进行后面的客观下线和故障转移。

哨兵选举

当主节点客观下线时,需要选举出一个哨兵节点做为领导者,以完成后续选出新的主节点的工作。基于Raft算法的哨兵选举的主要流程:

  1. 每一个做主观下线的哨兵节点都有成为领导者的可能,他们会向其他哨兵节点发送sentinel is-master-down-by addr,要求将它设置为领导者;
  2. 每个哨兵节点在收到一个sentinel is-master-down-by addr命令时,只允许给第一个节点投票,其他节点的该命令都会被拒绝;
  3. 如果某个哨兵节点收到半数以上的同意票,则成为哨兵领导者;
  4. 如果该过程有多个哨兵成为领导者,则将等待一段时间重新进行下一轮选举,直到有且只有一个哨兵节点成为领导者为止;

一般来说,哨兵选举的过程很快,谁先完成客观下线,一般就能成为领导者。

配置传播:哨兵完成切换之后,会在自己本地更新生成最新的Master配置,并更新Version版本号,同步给其他哨兵,通过pub/sub消息机制。

故障转移

Failover,也叫故障切换。

不管是Redis Master还是Slave节点,都必须在配置中指定一个Slave优先级。如果某个Slave优先级配置为0,则永远不会被选为Master,但依然会从Master那里复制数据。

如果一个Master被认为客观下线,且majority数量的哨兵都允许主备切换,则某个哨兵就会执行主备切换操作,此时首先要选举Slave作为Master,会考虑Slave的一些信息:

  • 过滤掉不健康的Slave节点(主观下线、断线)、5秒内没有回复过哨兵节点PING响应的Slave节点
  • 跟Master断开连接的时长
  • Slave优先级
  • 复制offset
  • Run ID

如果一个Slave跟Master断开连接的时间已经超过down-after-milliseconds的10倍,外加Master宕机的时长,则此Slave节点就被认为不适合选举为Master:(down-after-milliseconds * 10) + milliseconds_since_master_is_in_SDOWN_state

接下来会对Slave进行排序:

  • 按照Slave优先级进行排序,Slave节点配置的priority越低,优先级越高;
  • 如果Slave节点priority相同,则看复制offset,哪个Slave复制越多的数据,即offset越靠后(数据越完整,此处注意存在数据丢失可能性),优先级就越高;
  • 如果上面两个条件都相同,则选择一个Run ID较小的那个Slave;

当某个哨兵节点通过选举成为领导者,就要承担起故障转移的工作,具体步骤:

  1. 从从节点列表中选择一个节点作为新的主节点
  2. 在新的主节点上执行slaveof no one,让其变成主节点
  3. 向剩余的从节点发送slaveof命令,让它们成为新主节点的从节点
  4. 哨兵节点集合会将原来的主节点更新为从节点,当其恢复之后命令它去复制新的主节点的数据

缺点

Redis Sentinel集群存在的缺点:

  • 配置复杂性:Redis Sentinel集群相对复杂,需要细致的配置和调优,尤其是在大型集群中;
  • 一致性问题:在网络分区或某些情况下,可能会出现脑裂问题,即集群中的一部分认为主节点是可用的,而另一部分认为主节点已经失效,导致多个主节点同时存在;
  • 故障检测延迟:Sentinel对主节点故障的检测和恢复有一定延迟,可能会在检测到故障和完成故障转移之间有一段时间的服务中断;
  • 有限的高可用性:Sentinel集群本身也可能出现故障,特别是在网络环境不稳定时;
  • 主从复制延迟:从节点的数据同步是异步的,在主节点故障转移过程中,可能会有数据丢失或不一致的情况;
  • 资源开销:搭建Sentinel集群需要额外的资源,且每个Sentinel实例都会定期对Redis节点进行健康检查,增加一定的网络和计算开销;
  • 对网络环境依赖高:Sentinel集群对网络环境要求较高,网络延迟和抖动可能会影响Sentinel的故障检测和选举过程,进而影响故障转移的效率和准确性;
  • 手动干预需求:尽管Sentinel提供自动故障转移功能,但在某些复杂情况下,仍然可能需要人工干预来解决问题,如在处理脑裂情况或调整集群配置时。

数据丢失

此处对上面提到的数据丢失加以详述。Redis哨兵主备切换过程中可能会导致数据丢失的的两种情况:

  • 异步复制:从Master到Slave的复制是异步的,可能有部分数据还没复制到Slave,Master宕机,这部分数据可能发生丢失
    在这里插入图片描述
  • 脑裂:Master节点突然脱离正常的网络,跟其他Slave机器不能连接,但实际上Master还在运行。此时哨兵可能会认为Master宕机并开启选举,将其他Slave切换成Master。此时集群里就会有两个Master,即所谓的脑裂。此时虽然某个Slave被切换成Master,但客户端可能还没来得及切换到新的Master,继续向旧Master写数据。因此旧Master再次恢复时,会被作为一个Slave挂到新的Master上去,自己的数据会清空,重新从新的Master复制数据。而新Master并没有客户端写入的这一部分数据,发生数据丢失。

优化方案

做如下配置:

# 至少有1个Slave
min-slaves-to-write 1
# 数据复制和同步的延迟不能超过10秒
min-slaves-max-lag 10

如果说一旦所有的Slave,数据复制和同步的延迟都超过10秒钟,此时Master就不会再接收任何请求。显然,这个做法并不好,会阻塞客户端提交的写请求。

  • 减少异步复制数据的丢失
    min-slaves-max-lag配置可以确保,一旦Slave复制数据和ack延时太长,就认为可能Master宕机后损失的数据太多,那么就拒绝写请求,这样可以把Master宕机时由于部分数据未同步到Slave导致的数据丢失降低的可控范围内。

  • 减少脑裂的数据丢失
    如果一个Master出现脑裂,跟其他Slave丢失连接,那么上面两个配置可以确保说,如果不能继续给指定数量的Slave发送数据,而且Slave超过10秒没有给自己ack消息,那么就直接拒绝客户端的写请求。因此在脑裂场景下,最多就丢失10秒的数据。

但是在线扩容的问题还是没有解决。

参考

  • Redis哨兵的详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1973440.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

U盘文件或目录损坏无法读取?专业恢复策略全解析

U盘困境&#xff1a;文件目录的隐形危机 在日常的数字生活中&#xff0c;U盘作为便捷的数据存储与传输工具&#xff0c;扮演着至关重要的角色。然而&#xff0c;当U盘中的文件或目录突然遭遇损坏&#xff0c;导致无法被正常读取时&#xff0c;这无疑给用户带来了极大的困扰。这…

达梦数据库的系统视图v$cachers

达梦数据库的系统视图v$cachers 达梦数据库的系统视图V$CACHERS的作用是显示缓存中的项信息&#xff0c;在 ini 参数 USE_PLN_POOL !0 时才统计。这个视图帮助数据库管理员监控和分析缓存的使用情况&#xff0c;优化数据库性能。通过查询V$CACHERS视图&#xff0c;可以获取缓存…

DeferredResult 是如何实现异步处理请求的

最近遇到了一个问题&#xff0c;我们的一个接口需要去轮询另一个第三方接口&#xff0c;导致这个接口占用了太多工作线程&#xff0c;这些工作线程长时间 running&#xff0c;我们需要解决这个问题。 于是&#xff0c;我们的方案是&#xff1a;用 DeferredResult 实现接口异步。…

如何用 ChatGPT 提升学术写作:15 个高效提示

在本文&#xff0c;我们详细探讨了如何利用 ChatGPT 提升学术写作的各个方面。我们帮助学术作者通过生成创意点子、构建论证结构、克服写作障碍以及格式化引用&#xff0c;从而显著提升其学术论文的质量。这 15 条提示不仅可以单独使用&#xff0c;还可作为学习的良好范例。 本…

文件解析漏洞复现

一、IIS 6.X 1.在网站目录创建文件夹名为xxx.asp/xxx.asa 文件夹&#xff0c;里面的任意文件都会被当作asp文件执行 创建1.asp 访问 2.ooo.asp.jpg会被当做asp文件执行 创建一个ooo.asp;.jpg 访问 二、IIS 7.X 上传1.jpg文件在网址后/.php可以成功执行 写一个1.jpg文件内容…

CTFHubret2shellcode-入土为安的第十三天

checksec pwn 没有开保护 并且是64位的 放入IDa64 shiftf12 查看字符串 发现没有shell f5查看主函数 read函数&#xff0c;点进去buf 0x010,0x08. buf的地址 因为我们要把buf填充满 然后再让栈进入shellcode的地址 然后再执行shellcode recvuntil 函数会一直读取数据&#…

Vue3 + JS项目配置ESLint Pretter

前言 如果在开发大型项目 同时为多人协作开发 那么 ESLint 在项目中极为重要 在使用 ESLint 的同时 也需要使用 Pretter插件 统一对代码进行格式化 二者相辅相成 缺一不可 1. 安装 VsCode 插件 在 VsCode 插件市场搜索安装 ESLint 和 Pretter 2. 安装依赖 这里直接在 pac…

SOLIDWORKS教育版支持多种快捷键和自定义工具

在工程设计与教育的广阔领域中&#xff0c;SOLIDWORKS作为一款强大的三维CAD设计软件&#xff0c;凭借其直观的操作界面、丰富的功能集以及对学生及教育机构的特别支持&#xff0c;赢得了广泛的认可与好评。其中&#xff0c;SOLIDWORKS教育版不仅继承了专业版的核心功能&#x…

Android Listview notifyDataSetChanged() 不起作用

private ArrayList<Map<String, String>> data new ArrayList<Map<String, String>>(); private ArrayList<Map<String, String>> delivered_data new ArrayList<Map<String, String>>(); 如果直接将arraylist 的数据直接…

人工智能深度学习系列—深度学习损失函数中的Focal Loss解析

文章目录 1. 背景介绍2. Loss计算公式3. 使用场景4. 代码样例5. 总结 1. 背景介绍 在深度学习的目标检测任务中&#xff0c;类别不平衡问题一直是提升模型性能的拦路虎。Focal Loss损失函数应运而生&#xff0c;专为解决这一难题设计。本文将深入探讨Focal Loss的背景、计算方…

面向对象之设计模式,四种内部类,类关系

面向对象 1. 类关系 继承 使用extends表示,类和类单继承,接口和接口多继承,多个逗号隔开 又叫泛化关系 实现 类和接口是多实现关系,多个逗号隔开,通过关键字 implements表示 依赖 一个类中的局部变量 ,保存了另一个类对象 关联 又叫强依赖,一个类中的成员变量,是另一个类对象…

用Babylon.js 滑动屏幕画图形,签字等

介绍 在上篇文章中我们已经了解到了该游戏引擎的基本搭建过程。比如灯光,摄像头,场景、事件监听等。这里我就不做多介绍。运用以上知识点。我们此时做一个小游戏画图。 效果图 源代码 1.先监听事件是否碰撞到了画板 2.然后判断动作,手指按住屏幕,松开屏幕,滑动屏幕。 …

Linux---进程(4)---进程优先级调度切换

目录 进程优先级 进程切换 前期知识补充 进程切换 进程调度 进程优先级 权限是为了解决能不能享受资源的问题&#xff0c;优先级则是为了解决享受资源的顺序的问题。 进程要访问某种资源&#xff0c;就需要用排队的方式&#xff0c;确定享受资源的先后顺序。因为资源是少…

谷粒商城实战笔记-105~107-全文检索-ElasticSearch-入门

文章目录 一&#xff0c;105-全文检索-ElasticSearch-入门-_cat二&#xff0c;106-全文检索-ElasticSearch-入门-put&post新增数据三&#xff0c;107-全文检索-ElasticSearch-入门-get查询数据&乐观锁字段1&#xff0c;过时的乐观锁-version2&#xff0c;Elasticsearch…

深入源码P3C-PMD:启动源码(2)

下面我们开始从启动探寻 PMD 的源码设计。 pmd 的启动类为 PmdCli&#xff0c;作为命令行的启动器&#xff0c; 其依赖 picocli 作为控制台命令框架。 picocli 官网&#xff1a;https://picocli.info/ Command(name "checksum", mixinStandardHelpOptions true, v…

Golang | Leetcode Golang题解之第316题去除重复字母

题目&#xff1a; 题解&#xff1a; func removeDuplicateLetters(s string) string {left : [26]int{}for _, ch : range s {left[ch-a]}stack : []byte{}inStack : [26]bool{}for i : range s {ch : s[i]if !inStack[ch-a] {for len(stack) > 0 && ch < stack…

谷歌外链的重要性及获取方法!

对于做谷歌seo的人来说&#xff0c;谷歌外链的重要性不言而喻&#xff0c;这是谷歌评估一个网站的重要指标&#xff0c;它们像是网络上的推荐信&#xff0c;可以显著提高你网站的可见度和信誉&#xff0c;这样有利于关键词获取到更好的排名&#xff0c;有作用的外链能显著提升网…

CDO学习

1.备份instie.mdb文件 2.

MySQL:数据类型表的基础操作

目录 1、数据类型 1.1 数值类型 1.2 字符串类型 1.3 日期类型 2、表的基础操作 2.1 选择数据库 2.2 建表 2.3 查看库中所有表 2.4 查看某一表结构 2.5 删表 3、可视化编辑工具 3.1 运行 1、数据类型 1.1 数值类型 bit类型可指定长度&#xff08;如果不写&#xff0c;…

pytorch学习笔记4 tensor变换

View/reshape viewreshape, 新版本 要保证数据总量不变&#xff0c;否则报错Squeeze/unsqueeze 减少维度和增加维度 unsqueeze(n): 如果n是正&#xff0c;在第n位前面插1维&#xff08;size1&#xff09;&#xff0c; 如果n是负&#xff0c;在倒数第|n|位后面插入1维&#xf…