redis集群方案
在Redis中提供的集群方案总共有三种(一般一个redis节点不超过10G内存)
- 主从复制
- 哨兵模式
- 分片集群
主从复制(主从数据同步)
replid和offset
- Replication Id:简称replid,是数据集的标记,id一致则说明是同一数据集。每一个master都有唯一的replid,slave则会继承master节点的replid
- offset:偏移量,随着记录在repl_baklog中的数据增多而逐渐增大。slave完成同步时也会记录当前同步的offset。如果slave的offset小于master的offset,说明slave数据落后于master,需要更新。
全量同步和增量同步具体过程
优缺点
优点:解决了系统的高并发读的问题。
缺点:无法保证系统的高可用,所以哨兵模式出现了。
哨兵模式
哨兵的作用
哨兵(Sentinel)实际上也是redis节点,它的具体功能如下:
- 监控:Sentinel 会不断检查您的master和slave是否按预期工作。
- 自动故障恢复:如果master故障,Sentinel会将一个slave提升为master。当故障实例恢复后也以新的master为主。
- 通知:Sentinel充当Redis客户端的服务发现来源,当集群发生故障转移时,会将最新信息推送给Redis的客户端。
哨兵的监控(心跳机制、选主规则)
Sentinel基于心跳机制监测服务状态,每隔1秒向集群的每个实例发送ping命令:
- 主观下线:如果某sentinel节点发现某实例未在规定时间响应,则认为该实例主观下线。
- 客观下线:若超过指定数量(quorum)的sentinel都认为该实例主观下线,则该实例客观下线。quorum值最好超过Sentinel实例数量的一半。
一旦发现主节点客观下线了。哨兵会推举新的主节点,选主规则如下:
- 判断主与从节点断开时间长短,如超过指定值就排除该从节点
- 然后判断从节点的slave-priority值,越小优先级越高
- 如果slave-prority一样,则判断slave节点的offset值,越大优先级越高
- 最后是判断slave节点的运行id大小,越小优先级越高。
集群脑裂
如果此时原本的主节点(暂时称为A)因为网络问题,没有回应心跳,那么哨兵便会进行选举出一个新的主节点(暂时称为B),这样就存在了两个主节点,像是大脑分两列了一样。等A节点网络恢复之后才会由主节点降为从节点。这个过程称为脑裂。
但是注意,这个选主并切换的过程需要一定时间,此时A节点还是可以被写入数据的(暂时称这段数据为message,因为A节点实际上没有宕机,只是因为网络分区等问题联系不上从节点和哨兵了)
当A节点被降为从节点时,A节点会清空自己的数据,复制B节点的数据。此时message就丢失了。
它的解决方案有两种,对应着redis的两个配置参数:
- min-replicas-to-write 1 表示最少的slave节点为1个
- min-replicas-max-lag 5 表示数据复制和同步的延迟不能超过5秒
如果我们选了第一种解决方案,那么当哨兵联系不上A节点时,因为A节点没有slave了,此时数据过来,A节点会拒绝被写入数据,那么发送数据的服务方就会意识到数据没有正常发送,之后会采取相应的数据重传之类的解决方案。
如果我们选了第二种解决方案,那么就相当于限制了一开始A节点的网络情况,发现网络情况不好,就拒绝被写入数据。
其实就是分别针对脑裂时的2个特点:A节点网络有问题,和因为网络问题导致的和从节点、哨兵断开联系而进行的情况判断,如果发现符合这两个特点之一,那么就拒绝被写入数据,防止后来数据丢失。
优缺点
优点:解决了系统高可用的问题
缺点:无法解决海量数据存储还有高并发写的问题,此时分片集群就出现了。
分片集群
分片集群的结构如下:
它的结构特点为:
- 集群中有多个master,每个master保存不同数据,且每个master都可以有多个slave节点。这样就解决了海量数据存储,高并发读写的问题。相当于把主从模式概括进来了。
- 不再需要哨兵,直接master之间通过ping监测彼此健康状态。只要超过一定数量的master节点认为某个master节点宕机了,那么那个节点就客观下线了。相当于变形的哨兵模式。## 标题
- 客户端请求可以访问集群任意节点,经过一定的路由规则,最终都会被转发到正确节点。
路由规则
Redis 分片集群引入了哈希槽的概念,Redis 集群有 16384 个哈希槽,每个 key通过 CRC16 校验后对 16384 取模来决定放置哪个槽,集群的每个节点负责一部分 hash 槽。这样能保证客户端请求不冲突地正确转发到redis的某个master节点上。
优缺点
优点:解决了系统的海量数据存储、高可用、高并发读写的问题。
缺点:集群维护很麻烦,而且集群之间的通信和心跳检测消耗大量的网络带宽,无法使用lua脚本和事务。
相关面试题
Redis集群有哪些方案, 知道嘛 ?
候选人:嗯~~,在Redis中提供的集群方案总共有三种:主从复制、哨兵模式、Redis分片集群
那你来介绍一下主从同步
候选人:嗯,是这样的,单节点Redis的并发能力是有上限的,要进一步提高Redis的并发能力,可以搭建主从集群,实现读写分离。一般都是一主多从,主节点负责写数据,从节点负责读数据,主节点写入数据之后,需要把数据同步到从节点中。
能说一下,主从同步数据的流程吗?
候选人:嗯~~,好!主从同步分为了两个阶段,一个是全量同步,一个是增量同步
全量同步是指从节点第一次与主节点建立连接的时候使用全量同步,流程是这样的:
第一:从节点请求主节点同步数据,其中从节点会携带自己的replication id和offset偏移量。
第二:主节点判断是否是第一次请求,主要判断的依据就是,主节点与从节点是否是同一个replication id,如果不是,就说明是第一次同步,那主节点就会把自己的replication id和offset发送给从节点,让从节点与主节点的信息保持一致。
第三:在同时主节点会执行bgsave,生成rdb文件后,发送给从节点去执行,从节点先把自己的数据清空,然后执行主节点发送过来的rdb文件,这样就保持了一致
当然,如果在rdb生成执行期间,依然有请求到了主节点,而主节点会以命令的方式记录到缓冲区,缓冲区是一个日志文件,最后把这个日志文件发送给从节点,这样就能保证主节点与从节点完全一致了,后期再同步数据的时候,都是依赖于这个日志文件,这个就是全量同步
增量同步指的是,当从节点服务重启之后,数据就不一致了,所以这个时候,从节点会请求主节点同步数据,主节点还是判断不是第一次请求,不是第一次就获取从节点的offset值,然后主节点从命令日志中获取offset值之后的数据,发送给从节点进行数据同步。
怎么保证Redis的高并发高可用
候选人:首先可以搭建主从集群,再加上使用redis中的哨兵模式,哨兵模式可以实现主从集群的自动故障恢复,里面就包含了对主从服务的监控、自动故障恢复、通知;如果master故障,Sentinel会将一个slave提升为master。当故障实例恢复后也以新的master为主;同时Sentinel也充当Redis客户端的服务发现来源,当集群发生故障转移时,会将最新信息推送给Redis的客户端,所以一般项目都会采用哨兵的模式来保证redis的高并发高可用。
你们使用redis是单点还是集群,哪种集群
候选人:嗯!,我们当时使用的是主从(1主1从)加哨兵。一般单节点不超过10G内存,如果Redis内存不足则可以给不同服务分配独立的Redis主从节点。尽量不做分片集群。因为集群维护起来比较麻烦,并且集群之间的心跳检测和数据通信会消耗大量的网络带宽,也没有办法使用lua脚本和事务