深入Redis：复杂的集群

广义的集群，可能说只要是多台机器组成了分布式系统，就可以称之为集群。

狭义的集群，指的是Redis提供的集群模式，这个集群模式之下，主要是解决存储空间不足的问题，以及如何拓展存储空间。

之前的哨兵模式，本质上还是一个节点存储数据，要求一个主节点/从节点存储整个数据的“全集”。

假设有1TB的数据，拿两台机器和四台机器来存，每台机器就只需要存储512G和256G，只要机器的规模足够多就可以存储任意大小的数据了。

但是此处把数据分成多份，应该怎么分？

分片(Sharding)

Master1 和 Slave11 和 Slave12保存的是同样的数据，占总数据的1/3
Master2 和 Slave21 和 Slave22保存的是同样的数据，占总数据的1/3
Master3 和 Slave31 和 Slave32保存的是同样的数据，占总数据的1/3

这三组数据存储的数据都是不同的，每个红框的部分可以称之为一个分片。如果全量数据进一步增加，只需要再增加更多的分片就可以解决。

具体来说，如何分片？存储一个key的时候，这个数据应该存储再哪个分片上？读取的时候又应该去哪个分片读取？有比较主流的三个方式：

哈希求余

借鉴了哈希表的基本思想，用hash函数把一个key映射到整数，再针对数据的长度求余，就可以得到一个数组下标。

假设有个key，现在有3个分片。根据这个key来计算hash值，再把这个结果%3，结果是多少就分到哪个片区上。后续获取key的时候，也是针对这个key求hash，再对N求余，就可以找到对应的片区编号了。

优点：简单高效，数据分配均匀

缺点：一旦需要进行扩容，片区数目改变了，原有的映射规则就不起作用了。所有的查询操作都查不到key。此时要进行数据之间的片区转移，重新排列，以满足新的映射规则。这样的数据转移，资源消耗量极大。

如上可以看到，整个扩容一共21个key，只有3个key没有进行搬运，其他的都要搬运。

一致性哈希算法

为了改进上面的方法，能够高效进行扩容，“一致性哈希算法”就诞生了。

我们把2^32 -1均匀地映射到一个圆环上面，并且规律的切分好1号分片，2号分片，3号分片。

此时有一个key，计算这个key的hash值，算出来的值顺时针往下找，找到的第一个分片是哪个就属于哪个分片。

扩容的时候，原有的分片在环上的位置不动，只需要在环上安排一个新的分片即可。此时只需要把原来分片里面的部分数据，搬运给新的分片即可。剩下两个分片里面的数据和区间都是不变的。

优点：大大降低了扩容的时候数据搬运的规模，提高了扩容操作的效率。

缺点：数据分配不均匀，数据倾斜。

哈希槽分区算法

为了解决搬运成本高和数据分配不均匀，引入了哈希槽（hash slots）算法。

 hash_slot = crc16(key) % 16384
  哈希槽    计算hash的算法

、相当于把整个哈希值，映射到16384个槽位上，也就是[0,16383]。

再把这些槽位均匀的分配给每个分片，每个分片的节点都需要自己记录持有哪些分片。

假设当前有三个分片，一种可能的分配方式：

0号分片：[0,5461]，共5462个槽位
1号分片：[5462,10923]，共5462个槽位
2号分片：[10924,16383]，共5460个槽位

这里的分片规则是很灵活的，每个分片持有的槽位也不⼀定连续，每个分片的节点使用位图来表示自己持有哪些槽位。对于16384个槽位来说，需要2048个字节(2KB)大小的内存空间表示。

如果需要增加一个分片，就可以针对原来的槽位进行重新分配，比如把之前每个分片持有的槽位，各拿出来一点，分给新的分片。

0号分片：[0, 4095]，共4096个槽位。
1号分片：[5462, 9557]，共4096个槽位。
2号分片：[10924, 15019]，共4096个槽位。
3号分片：[4096, 5461] + [9558, 10923] + [15019, 16383]，共4096个槽位。

在实际使用Redis集群分片的时候，我们不需要手动指定哪些槽位分配给某个分片，只需要告诉某个分片应该持有多少个槽位即可。Redis会自动完成后续的槽位分配，以及对应的key搬运工作。

问题一：Redis集群是最多有16384个分片吗？

如果一个分片只有一个槽位，这对于集群的数据均匀是难以保证的。Redis作者建议分片数不应该超过1000。

问题二：为什么是16384个槽位？

Redis作者的回答：

节点之间通过心跳包通信。心跳包中包含了该节点持有哪些slots，这个是使用位图这样的数据结构表示的。表示16384（16k）个slots，需要的位图大小是2KB。如果给定的slots数更多了，比如65536个了，此时就需要消耗更多的空间，8KB位图表示了。8KB对于内存来说不算什么，但是在频繁的网络心跳包中，还是一个不小的开销。

另一方面，Redis集群一般不建议超过1000个分片。所以16k对于最大1000个分片来说是够用的，同时也会使对应的槽位配置位图体积不至于很大。

集群搭建

集群搭建基于docker，搭建一个集群，每一个节点都是一个容器。只需要创建11个redis节点，这些redis的配置文件内容大同小异。但是11个如果要手动添加的话太繁琐了，此时就可以使用脚本来批量生成。在Linux上，以 .sh 为后缀结尾的文件，称为“shell脚本”。

首先要停止原来启动的节点。分别到redis-data和redis-sentinel文件夹里，启动运行docker-compose down 命令就可以停止掉原来的docker容器。

在redis文件夹中创建reids-cluster，内部创建好两个文件，再把.sh文件的内容完成，就可以通过bash命令启动.sh文件了。很方便的，11个redis文件夹就被创建出来了。

#!/bin/bash

# 创建Redis实例目录并生成配置文件
for port in $(seq 1 9); do
  mkdir -p redis${port}/
  touch redis${port}/redis.conf
  cat << EOF > redis${port}/redis.conf
port 6379
bind 0.0.0.0
protected-mode no
appendonly yes
cluster-enabled yes
cluster-config-file nodes.conf
cluster-node-timeout 5000
cluster-announce-ip 172.30.0.10${port}
cluster-announce-port 6379
cluster-announce-bus-port 16379
EOF
done

# 注意：cluster-announce-ip 的值有变化

# 创建额外的Redis实例目录并生成配置文件
for port in $(seq 10 11); do
  mkdir -p redis${port}/
  touch redis${port}/redis.conf
  cat << EOF > redis${port}/redis.conf
port 6379
bind 0.0.0.0
protected-mode no
appendonly yes
cluster-enabled yes
cluster-config-file nodes.conf
cluster-node-timeout 5000
cluster-announce-ip 172.30.0.1${port}
cluster-announce-port 6379
cluster-announce-bus-port 16379
EOF
done

每个redis文件夹中都有一个redis.conf文件，并且每个配置文件都不同。区别在于每个配置中的cluster-announce-ip都是不同的，其他部分都相同。这里的ip要和yml中的ip对应上。

当我们确认docker和redis都关闭后，此时执行启动容器的命令，就可以看到11个redis服务器都被启动起来了。

但是到此，我们还没有把这些redis配置成集群，他们还只是各干各的。

通过命令可以把前9个主机构建成集群，后两个主机暂时不用：

redis-cli --cluster create 172.30.0.101:6379 172.30.0.102:6379 
172.30.0.103:6379 172.30.0.104:6379 172.30.0.105:6379 172.30.0.106:6379 
172.30.0.107:6379 172.30.0.108:6379 172.30.0.109:6379  --cluster-replicas 2
最后一串字符指的是：从节点2个

此时，redis节点被自动分配好了主节点和从节点，并且会自动分配好16384个槽位。此时101-109九个节点，是一个整体。使用客户端连接上任意一个节点，本质上都是等价的。

cluster nodes 
查看当前集群的信息

设置成集群模式之后，当前数据就分片了。可以在启动redis-cli的时候，加上 -c 选项，客户端发现当前key的操作不在当前分片上的时候，就能够自动的重定向到对应的分片主机。

但是也需要注意，如果key是分散在不同的分片上，用之前的操作就可能会有些问题。

故障转移

此处的故障转移，和哨兵那里的还不太一样~手动停止一个主节点，来观察效果。

集群中的所有节点都会周期性的使用心跳包进行通信。进行一系列判定之后，最终才会把某个节点标记成FAIL（客观下线）。

如果我们停掉了主节点1，此时会有一个slave节点变成新的主节点，哪怕我们重新启动原来的主节点1，这个节点也仅仅是变成slave。

Reft算法

上述选举的过程就称之为Raft算法，这是一种在分布式系统中广泛使用的算法。再随机休眠时间的加持下，基本上就是谁先唤醒，谁就能竞选成功。

集群扩容

现在101-109，9个主机构成了3主6从结构的集群了。此时我们把110和111主机也加入到集群中去，以110为master，111为slave，把数据分片从3变成4。

集体扩容是一件风险高、成本高的操作！

把新的主节点加入到集群

 redis-cli --cluster add-node 172.30.0.110:6379 172.30.0.101:6379

add-node后的第⼀组地址是新节点的地址，第⼆组地址是集群中的任意节点地址。

重新分配slots

 redis-cli --cluster reshard 172.30.0.101:6379

reshard后的地址是集群中的任意节点地址。

执行之后，会进入交互式操作，redis会提示输入以下内容：

多少个slots要进行reshard?(此处我们填写4096)
哪个节点来接收这些slots?(此处我们填写 172.30.0.110 这个节点的集群节点id)
这些slots从哪些节点搬运过来?(此处我们填写all，表示从其他所有的节点都进行搬运)

给新的主节点添加从节点

redis-cli --cluster add-node 172.30.0.111:6379 172.30.0.101:6379 --cluster
slave --cluster-master-id [172.30.1.110 节点的nodeId]

此外，还有集群缩容，代码连接集群等知识，考虑到本文篇幅就不再继续了，接下来，我们会开启缓存的学习~