Zookeeper高可用相关特性
Zookeeper介绍
ZooKeeper is a distributed, open-source coordination service for distributed applications
It exposes a simple set of primitives that distributed applications can build upon to implement higher level services for synchronization, configuration maintenance, and groups and naming
Zookeeper技术本质
At the heart of ZooKeeper is an atomic messaging system that keeps all of the servers in sync
FLP proved that consensus cannot be achieved in asynchronous distributed systems if failures are possible. To ensure we achieve consensus in the presence of failures we use timeouts
ZAB is not Paxos, it is primarily designed for primary-backup systems, like Zookeeper, rather than for state machine replication
Zookeeper应用
Zookeeper数据模型
Watches
Clients can set watches on znodes. Changes to that znode trigger the watch and then clear the watch. When a watch triggers,ZooKeeper sends the client a notification
Data Access
The data stored at each znode in a namespace is read and written atomically
Ephemeral Nodes
These znodes exists as long as the session that created the znode is active
Sequence Nodes
When creating a znode you can also request that ZooKeeper append a monotonicly increasing counter to the end of path.This counter is unique to the parent znode
Zookeeper设计步骤
- 设计path。/app/p_1
- 选择znode类型。Ephemeral(临时)、Sequence(有序)、Normal
- 设计znode数据。节点里面存放什么数据
- 设计Watch。client关注什么事件,事件发生后如何处理
Zookeeper实现主备切换
主备切换基本架构
主备切换Zookeeper方案
设计Path
由于只有2个角色,因此直接设置两个 znode 即可:master、slave
选择节点类型
当 master 节点挂掉的时候,原来的 slave 升级为 master 节点,因此用 ephemeral 类型的 znode
设计节点数据
由于 slave 成为 master 后,会成为新的复制源,可能出现数据冲突,因此 slave 成为 master 后,节点写入成为 master 的时间,这样方便人工修复冲突数据
设计Watch
- 节点启动的时候,尝试创建 master znode,创建成功则切换为master,否则创建 slave znode,成为 slave
- 如果 slave 节点收到 master znode 删除的事件,就自己去尝试创建 master znode,创建成功,则自己成为 master,删除自己创建的slave znode
Zookeeper实现集群选举
方案1-最小节点获胜
设计Path
集群共用父节点 parent znode,集群中的每个节点在 parent 目录下创建自己的 znode
选择节点类型
当 Leader 节点挂掉的时候,持有最小编号 znode 的集群节点成为新的 Leader,因此用ephemeral_sequential 类型 znode
设计节点数据
可以根据业务需要灵活写入各种数据
设计Watch
- 节点启动或者重连后,在 parent 目录下创建自己的 ephemeral_sequntial znode
- 创建成功后扫描 parent 目录下所有 znode,如果自己的 znode 编号是最小的,则成为 Leader,否则 watch parent 目录
- 当 parent 目录有节点删除的时候,首先判断其是否是 Leader 节点,然后再看其编号是否正好比自己小1,如果是则自己成为 Leader,如果不是继续 watch
方案2-抢建唯一节点
设计Path
集群所有节点只有一个 leader znode,本质上就是一个分布式锁
选择节点类型
当 Leader 节点挂掉的时候,剩余节点都来创建 leader znode,看谁能最终抢到 leader znode,因此用ephemeral 类型
设计节点数据
可以根据业务需要灵活写入各种数据
设计Watch
- 节点启动或者重连后,尝试创建 leader znode,尝试失败则 watch leader znode
- 当收到 leader znode 被删除的事件通知后,再次尝试创建 leader znode,尝试成功则成为 leader ,失败则 watch leader znode
方案3-法官判决
设计Path
集群共用父节点 parent znode,集群中的每个节点在 parent 目录下创建自己的 znode
选择节点类型
当 Leader 节点挂掉的时候,持有最小编号 znode 的集群节点成为“法官” ,因此用 ephemeral_sequential 类型 znode
设计节点数据
可以根据业务需要灵活写入各种数据,例如写入当前存储的最新的数据对应的事务 ID
节点设计
- parent znode:图中的 operating,代表一个集群,选举结果写入到这里,例如:leader=server6
- 法官 znode:图中的橙色 znode,最小的 znode,持有这个 znode 的节点负责选举算法/规则
- 成员 znode:图中的绿色 znode,每个集群节点对应一个,在选举期间将选举需要的信息写入到自己的 znode。例如:Redis 存储集群,各个 slave 节点可以将自己存储的数据最新的 trxID 写入到 znode,然后法官节点将 trxID 最大的节点选为新的 Leader
- Leader znode:图中的深蓝色 znode,集群里面只有一个,由法官选出来
设计Watch
- 节点启动或者重连后,在 parent 目录下创建自己的 ephemeral_sequntial znode,并 watch parent 目录
- 当 parent 目录有节点删除的时候,所有节点更新自己的 znode 里面和选举相关的数据
- “法官”节点读取所有 znode 的数据,根据规则或者算法选举新的 Leader,将选举结果写入parent znode
- 所有节点 watch parent znode,收到变更通知的时候读取 parent znode 的数据,发现是自己则成为 Leader
Zookeeper集群模式对比
实现复杂度 | 选举灵活性 | 应用场景 | |
---|---|---|---|
最小节点获胜 | 低 | 低 | 计算集群 |
抢建唯一节点 | 低 | 低 | 计算集群 |
法官判决 | 高 | 高,可以设计满足业务需求的复杂选举算法和规则 | 存储集群 |