大数据课程C4——ZooKeeper结构运行机制

news2025/1/11 10:17:23

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 了解Zookeeper的特点和节点信息;

⚪ 掌握Zookeeper的完全分布式安装

⚪ 掌握Zookeeper的选举机制、ZAB协议、AVRO;

一、Zookeeper-简介

1. 特点

1. Zookeeper底层是一个树状结构,根节点是/。

2. Zookeeper中每一个节点称之为Znode节点,因此这棵树称之为Znode树。

3. Zookeeper自带了一个子节点/zookeeper。

4. Zookeeper在创建节点的时候可以携带数据也可以不携带(早版本的zookeeper中,创建节点必须携带数据),数 据可以是对节点的描述,或者可以是一些配置信息。

5. 在Zookeeper中不存在相对路径,所有的路径都必须从根节点开始计算。

6. Zookeeper会将携带的数据存储在内存以及磁盘中。

7. Zookeeper中数据的存储位置由dataDir属性决定,如果不指定默认在/tmp。

8. 在Zookeeper中会将每一个写操作(创建,修改,删除)看成一个事务,并且会给这个事务分配一个全局递增的事 务id,这个编号就是Zxid。

9. 其他命令:

9.1. create -e /video --创建临时节点video。

9.2. create -s /txt --表示创建的是持久顺序节点。

9.3. create -e -s /txt --表示创建一个临时顺序节点。

10. 临时节点不能挂载子节点-持久节点可以挂载子节点。

11. 在zookeeper中不能存在同名节点。

 2. 节点信息

cZxid = 节点的创建的事务id。

ctime = 节点的创建时间。

mZxid = 节点的数据修改的事务id。

mtime = 节点的数据修改的时间。

pZxid = 子节点个数变化的事务id。

cversion = 子节点变化的次数。

dataVersion = 节点的数据变化次数。

aclVersion = 节点的权限策略变化的次数。

ephemeralOwner = 如果是持久节点,则此值为0,如果是临时节点,则此值为sessionid。

dataLength = 数据的子节个数。

numChildren = 子节点的个数。

3. 节点类型

持久节点临时节点
非顺序节点PersistentEphemeral
顺序节点Persistent_SequentialEphemeral_Sequential

4. 完全分布式安装

关闭防火墙

临时关闭:systemctl stop firewalld

永久关闭:systemctl disable firewalld

安装JDK

上传或者下载Zookeeper安装包,上课阶段统一要求将所有软件安装在/home/software目录下 解压Zookeeper安装包

tar -xvf apache-zookeeper-3.5.7-bin.tar.gz

进入Zookeeper安装目录的子目录conf下

cd apache-zookeeper-3.5.7-bin/conf

复制文件

cp zoo_sample.cfg zoo.cfg

编辑文件

vim zoo.cfg

修改属性dataDir,这个属性是用于指定Zookeeper快照文件的存储位置,如果不指定,则默认放在/tmp目录下, 例如:

dataDir=/home/software/apache-zookeeper-3.5.7-bin/tmp

在文件末尾添加server.x=IP/hostname:port1:port2,其中x表示选举编号,要求不重复,port1为原子广播端 口,port2为选举端口,例如:

server.1=10.9.152.110:2888:3888

server.2=10.9.152.111:2888:3888

server.3=10.9.152.112:2888:3888

新建dataDir指定的目录

cd /home/software/apache-zookeeper-3.5.7-bin/

mkdir tmp

进入该目录,在该目录下编辑文件myid,在这个文件中填写当前主机给定的编号

cd tmp

vim myid

填写编号,例如第一台主机给定的编号为1

将第一台主机的配置远程拷贝给其他另外两台主机,例如:

cd /home/software

scp -r apache-zookeeper-3.5.7-bin/ root@10.10.152.111:$PWD

scp -r apache-zookeeper-3.5.7-bin/ root@10.10.152.112:$PWD

拷贝完成之后,需要修改另外两台主机的myid

cd /home/software/apache-zookeeper-3.5.7-bin/tmp/

vim myid

修改成对应的编号,例如第二台主机给定编号为2

三台主机进入Zookeeper安装目录的子目录bin下,启动Zookeeper

cd /home/software/apache-zookeeper-3.5.7-bin/bin/

sh zkServer.sh start

查看Zookeeper运行状态

sh zkServer.sh status

5. 配置信息

参数说明
clientPort客户端连接服务器端的端口,即Zookeeper的对外服务端口,一般默认为2181。
dataDir数据目录,即存储快照文件的目录。
dataLogDir

1. 事务日志输出目录。在不指定的情况下,和dataDir一致。

2. 正常运行过程中,针对所有事务操作,在返回客户端ACK的响应前,Zookeeper会确保已经将本次事务操作的事务日志写到 磁盘上,只有这样,事务才会生效。

tickTimeZookeeper中的一个时间单元。Zookeeper中所有时间都是以这个时间单元为基础,进行整数倍配置。
initLimit

1. follower在启动过程中,会从leader同步所有最新数据,然后确定自己能够对外服务的起始状态。leader允许follower在 initLimit 时间内完成这个工作。

2. 如果Zookeeper集群的数据量确实很大了,follower在启动的时候,从leader上同步数据的时间也会相应变长,因此在这种 情况下,有必要适当调大这个参数了。

3. 默认是:10*ticktime。

syncLimit

1. 表示leader 与 follower 之间发送消息,请求和应答时间长度。

2. 如果follower 在设置的时间内不能与leader 进行通信,那么此 follower 将被丢弃。

3. 默认是:5*ticktime。

4. 当集群网络环境不好时,可以适当调大。

minSessionTimeout maxSessionTimeout

1. Session超时时间限制,如果客户端设置的超时时间不在这个范围,那么会被强制设置为最大或最小时间。

2. 默认的Session超时时间是在2 * tickTime ~ 20 * tickTime 这个范围。

server.x=hostname:端口号 1:端口号2

1. 配置集群中的主机。

2. x是主机编号,即myid。

3. 端口号1是原子广播端口,用于leader和follower之间的通信。

4. 端口号2是选举端口,用于选举过程中的通信。

jute.maxbuffer用于控制每一个节点的最大存储的数据量。 默认是1M。
globalOutstandingLimit

1. 最大请求堆积数。默认是1000。

2. Zookeeper运行的时候, 尽管server已经没有空闲来处理更多的客户端请求了,但是还是允许客户端将请求提交到服务器上 来,以提高吞吐性能。而为了防止server内存溢出,用该属性限制请求堆积数。

preAllocSize

1. 预先开辟磁盘空间,用于后续写入事务日志。

2. 默认是64M,即每个事务日志大小就是64M。

leaderServers默认情况下,leader是会接受客户端连接,并提供正常的读写服务。但是,如果需要leader专注于集群中机器的事务协调(原 子广播),那么可以将这个参数设置为no,这样一来,会提高整个zk集群性能。
maxClientCnxns控制的每一台zk服务器能处理的客户端并发请求数。默认是60。

二、选举机制

1. 概述

1. 当一个zookeeper集群刚启动的时候,会自动的进入选举状态, 此时所有的服务器(节点)都会推荐自己成为leader,并 且还会把自己的选举信息发送给其他的节点。

2. 当节点收到其他节点发过来的选举信息之后,会两两比较。 经过多轮比较,最后胜出的节点当leader。

2. 细节

1. 选举信息包含:

a. 当前节点的最大事务id。

b. 选举编号,即myid。

c. 逻辑时钟值-控制选举的轮数。

2. 比较原则

a. 先比较最大事务id,谁大谁赢。

b. 如果事务id一样,则比较myid,谁大谁赢。

c. 如果一个节点胜过了一半及以上的节点,这个节点才能成为leader-过半性。

3. 在zookeeper中,不存在单点故障的说法,如果leader宕机了,那么整个集群会选举一个新的leader继续对外提供服务。

4. 如果leader节点宕机之后重新启动,那么这个时候看做一个新的节点加入集群,所以此时这个节点的状态一定是follower。

5. 如果一个集群已经选举出来一个leader,为了维护集群的稳定性,无论新添加的节点的事务id或者myid是多少,都不会触 发重新选举,新添的节点只能是follower。

6. 如果集群中出现了多个leader,这种现象叫做脑裂。

7. zookeeper中脑裂出现的条件

a. 集群产生分裂。

b. 分裂之后产生了选举。

8. 在zookeeper中,如果存活的(可以相互通信的)节点数量不足一半,则这些节点不选举,同时也不对外提供服务-过半性。

9. zookeeper会对每一次选举出来的leader分配一个全局递增的编号,称之为epochid,当zookeeper发现存在多个leader的 时候,那么会自动的将epochid较小的节点的状态切换成follower。利用这种方案可以保证整个集群中只存在唯一的 leader。

10. 集群中节点的状态

a. looking/voting:选举状态

b. follower:追随者/跟随者

c. leader:领导者

d. observer:观察者

11. zookeeper并不是主从的框架,其中leader和follower指的是节点的状态而不是角色。

三、ZAB协议

1. 概述

1. ZAB(Zookeeper Atomic Broadcast)协议是专门为zookeeper设计的用于进行原子广播和崩溃恢复的一套协议。

2. ZAB是基于2PC算法设计实现的,利用了过半性+PAXOS进行了改进。

2. 原子广播

1. 作用:保证集群节点之间的数据一致性,即访问任意一个节点,获取到的数据都是相同的。

2. 原子广播就是基于2PC算法设计实现的。

3. 2PC- two Phase Commit-二阶段提交。顾名思义,将一个请求拆分成了两个阶段。

a. 请求阶段。

b. 提交阶段:如果协调者收到所有的参与者返回的yes,那么就认为这个请求可以执行,那么就会命令所有的参 与者执行这个请求。

c. 中止阶段:只要协调者没有收到所有参与者返回的yes,那么就认为这个请求无法执行,也就会要求所有的参 与者放弃刚才的请求。

4. 在2PC算法中,要么是执行请求-提交阶段要么是执行请求-中止阶段。

5. 2PC的核心思想就是“一票否决”。

6. 2PC算法很容易理解,并且也很容易实现,但是在分布式环境中,2PC是的成功率很低。效率很低。也因此 zookeeper的原子广播在2pc的算法基础上加上了过半性。

7. 原子广播的过程

 8. 查看日志的方式

a. 将zookeeper安装目录下lib目录中的zookeeper-3.5.7.jar和slf4J.api-1.7.25.jar和zookeeperjute-3.5.7.jar拷贝到log日志所在目录下。

b. 通过命令来查看:

i. java -cp .:zookeeper-3.5.7.jar:slf4j-api-1.7.25.jar:zookeeper-jute-3.5.7.jar org.apache.zookeeper.server.LogFormatter log.600000001

c. snapshot.xxx文件是一个快照文件,用于记录zookeeper的树结构,查看方式:

i. java -cp .:zookeeper-3.5.7.jar:slf4j-api-1.7.25.jar:zookeeper-jute-3.5.7.jar org.apache.zookeeper.server.SnapshotFormatter snapshot.300000000

d. follower存在日志记录失败的可能,例如文件被占用,磁盘损坏,磁盘已满。都可能导致日志文件记录失 败,这些原因不是zookeeper的原因,zookeeper是无法解决的。

e. 如果follower记录失败,那么会给leader发送请求,leader收到请求之后,会将欠缺的事务放到队列中返 回给follower要求follower补齐事务。

 3. 崩溃恢复

1. 当leader宕机之后,整个zookeeper集群并不会就此停止,而是选举一个新的leader出来,然后继续对外提供 服务。

2. 作用:避免单点故障。

3. 在zookeeper集群中,会对每一次选举出来的leader分配一个全局递增的唯一编号,这个编号我们把它叫做 epochid,当leader被选举出来之后,这个leader就会将epochid分发给每一个follower,follower收到这个 epochid就会将它存储在acceptedEpoch文件中。

4. 在Zookeeper集群中,事务id(zxid)实际上是由64位二进制(16位16进制)数字组成,分成了两个部分,高32位实际上就是epochid,低32位才是实际的事务id,例如0x600000002表示的就是第6任leader被选举出来 之后产生的第2个写操作。

5. 当一个节点宕机重启之后,这个节点会先找到当前节点的最大事务id,找到之后会向leader所在的节点发送请 求比较事务id是不是一致的。leader收到请求,会比较两个事务id是否一致,如果一致,说明节点在宕机期间 没有发生写操作,如果不一致,那么leader就会将欠缺的事务放到队列中发送给follower要求补齐到和整个集 群一致的水平。follower在补齐事务的过程中不对外提供服务。

四、Zookeeper-其他

1. observer-观察者

1. observer在zookeeper中既不参与选举也不参与投票,但是会监听选举和投票的结果,但是根据结果进行指定的操作。

2. observer可以大概理解为没有选举权和投票权的follower-只有干活的义务没有选举的权利。

3. 在实际开发过程中,当集群规模庞大(节点个数比较多)或者网络环境一般的时候,会将一个集群中90%-97%的节点设置为 observer,例如100个节点组成的服务器,我们可以将91个节点设置为observer。

 4. 由于observer不参与投票也不参与选举,所以observer存活与否并不会影响整个集群是否对外提供服务。假设现在有个21个节 点的集群。其中1leader,6follower,14observer。如果其中4个follower宕机了。即便observer存活也不会对外提供服务。但 是如果leader和follower全部存活即便14个observer全部宕机,也能对外提供服务。在zookeeper集群中,过半性是以能够参 加选举或者投票的节点的个数来决定的。

5. observer的配置

a. 进入conf

b. 找到zoo.cfg

c. 添加:

peerType=observer

server.1=10.42.105.87:2888:3888

server.2=10.42.64.11:2888:3888:observer

server.3=10.42.63.78:2888:3888

2. 特征

1. 过半性:过半选举,过半存活,过半操作。

2. 数据一致性,从任意节点获取数据,拿到的数据都是一样的

3. 原子性:一个操作要么所有节点都执行,要么都不执行

4. 顺序性:所有节点获取到的请求顺序是一致的-队列

5. 可靠性:主要指的就是崩溃恢复

6. 实时性:在网络条件比较好的时候,可以对zookeeper来实现实时监控

3. zookeeper集群操作

1. 实际上利用nc来实现,nc全程就是netcat,底层是通过发送TCP的请求来发送命令。

2. 安装nc:

a. 进入software。

b. 下载nc包 wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/nc-1.84-22.el6.x86_64.rpm。

c. 安装nc:rpm -ivh nc.rpm。

3. 集群指令:

a. 查看节点是否存活:echo ruok|nc 10.42.64.11 2181。

i. 如果提示ruok is not executed because it is not in the whitelist。

ii. 需要在配置文件当中添加 4lw.commands.whitelist=*。

b. 查看节点状态:echo stat|nc 10.42.64.11 2181。

c. 查看节点的配置信息 echo conf|nc 10.42.64.11 2181。

五、AVRO

1. 概述

1. AVRO是apache提供的用于进行序列化和RPC的一套框架。

2. AVRO原来是hadoop的子工程,后来被独立成为一个顶级工程。

2. 序列化

1. 本上是序列化就是对数据的转化:按照指定规则将对象转化成指定的格式的数据。

2. 目的/意义:存储和传输。

3. 序列化的衡量标准:

a. 对内存和CPU的耗费以及转化时间。

b. 序列化之后产生数据量的大小。

c. 序列化机制能否跨平台。:在现在的开发过程中,一个项目往往不是单一语言完成的,而是多语言复合的结果,所以 我们就需要考虑数据在不同语言之间的传输。

i. 数据想要在不同语言之间进行传输,那么就需要做到与语言无关:数字,布尔值,字符串。

ii. 好的序列化机制就需要做到跨语言。即这个序列化机制需要做到将对象转化成与语言无关的数据格式。

d. AVRO将对象转化成字符串来进行传输,本质上就是转化成了json。

3. RPC

1. RPC(Remote Procedure Call-远程过程调用)是指允许程序员在一个节点调用另一个节点上的方法而不用显示的实现 这个方法。

2. RPC最早是Nelson在1981年提出来的。

3. RPC也是分布式底层的重要组成之一。

4. 特点:简洁,高效,易懂。

5. RPC中通过存根(Stub)来统一结构。

6. RPC协议是传输层协议,通常用于服务器于服务器之间的通信。速度要快于htpp协议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/795405.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计网】什么是三次握手四次挥手

文章目录 1、什么是TCP2、什么是TCP连接2.1、连接概念2.2、如何唯一确定一个TCP连接2.3、TCP最大连接数 3、三次握手3.1、为什么需要三次握手3.2、三次握手过程3.3、为什么一定是三次3.3.1、避免历史连接3.3.2、同步双方初始序列号3.3.3、避免资源浪费3.3.4、总结 3.4、握手丢失…

vue实现卡牌数字动态翻牌效果

vue实现卡牌数字动态翻牌效果 1. 实现效果2. 实现代码 1. 实现效果 在大屏项目中&#xff0c;我们尝尝会遇到卡牌式数字显示且能动态翻牌的效果&#xff0c;效果图如下&#xff1a; 2. 实现代码 <template><div class"days-box"><div class"op…

初探PID—速度闭环控制

由于在调PID时意外把板子烧了&#xff0c;目前只完成了比例调节的调试&#xff0c;整个程序也不太完善&#xff0c;本文当前仅作记录&#xff0c;后续会完善更改。 ——2023.07.26 文章目录 一、什么是PID二、PID有什么用三、PID程序实现 一、什么是PID PID是常用的一种控制算…

windows默认编码格式修改

1.命令提示符界面输入 chcp 936 对应 GBK 65001 对应 UTF-8 2.临时更改编码格式 chcp 936(或65001) 3.永久更改编码格式 依次开控制面板->时钟和区域->区域->管理->更改系统区域设置&#xff0c;然后按下图所示&#xff0c;勾选使用UTF-8语言支持。然后重启电脑。此…

上门小程序开发|上门服务小程序|上门家政小程序开发

随着移动互联网的普及和发展&#xff0c;上门服务成为了许多人生活中的一部分。上门小程序是一种基于小程序平台的应用程序&#xff0c;它提供了上门服务的在线平台&#xff0c;为用户提供了便捷的上门服务体验。下面将介绍一些适合开发上门小程序的商家。   家政服务商家&am…

帮助中心内容需要囊括什么?(内含案例分享)

给产品制作一个帮助中心&#xff0c;让用户能够通过访问帮助中心查看产品相关内容&#xff0c;尽快了解产品&#xff0c;熟悉操作。不仅仅局限于售后&#xff0c;在售中售前都能够发挥很大的作用&#xff0c;帮助用户全面了解产品&#xff0c;减少销售的工作量&#xff0c;节约…

数字孪生和 GIS 系统融合将为水利领域带来哪些变化?

随着科技的不断进步&#xff0c;数字孪生和 GIS 系统的融合应用逐渐成为了水利领域的新趋势。数字孪生是指通过数字化技术模拟物理实体和过程&#xff0c;将现实世界与虚拟世界相结合的技术&#xff0c;而 GIS 系统则是地理信息系统&#xff0c;用于收集、存储、管理和分析地理…

Mybatis快速入门,Mybatis的核心配置文件

Mybatis快速入门 一、Mybatis简介1.1Mybatis简化JDBC 二、Mybatis快速入门2.1创建user表&#xff0c;添加数据2.2创建模块&#xff0c;导入坐标2.3编写Mybatis核心配置文件 --> 替换连接信息&#xff0c;解决硬编码问题2.4编写SQL映射文件 --> 统一管理sql语句&#xff0…

7、Java入门教程【面向对象】

面向对象是Java编程的核心概念&#xff0c;如果不能充分了解面向对象的思想&#xff0c;那么会给你在实际的项目开发过程中&#xff0c;带来很多业务设计上的困扰。 一、构造器 我们在设计完一个类&#xff0c;在使用这个类去创建对象实例的时候&#xff0c;有些场景是需要对…

云曦暑期学习第二周——文件上传漏洞

1.文件上传 1.1原理 一些web应用程序中允许上传图片、视频、头像和许多其他类型的文件到服务器中。 文件上传漏洞就是利用服务端代码对文件上传路径变量过滤不严格将可执行的文件上传到一个到服务器中 &#xff0c;再通过URL去访问以执行恶意代码。 1.2为什么存在文件上传漏…

4-Linux组管理和权限管理

Linux组管理和权限管理 Linux组的基本介绍文件/目录的所有者组的创建文件/目录所在的组其它组改变用户所在的组权限的基本介绍第0-9位说明rwx权限详解rwx 修饰文件时rwx修饰目录时 修改权限第一种方式&#xff1a;、-、 变更权限第二种方式&#xff1a;通过数字变更权限 修改文…

第26天-秒杀服务(秒杀系统设计与实现)

1.秒杀设计 1.1.秒杀业务 秒杀具有瞬间高并发特点&#xff0c;针对这一特点&#xff0c;必须要做限流异步缓存&#xff08;页面静态化&#xff09;独立部署。 限流方式&#xff1a; 前端限流&#xff0c;一些高并发的网站直接在前端页面开始限流&#xff0c;例如&#xff1a…

web-文件包含

产生原因&#xff1a; 开发人员都希望代码更加灵活&#xff0c;所以通常会将被包含的文件设置为变量&#xff0c;用来进行动态调用。正是这种灵活性&#xff0c;从而导致客户端可以调用一个恶意文件&#xff0c;造成文件包含漏洞。 实际上被包含文件可以是任意格式的&#xff0…

【数据结构】带你轻松拿捏顺序表(内附源码)

君兮_的个人主页 勤时当勉励 岁月不待人 C/C 游戏开发 Hello,米娜桑们&#xff0c;这里是君兮_&#xff0c;今天正式开始开新坑啦&#xff01;在接下来的这一个月来我会逐步带大家了解初阶数据结构的知识&#xff0c;如果是你主修的是计算机专业数据结构的重要性不言而喻&…

深度学习论文: Q-YOLO: Efficient Inference for Real-time Object Detection及其PyTorch实现

深度学习论文: Q-YOLO: Efficient Inference for Real-time Object Detection及其PyTorch实现 Q-YOLO: Efficient Inference for Real-time Object Detection PDF: https://arxiv.org/pdf/2307.04816.pdf PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代…

LeetCode 918. Maximum Sum Circular Subarray【数组,动态规划】中等

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

215.数组中的第K个最大元素-C++

题目来源&#xff1a;力扣 题目描述&#xff1a; 给定整数数组 nums 和整数 k&#xff0c;请返回数组中第 k 个最大的元素。 请注意&#xff0c;你需要找的是数组排序后的第 k 个最大的元素&#xff0c;而不是第 k 个不同的元素。 你必须设计并实现时间复杂度为 O(n) 的算法…

Java书签 #解锁MyBatis的4种批量插入方式及ID返回姿势

1. 今日书签 项目开发中&#xff0c;我们经常会用到单条插入和批量插入。但是实际情况可能是&#xff0c;项目初期由于种种原因&#xff0c;在业务各处直接使用单条插入SQL进行开发&#xff08;未开启批处理&#xff09;&#xff0c;在后面的迭代中&#xff0c;系统性能问题渐…

Spring Boot 集成 Redis 三种模式实践汇总

背景 项目的某个模块集成了 SpringBoot Redis 包&#xff0c;客户端使用 Lettuce&#xff0c;Redis 测试环境单机模式。但是现场反馈的 Redis 环境是集群&#xff0c;如果简单的修改 spring.redis 配置为集群的配置信息&#xff0c;程序能否能无缝衔接呢&#xff1f; 本文记录…

Android Studio 的版本控制Git

Android Studio 的版本控制Git。 Git 是最流行的版本控制工具&#xff0c;本文介绍其在安卓开发环境Android Studio下的使用。 本文参考链接是&#xff1a;https://learntodroid.com/how-to-use-git-and-github-in-android-studio/ 一&#xff1a;Android Studio 中设置Git …