Kafka运行机制(一):Kafka集群启动,controller选举,生产消费流程

news2025/1/23 4:13:00

前置知识

Kafka基本概念icon-default.png?t=N7T8https://blog.csdn.net/dxh9231028/article/details/141270920?spm=1001.2014.3001.5501

1. Kafka集群启动

Kafka在启动集群中的各个broker时,broker会向controller注册自己,并且从controller节点同步集群元数据。

broker是Kafka集群中的一个角色,Kafka集群中有两个角色,分别是broker和controller。其中broker服务生产和消费数据,以及集群中数据同步等,而controller则是负责协调各个broker,维护集群的元数据信息,那么什么是集群的元数据。

Kafka集群中由生产者生产的数据叫消息,而集群的状态信息,如集群节点信息,主题信息,主题分区信息,等等。

在传统的zookeeper模式下,所有节点都有broker角色,并在集群启动时会选择一个broker节点作为controller节点,其他节点从zookeeper集群中存储和拉取集群元数据,controller负责将各种集群元数据信息的更改注册到zookeeper集群中。 

而在Kraft模式下,集群元数据交由Kafka自身管理,集群中各个节点可以在broker和controller中通过配置项选择自己的角色(可以两个都选择),而被选择为controller的节点会在内部进行选举,选举出一个真正的controller,而其他未被选举为controller的节点则是在当前controller的节点意外宕机时发挥作用。

由于所有broker节点都需要向controller节点发起注册,所以在Kraft模式下,controller节点选举出来之前,其他节点无法正常启动。而Zookeeper中controller的选举时通过各个broker节点在zookeeper集群中创建临时有序节点来竞争controller角色,所以只需要一个broker就可以完成选举。

2. controller选举流程

当集群第一次启动或集群中的controller角色节点宕机时会触发controller的重新选举,在zookeeper模式和kraft模式下,两者略有不同。

zookeeper模式

在zookeeper模式下,在集群第一次启动时会创建临时有序节点来争夺controller角色,在当前controller角色意外宕机后,zookeeper会查找当前的临时有序节点中序号最小的broker,继续当controller,换句话说,谁先启动,谁当controller。这一过程在上面的图片中已经很好的解释了。

kraft模式

在kraft模式下,集群节点通过具有controller角色的节点来进行controller节点的选举和投票。在Kafka集群正常运行的过程中其他为当选controller的controller角色节点会持续的和当前controller维持心跳机制,当未当选节点发送的心跳信号在一定时间内的不到回应时,其会认为当前controller已经宕机,然后这个节点会变为candidate节点。

candidate携带着任期号和日志信息,向其他带有controller角色的节点发起投票。candidate节点首先会提高自己的任期号(初始值是0),向其他的节点发起投票请求,其他节点在接收请求时会比较任期号和日志信息,判断对方的信息是否比自己的信息更新。如果对方的信息更新,那么则会投票给对方,并且将自己的任期号更新至和对方一样(如果日志信息不满足,但任期号比自己大,当前节点也不会投票给对方,不过仍然会更新自己的任期号)。

当一个candidate获取了大多数节点的投票后则会当选新的controller,不过因为其并没有获取全部节点投票,所以其仍然有可能没有一部分节点的数据内有的数据,所以其他在上任controller后还要向其他节点拉取数据,以保证不丢失数据。

3. 消息生产和消费流程

当controller成功选举后,broker可以成功完成注册,Kakfa集群就可以成功启动,紧接着便可以开始进行消息的生产和消费 。

消息的真题流程包括生产生产消息,经过序列化变成二进制数组后传入Kafka集群的制定主题,通过轮训算法进入制定分区。消费者组则在组协调器的指挥下,消费者消费组协调器指定的分区,并获取对应分区当前消费分区的偏移量。具体流程如下图

 这是主题只有一个副本的情况下,当我们创建主题制定多个副本时,Kafka集群会创建当前主题的多个副本,并分别存储在不同的broker中,并且副本数量可以随意指定,但不能超过broker数量,这也就是说一个主题可能会出现在其中一些broker,而不是全部borker。

不过这并不会影响到集群功能,因为虽然有些broker没有对应的主题,但其中保存的集群元数据却记录了哪些broker有这个主题,所以broker依旧可以操作对应主题的数据。

Kafka并不会讲生产者生产的消息发往所有的主题副本,因为消息数量通常很多,如果Kafka讲每个消息都发送多份,势必会极大的影响Kafka的性能,所以主题之间也存在着数据同步的过程。而既然数据同步的过程即然存在,那么也就必然会存在着Leader和Follower的关系,不过这种关系并非建立在主题之间,而是建立在分区之间,换句话说,不存在某个主题副本是leader,而是当前主题副本的某个分区副本是Leader,其他主题副本的分区从这个Leader中同步数据,并且一个主题副本也不是其中所有的分区都是Leader,而是有的分区是Leader,有的是Follower,这样说起来很难理解,所以假设我们在三主机集群中创建三分区的主题副本,创建三份,内容如下图:

可以看到图中三个分区分别有三个Leader,而这三个Leader也分布在三个主题副本之,Kafka在实际的Leader分布上,也会尽可能做到平均分布,一方面是因为Leader主要处理消息的进入,如果都集中在一个borker上,会造成压力过大。另一方面,Leader中保存着整个主题的最新数据,如果某一个主机宕机,也可以防止因为意外,所有Leader数据丢失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2055135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

栈和堆的区别

存储内容不同: 栈区:主要存储函数调用时的局部变量、函数参数等。栈底是函数调用后的下一条指令。 堆区:存储动态分配的内存,如使用 new 分配的内存,具体内容由程序员安排。 管理方式不同: 栈区&#x…

牛客刷题二叉树(三)

1.输出二叉树的右视图 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可** 求二叉树的右视图* param preOrder int整型一维数组 先序遍历* param inOrder int整型一维数组 中序…

【无线通信发展史⑤】万有引力定律的推导前奏3.0,本次学习开普勒三大定律,成就“天空立法者”的美名

前言:用这几个问答形式来解读下我这个系列的来龙去脉。如果大家觉得本篇文章不水的话希望帮忙点赞收藏加关注,你们的鼓舞是我继续更新的动力。 我为什么会写这个系列呢? 首先肯定是因为我本身就是一名从业通信者,想着更加了解自…

高性能 Web 服务器:让网页瞬间绽放的魔法引擎(中)

目录 一.Nginx版本和安装方式:源码编译安装 1.验证版本及编译参数 2.使用安装完成的二进制文件nginx 3.Nginx 启动文件 二.平滑升级和回滚 三.全局配置 实现 nginx 的高并发配置 四.核心配置:新建一个 PC web 站点 五.核心配置:location的详细使用…

vscode 远程控制ssh操作步骤

1.下载拓展Remote - SSH 打开Visual Studio Code,进入拓展市场(CtrlShiftX),下载拓展Remote - SSH 2.选择远程(隧道/SSH)类别 点击远程资源管理器选项卡,并选择远程(隧道/SSH)类别 4.在弹出的选择配置文件中,点击第一个 5. 连接到…

基于PHP网上投票系统---附源码121500

摘 要 随着全球Internet的迅猛发展和计算机应用的普及,特别是近几年无线网络的广阔覆盖以及无线终端设备的爆炸式增长,使得人们能够随时随地的访问网络,以获取最新信息、参与网络活动、和他人在线互动。为了能及时地了解民情民意,…

深度学习基础—学习率衰减与局部最优问题

1.学习率衰减 下图中,蓝色的线是min-batch梯度下降法过程中较大学习率的的优化路径,绿线是较小学习率的优化路径。 如果使用min-batch梯度下降法,在模型的学习过程中,会有很多噪声,在靠近最小值的时候,由于…

考试:数据库系统(02)

关系代数 ◆并:结果是两张表中所有记录数合并,相同记录只显示一次。 ◆交:结果是两张表中相同的记录。 ◆差:S1-S2, 结果是S1表中有而S2表中没有的那些记录。 ◆笛卡尔积:S1*S2,产生的结果包括S1和S2的所有属性列&…

Redis7基础篇(二)

目录 持化双雄 RDB 案例演示 优势 劣势 AOF 案例演示 正常恢复 异常恢复 优点 缺点​编辑 aof重写机制 ​编辑​编辑重写的原理​编辑 小总结 rdb和aof的混合持久化 纯缓存模式 redis的持久化最终还是靠硬盘 持化双雄 redis提供了一rdb aof 不持久化 rdbaof的…

ansible相关模块

copy模块(重点) copy模块⽤于对⽂件的远程拷⻉操作(如把本地的⽂件拷⻉到远程 的机器上) https://docs.ansible.com/ansible/latest/modules/copy_module.htm l#copy-module 在master上准备⼀个⽂件,拷⻉此⽂件到group1的所有机器上 使⽤content参数直…

Linux之 宝塔面板 通过binlog日志恢复被删除表的数据

参考文章 查找mysql的binlog文件位置 这个命令是用来将MySQL的二进制日志文件(mysql-bin.000021)转换成SQL格式的文件(000021.sql)。 /www/server/mysql/bin/mysqlbinlog --base64-outputDECODE-ROWS -v mysql-bin.000021 > /www/000021.sql 提取sql语句 [rootdata]# …

访问网站出现“此站点不安全”如何解决

在网络浏览中,我们经常会遇到浏览器地址栏出现“此站点不安全”的警告。这通常意味着网站没有使用SSL(安全套接层)加密来保护用户数据的安全。那么,如何通过获得并安装SSL证书来消除这一警告,确保网站的安全可靠呢&…

未来视界,触手可及:揭秘数字透明屏的奇幻之旅

在这个日新月异的科技时代,每一项创新都如同星辰般璀璨,引领着我们向更加智能、更加梦幻的未来迈进。今天,就让我们一起揭开一项颠覆传统视觉体验的前沿科技——数字透明屏的神秘面纱,探索它如何将未来视界,化为触手可…

C++集成spdlog,spdlog基本使用方法

C集成spdlog,spdlog基本使用方法 何时输出日志第一步:集成 spdlog 到你的项目方法 1:使用包管理器(例如 vcpkg 或 conan)方法 2:手动集成 第二步:基本使用第三步:设置日志级别第四步…

后端开发刷题 | 反转链表【链表篇】

描述 给定一个单链表的头结点pHead(该头节点是有值的,比如在下图,它的val是1),长度为n,反转该链表后,返回新链表的表头。 数据范围: 0≤n≤1000 要求:空间复杂度 O(1) ,时间复杂度…

xss 漏洞复现

xss 漏洞复现 一&#xff0c;xss game 1&#xff0c;源码 <!-- Challenge --> <h2 id"spaghet"></h2> <script>spaghet.innerHTML (new URL(location).searchParams.get(somebody) || "Somebody") " Toucha Ma Spaghet!…

Centos7离线安装Sumo全过程(xerces-c、Cmake、gymnasium等)

在 Linux 环境下使用 Python 调用 SUMO 进行相关训练时&#xff0c;通常需要先安装 SUMO。然而&#xff0c;在某些情况下&#xff0c;网络连接可能不可用&#xff0c;因此本文提供了 SUMO 的离线安装方法。 Step1&#xff1a;检查基础依赖包是否完整 基本的依赖项如果有别的缺…

机械学习—零基础学习日志(如何理解概率论2)

全概率公式与贝叶斯公式 上面所提到的公式&#xff0c;可以使用上一篇文章的基本公式推导。 使用到了概率的基本运算公式。 完整的公式展示&#xff1a; 习题练习&#xff1a; 剩余的练习&#xff1a; 第二题解析&#xff1a; 第三题&#xff1a; 第四题&#xff1a; 注意&…

酒店管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图详细视频演示技术栈系统测试为什么选择我官方认证玩家&#xff0c;服务很多代码文档&#xff0c;百分百好评&#xff0c;战绩可查&#xff01;&#xff01;入职于互联网大厂&#xff0c;可以交流&#xff0c;共同进步。有保障的售后 代码参考数据库参…

Navicat Premium Lite: 简化版的数据库管理和开发工具

Navicat Premium 一直是世界各地数据库专业人士需要从一个应用程序同时连接到多种数据库平台的选择。现在&#xff0c;Navicat Premium Lite 为只需要基本数据库操作所需的核心功能的用户提供简化版的数据库管理体验。在今天的博客中&#xff0c;我们将介绍 Navicat Premium Li…