保障效率与可用,分析Kafka的消费者组与Rebalance机制

news2024/11/30 12:39:51

系列文章目录

上手第一关,手把手教你安装kafka与可视化工具kafka-eagle
Kafka是什么,以及如何使用SpringBoot对接Kafka
架构必备能力——kafka的选型对比及应用场景
Kafka存取原理与实现分析,打破面试难关
防止消息丢失与消息重复——Kafka可靠性分析及优化实践


在这里插入图片描述
我们上一期从可靠性分析了消息可靠性方面来分析Kafka的机制与原理,知晓了Kafka为了保障消息不丢失、不重复,所作出的种种设计。今天我们来讲关于Kafka在消费端所作出的一些机制与原理

📕作者简介:战斧,从事金融IT行业,有着多年一线开发、架构经验;爱好广泛,乐于分享,致力于创作更多高质量内容
📗本文收录于 kafka 专栏,有需要者,可直接订阅专栏实时获取更新
📘高质量专栏 云原生、RabbitMQ、Spring全家桶 等仍在更新,欢迎指导
📙Zookeeper Redis dubbo docker netty等诸多框架,以及架构与分布式专题即将上线,敬请期待


一、消费者组概念

我们其实在很多MQ组件种都有消费者组的概念,在Kafka中也不例外。消费者组与Kafka的Rebalance机制是保障Kafka消息消费效率与可用性的重要手段。
在这里插入图片描述
我们可以把多个消费者合成一个消费者组(Group)每个消费者组可以消费一个或多个主题的消息

二、消费者组的作用

1. 分区分配策略

消费者组是Kafka中实现消息分发与负载均衡的重要机制,它可以分摊消息的处理压力,并提高消息的处理效率和可用性。消费者组中的每个消费者可以独立消费分配给该消费者组的消息,在消费过程中,消费者不会相互干扰,不会重复消费同一条消息,也不会漏掉任何一条消息。

Kafka的消费者组工作流程如下图所示:
在这里插入图片描述

如上图,某个Topic里有两个分区,而我们的消费者组有两个消费者,那么两个消费者就会各自订阅一个分区,互不干扰。

当然,有些同学会问,你这里正好是两个分区、两个消费者,那如果两边数量不一样呢?

那么这就涉及到partition的分配问题,即确定那个partition由哪个consumer来消费。
Kafka有三种分配策略,一是roundrobin,一是range,还有一个StickyAssignor策略

  1. range策略
    Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。每个消费者消费的分区是连续的,如果除不尽,那么前面几个消费者线程将会多消费一个分区
    在这里插入图片描述

但其弊端也比较明显,排名靠前的消费者压力比较大,如果该消费者组仅订阅1个Topic还好,如果订阅多个主题,前面的消费者压力就明显更大了,如下图,消费者1订阅8个分区,而消费者3订阅6个分区

在这里插入图片描述

  1. roundrobin策略
    为了解决排名靠前的消费者压力过大的问题,一种思路就是全局考虑,把一个消费者组消费的所有分区都罗列出来并字典序排序,然后再轮询的分给消费者,我们按照上面的例子,大概的分配示意图如下
    在这里插入图片描述
    如图,当Topic1的分区10被分给消费者1后,Topic2的分区1就分配给消费者2了。那这样最后看到每个消费都订阅了7个分区,很平均了。但就完美了吗?非也,我们上面看的都是以消费者组为单位的订阅行为,但是别忘记,消费者组里面的某个消费者可能还有其他的任务,如下:
    在这里插入图片描述
    上面的消费者3除了作为消费者组的一份子,承接了Topic1和Topic2的部分分区,它还订阅了Topic3,那么消费者3的压力明显就大的太多了
  2. StickyAssignor策略
    该策略的实现更加复杂,它要求从一种更加全局的视角来分配,充分考虑到消费者组内每个消费者组的实际订阅数。它有两个目的:
    分区的分配要尽可能的均匀,分配给消费者者的主题分区数最多相差一个;
    分区的分配尽可能的与上次分配的保持相同。
    至于其具体原理,可以参考官方文档,这里不继续深入探讨了

2. 分配原理

我们上面说了几种分区分配的方案,这种分配任务的方式被称为协作分区(cooperative partitioning)。在cooperative partitioning过程中,那么协作分区的结果谁来保存呢?其实是组协调器(Group Coordinator),Kafka通过组协调器来保存消费者间的划分,实现了消费者组的自动管理,使得消费者组可以根据实际情况动态地扩容、缩容。

当然,这里需要介绍下协调器的概念,每一个Kafka集群都有若干个Coordinator,它们分别负责不同的任务。目前Kafka中的Coordinator主要有以下几种:

  • Group Coordinator:负责管理消费者组,包括新增、删除和重平衡操作。

  • Transaction Coordinator:负责事务的管理,包括启动、提交和回滚等操作。

  • Metadata Coordinator:负责维护Kafka集群中各个Partition的元数据信息,包括分区的leader和ISR等信息。

  • Admin Coordinator:负责管理Kafka集群的各种配置信息,包括topic的创建、删除和分区的增、删、改等操作。

我们这里要讲的就是其中的组协调器(Group Coordinator),Group Coordinator是一个服务,每个Broker在启动的时候都会启动一个该服务。Group Coordinator的作用是用来存储Group的相关Meta信息,并将对应Partition的Offset信息记录到Kafka内置Topic(__consumer_offsets)中,当我们建立一个组的时候,都会选择一个Coordinator来操作与存储自己组内各Partition的Offset信息

三、Rebalance机制

1. Rebalance的作用

我们前面提到,消费者组里的各个消费者会被做分配操作。那如果某一个消费者挂掉了怎么办呢?这个消费者负责的那些分区岂不是没人订阅了?

别担心,Kafka提供了Rebalance机制。Rebalance机制可以动态地分配分区,使得每个消费者负载均衡,提高消费效率和可用性。一般来说,Rebalance机制会在以下情况下发生:

  • 消费者加入或退出消费者组,当消费者加入或退出消费者组时,协调器会触发Rebalance机制
  • 分区数目发生变化:当Kafka的主题被扩容或缩容时,会触发Rebalance机制,重新分配分区。。
  • Kafka Broker发生变化:当Kafka Broker发生变化时,例如节点重启或宕机等,会触发Rebalance机制

其实很好理解,A 订阅 B,那显然只有当A 或 B 的数量发生变动的时候,才需要再次平衡

2. Rebalance的实现

我们已增添一个消费者为例,说明下Rebalance发生的全过程:

  1. 消费者加入/退出:当一个消费者加入或退出消费者组时,它会向Group Coordinator发送JOIN GROUP或LEAVE GROUP请求。

  2. 协调者选举:如果Group Coordinator收到的是JOIN GROUP请求,则会根据Group Leader选举机制选举一个Group LeaderGroup Leader的职责是进行rebalance操作,分配partition给消费者。(注意Group Leader是消费者组内的某个消费者,和Group Coordinator不是一个东西)

  3. 分组协商Group Leader选举完成后,它会向其他消费者发送SYNC GROUP请求,要求其他消费者加入rebalance操作。其他消费者加入后,Group Leader会根据消费者的订阅信息,计算出新的分配方案。分配方案会以ASSIGN PARTITIONS请求的形式发送给每个消费者。

  4. 重新分配partition:每个消费者在收到ASSIGN PARTITIONS请求后,会按照分配方案重新分配自己需要消费的partition,然后完成rebalance操作。

  5. 继续消费:重新分配partition后,消费者会继续从分配的partition中消费数据。

借用网上的图来说明下情况,你也可以把整个Rebalance分为两步:JoinSync

  • Join阶段,所有成员都向coordinator发送JoinGroup请求,请求加入消费组,最后由Group Coordinator来选出其中一个消费者作为Leader,Leader能知道组内所有消费者。
    在这里插入图片描述
  • Sync阶段,leader开始分配消费方案,一旦完成分配,leader会将这个方案封装进SyncGroup请求中发给coordinator,非leader也会发SyncGroup请求,只是内容为空。coordinator接收到分配方案之后会把方案塞进SyncGroup的response中发给各个consumer
    在这里插入图片描述
    而至于分配方案具体是怎样的,其实就是在上一小节已经说过的 分区分配策略

3. Rebalance的优劣

Kafka的rebalance主要是为了实现消费者的负载均衡。通过上面的学习,相信大家也能总结出rebalance机制的优点就是增强容错性支持动态扩容

  • 增强容错性:当某个消费者意外退出或宕机,rebalance可以重新分配该消费者所消费的partition给其他消费者,从而保障消费的连续性,并减少对业务的影响。

  • 支持动态扩容:在Kafka系统运行中,如果需要增加消费者数量,rebalance可以根据新的消费者加入,重新分配partition,确保消费者的负载均衡。

但凡事有利有弊,rebalance最大的缺点就是延迟影响性:rebalance操作会涉及到分区的重新分配,会导致系统有一定的延迟。如果消费者数量很大,rebalance操作会更加复杂且耗时长。在这个期间,所有的消费者都无法执行消费,可以说影响面还是非常广的。


四、减少Rebalance的发生

我们在生产中,如非必要,应该尽量避免Rebalance,这会暂停运行中的消费过程。最好是提前就做好各种预防措施,而不是依靠Kafka的Rebalance来处理。

我们在前面说到,消费者 和 分区 的数量变化会导致Rebalance,一般其实是由于消费者的变动导致的,如果是意外的宕机我们无法防止,但是我们可以调整“短暂掉线”及“消费能力不足”的消费者,对他们更加“宽容”一点,具体如下:

每个 Consumer 实例都会定期地向 Coordinator 发送心跳请求,表明它还存活着。如果某个 Consumer 实例不能及时地发送这些心跳请求,Coordinator 就会认为该 Consumer 已经 “死” 了,从而将其从 Group 中移除,然后开启新一轮 Rebalance。这个时间可以通过Consumer 端的参数 session.timeout.ms进行配置。默认值是 45 秒

在这里插入图片描述

Consumer 端还有一个参数,用于控制 Consumer 实际消费能力对 Rebalance 的影响,即 max.poll.interval.ms 参数。它限定了 Consumer 端应用程序两次调用 poll 方法的最大时间间隔。它的默认值是 5 分钟,表示你的 Consumer 程序如果在 5 分钟之内无法消费完 poll 方法返回的消息,那么 Consumer 会主动发起 “离开组” 的请求,Coordinator 也会开启新一轮 Rebalance

在这里插入图片描述
一般来说,为了预防Rebalance,我们可以调大上面两个参数,同时加快心跳频率,也就是调小heartbeat.interval.ms

在这里插入图片描述

总结

本期我们讲了Kafka消费端的成组设置,也了解了组内的分配规则,以及消费者发生变动后会导致的Rebalance机制,最后介绍了减少Rebalance发生的一些参数调整。希望大家能有所收获,下次我们将继续深入讲解Kafka的其他原理,如果你对此有兴趣,可以直接订阅本 kafka 专栏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1159474.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv5 分类模型的预处理

YOLOv5 分类模型的预处理 flyfish 版本 6.2 将整个代码简化成如下代码 imgsz224 file "/home/a/Pictures/1.jpg" transforms classify_transforms(imgsz) im cv2.cvtColor(cv2.imread(file), cv2.COLOR_BGR2RGB) print(im.shape)im transforms(im) print(im.…

【计算机网络】第二章:应用层

应用层协议原理 客户-服务器体系结构: 特点:客户之间不能直接通信;服务器具有周知的,固定的地址,该地址称为IP地址。 配备大量主机的数据中心常被用于创建强大的虚拟服务器;P2P体系结构: 特点&…

项目压测优化

基本信息 客户名称:xxx 产品名称:ATS 版本号:版本无关 问题分类:性能问题 问题描述 压测付款查询和收款查询接口,发现cpu过高,响应时间过长不符合要求。 客户要求:1500并发情况下,接…

BUUCTF 后门查杀 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 小白的网站被小黑攻击了,并且上传了Webshell,你能帮小白找到这个后门么?(Webshell中的密码(md5)即为答案)。 密文: 下载附件,解压得到一个网站文件夹。 解…

呼吸灯【FPGA】

晶振50Mhz 1us 等于 计0~49 1ms等于 0~999us 1s等于 0~999ms //led_outalways(posedge FPGA_CLK_50M_b5 or negedge reset_e8) //【死循环】敏感【触发条件:上升沿 clk】【运行副本】if(reset_e81b0)begin //50Mhz晶振, 49_999_999 是 1秒…

畅销书《Kali Linux高级渗透测试》更新版速速查收~

懒大王感谢大家的关注和三连支持~ 作者简介: 懒大王敲代码,正在学习嵌入式方向有关课程stm32,网络编程,数据结构C/C等 今天给大家推荐畅销书《Kali Linux高级渗透测试》,希望大家能觉得实用! 欢迎大家点赞…

10.30寄存器,寄存器堆

寄存器 8位环形移位寄存器 module shift_regist (input wire clk,input wire rstn,input wire [7:0]D,output reg [7:0]Q ); always (posedge clk or negedge rstn) beginif(!rstn)Q<8b000000;elseQ<{D[6:0],D[7]} ; end endmodule //shift_regist 输入有时钟…

Qt入门日记1

目录 1.Qt简介和案例 2.第一个Qt程序 3.学会查看帮助文档 4.创建一个按钮 5.对象树简介 6.Qt的坐标系 7. 信号和槽 7.1自定义信号和槽 7.2信号连接信号 7.3拓展 7.4Qt4版本以前的connect 1.Qt简介和案例 Qt是一个跨平台的C图形用户界面应用程序框架(就是一个库吧…

2024“点点点”测试员如何上岸测试开发岗?附完整学习路线!

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;交流讨论&#xff1a;欢迎加入我们一起学习&#xff01;&#x1f4e2;资源分享&#xff1a;耗时200小时精选的「软件测试」资…

干货分享 | 一分钟带你了解TSMaster小程序编辑代码智能提示功能

本文给大家带来TSMaster小程序编辑的新功能&#xff0c;其中主要包含&#xff1a;代码编辑智能提示功能、可用外部代码编辑器编辑小程序代码并同步。 本文关键字&#xff1a;C小程序、Python小程序、代码智能提示、外部代码编辑器、Visual Studio 目录/Catalog ● TSMaster的…

11月1日星期三今日早报简报微语报早读

11月1日星期三&#xff0c;农历九月十八&#xff0c;早报微语早读分享。 1、神舟十六号航天员乘组平安抵京&#xff1b; 2、微信/抖音/B站等平台&#xff1a;将推动50万粉以上“自媒体”账号实名信息展示&#xff1b; 3、第三批鼓励仿制药品建议目录公示&#xff0c;包括抗癌…

灰狼优化算法(GWO)python

目录 一、灰狼优化算法的python实现 二、灰狼优化算法与遗传算法的对比分析&#xff08;python&#xff09; 2.1 GWO1.py 2.2 GA1.py 2.3 GWO_vs_GA.py 2.4 运行结果 ​三、基于莱维飞行改进的灰狼优化算法的python实现 一、灰狼优化算法的python实现 import numpy as …

报修软件有什么用?企业如何做好设备管理与维护?

在当今的商业环境中&#xff0c;设备设施的维护和管理已经成为企业运营的重要环节。无论是学校、酒店、物业等大型企事业单位&#xff0c;还是运维集成商、制造工厂等企业单位&#xff0c;都需要对设备设施进行有效的管理。报修软件作为一种智能化的解决方案&#xff0c;为设备…

钉钉会议室无需API开发轻松连接OA、电商、营销、CRM、用户运营、推广、客服等近千款系统

钉钉会议室支持成员管理、主持人权限管理、高级会控、组织内会议全员静音、共享权限控制等会议管理能力&#xff0c;确保会议安全可控的进行。 官网&#xff1a;https://page.dingtalk.com/wow/z/dingtalk/Rax/RoomsIntro 集简云无代码集成平台&#xff0c;轻松连接钉钉会议室…

专业软件测评中心▏App渗透测试的测试流程和注意事项简析

当前&#xff0c;我国数字经济蓬勃发展&#xff0c;为实现高质量发展注入了澎湃动力&#xff0c;App的需求和供给都十分旺盛&#xff0c;因此安全问题逐渐成为用户最为关注的话题之一&#xff0c;而渗透测试至关重要。 一、App渗透测试流程&#xff1a;   1、需求收集&#…

Vray3.6 for SketchUp安装失败错误如何处理?

SketchUp这款软件是一个极受欢迎并且易于使用的3D软件&#xff0c;有很多朋友会通过Sketchup建模或是Sketchup渲染操作。 Sketchup 建模渲染来说&#xff0c;也是较简单的一款软件&#xff0c;今天小编聊的话题不是Sketchup怎样渲染的操作。 而是对于一些新手朋友提到的关于V…

functools模块:让Python编程更高效

​​​​​​​ 概要 不知道小伙伴们在Python编程中&#xff0c;我们经常会遇到一些需要反复使用的代码片段&#xff0c;例如装饰器、高阶函数等。为了提高代码的复用性和可读性&#xff0c;Python提供了functools模块。functools模块包含了许多实用的功能&#xff0c;…

软文推广方案,媒介盒子分享

作为企业宣传的手段&#xff0c;它能用较低的成本获得较好的宣传效果&#xff0c;但有许多企业在进行软文推广时并不起效&#xff0c;这是因为没掌握好方法。今天媒介盒子就来告诉大家&#xff0c;通用的软文推广方案。 一、 明确推广目标以及受众 明确软文推广的目标有助于明…

数字化如何赋能企业降本增效?

在当前高度不确定的市场环境下&#xff0c;降本增效已成为传统企业热议的话题。在这个背景下&#xff0c;企业内部各种“卷”现象层出不穷&#xff0c;各部门都在积极降本、开源节流&#xff0c;同时也在争夺本就不足的企业资源。因此&#xff0c;数字部门在资源受限的情况下&a…