再平衡(Rebalance)
本质上是一种协议,规定了一个消费组中所有消费者如何达成一致来分配订阅主题的每个分区
其实就是建立分区和消费者映射关系的这么一个过程,最终主题下的一个分区只会分配给一个消费者
比如有10个分区,5个消费者,那么正常情况下一个消费者分配到2个分区,如下图
上图我们可以看到,一个分区对应一个消费者,一个消费者可以对应多个分区
分区:消费者 = n : 1
那么到底是怎么分配的呢? 先了解,后面详细讲
Kafka提供了三种分配策略
可以通过参数partition.assignment.strategy
设置
1. Range 范围分配策略
2. RoundRobin 轮询策略
3. Sticky 粘性策略
谁来执行再平衡 和 消费组管理呢?
kafka提供了一种角色: Group Coordinator 组协调器,由它负责消费组的管理
什么是 Group Coordinator - 组协调器
-
每个消费组分配一个组协调器,用于组管理和位移管理
-
消费组的第一个消费者启动后,会和Kafka broker确认,谁是组协调器(是一个broker)
-
之后启动的所有消费者需要和该组协调器保持通信,发送心跳
-
由组协调器来检测消费者的增加和减少,确认何时出发再平衡
组协调器是怎么选举出来的呢?
两步,当组内第一个consumer提交位移时,先计算一下写入到_consumer_offset这个主题下的哪个分区,算法如上,_consumer_offset也是一个topic嘛,这个topic下也是分很多分区的,consumer提交位移信息时也是一个producer,Kafka需要知道写入哪个分区;计算出分区号之后,那么这个分区的leader(Kafka都是leader分区对外提供读写服务)所在的机器(broker)就作为组协调器了,谁先干活谁就是了~