【Kafka】深入了解Kafka

【Kafka】深入了解Kafka

news2025/4/21 10:46:07

集群的成员关系

Kafka使用Zookeeper维护集群的成员信息。

每一个broker都有一个唯一的标识，这个标识可以在配置文件中指定，也可以自动生成。
当broker在启动时通过创建Zookeeper的临时节点把自己的ID注册到Zookeeper中。broker、控制器和其他一些动态系统工具会订阅Zookeeper的 /brokers/ids 路径；当有broker加入或退出集群时，会收到通知。
当试图启动另一个具有相同ID的broker时，会收到错误信息。

控制器

控制器也是一个broker，除了提供一般broker功能外，还负责选举分区首领。

创建控制器

集群中第一个启动的broker会通过Zookeeper创建一个/controller的临时节点让自己成为控制器；
Zookeeper会为控制器分配一个epoch。
其他broker在启动时，也会尝试创建，但是因为已经存在他们会收到”节点已存在“异常；
然后在控制器节点上创建Zookeeper watch，这样就可以接收这个节点的变更通知。通过这样的方式来保证节点只有一个控制器。

变更控制器

控制器关闭或者与Zookeeper断开连接，这个临时节点会消失；
当其他节点收到控制器节点消失的通知时，会尝试创建/controller的临时节点成为控制节点；
其他未创建成功的broker会在新的控制节点上创建Zookeeper watch，
新的控制器节点由Zookeeper分配一个数值更大的epoch。这样做的目的是为了杜绝之前离线的控制器重新上线，并且发送消息，如果broker接收到消息的epoch小于监听的则会忽略当前消息。

新控制器 KRaft

用基于Raft的控制器替换基于Zookeeper的控制器。
集群即可以使用基于Zookeeper的传统控制器，也可以使用KRaft。

为什么替换控制器

元数据是同步写入Zookeeper的，但是异步发送给broker的，Zookeeper的接收更新也是异步的，会导致broker、控制器和Zookeeper之间元数据不一致的情况
控制器在重新启动时需要从Zookeeper读取所有的broker和分区元数据，再将他们发给所有broker，随着分区和broker的争夺，重启控制器会变慢。
元数据所有权架构不够好，有些操作通过控制器、有些通过broker、有些通过Zookeeper来完成
使用Kafka需要对Zookeeper有一定了解，学习成本较高

Zookeeper主要功能

用于选举控制器
保存集群元数据(broker、配置、主题、分区和副本)

KRaft

新架构中控制器节点形成了一个Raft仲裁，管理元数据事件日志，这个日志包含了集群元数据的每一个变更，原先保存在Zookeeper中的所有东西（主题、分区、ISR、配置等）都保存在这个日志中。
涉及直接与Zookeeper通信的客户端和broker操作都通过控制器来路由，以达到无缝迁移。
使用Raft算法，控制节点可以在不依赖外部系统情况下选举首领，首领节点被称为主控制器，负责处理来自所有broker的RPC的调用，跟随者控制器从主控制器复制数据，并会作为主控制器的热备，
其他broker通过API从主控制器获取更新，而不是等待通知。broker将自己注册到控制器仲裁上，在注销前会一直保持注册状态。

复制

复制是Kafka架构核心的一部分，之所以这么重要，是因为他可以在个别节点失效时仍能保证Kafka的可用性和持久性。

Kafka中每个主题有若干分区，每个分区可以有多个副本，副本均匀的分布在多个broker中。
副本有两种类型

首领副本：每个分区都有一个首领副本，为了保证一致性，所有生产者的请求都会经过这个副本。客户端可以从首领副本或者跟随者副本读取数据
跟随者副本：除了首领副本以外都是跟随者副本。没特别指定，跟随者副本不处理来自客户端的请求，主要任务是从首领副本复制消息，保持与首领一致的状态。

请求的处理

客户端持有集群的元数据缓存，元数据中包含了客户端感兴趣的主题清单以及主题包含的分区、副本、首领等，一般情况下客户端会直接向目标broker发送生产请求和获取请求。

请求分类

生产请求
获取请求
管理请求

生产请求

生产者发送的请求，包含客户端要写入broker的消息

borker在接收到生产请求时会做一些验证

发送数据的用户是否有写入权限
请求中acks参数是否有效
如果acks=all是否足够多的同步副本保证消息已经写入
消息写入分区首领后，broker会检查acks参数，等到所有的都完成后，会返回响应给客户端。
获取请求

消费者和跟随者副本发送的请求，用于从broker读取消息。

broker接收到获取请求时会做一些校验

请求指定的偏移量是否存在
客户端读取消息时，Kafka使用零复制技术向客户端发送消息。也就是说Kafka会直接把消息从文件里发送到网路通道，不经过任何缓冲区。
客户端能读取的消息是已经被写入所有同步副本的消息；部分没有完全同步给所有副本的消息是不会发送给消费者的。

管理请求

管理客户端发送的请求，用于执行元数据操作，比如创建和删除topic

存储

分层存储

本次存储：与当前存储一致，保存在broker机器上
- 优势：响应快
- 劣势：成本高、数据保留时间短
远程存储：利用HDFS、S3等存储系统来存储日志信息
- 优势：成本低于本地存储、数据可保留较长时间
- 劣势：响应较慢

文件管理

数据保留是Kafka的一个重要概念

Kafka中一个分区会分为若干片段，
默认每个片段包含1GB或者1周的数据，触发任意上限，会关闭当前文件，重新打开一个文件
正在写入的片段叫做活动片段，活动片段不会被删除。

压实

保留每个键的最新有效数据，同时清理历史冗余的数据。

保留最新值：对于每条消息，如果指定了 Key，Kafka 会为每个 Key 保留最后一个写入的 Value（最新状态）。
删除冗余记录：所有旧版本的 Key-Value 对会被标记为可删除（逻辑删除），但物理删除会在后台异步完成。
非键消息的保留：没有 Key 的消息（或 Key 为 null 的消息）不会被压实，仍然遵循基于时间或大小的保留策略（例如 7 天后删除）。

什么时候压实主题

通过log.cleaner.enabled参数启动压实线程，线程会选择浑浊率最高的分区来压实。
默认情况下会在主题中有50%数据包含脏记录时进行压实。
每个日志片段分为两个部分
- 干净的部分：被压实过的消息，每个键只有一个对应得值，是上一次压实保留下来得
- 浑浊部分：上一次压实之后写入得

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2319140.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

C++特性——RAII、智能指针

C++特性——RAII、智能指针

RAII 就像new一个需要delete，fopen之后需要fclose，但这样会有隐形问题（忘记释放）。RAII即用对象把这个过程给包起来，对象构造的时候，new或者fopen，析构的时候delete. 为什么需要智能指针对于…

阅读更多...

CentOS系类普通挂载磁盘挂载命令

CentOS系类普通挂载磁盘挂载命令

检查磁盘是否有分区 lsblk如果 vdb 下面没有分区（比如 vdb1），你需要先创建分区。创建分区（如果需要） fdisk /dev/vdb然后在 fdisk 交互界面： 输入 n 创建新分区选择 p 创建主分区默认分区号和大小输…

阅读更多...

强化学习（赵世钰版）-学习笔记（9.策略梯度法）

强化学习（赵世钰版）-学习笔记（9.策略梯度法）

本章是课程的导数第二章，旨在讲解策略的函数化形式。之前的方法，描述一个策略都是用表格的形式，每一行代表一个状态，每一列代表一个行为，表格中的元素对应相关状态下执行相关行为的概率。函数化的策略表征形式是指&a…

阅读更多...

【c++】【STL】unordered_set 底层实现（简略版）

【c++】【STL】unordered_set 底层实现（简略版）

【c】【STL】unordered_set 底层实现（简略版） ps:这个是我自己看的不保证正确，觉得太长的后面会总结整个调用逻辑 unordered_set 内部实现 template <class _Kty, class _Hasher hash<_Kty>, class _Keyeq equal_to<_Kty>…

阅读更多...

网络安全设备配置与管理-实验4-防火墙AAA服务配置

网络安全设备配置与管理-实验4-防火墙AAA服务配置

实验4-p118防火墙AAA服务配置从这个实验开始，每一个实验都是长篇大论😓 不过有好兄弟会替我出手注意：1. gns3.exe必须以管理员身份打开，否则ping不通虚拟机。 win10虚拟机无法做本次实验，必须用学校给的虚拟机。首…

阅读更多...

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

论文地址：Contrastive Clustering Learning for Multi-Behavior Recommendation | ACM Transactions on Information Systems 摘要近年来，多行为推荐模型取得了显著成功。然而，许多模型未充分考虑不同行为之间的共性与差异性，以…

阅读更多...

基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）

基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）

摘要 I ABSTRACT II 第 1 章引言 1 研究背景及意义 1 研究背景 1研究意义 1 国内外研究现状 2 智慧旅游 3旅游大数据 3 研究内容 4本章小结 4 第 2 章相关技术概述 5 基于内容的推荐算法 5 基于内容的推荐算法原理 5基于内容的推荐算法实现 5 协同过滤推荐算法 6 协同过…

阅读更多...

Ubuntu 24 常用命令方法

Ubuntu 24 常用命令方法

文章目录环境说明1、账号管理1.1、启用 root 2、包管理工具 apt & dpkg2.1、apt 简介 & 阿里源配置2.2、dpkg 简介2.3、apt 和 dpkg 两者之间的关系2.4、常用命令 3、启用 ssh 服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软…

阅读更多...

Flask多参数模版使用

Flask多参数模版使用

需要建立目录templates； 把建好的html文件放到templates目录里面； 约定好参数名字，单个名字可以直接使用；多参数使用字典传递； 样例： from flask import render_template # 模板 (Templates) #Flask 使用…

阅读更多...

自然语言处理｜深入解析 PEGASUS：从原理到实践

自然语言处理｜深入解析 PEGASUS：从原理到实践

一、引言在信息爆炸的时代，互联网上的文本数据以极快的速度增长。无论是新闻资讯、学术论文、社交媒体动态，还是各类报告文档，我们每天接触到的文字信息量巨大。如何快速、准确地提取关键内容成为一项重要任务。文本摘要技术通过将长篇文本…

阅读更多...

Spring AI Alibaba快速使用

Spring AI Alibaba快速使用

AI 时代，Java 程序员也需要与时俱进，这两个框架必须掌握。一个是 Spring AI一个是 Spring Alibaba AI。 Spring AI 是一个AI工程领域的应用程序框架，它的目标是将 Spring生态系统的设计原则应用于人工智能领域。但是， Spring…

阅读更多...

socks 协议介绍

socks 协议介绍

SOCKS协议详解一、基本定义与核心功能 SOCKS（Socket Secure）是一种网络传输协议，主要用于通过代理服务器转发客户端与目标服务器之间的通信请求。其核心功能包括隐藏用户真实IP地址、穿透防火墙限制以及支持多种网络协议（如TCP…

阅读更多...

Linux --centos安装显卡驱动

Linux --centos安装显卡驱动

显卡下载页面 https://www.nvidia.com/en-us/drivers/unix/ 随便下载一个即可安装过程查看当前设备的显卡信息 lspci | grep -i vga安装gcc相关依赖 yum update -y yum update gcc yum install build-essential yum install gcc-multilibdkms yum groupinstall "Dev…

阅读更多...

统信UOS中使用Vscode编程

统信UOS中使用Vscode编程

写在前面：统信UOS其实就是套壳的Linux系统，所以有问题如果搜不到解决方法，可以参考Linux下的解决方法。 1.环境配置 Vscode : 1.85.0 Vscode就直接下载安装就行，然后安装插件：Volar、中文汉化包 node：18…

阅读更多...

docker安装向量数据库Milvus及可视化工具 Attu

docker安装向量数据库Milvus及可视化工具 Attu

前置条件 1.安装了docker 2.服务器网络正常，可以连接到容器下载地址 3.服务器磁盘空间正常，docker磁盘占用过大，请参考docker容量占用过大解决办法一、下载yml文件可在文章资源下载或者自行下载：下载yml 下载这个单机版本的…

阅读更多...

DeepSeek + Kimi 自动生成 PPT

DeepSeek + Kimi 自动生成 PPT

可以先用deepseek生成ppt大纲，再把这个大纲复制到Kimi的ppt助手里： https://kimi.moonshot.cn/kimiplus/conpg18t7lagbbsfqksg 选择ppt模板： 点击生成ppt就制作好了。

阅读更多...

Apache Paimon 在抖音集团多场景中的优化实践

Apache Paimon 在抖音集团多场景中的优化实践

资料来源：火山引擎-开发者社区本文将基于抖音集团内部两大业务的典型实时数仓场景，介绍Paimon在抖音集团内部的生产实践。作者：李明、苏兴、文杰抖音集团大数据工程师目前抖音集团内部主要使用 Lambda 架构进行实时数仓建设，其…

阅读更多...

当下主流 AI 模型对比：ChatGPT、DeepSeek、Grok 及其他前沿技术

当下主流 AI 模型对比：ChatGPT、DeepSeek、Grok 及其他前沿技术

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言人工智能（AI）领域近年来取得了巨大的突破，特别是在大语言模型（LLM&#…

阅读更多...

【自用】NLP算法面经（5）

【自用】NLP算法面经（5）

一、L1、L2正则化正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时，它已经很好地学习了训练数据，甚至是训练数据中的噪声，所以可能无法在新的、未见过的数据上表现良好。比如： 其中，x1和…

阅读更多...

体育直播视频源格式解析：M3U8 vs FLV

体育直播视频源格式解析：M3U8 vs FLV

在体育直播领域，视频源的格式选择直接影响着直播的流畅度、画质以及兼容性。目前，M3U8 和 FLV 是两种最为常见的视频流格式，它们各有优劣，适用于不同的场景。本文将从技术原理、优缺点以及应用场景等方面对 M3U8 和 FLV 进行详细解…

阅读更多...

推荐文章

最新文章