深入探索Kafka:了解其不可或缺的核心组件

news2024/11/25 9:56:57

🐇明明跟你说过:个人主页

🏅个人专栏:《数据流专家:Kafka探索》🏅

🔖行路有良友,便是天堂🔖

目录

一、引言 

1、Kafka简介

2、Kafka的应用场景 

3、Kafka与其他消息队列系统的对比 

Kafka 相对优势:

Kafka 相对劣势:

Kafka 与其他消息队列系统的对比:

二、核心组件

1、Producer(生产者)

1. 生产者的基本概念

2. 生产者的工作流程

2、Consumer(消费者)

1. 消费者的基本概念

2. 消费者的工作流程

3. 消费者的配置参数

3、Broker(代理服务器)

1. Broker 的基本概念

2. Broker 的工作流程

4、Topic(主题)

1. 主题的基本概念

2. 主题的特性

5、Partition(分区) 

1. 分区的基本概念

2. 分区的特性

6、Replica(副本)

1. 副本的基本概念

2. 副本的作用


一、引言 

1、Kafka简介

Apache Kafka 是一个开源的流处理平台,由 LinkedIn 开发并捐献给 Apache 软件基金会,用于实时数据流处理。Kafka 设计用于处理实时数据流,具有高吞吐量、可扩展性和容错性,广泛用于构建实时数据管道和流处理应用。

2、Kafka的应用场景 

1. 实时日志收集与分析

  • Kafka 可以作为日志收集系统的中间件,将分布式系统产生的日志集中存储在消息队列中,并实时传输给日志处理工具(如 ELK Stack、Fluentd 等),用于实时监控、分析和报警。

 

2. 数据管道与 ETL

  • Kafka 可以用作数据管道(Data Pipeline)的关键组件,用于将数据从源系统传输到目标系统,并进行实时的转换、清洗和加工。这种场景通常用于实现数据仓库、数据湖、实时分析等数据处理需求。

 

3. 实时事件处理

  • Kafka 可以作为事件驱动架构(Event-Driven Architecture)中的消息队列,用于在分布式系统中传递事件和消息。通过使用 Kafka,可以实现实时的事件处理、流式计算、实时推荐等功能。

 

4. 流式数据处理

  • Kafka 可以与流处理框架(如 Apache Flink、Apache Spark Streaming、Kafka Streams 等)集成,用于构建实时流式数据处理应用。这种场景通常用于实时数据分析、实时报表、实时风控等需求。

 

5. 分布式应用解耦

  • Kafka 可以作为分布式应用解耦的中间件,用于将不同服务之间的通信解耦,降低系统之间的依赖性和耦合度。通过使用 Kafka,可以实现分布式系统中的事件驱动、异步通信等特性。

   

3、Kafka与其他消息队列系统的对比 

Kafka 和其他消息队列系统相比,具有一些独特的设计特点和优势,也有一些不同的应用场景和适用性。

以下是 Kafka 与其他消息队列系统(如 RabbitMQ、ActiveMQ、RocketMQ 等)的对比:

Kafka 相对优势:


1. 高吞吐量:

  • Kafka 通过分区和分布式存储实现了高吞吐量的消息处理能力,能够处理数百万条消息的传输和存储。


2. 持久性和可靠性:

  • Kafka 使用可配置的数据复制机制和持久性存储,确保消息不丢失,并且具有高度的容错性。


3. 水平可扩展性:

  • Kafka 的设计允许水平扩展,可以轻松地添加新的 Broker 和扩展集群规模,以应对增长的消息负载。


4. 高性能的消息存储和检索:

  • Kafka 使用顺序 IO 和内存映射文件等技术,实现了高性能的消息存储和检索,可以在毫秒级别的延迟下进行消息读写。


5. 灵活的消息处理能力:

  • Kafka 支持多种消息处理模式,包括发布-订阅、队列、流处理等,可以满足不同应用场景下的消息处理需求。


6. 生态系统丰富:

  • Kafka 生态系统包括各种工具和库,如 Kafka Connect、Kafka Streams、MirrorMaker 等,提供了丰富的功能和集成选项。


Kafka 相对劣势:


1. 部署和维护成本较高:

  • Kafka 的部署和维护相对复杂,需要考虑到分布式系统的配置、监控、故障恢复等方面,对运维人员的技能要求较高。


2. 实时性和延迟:

  • 尽管 Kafka 提供了低延迟的消息处理能力,但在某些场景下可能无法满足实时性要求,特别是在复杂的消息处理流程中。


Kafka 与其他消息队列系统的对比:


1. RabbitMQ:

RabbitMQ 是一个经典的 AMQP(高级消息队列协议)消息队列系统,适用于传统的消息队列应用场景,提供了更多的消息路由、交换和队列管理功能。相比之下,Kafka 更适合处理大规模的消息流和实时数据处理。


2. ActiveMQ:

ActiveMQ 是一个功能丰富的 JMS(Java 消息服务)消息队列系统,适用于 Java 开发环境中的消息通信和集成应用。Kafka 与 ActiveMQ 相比更注重高吞吐量和大规模消息处理,适用于数据管道、实时日志、流处理等场景。


3. RocketMQ:

RocketMQ 是一个由阿里巴巴开发的分布式消息队列系统,适用于企业级的消息中间件和实时数据处理应用。与 Kafka 相比,RocketMQ 提供了更多的商业特性和支持,但在分布式存储和大规模消息处理方面,Kafka 更具优势。

Kafka 与其他消息队列系统相比,具有高吞吐量、持久性、可靠性和水平扩展性等优势,适用于大规模的实时数据流处理场景。然而,根据具体的应用需求和环境特点,选择适合的消息队列系统是很重要的。

   

二、核心组件

1、Producer(生产者)

在 Kafka 中,生产者(Producer)是负责向 Kafka 集群发送消息的组件。生产者通过将消息发布到指定的主题(Topic)和分区(Partition),将数据输入到 Kafka 系统中。

1. 生产者的基本概念

  •  生产者(Producer):一个生成和发送消息的客户端应用程序。它将消息发送到 Kafka 集群中的一个或多个主题。
  • 主题(Topic):消息的类别或名称,生产者将消息发送到指定的主题中。
  • 分区(Partition):每个主题可以分为多个分区,生产者可以选择将消息发送到特定的分区,或由 Kafka 根据某些策略(如轮询、哈希等)自动选择分区。 

2. 生产者的工作流程


连接到 Kafka 集群:

生产者首先需要配置 Kafka 集群的地址和连接参数,并与 Kafka 集群建立连接。


创建消息:

生产者应用程序生成消息,消息通常包含键(Key)、值(Value)和时间戳等信息。


发送消息:

生产者将消息发送到指定的主题和分区。可以使用同步或异步方式发送消息:
同步发送:生产者等待 Kafka 返回确认信息后,再继续发送下一条消息。
异步发送:生产者将消息放入缓冲区,然后立即返回,由后台线程异步发送消息。


确认和重试:

生产者可以配置消息发送的确认机制(ack),如:

  • acks=0:生产者不等待任何确认。
  • acks=1:生产者等待 leader 分区的确认。
  • acks=all:生产者等待所有副本分区的确认。

如果消息发送失败,生产者可以配置重试机制,以确保消息成功发送。 

  

 

2、Consumer(消费者)

在 Kafka 中,消费者(Consumer)是负责从 Kafka 集群中读取和处理消息的组件。消费者从特定的主题(Topic)和分区(Partition)中获取消息,并对消息进行处理或进一步传递。

 

1. 消费者的基本概念


消费者(Consumer):一个读取和处理消息的客户端应用程序。它从 Kafka 主题中消费消息。
消费者组(Consumer Group):一组消费者实例,共同消费一个或多个主题中的消息。消费者组中的每个消费者实例会被分配到一个或多个分区,从而实现负载均衡。


2. 消费者的工作流程


1. 连接到 Kafka 集群:

  • 消费者首先需要配置 Kafka 集群的地址和连接参数,并与 Kafka 集群建立连接。


2. 订阅主题:

  • 消费者订阅一个或多个主题,可以使用主题名称或主题模式进行订阅。


3. 拉取消息:

  • 消费者从分配到的分区中拉取消息,可以设置消息拉取的批量大小、超时时间等参数。


4. 处理消息:

  • 消费者对拉取到的消息进行处理,包括数据解析、业务逻辑处理等。


5. 提交偏移量:

  • 消费者处理完消息后,需要提交消息的偏移量(offset),以记录消息处理的进度。偏移量提交可以是自动的也可以是手动的。


3. 消费者的配置参数

  • bootstrap.servers:Kafka 集群的地址列表。
  • group.id:消费者所属的消费者组的 ID。
  • key.deserializer value.deserializer:消息键和值的反序列化类,用于将字节数组转换为具体的数据类型。
  • auto.offset.reset:指定消费者在没有初始偏移量或偏移量无效时从哪里开始消费(如 earliest、latest)。
  • enable.auto.commit:是否启用自动提交偏移量。
  • auto.commit.interval.ms:自动提交偏移量的时间间隔。

   

3、Broker(代理服务器)

在 Kafka 中,代理服务器(Broker)是负责接收、存储和传输消息的核心组件。Kafka 集群通常由多个 Broker 组成,它们共同工作以提供分布式、高吞吐量和高可用性的消息系统。

 

1. Broker 的基本概念


Broker(代理服务器):Kafka 集群中的一个实例,负责接收来自生产者的消息、存储消息以及将消息发送给消费者。
Topic(主题):Broker 存储消息的逻辑分类,每个主题可以分为多个分区(Partition)。
Partition(分区):主题下的消息分区,提供并行处理和分布式存储。


2. Broker 的工作流程


1. 接收消息:

  • 生产者将消息发送到 Kafka 集群中的某个主题,Broker 接收到这些消息后将其写入对应的分区。


2. 存储消息:

  • Broker 持久化存储消息到磁盘,以保证消息的可靠性和持久性。


3. 消息复制:

  • 为了保证高可用性和容错性,每个分区可以配置多个副本(Replica),这些副本分布在不同的 Broker 上。


4. 消息消费:

  • 消费者向 Broker 请求消息,Broker 从指定的分区中读取消息并返回给消费者。


5. 管理元数据:

  • Broker 负责维护和管理主题、分区、偏移量等元数据信息,并与 Zookeeper 协同工作来管理集群状态。

   

 

4、Topic(主题)

在 Kafka 中,主题(Topic)是消息的逻辑分类单元,生产者将消息发送到指定的主题,消费者从主题中消费消息。主题在 Kafka 中起到组织和管理消息的重要作用。

 

1. 主题的基本概念


主题(Topic):消息的逻辑分类单元,类似于日志记录的类别。一个主题可以有多个生产者和多个消费者。
分区(Partition):主题的物理分片,每个主题可以分为多个分区。分区是 Kafka 并行处理和分布式存储的基础。


2. 主题的特性


1. 多生产者和多消费者:

一个主题可以有多个生产者将消息发送到该主题,也可以有多个消费者从该主题中读取消息。


2. 分区(Partitioning):

每个主题可以分为多个分区,每个分区是一个有序的、不可变的消息序列。分区使得 Kafka 可以并行处理消息,提高了吞吐量和扩展性。


3. 副本(Replication):

为了保证高可用性和容错性,每个分区可以配置多个副本(Replica),副本分布在不同的 Broker 上,确保在某个 Broker 宕机时数据不丢失。

  

5、Partition(分区) 

在 Kafka 中,分区(Partition)是主题的基本组成部分,每个主题可以分为多个分区。分区是 Kafka 并行处理和分布式存储的基础,提供了高吞吐量和容错能力。

 

1. 分区的基本概念

  • 分区(Partition):主题的物理分片,每个分区是一个有序的、不可变的消息序列。
  • Leader 副本:每个分区有一个 Leader 副本,负责处理所有的读写请求。
  • Follower 副本:每个分区可以有多个 Follower 副本,负责从 Leader 副本同步数据,以提供容错能力。


2. 分区的特性


1. 有序性:

每个分区内的消息是有序的,即消息有一个递增的偏移量(Offset)。


2. 并行处理:

不同分区可以并行处理,提高了消息处理的吞吐量。生产者可以并行地将消息发送到不同分区,消费者可以并行地从不同分区消费消息。


3. 容错性:

分区可以配置多个副本(Replica),确保在 Broker 宕机时数据不会丢失。Leader 副本负责处理请求,Follower 副本与 Leader 副本同步数据。

  

6、Replica(副本)

在 Kafka 中,副本(Replica)是为了确保数据高可用性和容错能力而设计的。每个分区可以有多个副本,这些副本分布在不同的 Broker 上。副本机制使得 Kafka 能够在部分 Broker 故障的情况下继续运行,并保证数据不丢失。

 

1. 副本的基本概念

  • 副本(Replica):每个分区可以有一个或多个副本,副本是分区的完整备份。
  • Leader 副本:每个分区的一个副本被选为 Leader 副本,负责处理所有的读写请求。
  • Follower 副本:其他副本称为 Follower 副本,负责从 Leader 副本同步数据。


2. 副本的作用


1. 数据冗余:

通过在多个 Broker 上存储分区副本,Kafka 提供了数据冗余,确保数据在单个 Broker 故障时不会丢失。


2. 高可用性:

如果 Leader 副本所在的 Broker 宕机,Kafka 会从 Follower 副本中选举新的 Leader 副本,确保分区继续可用。


3. 容错性:

副本机制使 Kafka 能够容忍部分 Broker 故障,并在故障恢复后自动重新同步数据。

  

💕💕💕每一次的分享都是一次成长的旅程,感谢您的陪伴和关注。希望这些关于Kafka的文章能陪伴您走过技术的一段旅程,共同见证成长和进步!😺😺😺

🧨🧨🧨让我们一起在技术的海洋中探索前行,共同书写美好的未来!!!   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1685700.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity性能优化工具介绍

文章目录 一.Stats组件1.Audio音频的数据组件:2.图形数据 二.Profiler 性能分析器 一.Stats组件 Unity自带Statistics(统计数据),Game视窗中点击Stats打开 1.Audio音频的数据组件: 1):Level 声音强度 单位是分贝(dB) 表示音频听声音的大小,是闪烁波动的. 2):SDPload 数据信…

CSS基础(第五天)

目录 定位 为什么需要定位 定位组成 边偏移 静态定位 static(了解) 相对定位 relative 绝对定位 absolute(重要) 子绝父相的由来 固定定位 fixed (重要) 粘性定位 sticky(了解&#xff…

C++候捷stl-视频笔记1

认识headers、版本、重要资源 STL的核心思想是泛型编程 新式头文件内的组件封装在命名空间std中: using namespace std; using std::cout;或std::vector vec; 旧式头文件内的组件不封装在命名空间std中 注:不建直接使用using namespace xxx,如果使用的…

文章解读与仿真程序复现思路——电力系统保护与控制EI\CSCD\北大核心《基于改进Q学习算法和组合模型的超短期电力负荷预测》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

Llama 3 CPU推理优化指南

备受期待的 Meta 第三代 Llama 现已发布,我想确保你知道如何以最佳方式部署这种最先进的 (SoTA) LLM。在本教程中,我们将重点介绍如何执行仅权重量化 (WOQ) 来压缩 8B 参数模型并改善推理延迟,但首先,让我们讨论一下 Meta Llama 3…

贴片反射式红外光电传感器ITR8307

红外光电传感器ITR8307 ITR8307外形 特性 快速响应时间 高灵敏度 非可见波长 薄 紧凑型 无铅 该产品本身将保持在符合RoHS的版本内 描述 ITR8307/S18/TR8是一种光反射开关,它包括一个GaAs IR-LED发射器和一个NPN光电晶体管,该晶体管具有短距离的高…

基于 Milvus Cloud + LlamaIndex 实现初级 RAG

初级 RAG 初级 RAG 的定义 初级 RAG 研究范式代表了最早的方法论,在 ChatGPT 广泛采用后不久就取得了重要地位。初级 RAG 遵循传统的流程,包括索引创建(Indexing)、检索(Retrieval)和生成(Generation),常常被描绘成一个“检索—读取”框架,其工作流包括三个关键步…

C++实现图的存储和遍历

前言 许多新手友友在初学算法和数据结构时,会被图论支配过。我这里整理了一下图论常见的存储和遍历方式,仅供参考。如有问题,欢迎大佬们批评指正。 存储我将提到四种方式:邻接矩阵、vector实现邻接表、数组模拟单链表实现的前向星…

FFmpeg开发笔记(三十)解析H.264码流中的SPS帧和PPS帧

《FFmpeg开发实战:从零基础到短视频上线》一书的“2.1.1 音视频编码的发展历程”介绍了H.26x系列的视频编码标准,其中H.264至今仍在广泛使用,无论视频文件还是网络直播,H.264标准都占据着可观的市场份额。 之所以H.264取得了巨大…

完美解决原生小程序点击地图markers上的点获取不到对应的坐标信息

需求:地图上有多个markes点,点击每一个获取对应的数据,再根据当前的坐标信息去调用导航。 出现的问题:每次点击的时候获取不到对应的坐标信息,获取到的信息显然不是想要的 原因: 因为你的id不是number类型&…

线上虚拟纪念馆的便利与优势,全天候开放的数字化历史体验

一、搭建线上虚拟纪念馆的意义 在现代社会中,线上虚拟纪念馆越来越受到人们的关注和欢迎。传统纪念馆需要大量的物理空间和资源,而线上虚拟纪念馆则突破了这些限制,提供了更多的可能性和优势。首先,线上虚拟纪念馆能够更好地保存和…

【有手就行】使用你自己的声音做语音合成,CPU都能跑,亲测有效

此文介绍在百度飞桨上一个公开的案例,亲测有效。 厌倦了前篇一律的TTS音色了吗?打开短视频听来听去就是那几个声音,快来试试使用你自己的声音来做语音合成吧!本教程非常简单,只需要你能够上传自己的音频数据就可以(建议…

Mac虚拟机工具 CrossOver 24.0.0 Beta3 Mac中文版

CrossOver是一款在Mac上运行Windows应用程序的软件,无需安装虚拟机或重启计算机,简化了操作过程,提高了工作效率,为用户带来便捷体验。前往Mac青桔下载,享受前所未有的便利和高效。摘要由作者通过智能技术生成 CrossOv…

JVM严镇涛版笔记【B站面试题】

前言 2023-06-19 18:49:33 出自B站 灰灰的Java面试 枫叶云链接:http://cloud.fynote.com/s/4976 JVM面试题大全 Lecturer :严镇涛 1.为什么需要JVM,不要JVM可以吗? 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译&#xff0c…

当代人工智能三教父——深度学习三巨头

文章目录 引言 人物介绍 突出贡献 专业名词解释 引言 今天下午闲来无事翻阅了一下csdn首页的头条文章——《27 岁天才创始人 Joel Hellermark 分享了自己和“AI 教父” Geoffery Hinton 的最新采访》 感觉挺有意思,就从头到尾的看了一遍,里面有很多…

6.1 if语句

计算机语言和人类语言类似,人类语言是为了解决人与人之间交流的问题,而计算机语言是为了解决程序员与计算机之间交流的问题。程序员编写的程序就是计算机的控制指令,控制计算机的运行。借助于编译工具,可以将各种不同的编程语言的…

免费分享一套微信小程序旅游推荐(智慧旅游)系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】,帅呆了~~

大家好,我是java1234_小锋老师,看到一个不错的微信小程序旅游推荐(智慧旅游)系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】,分享下哈。 项目视频演示 【免费】微信小程序旅游推荐(智慧旅游)系统(SpringBoot后端Vue管理端) Java毕业设计…

谷歌B端独立站建站推广,外贸建站训练营,傻瓜式教学

做外贸方法重要,工具更重要,而这些背后的规则和套路,身边的人往往不会告诉你,成功的人更不会教给你。本套课程主要内容包括:一套体系化的独立站建站方法,学会“高效学习”避免无效努力,拥有独立…

144.栈和队列:有效的括号(力扣)

题目描述 代码解决 class Solution { public:bool isValid(string s) {// 如果字符串长度为奇数&#xff0c;不可能是有效的括号字符串if(s.size() % 2 ! 0) return false;// 使用栈来存放括号stack<char> st;// 遍历字符串中的每一个字符for(int i 0; i < s.size();…

redis小知识

AOF与RDB的区别 AOF (Append Only File) 和 RDB (Redis Database) 都是Redis中的持久化机制&#xff0c;但有以下几点不同之处&#xff1a; 内容格式&#xff1a;AOF 以日志的形式记录所有写操作命令&#xff0c;而 RDB 则是在指定的时间间隔内对数据库进行快照&#xff0c;将数…