Kafka 实战指南:原理剖析与高并发场景设计模式

news2025/4/23 23:55:55

一、介绍

Kafka是由 Apache 软件基金会开发的开源流处理平台,作为高吞吐量的分布式发布订阅消息系统,采用 Scala 和 Java 编写。

Kafka是一种消息服务(MQ),在理论上可以达到十万的并发。

代表的MQ软件——

kafka 十万并发

RocketMa 百万并发

rabbitMQ 十万并发

zeroMQ 百万并发

二、术语解释

1.Producer(生产者)

  • 负责将消息发送到 Kafka 集群的进程;
  • 根据消息的 Key 或分区策略,将消息路由到对应 Topic 的分区;
  • 支持异步批量发送,提升吞吐量。

2.Consumer(消费者)

  • 从 Kafka 集群订阅并处理消息的进程;
  • 通过消费者组(Consumer Group)实现负载均衡,同一组内的消费者竞争消费分区消息;
  • 通过手动提交偏移量(Offset)精确控制消费进度。

3.Broker(消息服务器)

  • Kafka 集群的核心节点,负责存储、管理消息;
  • 每个 Topic 被划分为多个分区(Partition),Broker 管理分区的分配、复制和故障转移;
  • 支持水平扩展,通过添加节点提升集群容量和性能。

4.Topic(主题) 

  • 消息的逻辑分组,按业务模块划分;
  • 物理上由多个分区组成,消息按追加模式写入分区日志;
  • 支持多生产者写入和多消费者组订阅。

5.Partition(分区)  

  • Topic 的物理分片,每个分区是有序的、不可变的消息日志;
  • 单个分区内的消息严格有序,不同分区间消息顺序无关;
  • 通过多分区并行读写,提升消息处理吞吐量。

三、作用

用来处理消费者在网站中的所有动作流数据,就是在分布式业务环境,实现不同组件、不同的功能模块的高效通信。

四、优点

1、解耦:允许我们独立的扩展或修改列两边的处理过程;

2、扩展性: 因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可;

3、流量削峰:高流量的时候,使用消息队列作为中间件可以将流量的高峰保存在消息队列中,从而防止了系统的高请求,减轻服务器的请求处理压力;

4、可恢复性:即使一个处理消息的进程挂掉,加入队列中的消息仍可以在系统恢复后被处理;

5、顺序保证: 在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性;

6、缓冲:有助于解决生产消息和消费消息的处理速度不一致的情况;

7、异步通信:消息队列允许用户把消息放入队列但不立即处理它。

(解耦是降低系统组件间依赖,使其独立运行、灵活扩展的设计方法,常见于消息队列、微服务等场景,可提升系统灵活性与可靠性)

 (Partition是分区,在Kafka工作过程中,生产者将消息发送到特定Topic主题中,消费者通过订阅Topic 获取消息,而每个Topic可分为多个分区,分区是Topic的物理分片,如下图所示)

(Kafka设定Topic主题这一概念就是为了确保消息的有序性的,就是确保消息的顺序的)

五、观察者模式

(1)描述

观察者模式(Observer),又叫发布-订阅模式(Publish/Subscribe)

(2)依赖关系

定义对象间一种一对多的依赖关系,使得每当一个对象改变状态,则所有依赖于它的对象都会得到通知并自动更新,一个对象目标对象的状态发生改变,所有的依赖对象观察者对象都将得到通知。

六、生产者消费者模式

(1)介绍

生产者消费者模式——

即N个线程进行生产,同时N个线程进行消费,两种角色通过内存缓冲区进行通信

 生产者——

负责向缓冲区里面添加数据单元

 消费者——

负责从缓冲区里面取出数据单元

(2)与传统模式的比较

传统模式——

生产者直接将消息传递给指定的消费者;

耦合性特别高,当生产者或者消费者发生变化,都需要重写业务逻辑。

生产者消费者模式——

通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列(通过FIFO以及阻塞机制来实现)来进行通讯。

(3)数据传递流程

 生产者将生产好的数据以数据单元的格式放入缓存区,之后消费者从缓冲区中取出数据单元,而且整个过程一般遵循FIFO先进先出原则,支持多并发

七、缓冲区

(1)解耦

假设生产者和消费者分别是两个类。如果让生产者直接调用消费者的某个方法,那么生产者对于消费者就会产生依赖,所以缓冲区通过中间容器切断生产者与消费者的直接联系,实现代码、执行流程、故障和扩展的全面解耦,以支持异步处理,增强系统灵活性和可靠性

(2)支持并发

生产者直接同步调用消费者方法时,若消费者处理缓慢会导致生产者阻塞。通过缓冲区的异步处理机制解耦生产与消费流程,允许多线程 / 进程并行读写,结合线程安全保障操作原子性,并通过流量控制实现流量削峰,显著提升系统吞吐量和资源利用率。

(3)支持忙闲不均

缓冲区还有另一个好处。如果制造数据的速度时快时慢,缓冲区的好处就体现出来了,当数据制造快的时候,消费者来不及处理,未处理的数据可以暂时存在缓冲区中,等生产者的制造速度慢下来,消费者再慢慢处理掉。

八、消息系统的核心原理

(1)点对点消息传递

在点对点消息系统中,消息持久化到一个队列中,此时将有一个或多个消费者消费队列中的数据,但是一条消息只能被消费一次,当一个消费者消费了队列中的某条数据之后,该条数据则从消息队列中删除,该模式即使有多个消费者同时消费数据,也能保证数据处理的顺序,基于推送模型的消息系统,由消息代理记录消费状态,消息代理将消息推送(push)到消费者后,标记这条消息为已经被消费,但是这种方式无法很好地保证消费的处理语义。

 (2)发布订阅消息传递

在发布-订阅消息系统中,消息被持久化到一个topic(主题)中,消费者可以订阅一个或多个topic,消费者可以消费该topic中所有的数据,同一条数据可以被多个消费者消费,数据被消费后不会立马删除,在发布-订阅消息系统中,消息的生产者被称为发布者,消费者被称为订阅者,Kafka 采取拉取模型(Pol),由自己控制消费速度,消费者可以按照任意的偏移量进行消费。

(点对点模型就好比那邮递员按顺序送信,一封信只能被一个收件人收取,且按发送顺序到达邮箱;而发布订阅模型就类似广播,一条消息被所有人接收,只是顺序可能不一致)

九、消息确认机制

(1)介绍

Kafka 通过消费者手动提交偏移量(Offset)来实现消息确认。

当product发送消息后,leader(主)将消息同步给follower(从),然后返回ack给producter,表示消息已经收到了,此时才可以继续发送下一条消息。

Kafka提供了以下三种ack级别(就是下面的可靠性语义)——

0(异步):leader接受到了消息马上返回ack,此时可能还没有写入磁盘,可能丢失数据。

1(半同步):leader将消息写入磁盘后,马上返回ack,此时可能还没有同步follower,同样可能丢失数据。

-1(all)(同步):leader和follower都将数据写入磁盘后,返回ack。但是如果在写入磁盘后,ack尚未发送,此时leader发生了故障,会导致数据写入重复。

(这三个就是,0先不向从服务器保持同步,直接返回ack确认;1是只要有一台从服务器同步了,就直接返回ack确认;而-1是确保所有的从服务器同步完成后才返回ack确认)

(2)确认流程

消费者从分区拉取消息并处理;

处理完成后,消费者向Kafka提交已处理消息的偏移量;

Kafka记录偏移量,作为消息 “已确认” 的依据。

(3)可靠性语义

至少一次(At-Least-Once):先处理消息再提交,确保消息不丢失(可能重复

最多一次(At-Most-Once):先提交再处理,避免重复(可能丢失

 (4)优缺点

优点——

精确控制:消费者手动提交偏移量,确保消息处理完成后确认,保障数据一致性;

灵活语义:支持防丢失、防重复的不同功能,适配不同可靠性需求;

异步批量优化:批量提交减少交互次数,提升吞吐量;

高可用性:消费者组内实例独立管理偏移量,故障不影响其他实例。

缺点——

开发难度大:需手动管理偏移量提交逻辑,处理异常场景,易引入bug;

数据风险高:至少一次语义可能导致消息重复,最多一次语义有消息丢失风险;

运维成本高:偏移量存储在内部主题,需额外维护分区和副本;

可见性受影响:延迟确认会使消息未及时标记为已消费,影响可见性。  

十、副本机制

就是Kafka接收到消息(数据)会为之创建对应的副本,确保整个服务的高可用性和数据冗余。


Kafka安装部署-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2326469.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大型语言模型Claude的“思维模式”最近被公开解剖

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

前端界面在线excel编辑器 。node编写post接口获取文件流,使用传参替换表格内容展示、前后端一把梭。

首先luckysheet插件是支持在线替换excel内容编辑得但是浏览器无法调用本地文件,如果只是展示,让后端返回文件得二进制文件流就可以了,直接使用luckysheet展示。 这里我们使用xlsx-populate得node简单应用来调用本地文件,自己写一个…

核心知识——Spark核心数据结构:RDD

引入 通过前面的学习,我们对于Spark已经有一个基本的认识,并且搭建了一个本地的练习环境,因为本专栏的主要对象是数仓和数分,所以就不花大篇幅去写环境搭建等内容,当然,如果感兴趣的小伙伴可以留言&#x…

【数据分享】中国3254座水库集水区特征数据集(免费获取)

水库在水循环、碳通量、能量平衡中扮演关键角色,实实在在地影响着我们的生活。其功能和环境影响高度依赖于地理位置、上游流域属性(如地形、气候、土地类型)和水库自身的动态特征(如水位、蒸发量)。但在此之前一直缺乏…

我用Axure画了一个富文本编辑器,还带交互

最近尝试用Axure RP复刻了一个富文本编辑器,不仅完整还原了工具栏的各类功能,还通过交互设计实现了接近真实编辑器操作体验。整个设计过程聚焦功能还原与交互流畅性,最终成果令人惊喜。 编辑器采用经典的三区布局:顶部工具栏集成了…

Uniapp自定义TabBar组件全封装实践与疑难问题解决方案

前言 在当前公司小程序项目中,我们遇到了一个具有挑战性的需求:根据不同用户身份动态展示差异化的底部导航栏(TabBar) 。这种多角色场景下的UI适配需求,在提升用户体验和实现精细化运营方面具有重要意义。 在技术调研…

【PCB工艺】软件是如何控制硬件的发展过程

软件与硬件的关系密不可分,软件的需求不断推动硬件的发展,而硬件的进步又为软件创新提供了基础。 时光回溯到1854年,亨利戈培尔发明了电灯泡(1879年,托马斯阿尔瓦爱迪生找到了更合适的材料研制出白炽灯。)…

【教程】如何利用bbbrisk一步一步实现评分卡

利用bbbrisk一步一步实现评分卡 一、什么是评分卡1.1.什么是评分卡1.2.评分卡有哪些 二、评分卡怎么弄出来的2.1.如何制作评分卡2.2.制作评分卡的流程 三、变量的分箱3.1.数据介绍3.2.变量自动分箱3.3.变量的筛选 四、构建评分卡4.1.评分卡实现代码4.2.评分卡表4.3.阈值表与分数…

丝杆,同步带,链条选型(我要自学网)

这里的选型可以70%的正确率,正确率不高,但是选型速度会比较快。 1.丝杆选型 后面还有一堆计算公式,最终得出的结果是导程25,轴径25mm的丝杆。 丝杆选择长度时,还要注意细长比,长度/直径 一般为30到50。 2…

【YOLO系列】基于YOLOv8的无人机野生动物检测

基于YOLOv8的无人机野生动物检测 1.前言 在野生动物保护、生态研究和环境监测领域,及时、准确地检测和识别野生动物对于保护生物多样性、预防人类与野生动物的冲突以及制定科学的保护策略至关重要。传统的野生动物监测方法通常依赖于地面巡逻、固定摄像头或无线传…

一文详细讲解Python(详细版一篇学会Python基础和网络安全)

引言 在当今数字化时代,Python 作为一种简洁高效且功能强大的编程语言,广泛应用于各个领域,从数据科学、人工智能到网络安全等,都能看到 Python 的身影。而网络安全作为保障信息系统和数据安全的关键领域,其重要性不言…

【Java】Hibernate的一级缓存

Session是有一个缓存, 又叫Hibernate的一级缓存 session缓存是由一系列的Java集合构成的。当一个对象被加入到Session缓存中,这个对象的引用就加入到了java的集合中,以后即使应用程序中的引用变量不再引用该对象,只要Session缓存不被清空&…

学习笔记--(6)

import numpy as np import matplotlib.pyplot as plt from scipy.special import erfc# 设置参数 rho 0.7798 z0 4.25 # 确保使用大写 Z0,与定义一致def calculate_tau(z, z_prime, rho, s_values):return np.log(rho * z * z_prime * s_values / 2)# 定义 chi_…

JWT在线解密/JWT在线解码 - 加菲工具

JWT在线解密/JWT在线解码 首先进入加菲工具 选择 “JWT 在线解密/解码” https://www.orcc.top 或者直接进入JWT 在线解密/解码 https://www.orcc.top/tools/jwt 进入功能页面 使用 输入对应的jwt内容,点击解码按钮即可

飞桨PP系列新成员PP-DocLayout开源,版面检测加速大模型数据构建,超百页文档图像一秒搞定

背景介绍 文档版面区域检测技术通过精准识别并定位文档中的标题、文本块、表格等元素及其空间布局关系,为后续文本分析构建结构化上下文,是文档图像智能处理流程的核心前置环节。随着大语言模型、文档多模态及RAG(检索增强生成)等…

飞速(FS)HPC无损组网:驱动AI高性能计算网络转型升级

案例亮点 部署低功耗、高密度飞速(FS)以太网交换机,紧凑机身设计节省70%机房空间,冗余电源和智能风扇确保系统高可用性,有效优化散热和降低能耗。 支持25G/40G/100G多速率自适应交换架构,构建超低时延企业…

git 常用操作整理

一.git 的概念 Git 是一个分布式版本控制系统,用于跟踪文件的更改历史,帮助开发者管理代码的版本。以下是关于 Git 的一些基本概念: 1. 仓库(Repository) - **本地仓库**:在你的计算机上存储的项目文件及…

JAVA数据库增删改查

格式 Main.java(测试类) package com.example;import com.example.dao.UserDao; import com.example.model.User;public class Main {public static void main(String[] args) {UserDao userDao new UserDao();// 测试添加用户System.out.println(" 添加用户 ");Us…

上海某海外视频平台Android高级工程师视频一面

问的问题比较细,有很多小细节在里面,平时真不一定会注意到,做一个备忘: 1.Object类里面有哪些方法? Object 类是 Java 中所有类的根类,它定义了一些基本方法,供所有类继承和重写1. 常用方法 1…

前后端数据序列化:从数组到字符串的旅程(附优化指南)

🌐 前后端数据序列化:从数组到字符串的旅程(附优化指南) 📜 背景:为何需要序列化? 在前后端分离架构中,复杂数据类型(如数组、对象)的传输常需序列化为字符…