Kafka中的消息是如何存储的?

news2025/4/24 18:23:57

大家好,我是锋哥。今天分享关于【Kafka中的消息是如何存储的?】面试题。希望对大家有帮助;

1000道 互联网大厂Java工程师 精选面试题-Java资源分享网

在 Kafka 中,消息是通过 日志(Log) 的方式进行存储的。Kafka 的存储模型设计非常高效,能够处理大规模的数据流,下面详细介绍 Kafka 中消息的存储方式:

1. 分区(Partition)

Kafka 中的每个 主题(Topic) 可以包含多个 分区(Partition)。每个分区是一个 有序的、不可变的消息序列。Kafka 的消息存储实际上是基于分区的,每个分区是一个独立的日志文件。每个分区内的消息都有一个 顺序的偏移量(offset),这个偏移量是唯一的,可以标识消息在分区中的位置。

  • 每个分区是 线性增长的,即新写入的消息会追加到分区日志的末尾。
  • 每个消息在 Kafka 中都会有一个唯一的偏移量,它标识该消息在分区中的位置。偏移量是递增的,且不允许重复。

2. 消息存储的文件结构

Kafka 中每个分区都对应于文件系统中的一个目录,该目录下存储着实际的日志文件(日志段文件)。这些日志文件会随着时间的推移而生成。

结构如下:
  • 日志段文件(Log Segments):每个分区会生成一个或多个日志段文件,每个文件存储一段时间内的消息。这些文件通常是 append-only 的,即消息会不断地被追加到文件末尾。Kafka 通过这种方式实现高效的磁盘写入。

    • 一个日志段文件通常包含一定数量的消息。
    • 每个日志段文件通常会以时间戳或大小为阈值分割。
  • 索引文件(Index Files):为了快速定位消息,Kafka 会为每个分区的日志段生成一个索引文件。该索引文件存储了消息的偏移量与文件中位置的映射。通过索引文件,消费者可以快速定位到某个特定消息。

3. 消息的存储格式

Kafka 消息的存储格式通常包括以下几个部分:

  • 消息头(Header):包括消息的元数据,如时间戳、消息类型等。
  • 消息体(Body):这是实际的消息内容。
  • 校验和(Checksum):为了保证消息的完整性,Kafka 会对消息进行校验,确保在传输和存储过程中没有数据损坏。

4. 日志的持久化与清理

Kafka 的消息并不是永久存储的。消息会根据配置的 保留策略 进行清理。Kafka 支持两种主要的日志保留策略:

  • 基于时间的保留(Time-based retention):消息在 Kafka 中存储一段指定的时间,例如可以配置 Kafka 保留消息 7 天,超过7天的消息将被自动删除。

  • 基于大小的保留(Size-based retention):当分区中的日志文件达到某个大小时,旧的消息会被删除或压缩,以释放空间。比如,可以配置保留最多1GB的数据,超过该大小时,最旧的日志会被删除。

Kafka 的日志清理是一个后台任务,它会定期检查日志的大小或存储时间,自动删除过期的消息。这种设计使得 Kafka 在处理海量数据时能够有效管理磁盘空间。

5. 消息的副本(Replication)

为了保证数据的高可用性和容错性,Kafka 支持消息的 副本机制(Replication)。每个分区可以有多个副本(副本数量由配置决定),这些副本存储在不同的 Kafka 节点上。

  • 主副本(Leader):每个分区有一个主副本(Leader),所有的生产者和消费者通过主副本来读写数据。
  • 副本(Followers):主副本有一个或多个副本,副本同步主副本的消息,确保即使主副本故障,也能从副本恢复数据。

副本机制不仅保证了数据的高可用性,还能提高 Kafka 的容错能力。即使某些 Kafka 节点出现故障,数据依然可以从其他副本恢复。

6. 消费与存储隔离

Kafka 中的消息存储和消费是 解耦的,这意味着消息一旦写入 Kafka 中,就会持续存在于磁盘上,直到它们满足清理条件(例如超过保留时间或达到大小限制)。消费者消费数据时不需要影响消息的存储,消费者可以随时从任何偏移量开始读取数据。这种设计使得 Kafka 能够实现高效的数据存储与消费。

总结

Kafka 中的消息存储基于 分区(Partition)日志文件。每个主题由多个分区组成,分区内部的消息以 顺序追加的方式 存储。每个分区中的消息按偏移量排序,消息会保存在磁盘上,直到满足保留策略(如时间或大小限制)。此外,Kafka 通过 副本机制 提高了数据的容错性和高可用性,确保消息在分布式环境中的可靠存储。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324481.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Altium Designer——同时更改多个元素的属性(名称、网络标签、字符串标识)

右键要更改的其中一个对象,选择查找相似… 进入到筛选界面,就是选择你要多选的对象的共同特点(名字、大小等等),我这里要更改的是网络标签,所以我选择Text设置为一样。 点击应用就是应用该筛选调节&#…

当模板方法模式遇上工厂模式:一道优雅的烹饪架构设计

当模板方法模式遇上工厂模式:一道优雅的烹饪架构设计 模式交响曲的实现模板方法模式搭建烹饪骨架(抽象类)具体菜品(子类) 工厂模式 模式协作的优势呈现扩展性演示运行时流程控制 完整代码 如果在学习 设计模式的过程中…

企业级知识库建设:自建与开源产品集成的全景解析 —— 产品经理、CTO 与 CDO 的深度对话

文章目录 一、引言二、主流产品与方案对比表三、自建方案 vs. 开源产品集成:技术路径对比3.1 自建方案3.2 开源产品集成方案 四、结论与个人观点 一、引言 在当今数据驱动的商业环境中,构建高质量的知识库已成为企业数字化转型的关键一环。本博客分别从…

vue3项目配置别名

vue3项目配置别名 src别名的配置TypeScript 编译配置如果出现/别名引入报找不到的问题 src别名的配置 在开发项目的时候文件与文件关系可能很复杂,因此我们需要给src文件夹配置一个别名!!! // vite.config.ts import {defineCon…

[ C语言 ] | 从0到1?

目录 认识计算机语言 C语言 工欲善其事必先利其器 第一个C语言代码 这一些列 [ C语言 ] ,就来分享一下 C语言 相关的知识点~ 认识计算机语言 我们说到计算机语言,语言,就是用来沟通的工具,计算机语言呢?就是我们…

[Mac]利用Hexo+Github Pages搭建个人博客

由于我这台Mac基本没啥环境,因此需要从零开始配置,供各位参考。 注意⚠️:MacBook (M4)使用/bin/zsh作为默认Shell,其对应的配置文件为~/.zshrc 参考文档: HEXO系列教程 | 使用GitHub部署静态博客HEXO | 小白向教程 文…

Qt在IMX6ULL嵌入式系统中图片加载问题排查与解决

Qt在IMX6ULL嵌入式系统中图片加载问题排查与解决(保姆级教学!) 在使用Qt开发IMX6ULL嵌入式系统的过程中,我遇到了图片加载的常见问题。本文将分享问题排查的详细过程和解决方案,希望能帮助遇到类似困难的开发者。 问题…

界面控件Telerik和Kendo UI 2025 Q1亮点——AI集成与数据可视化

Telerik DevCraft包含一个完整的产品栈来构建您下一个Web、移动和桌面应用程序。它使用HTML和每个.NET平台的UI库,加快开发速度。Telerik DevCraft提供完整的工具箱,用于构建现代和面向未来的业务应用程序,目前提供UI for ASP.NET MVC、Kendo…

pycharm终端操作远程服务器

pycharm项目已经连接了远程服务器,但是打开终端,却依旧显示的是本地的那个环境,也就是说没有操作远程的那个环境。只能再使用Xshell去操作远程环境,很麻烦,找了下教程。 来源:https://blog.csdn.net/maolim…

接口测试中数据库验证,怎么解决?

在接口测试中,通常需要在接口调用前后查询数据库,以验证接口操作是否正确影响了数据库状态。​这可以通过数据库断言来实现,PyMySQL库常用于连接和操作MySQL数据库。​通过该库,可以在测试中执行SQL语句,查询或修改数据…

Playwright从入门到实战:比Selenium更快的数据爬取案例实战

摘要 Playwright 是微软开源的下一代浏览器自动化工具,凭借其高性能、跨浏览器支持和现代化设计,迅速成为 Web 自动化领域的热门选择。本文将从 安装配置 开始,通过 实战演练 展示其核心功能,并与 Selenium 深度对比,…

day1_Flink基础

文章目录 Flink基础今日课程内容目标为什么要学Flink技术更新迭代市场需求 流式计算批量计算概念特点 批量计算的优势和弊端流式计算生活中流场景流式计算的概念 Flink简介Flink历史Flink介绍 Flink架构体系已学过的框架技术Flink架构 Flink集群搭建Flink的集群模式Standalone模…

使用FastExcel时的单个和批量插入的问题

在我们用excel表进行插入导出的时候,通常使用easyexcel或者FastExcel,而fastexcel是easy的升级版本,今天我们就对使用FastExcel时往数据库插入数据的业务场景做出一个详细的剖析 场景1 现在我们数据库有一张组织表,组织表的字段…

交换技术综合实验

一、实验拓扑 二、实验要求 内网IP地址使用172.16.0.0/16分配。 SW1和SW2之间互为备份。 VRRP/STP/VLAN/Eth-trunk均使用。 所有PC通过DHCP获取IP地址。 ISP只能配置IP地址。 所有电脑可以正常访问ISP路由器。 三、实验步骤 基于172.16.0.0/16进行划分 172.16.2.0/24&…

记录Jmeter 利用BeanShell 脚本解析JSON字符串

下载org.json包(文档说明) #下载地址 https://www.json.org/ # github 地址 https://github.com/stleary/JSON-java # api 文档说明 https://resources.arcgis.com/en/help/arcobjects-java/api/arcobjects/com/esri/arcgis/server/json/JSONObject.htmlBeanShell脚本 import…

深入解析音频:格式、同步及封装容器

物理音频和数字音频 物理音频 定义:物理音频就是声音在自然界中的物理表现形式,本质上是一种机械波,通过空气或其他介质传播。例如,当我们说话、乐器演奏或物体碰撞时,都会产生振动,这些振动会引起周围介…

RPCGC阅读

24年的MM 创新 现有点云压缩工作主要集中在保真度优化上。 而在实际应用中,压缩的目的是促进机器分析。例如,在自动驾驶中,有损压缩会显着丢失户外场景的详细信息。在三维重建中,压缩过程也会导致场景数据中语义信息(Contour)的…

医疗CMS高效管理:简化更新维护流程

内容概要 医疗行业内容管理系统(CMS)的核心价值在于应对医疗信息管理的多维复杂性。面对诊疗指南的动态更新、科研数据的快速迭代以及多机构协作需求,传统管理模式往往面临效率瓶颈与合规风险。现代化医疗CMS通过构建结构化权限管理矩阵&…

《Spring Cloud Eureka 高可用集群实战:从零构建高可靠性的微服务注册中心》

从零构建高可用 Eureka 集群 | Spring Cloud 微服务架构深度实践指南 本文核心内容基于《Spring Cloud 微服务架构开发》第1版整理,结合生产级实践经验优化 实验环境:IntelliJ IDEA 2024 | JDK 1.8| Spring Boot 2.1.7.RELEASE | Spring Cloud Greenwich…

DSP+AI综合应用案例1——三种波形识别(预告)

采用1kHz采样率,识别方波、正弦波、三角波三种波形,算法采用傅里叶变换与神经网络,识别结果如下: 可以达到1ms内实现检测,逐渐完善到CanMV K230 或MCU中,待续