重新理解RocketMQ Commit Log存储协议

重新理解RocketMQ Commit Log存储协议

news2026/2/11 7:27:02

最近突然感觉：很多软件、硬件在设计上是有root reason的，不是by desgin如此，而是解决了那时、那个场景的那个需求。一旦了解后，就会感觉在和设计者对话，了解他们的思路，学习他们的方法，思维同屏：活到老学到老。

问题思考

1、Consumer Queue Offset是连续的吗，为什么？

2、Commit Log Offset是连续的吗，为什么？

3、Java写的文件，默认是大端序还是小端序，为什么？

Commit Log真实分布

在大家思考之际，我们回想下commit log是怎么分布的呢?

在Broker配置的存储根目录下，通过查看Broker实际生成的commit log文件可以看到类似下面的数据文件分布：

Broker真实数据文件存储分布

可以看到，真实的存储文件有多个，每一个都是以一串类似数字的字符串作为文件名的，并且大小1G。

我们结合源码可以知道，实际的抽象模型如下：

Commit Log存储文件分布抽象

由上图得知：

Commit Log是一类文件的称呼，实际上Commit Log文件有很多个，每一个都可以称为Commit Log文件。如图中表示了总共有T个Commit Log文件，他们按照由过去到现在的创建时间排列。

每个Commit Log文件都保存消息，并且是按照消息的写入顺序保存的，并且总是在写创建时间最大的文件，并且同一个时刻只能有一个线程在写。如图中第1个文件，1，2，3，4…表示这个文件的第几个消息，可以看到第1234个消息是第1个Commit Log文件的最后一个消息，第1235个消息是第2个Commit Log的第1个消息。

说明1：每个Commit Log文件里的全部消息实际占用的存储空间大小<=1G。这个问题大家自行思考下原因。

说明2：每次写Commit Log时， RocketMQ都会加锁，代码片段见 https://github.com/apache/rocketmq/blob/7676cd9366a3297925deabcf27bb590e34648645/store/src/main/java/org/apache/rocketmq/store/CommitLog.java#L676-L722

append加锁

我们看到Commit Log文件中有很多个消息，按照既定的协议存储的，那具体协议是什么呢，你是怎么知道的呢？

Commit Log存储协议

关于Commit Log存储协议，我们问了下ChatGPT，它是这么回复我的，虽然不对，但是这个回复格式和说明已经非常接近答案了。

ChatGPT回复

我们翻看源码，具体说明下：https://github.com/apache/rocketmq/blob/rocketmq-all-4.9.3/store/src/main/java/org/apache/rocketmq/store/CommitLog.java#L1547-L1587

Commit Log存储协议

我整理后，如下图：

我理解的Commit Log存储协议

说明1：我整理后的消息协议编号和代码中不是一致的，代码中只是标明了顺序，真实物理文件中的存储协议会更详细。说明2：在我写的《RocketMQ分布式消息中间件：核心原理与最佳实践》中，这个图缺少了Body内容，这里加了，也更详细的补充了其他数据。这里有几个问题需要说明下：

1、二进制协议存在字节序，也就是常说的大端、小端。大小端这里不详细说明感兴趣的同学自己google或者问题ChatGPT，回答肯定比我说的好。

2、在java中，一个byte占用1个字节，1个int占用4个字节，1个short占用2个字节，1个long占用8个字节。

3、Host的编码并不是简单的把IP:Port作为字符串直接转化为byte数组，而是每个数字当作byte依次编码。在下一节的Golang代码中会说明。

4、扩展信息的编码中，使用了不可见字符作为分割，所以扩展字段key-value中不能包含那2个不可见字符。具体是哪2个，大家找找？

我们看到这个协议后，如何证明你的物理文件就是按照这个协议写的呢？

用Golang解开RocketMQ Commit Log

RocketMQ是用java写的，根据上文描述的存储协议，我用Golang编写了一个工具，可以解开Commit Log和Cosumer Queue，代码地址：https://github.com/rmq-plus-plus/rocketmq-decoder。

这个工具目前支持2个功能：

1、指定Commit Log位点，直接解析Commit Log中的消息，并且打印。

2、指定消费位点，先解析Consumer Queue，得到Commit Log Offset后，再根据Commit Log Offset直接解析Commit Log，并且打印。

在Golang中没有依赖RocketMQ的任何代码，纯粹是依靠协议解码。

golang-import

这里贴了一段golang中解析Commit Log Offset的例子：在java中这个offset是一个long类型，占用8个字节。

在golang中，读取8个字节长度的数据，并且按照大端序解码为int64，就可以得到正常的Commit Log Offset。

Golang-demo
我跑了一个demo结果，大家参考：

读取consumer-queue-commit-log

回答最初的问题

以下为个人见解，大家参考：

1、Consumer Queue Offset是连续的吗，为什么？

是连续的。

consumer queue offset，是指每个queue中索引消息的下标，下标当然是连续的。消费者也是利用了这个连续性，避免消费位点提交空洞的。

每个索引消息占用相同空间，都是20字节，结构如下：

consumer-queue索引消息结构

这里物理位点也就是Commit Log Offset。

2、Commit Log Offset是连续的吗，为什么？

不是连续的。

Commit Log Offset是指的每个消息在全部Commit Log文件中的字节偏移量，每个消息的大小是不确定的，所以Commit Log Offset，也即是字节偏移量肯定是不一样的。

并且可以知道，每两个偏移量的差的绝对值就是前一个消息的消息字节数总长度。

并且上文中图 “Commit Log存储文件分布抽象”中的有误解，每个小方格的大小其实是不一样的。

3、Java写的文件，默认是大端序还是小端序，为什么？

大端序。大端序其实有字节存储顺序和网络传输顺序，java中默认用的大端序，保持和网络传输一样，这样方便编解码。

每段网络传输层的数据报文最前面的字节是表达后面的数据是用什么协议传输的，这样数据接收者在接受数据时，按照字节顺序，先解析协议，再根据协议解码后面的字节序列，符合人类思考和解决问题的方式。

讨论说明：由于RocketMQ一些版本可能有差异，本文在4.9.3版本下讨论，大家可以参考这个方法，解开5.0甚至其他版本，其他数据文件的存储协议格式。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/540276.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JSON格式化工具

JSON格式化工具

格式化JSON有多种方式，选两种。 1.在线JSON格式化我喜欢用这个网站：在线JSON工具 2.Notepad插件需要插件 - JSON Viewer。安装方式： 2.1 点击工具栏“插件”-选择“插件管理…”,弹出插件管理窗口，在“可用”tab页&#xf…

阅读更多...

一般人不会告诉你的FP独立站低成本运营内幕

一般人不会告诉你的FP独立站低成本运营内幕

不少朋友听说FP独立站盈利比较高之后就兴致勃勃地跟着别人建站、装修、选品……但在此之前有没有仔细想过，一个成功的F牌独立站到底要怎么运营？而且是，怎么低成本运营？现在我就跟大家分享一下，希望有想法入局F牌独立站…

阅读更多...

CorelDRAW2023最新v24.4.0.623中文稳定版

CorelDRAW2023最新v24.4.0.623中文稳定版

图形设计软件CorelDRAW2023最新版下载矢量图形制作工具,CorelDRAW（简称CDR）是一款专业的图形设计软件。该软件是Corel公司开发的一款功能强大的专业平面设计软件、矢量设计软件、矢量绘图软件。这款矢量图形制作工具软件广泛应用于商标设计、标志制作、封…

阅读更多...

史上最全类和对象，只要你认真看完C++类和对象，分分钟钟都吊打面试官【 C++】

史上最全类和对象，只要你认真看完C++类和对象，分分钟钟都吊打面试官【 C++】

文章目录基础篇面向过程和面向对象类的引入类的定义类的访问限定符类的封装类的作用域类的实例化类对象模型如何计算类对象的大小类对象的存储方式猜测对象中包含类的各个成员代码只保存一份，在对象中保存存放代码的地址只保存成员变量，成员函数存放在公…

阅读更多...

10.计算机基础-操作系统面试题—计算机系统概述、进程管理

10.计算机基础-操作系统面试题—计算机系统概述、进程管理

本文目录如下： 计算机基础-操作系统面试题一、计算机系统概述CPU 内核态和用户态的区别？从用户态切换到内核态的常见方法： 二、进程管理线程和进程的区别？协程 (goroutine) 和线程的区别?进程有哪些状态？…

阅读更多...

如果一定要在C++和JAVA中选择，是C++还是java？

如果一定要在C++和JAVA中选择，是C++还是java？

前言 C和Java都是广泛应用于软件开发领域的高级编程语言。它们都有着各自的优势和适用场景，因此在进行选择时需要考虑到具体的需求和使用情况。首先，C是一种面向对象的编程语言，它允许程序员直接控制计算机硬件，而且拥有较低的…

阅读更多...

【分享】免费并集多个人工智能于一体的在线使用网站

【分享】免费并集多个人工智能于一体的在线使用网站

哈喽，大家好，我是木易巷~ 今天来给大家分享一个集ChatGPT、GPT4、Claude等人工智能于一体的在线使用网站——Poe。地址：https://poe.com 以下是一个汇集了目前热门人工智能工具的网站，只需使用一个神奇的工具，通过邮…

阅读更多...

Todoist 的 10 种最佳替代品（功能、优点、缺点、定价）

Todoist 的 10 种最佳替代品（功能、优点、缺点、定价）

寻找最好的 Todoist 替代品？ Todoist对项目管理者来说并不陌生，它自 2007 年以来就一直很出名！ ……但是作为老牌的组织类应用程序之一，现在再用它是否会觉得有点不顺手？ 虽然它为了更好适应当今的工作节奏&#xf…

阅读更多...

java 餐饮培训平台系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

java 餐饮培训平台系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

一、源码特点 java 餐饮培训平台系统是一套完善的java web信息管理系统，对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发，数据库为Mysql5.0&…

阅读更多...

Redis学习---05

Redis学习---05

一、Redis集群搭建，Redis主从复制，读写分离默认情况下每台redis服务器都是主节点。 (1) 主从复制：是指将一台redis服务器的数据，复制道其他redis服务。前者成为主节点，后者成为从节点。默认情况下每一台redis服务器…

阅读更多...

matlab编程基础

matlab编程基础

1数据结构 1.1常量与变量变量命名第一个字符必须为字母，变量可以由数字、字母、下划线组成，区分大小写。常量： 1.2 数值型数据双精度：64位智能存储15位左右十进制数 double() 单精度 ：32位，single…

阅读更多...

C++ 类和对象下 [补充]

C++ 类和对象下 [补充]

文章目录友元内部类内部类是外部类的天生友元匿名对象匿名对象的特性友元友元函数重载operator<< 输出自定义类型比如日期类的这个重载，就是解决类外访问私有变量的例子，设计成了友元函数。说明： 友元函数可访问类的私有和保护成…

阅读更多...

MS31703直流栅极驱动可pin对pin兼容DRV8703

MS31703直流栅极驱动可pin对pin兼容DRV8703

DRV870x-Q1 器件是一款小型单通道 H 桥栅极驱动器，它使用四个外部 N 通道 MOSFET，旨在驱动一个双向刷式直流电机。 PH/EN、独立 H 桥或 PWM 接口允许轻松连接到控制器电路。内部传感放大器提供可调的电流控制。集成的电荷泵可提供 100% 占空比支持&#…

阅读更多...

自动化测试 —— Airtest

自动化测试 —— Airtest

最近在做APP自动化过程中，有调研Airtest框架的使用，便初步介绍一下Airtest框架的使用，有兴趣的小伙伴，可以一起探讨学习~ (一）背景 Airtest是什么？ Airtest是一款基于Python的、跨平台的UI自动化测试框架&…

阅读更多...

数据结构与算法（三）

数据结构与算法（三）

一、队列队列（queue）:它是一种一种运算受限的线性表，FIFO（先进先出） 栈：后进先出受限之处：它只允许表的前端（front）进行删除操作，在表的后端(rear)进行插…

阅读更多...

如何高效搭建影视及游戏工业化管线？

如何高效搭建影视及游戏工业化管线？

影视和游戏工业化是指制作流程上呈现出标准化、自动化、平台化、数智化的特征。工业化趋势会让制作影视和游戏门槛变高，让其进入精品对决时代。不进行迭代，就面临被淘汰的危险。随着受众对于影视和游戏质量的要求越发“苛刻”，精品化是整…

阅读更多...

neovim下window的快捷切换

neovim下window的快捷切换

neovim下window的快捷切换在使用emacs的时候，喜欢加插件window-numbering。这样在分屏之后的emacs里，通过配置快捷键leaderwnumber 跳转到对应的windows, 而且该软件会在对应底部显示数字提示，非常方便。另外:为什么不用快捷键leadernumb…

阅读更多...

听老人一句劝，别去外包，干了四年，废了....

听老人一句劝，别去外包，干了四年，废了....

我是一个普通二本大学机械专业毕业，目前做IT行业的软件测试已经有4年多了，18年通过校招进入湖南某软件公司，干了接近4年的功能测试，今年年初，感觉自己不能够在这样下去了，长时间呆在一个舒适的环境会让一个…

阅读更多...

【源码篇】基于SSM+JSP实现的学生宿舍管理系统

【源码篇】基于SSM+JSP实现的学生宿舍管理系统

系统介绍基于SSMJSP实现的学生宿舍管理系统是一个基于B/S模式的学生宿舍管理系统，为学生、学校和宿管阿姨搭建了一个灵活自由并且安全可靠的管理平台。系统设计了6大菜单模块，分别是学生管理：学生信息的添加、修改、删除、查询、Excel导…

阅读更多...

VariantAutoencoder（VAE）中使用生成好的模型进行声音生成

VariantAutoencoder（VAE）中使用生成好的模型进行声音生成

文章目录概述一、soundgenerator.py文件soundgenerator.py实现代码一、convert_spectrogram_to_audio方法librosa.db_to_amplitudelibrosa.istft generate方法二、generate.py文件实现代码load_fsdd函数说明select_spectrogram函数说明save_signals函数说明main函数说明三、…

阅读更多...

推荐文章

最新文章