逐字节讲解 Redis 持久化(RDB 和 AOF)的文件格式

news2024/9/23 23:30:47

前言

相信各位对 Redis 的这两种持久化机制都不陌生,简单来说,RDB 就是对数据的全量备份,AOF 则是增量备份,而从 4.0 版本开始引入了混合方式,以 7.2.3 版本为例,会生成三类文件:RDB、AOF 和记录 aof 文件的元数据信息文件,如下图所示,这时的 AOF 可以看作是一种差异备份。

image-20231117142130770

接下来本文将结合具体的备份文件,通过分析其结构,从另一种角度来看两种持久化方式的差异。

RDB

首先是对 RDB 全量备份文件的解析,想要生成 RDB 文件,有两种方式,一种是手动方式:使用 save(阻塞)或者 bgsave(非阻塞)命令生成,一种是在配置文件中增加save m n(表示在 m 内,至少出现了 n 次变更就会执行 bgsave 命令)配置来实现。

下面就以一个具体的dump.rdb(在 0 号库中有一条键为 hello,值为 world 的记录)文件为例来解析其文件格式,由于 RDB 文件是二进制格式,这里使用了一个在线的十六进制编辑器进行查看:

image-20231117151039644

下文均是结合 Redis 7.2.3 版本的源码的 rdb.c 文件进行解析,对应源码地址。

0x00 Redis 版本

52 45 44 49 53 30 30 31 31,根据源码snprintf(magic,sizeof(magic),"REDIS%04d",RDB_VERSION);可以看到这里前五位是固定值REDIS,后四位用于标识RDB的版本对应11。

0x01 辅助信息

这部分涉及数据较多,先放出源码:

if (rdbSaveAuxFieldStrStr(rdb,"redis-ver",REDIS_VERSION) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb,"redis-bits",redis_bits) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb,"ctime",time(NULL)) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb,"used-mem",zmalloc_used_memory()) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb, "aof-base", aof_base) == -1) return -1;

结合编辑器右侧的信息,可以发现这部分数据下图中选中的数据:

在这里插入图片描述

  1. redis-ver(Redis 版本)

    这部分对应FA 09 72 65 64 69 73 2D 76 65 72 05 37 2E 32 32 2E 33,其中开头的FA(250)代表这部分数据是 AUX 属性字段,根据源码#define RDB_OPCODE_AUX 250可以了解到。然后是09 72 65 64 69 73 2D 76 65 72,09 代表随后的 9个字节是属性名,即redis-ver,最后是05 37 2E 32 32 2E 33,其中 05 代表随后的 5 个字节是属性名对应的字段值,即 Redis 的版本号7.2.3

  2. redis-bits(位架构)

    这部分对应FA 0A 72 65 64 69 73 2D 62 69 74 73 C0 40。参考 1 可知开始的FA代表AUXOA代表随后的 10 字节是属性名,即redis-bits。但是随后的C0就不再是代表值的长度了,这里先说明C0代表后续的一个字节按照整数进行读取,对应0x40(64),即代表是 Redis 的 64位架构。下面我们再来说明为什么会有以上的区别:

    其实代表值长度的不一定只有一个字节,这里会根据前两位进行判断(C0 对应1100 0000):

    • 如果前两位是 00 ,那么后续的 6 位(可表示 0 ~ 63)就代表实际的字符串长度。

    • 如果前两位是 01,那么接下来的一个字节也会用于表示长度,加上第一个剩下的 6 位,总共 14 位(可表示0 ~ 16383)代表实际的字符串长度。

    • 如果前两位是 10,那么剩下 6 位的值如果是 0,就代表随后的 32 字节代表具体长度,如果剩下 6 位的值是 1,就代表随后的 64 字节代表具体长度。

    • 如果前两位是 11,则需要根据整个字节的值再进行判断,如果是C0就代表将随后的 1 字节表示整数,如果是 C1 就代表随后的 2 字节表示整数,如果是 C2 就代表随后的 4 字节表示整数,如果是C3就代表随后的内容是使用LZF 压缩算法处理后的内容。

  3. ctime(文件创建时间)

    这部分对应FA 05 63 74 69 6D 65 C2 44 11 57 65,参考 1 可知开始的FA代表AUX05代表随后的 5 字节是属性名,即ctime。参考 2 中解析,可知随后的C2代表后续的 4 字节即44 11 57 65表示整数,由于需要按照小端序读取,因此对应的内容是 0x65571144,即秒级时间戳,如下图所示:

    image-20231120085845280

  4. used-mem(内存使用大小)

    这部分对应FA 08 75 73 65 64 2D 6D 65 6D C2 40 15 12 00,参考 1 可知开始的FA代表AUX08代表随后的 8 字节是属性名,即used-mem。参考 3 ,可知随后的C2代表后续的 4 字节即40 15 12 00表示整数,对应的内容是 0x00121540,即 Redis 在 创建 rdb 文件前占用的内存是 1185088 字节(1.13 MB)。

  5. aof-base (是否为 aof 基准文件)

    这部分对应FA 08 61 6F 66 2D 62 61 73 65 C0 00,参考 1 可知开始的FA代表AUX08代表随后的 8 字节是属性名,即aof-base。参考 2 中解析,可知随后的C0代表后续的 1 字节即00表示整数,即该 RDB 文件不是作为 AOF 的基准文件,后文中可以看到在 AOF 中生成的 RDB 文件中该值为 1。

0x02 数据部分

FE 00 FB 01 00 00 05 68 65 6C 6C 6F 05 77 6F 72 6C 64,这部分开始对应具体的数据信息,先展示源码:

/* save all databases, skip this if we're in functions-only mode */
if (!(req & SLAVE_REQ_RDB_EXCLUDE_DATA)) {
    for (j = 0; j < server.dbnum; j++) {
        if (rdbSaveDb(rdb, j, rdbflags, &key_counter) == -1) goto werr;
    }
}

// 以下内容是 rdbSaveDb 函数内的语句

/* Write the SELECT DB opcode */
if ((res = rdbSaveType(rdb,RDB_OPCODE_SELECTDB)) < 0) goto werr;
written += res;
if ((res = rdbSaveLen(rdb, dbid)) < 0) goto werr;
written += res;
/* Write the RESIZE DB opcode. */
unsigned long long expires_size = dbSize(db, DB_EXPIRES);
if ((res = rdbSaveType(rdb,RDB_OPCODE_RESIZEDB)) < 0) goto werr;
written += res;
if ((res = rdbSaveLen(rdb,db_size)) < 0) goto werr;
written += res;
if ((res = rdbSaveLen(rdb,expires_size)) < 0) goto werr;
written += res;

可以看出这部分是遍历所有的数据库内容然后进行保存,下面再结合具体的内容进行介绍。

首先是FE 00,其中FE(254)对应RDB_OPCODE_SELECTDB常量是查询数据库的标志,00即代表 0 号数据库。

然后是FB 01 00,其中FB(251)对应RDB_OPCODE_RESIZEDB常量是查询该数据库大小的标志,根据if ((res = rdbSaveLen(rdb,db_size)) < 0) goto werr;知道01代表数据库的大小,即只有一条数据,根据if ((res = rdbSaveLen(rdb,expires_size)) < 0) goto werr;知道00代表没有包含过期标志的数据。

最后是00 05 68 65 6C 6C 6F 05 77 6F 72 6C 64,代表具体的数据内容。其中开始的00代表类型是字符串,参考源码可知(RDB_TYPE_STRING 的值是 0):

/* Save the object type of object "o". */
int rdbSaveObjectType(rio *rdb, robj *o) {
    switch (o->type) {
    case OBJ_STRING:
        return rdbSaveType(rdb,RDB_TYPE_STRING);
    case OBJ_LIST:
        if (o->encoding == OBJ_ENCODING_QUICKLIST || o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb, RDB_TYPE_LIST_QUICKLIST_2);
        else
            serverPanic("Unknown list encoding");
    case OBJ_SET:
        if (o->encoding == OBJ_ENCODING_INTSET)
            return rdbSaveType(rdb,RDB_TYPE_SET_INTSET);
        else if (o->encoding == OBJ_ENCODING_HT)
            return rdbSaveType(rdb,RDB_TYPE_SET);
        else if (o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb,RDB_TYPE_SET_LISTPACK);
        else
            serverPanic("Unknown set encoding");
    case OBJ_ZSET:
        if (o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb,RDB_TYPE_ZSET_LISTPACK);
        else if (o->encoding == OBJ_ENCODING_SKIPLIST)
            return rdbSaveType(rdb,RDB_TYPE_ZSET_2);
        else
            serverPanic("Unknown sorted set encoding");
    case OBJ_HASH:
        if (o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb,RDB_TYPE_HASH_LISTPACK);
        else if (o->encoding == OBJ_ENCODING_HT)
            return rdbSaveType(rdb,RDB_TYPE_HASH);
        else
            serverPanic("Unknown hash encoding");
    case OBJ_STREAM:
        return rdbSaveType(rdb,RDB_TYPE_STREAM_LISTPACKS_3);
    case OBJ_MODULE:
        return rdbSaveType(rdb,RDB_TYPE_MODULE_2);
    default:
        serverPanic("Unknown object type");
    }
    return -1; /* avoid warning */
}

随后的05 68 65 6C 6C 6F中的 05表示键的长度是5,对应68 65 6C 6C 6Fhello。最后的05 77 6F 72 6C 64代表值的长度也是 5,内容是77 6F 72 6C 64world

0x03 尾部信息

FF 18 7F 33 2E 0F C6 20 19,根据源码#define RDB_OPCODE_EOF 255可知,FF(25)是文件的 EOF 即结束标志。随后的 8 位根据源码可知对应 CRC64 校验码:

/* EOF opcode */
if (rdbSaveType(rdb,RDB_OPCODE_EOF) == -1) goto werr;

/* CRC64 checksum. It will be zero if checksum computation is disabled, the
 * loading code skips the check in this case. */
cksum = rdb->cksum;
memrev64ifbe(&cksum);
if (rioWrite(rdb,&cksum,8) == 0) goto werr;

AOF

AOF 用于对数据库的增量备份,如果需要开启,需要将配置文件中的appendonly设置为 yes。同时,根据需要可以,设置appenddirname对应保存的文件夹,设置appendfilename用于配置文件名,设置appendfsync 用于配置频率。开启后,可以在指定的文件夹下看到类似以下的文件结构:

image-20231117142130770

其中 rdb 结尾的代表是 AOF 备份的基准文件,aof 文件是增量备份的执行命令信息,manifest 文件是记录 aof 文件的元数据信息。

0x00 dump.aof.1.base.rdb

通过十六进制编辑器打开该文件,可以发现内容和 RDB 中的格式一致(创建数据前备份的,所以没有数据部分):

在这里插入图片描述

而由于是 AOF 的基准文件,这里aof-base的值是01即代表是基准文件。

0x01 dump.aof.1.incr.aof

文本文件,内容如下(*开头代表命令包含的参数个数,$开头代表命令的长度):

*2       // 两个参数
$6       // 第一个参数长度为 6, 对应 SELECT 的长度
SELECT   
$1       // 第二个参数长度为 1, 对应 0, 即 0 号数据库
0
*3       // 三个参数
$3       // 第一个参数长度为 3, 对应 set 的长度
set
$5       // 第二个参数长度为 5, 对应 hello 的长度
hello
$0       // 第三个参数长度为 0

*3       // 三个参数
$3       // 第一个参数长度为 3, 对应 set 的长度
set
$5       // 第二个参数长度为 5, 对应 hello 的长度
hello
$5
world    // 第三个参数长度为 5, 对应 world 的长度

0x02 dump.aof.manifest

文本文件,内容如下:

file dump.aof.1.base.rdb seq 1 type b
file dump.aof.1.incr.aof seq 1 type i

其中seq 1 代表文件序号为 1,type b代表type base即基准文件,type i代表type increment即增量文件。

总结

本文根据一个简单的 RDB 文件讲解了 RDB 文件的存储格式,同时也简单介绍了 AOF 的文件格式。关于 RDB 中的 LZF 压缩算法和更复杂数据的存储方式(包含过期时间,数据类型为 Set,Map)等未作介绍,将留到下次。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1237247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

这7款神仙软件,程序员必备!

如果你是程序员、开发者、网络运维等 IT 从业者日常工作中大家肯定会用到很多网站&#xff0c;今天给大家带来7款压箱底的神仙软件&#xff0c;希望可以帮助有需要的码农朋友实现更高效地办公。 一、Everything 适用&#xff1a;本地文件搜索神器 就是为了极速检索而生,其实…

随机微分方程数值模拟

http://www.lpma-paris.fr/pageperso//lemaire/projets/Papers/NiVi08.pdf See 知乎https://zhuanlan.zhihu.com/p/28628912

CRM商机管理软件:构建客户为中心的管理理念

企业为什么选择CRM商机管理软件&#xff1f;1.CRM软件能够帮助企业建立以客户为中心的管理理念&#xff1b;2.CRM商机管理软件全面直观的展示客户数据&#xff1b;3.市场人员可以制订个性化的营销策略&#xff1b;4.移动应用为外出的销售带来的便利。 1.构建客户为中心的管理理…

2304. 网格中的最小路径代价 : 从「图论最短路」过渡到「O(1) 空间的原地模拟」

题目描述 这是 LeetCode 上的 「2304. 网格中的最小路径代价」 &#xff0c;难度为 「中等」。 Tag : 「最短路」、「图」、「模拟」、「序列 DP」、「动态规划」 给你一个下标从 0 开始的整数矩阵 grid&#xff0c;矩阵大小为 m x n&#xff0c;由从 0 到 的不同整数组成。 你…

Java线程的学习

本来我以为这可能只是Java里的一小块知识点&#xff0c;但当我搜索自己关注的Up主的网课时&#xff0c;觉得还是开一个系列来记录好了。我的记录绝不仅仅是照搬课程中的内容&#xff0c;我会带上自己的理解以及示例代码、并且是按照本人的专业课老师上课的节奏来记录&#xff0…

maven打包可执行jar含依赖lib

修改pom.xml <build><plugins><plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId><!-- jdk8可用&#xff0c;其他jdk版本可能需改插件版本 --><version>2.3.7.RE…

迁新址 启新程|美创科技杭州总部乔迁仪式圆满举行

“迁新址 启新程” 2023年11月21日 美创科技杭州总部乔迁仪式隆重举行 杭州未来科技城管委会、余杭国投集团、浙江省网络空间安全协会、浙江鸿程、华睿投资、金艮投资、如山资本、赛伯乐投资、宽带资本、普华投资、国中创投、密码资本、东方富海、之江商学、阿里云、联通&…

AI辅助带货直播场景源码系统 附带网站的搭建教程

互联网技术的发展和普及&#xff0c;直播带货行业迅速崛起。然而&#xff0c;直播带货在带来商机的同时&#xff0c;也面临着诸多挑战。如直播内容缺乏新意、转化率低等问题。针对这些问题&#xff0c;AI辅助带货直播场景源码系统应运而生&#xff0c;旨在利用人工智能技术&…

项目管理PMP6.0-五大过程组、十大知识领域、四十九个过程(记忆码:7664363734)

项目管理PMP6.0-五大过程组、十大知识领域、四十九个过程&#xff08;记忆码&#xff1a;7664363734&#xff09; 项目经理的影响力范围三者关系图&#xff08;五大过程组、十大知识领域、四十九个过程&#xff09;五大过程组十大知识领域十大知识领域之间联系 四十九个过程&am…

C# Onnx 特征匹配 DeDoDe 检测,不描述---描述,不检测

目录 介绍 效果 模型信息 项目 代码 下载 介绍 github地址&#xff1a;https://github.com/Parskatt/DeDoDe DeDoDe &#x1f3b6; Detect, Dont Describe - Describe, Dont Detect, for Local Feature Matching The DeDoDe detector learns to detect 3D consisten…

FSCTF2023-Reverse方向题解WP。学习贴

文章目录 [FSCTF 2023]signin[FSCTF 2023]MINE SWEEPER[FSCTF 2023]Xor[FSCTF 2023]EZRC4[FSCTF 2023]ez_pycxor[FSCTF 2023]Tea_apk[FSCTF 2023]ezcode[FSCTF 2023]ezbroke[FSCTF 2023]rrrrust!!![FSCTF2023]ezrev&#xff08;未解决&#xff09; [FSCTF 2023]signin UPX壳&am…

arcgis中投影文件(.prj)和地理转换文件(.gtf)存储路径

1、投影文件&#xff08;自定义的.prj&#xff09;的存储路径 C:\Users\14635\AppData\Roaming\ESRI\Desktop10.5\ArcMap\Coordinate Systems 2、地理转换文件&#xff08;.gtf&#xff09;--自定义 C:\Users\14635\AppData\Roaming\ESRI\Desktop10.5\ArcToolbox\CustomTransfo…

ROS2串口通讯serial库(适用于humble版本)

要的串口操作的API介绍在这里&#xff1a;serial: serial::Serial Class Reference (wjwwood.io) 但是我们不是直接利用上面这个东西&#xff0c;而是使用的是根据这个改写的一个针对ros2的一个serial库&#xff0c;这个serial库是根据上面这个库改写来的&#xff0c;ros2的库在…

分布式系统的认证授权

一.分布式系统的认证授权大致架构 以云音乐系统为例&#xff1a; 注&#xff1a;一般情况下&#xff0c;我们会把认证的部分的接口提取为一个单独的认证服务模块中。 二.单点登录&#xff08;Single Sign On&#xff09; 单点登录&#xff0c;Single Sign On&#xff0c;简称…

140.【鸿蒙OS开发-01】

鸿蒙开发 (一)、初识鸿蒙1.初识鸿蒙(1).移动通讯技术的发展(2).完整的鸿蒙开发 (二)、鸿蒙系统介绍1.鸿蒙系统的官方定义(1).鸿蒙操作系统概述(2).鸿蒙的生态 2.鸿蒙系统的特点3.鸿蒙和安卓的对比4.鸿蒙开发的发展前景 (三)、鸿蒙开发准备工作1.鸿蒙OS的完整开发流程2.注册并实…

Win10系统无法登录Xbox live的四种解决方法

在Win10系统中&#xff0c;用户可以登录Xbox live平台&#xff0c;畅玩自己喜欢的游戏。但是&#xff0c;有用户却遇到了无法登录Xbox live的问题。接下来小编给大家详细介绍四种简单的解决方法&#xff0c;解决后用户在Win10电脑上就能成功登录上Xbox live平台。 Win10系统无法…

MySql 计算同比、环比

一、理论 国家统计局同比、环比计算公式 增长速度是反映经济社会某一领域发展变化情况的重要数据&#xff0c;而同比和环比是反映增长速度最基础、最核心的数据指标&#xff0c;也是国际上通用的指标。在统计中&#xff0c; 同比和环比通常是同比变化率和环比变化率的简称&…

二百零四、Flume——登录监听窗口报错Ncat: bind to :::44444: Address already in use. QUITTING.

一、目的 Flume安装好后测试开启监听窗口44444&#xff0c;结果报错Ncat: bind to :::44444: Address already in use. QUITTING. 二、报错详情 Ncat: bind to :::44444: Address already in use. QUITTING. 三、报错原因 经过分析发现&#xff0c;44444窗口已经被占用 […

sqli-labs(3)

11. 看到登录框直接or 11 在hackerabar中我们可以看到这里是post传递的数据&#xff0c;在get中用--来注释后面的内容 因为get中#是用来指导浏览器动作的&#xff0c;--代表注释是空格&#xff0c;所以这里用# 之后就和get的一样了 1 order by 2 # order by 3报错 联合注入 …

【5k字长文 | Vue学习笔记】#1 认识Vue对象和基础语法

Vue是一个非常流行的渐进式JavaScript框架&#xff0c;渐进式指的是自底向上&#xff0c;从小组件逐渐向上构成整个项目&#xff0c;渐进式还可以理解为&#xff1a;用什么就拿什么&#xff0c;每个组件只做自己的事&#xff0c;尽可能解耦合。 本节我们将学习简单的Vue实例&a…