Redis源码---键值对中字符串的实现,用char*还是结构体

news2025/1/5 11:19:46

目录

前言

为什么 Redis 不用 char*?

char* 的结构设计

操作函数复杂度

SDS 的设计思想

SDS 结构设计

SDS 操作效率

紧凑型字符串结构的编程技巧

小结


  • 前言

  • 对于 Redis 来说,键值对中的键是字符串,值有时也是字符串
  • 在 Redis 中写入一条用户信息,记录了用户姓名、性别、所在城市等,这些都是字符串,如下所示:
  • 此外,Redis 实例和客户端交互的命令和数据,也都是用字符串表示的
  • 那么,既然字符串的使用如此广泛和关键,就使得在实现字符串时,需要尽量满足以下三个要求:
    • 能支持丰富且高效的字符串操作,比如字符串追加、拷贝、比较、获取长度等
    • 能保存任意的二进制数据,比如图片等
    • 能尽可能地节省内存开销
  • 其实,如果你开发过 C 语言程序,应该就知道,在 C 语言中可以使用 char* 字符数组来实现字符串
  • 同时,C 语言标准库 string.h 中也定义了多种字符串的操作函数
  • 比如字符串比较函数 strcmp、字符串长度计算函数 strlen、字符串追加函数 strcat 等,这样就便于开发者直接调用这些函数来完成字符串操作
  • 所以这样看起来,Redis 好像完全可以复用 C 语言中对字符串的实现呀?
  • 但实际上,在使用 C 语言字符串时,经常需要手动检查和分配字符串空间,而这就会增加代码开发的工作量
  • 而且,图片等数据还无法用字符串保存,也就限制了应用范围
  • 那么,从系统设计的角度来看,该如何设计实现字符串呢?
  • 其实,Redis 设计了简单动态字符串(Simple Dynamic String,SDS)的结构,用来表示字符串
  • 相比于 C 语言中的字符串实现,SDS 这种字符串的实现方式,会提升字符串的操作效率,并且可以用来保存二进制数据
  • 下面介绍下 SDS 结构的设计思想和实现技巧,这样就既可以掌握char* 实现方法的不足和 SDS 的优势,还能学习到紧凑型内存结构的实现技巧
  • 如果要在自己的系统软件中实现字符串类型,就可以参考 Redis 的设计思想,来更好地提升操作效率,节省内存开销
  • 好,接下来,先来了解下为什么 Redis 没有复用 C 语言的字符串实现方法
  • 为什么 Redis 不用 char*?

  • 实际上,要想解答这个问题,需要先知道 char* 字符串数组的结构特点,还有 Redis 对字符串的需求是什么,所以下面就来具体分析一下
  • char* 的结构设计

  • 首先,来看看 char* 字符数组的结构
  • char*字符数组的结构很简单,就是一块连续的内存空间,依次存放了字符串中的每一个字符
  • 比如,下图显示的就是字符串“redis”的char*数组结构:
  • 从图中可以看到,字符数组的最后一个字符是“\0”
  • 这个字符的作用是什么呢?其实,C 语言在对字符串进行操作时,char* 指针只是指向字符数组的起始位置,而字符数组的结尾位置就用“\0”表示,意思是指字符串的结束
  • 这样一来,C 语言标准库中字符串的操作函数,就会通过检查字符数组中是否有“\0”,来判断字符串是否结束
  • 比如,strlen 函数就是一种字符串操作函数,它可以返回一个字符串的长度
  • 这个函数会遍历字符数组中的每一个字符,并进行计数,直到检查的字符为“\0”
  • 此时,strlen 函数会停止计数,返回已经统计到的字符个数
  • 下图显示了 strlen 函数的执行流程:

  • 再通过一段代码,来看下“\0”结束字符对字符串长度的影响
  • 这里创建了两个字符串变量 a 和 b
  • 分别给它们赋值为“red\0is”和“redis\0”
  • 然后用 strlen 函数计算这两个字符串长度,如下所示:

  • 当程序执行完这段代码后,输出的结果分别是 3 和 5,表示 a 和 b 的长度分别是3个字符和5个字符
  • 这是因为 a 中在“red”这 3 个字符后,就有了结束字符“\0”,而 b 中的结束字符是在“redis”5 个字符后
  • 也就是说,char* 字符串以“\0”表示字符串的结束,其实会给我们保存数据带来一定的负面影响
  • 如果要保存的数据中,本身就有“\0”,那么数据在“\0”处就会被截断
  • 而这就不符合 Redis 希望能保存任意二进制数据的需求了
  • 操作函数复杂度

  • 而除了 char* 字符数组结构的设计问题以外
  • 使用“\0”作为字符串的结束字符,虽然可以让字符串操作函数判断字符串的结束位置
  • 但它也会带来另一方面的负面影响,也就是会导致操作函数的复杂度增加
  • 还是以 strlen 函数为例,该函数需要遍历字符数组中的每一个字符,才能得到字符串长度
  • 所以这个操作函数的复杂度是 O(N)
  • 再来看另一个常用的操作函数:字符串追加函数 strcat
  • strcat 函数是将一个源字符串src 追加到一个目标字符串的末尾
  • 该函数的代码如下所示:

  • 从代码中可以看到,strcat 函数和 strlen 函数类似,复杂度都很高,也都需要先通过遍历字符串才能得到目标字符串的末尾
  • 然后对于 strcat 函数来说,还要再遍历源字符串才能完成追加
  • 另外,它在把源字符串追加到目标字符串末尾时,还需要确认目标字符串具有足够的可用空间,否则就无法追加
  • 所以,这就要求开发人员在调用 strcat 时,要保证目标字符串有足够的空间,不然就需要开发人员动态分配空间,从而增加了编程的复杂度
  • 而操作函数的复杂度一旦增加,就会影响字符串的操作效率
  • 这就不符合 Redis 对字符串高效操作的需求了
  • 综合以上在 C 语言中使用 char* 实现字符串的两大不足之处以后
  • 现在就对Redis 是如何对字符串的实现进行设计考虑的
  • SDS 的设计思想

  • 因为 Redis 是使用 C 语言开发的,所以为了保证能尽量复用 C 标准库中的字符串操作函数
  • Redis 保留了使用字符数组来保存实际的数据
  • 但是,和 C 语言仅用字符数组不同,Redis 还专门设计了 SDS(即简单动态字符串)的数据结构
  • SDS 结构设计

  • 首先,SDS 结构里包含了一个字符数组 buf[],用来保存实际数据
  • 同时,SDS 结构里还包含了三个元数据,分别是字符数组现有长度 len、分配给字符数组的空间长度 alloc,以及 SDS类型 flags
  • 其中,Redis 给 len 和 alloc 这两个元数据定义了多种数据类型,进而可以用来表示不同类型的 SDS,稍后会具体介绍
  • 下图显示了 SDS 的结构:

  • 另外,如果在 Redis 源码中查找过 SDS 的定义,那可能会看到,Redis 使用 typedef 给char* 类型定义了一个别名,这个别名就是 sds,如下所示:

  • 其实,这是因为 SDS 本质还是字符数组,只是在字符数组基础上增加了额外的元数据
  • 在Redis 中需要用到字符数组时,就直接使用 sds 这个别名
  • 同时,在创建新的字符串时,Redis 会调用 SDS 创建函数 sdsnewlen
  • sdsnewlen 函数会新建 sds 类型变量(也就是 char* 类型变量),并新建 SDS 结构体,把 SDS 结构体中的数组buf[] 赋给 sds 类型变量
  • 最后,sdsnewlen 函数会把要创建的字符串拷贝给 sds 变量
  • 下面的代码就显示了 sdsnewlen 函数的这个操作逻辑:

  • 好了,了解了 SDS 结构的定义后,再来看看,相比传统 C 语言字符串,SDS 操作效率的改进之处
  • SDS 操作效率

  • 因为 SDS 结构中记录了字符数组已占用的空间和被分配的空间,这就比传统 C 语言实现的字符串能带来更高的操作效率
  • 还是以字符串追加操作为例
  • Redis 中实现字符串追加的函数是 sds.c 文件中的 sdscatlen函数
  • 这个函数的参数一共有三个,分别是目标字符串 s、源字符串 t 和要追加的长度 len
  • 源码如下所示:

  • 通过分析这个函数的源码,可以看到sdscatlen 的实现较为简单,其执行过程分为三步:
    • 首先,获取目标字符串的当前长度,并调用 sdsMakeRoomFor 函数,根据当前长度和要追加的长度,判断是否要给目标字符串新增空间
    • 这一步主要是保证,目标字符串有足够的空间接收追加的字符串
    • 其次,在保证了目标字符串的空间足够后,将源字符串中指定长度 len 的数据追加到目标字符串
    • 最后,设置目标字符串的最新长度
  • 下面一张图显示了 sdscatlen 的执行过程

  • 所以,到这里就能发现,和 C 语言中的字符串操作相比,SDS 通过记录字符数组的使用长度和分配空间大小,避免了对字符串的遍历操作,降低了操作开销,进一步就可以帮助诸多字符串操作更加高效地完成,比如创建、追加、复制、比较等,这一设计思想非常值得学习
  • 此外,SDS 把目标字符串的空间检查和扩容封装在了 sdsMakeRoomFor 函数中,并且在涉及字符串空间变化的操作中,如追加、复制等,会直接调用该函数
  • 这一设计实现,就避免了开发人员因忘记给目标字符串扩容,而导致操作失败的情况
  • 比如:
  • 使用函数 strcpy (char *dest, const char *src) 时,如果 src 的长度大于 dest 的长度,代码中也没有做检查的话,就会造成内存溢出
  • 所以这种封装操作的设计思想,同样值得学习
  • 那么,除了使用元数据记录字符串数组长度和封装操作的设计思想,SDS 还有什么优秀的设计与实现值得学习呢?
  • 这就和刚才给你介绍的 Redis 对内存节省的需求相关了
  • 所以接下来,就来看看 SDS 在编程技巧上是如何实现节省内存的
  • 紧凑型字符串结构的编程技巧

  • 前面有提到,SDS 结构中有一个元数据 flags,表示的是 SDS 类型
  • 事实上,SDS 一共设计了 5 种类型,分别是 sdshdr5、sdshdr8、sdshdr16、sdshdr32 和 sdshdr64
  • 这 5 种类型的主要区别就在于,它们数据结构中的字符数组现有长度 len 和分配空间长度 alloc,这两个元数据的数据类型不同
  • 因为 sdshdr5 这一类型 Redis 已经不再使用了,所以这里主要来了解下剩余的 4 种类型
  • 以 sdshdr8 为例,它的定义如下所示:
  • 可以看到,现有长度 len 和已分配空间 alloc 的数据类型都是 uint8_t
  • uint8_t 是 8 位无符号整型,会占用 1 字节的内存空间
  • 当字符串类型是 sdshdr8 时,它能表示的字符数组长度(包括数组最后一位\0)不会超过 256 字节(2 的 8 次方等于 256)
  • 而对于 sdshdr16、sdshdr32、sdshdr64 三种类型来说,它们的 len 和 alloc 数据类型分别是 uint16_t、uint32_t、uint64_t,即它们能表示的字符数组长度,分别不超过 2 的 16 次方、32 次方和 64 次方
  • 这两个元数据各自占用的内存空间在 sdshdr16、sdshdr32、sdshdr64 类型中,则分别是 2 字节、4 字节和 8 字节
  • 实际上,SDS 之所以设计不同的结构头(即不同类型),是为了能灵活保存不同大小的字符串,从而有效节省内存空间
  • 因为在保存不同大小的字符串时,结构头占用的内存空间也不一样,这样一来,在保存小字符串时,结构头占用空间也比较少
  • 否则,假设 SDS 都设计一样大小的结构头,比如都使用 uint64_t 类型表示 len 和 alloc
  • 那么假设要保存的字符串是 10 个字节,而此时结构头中 len 和 alloc 本身就占用了 16 个字节了,比保存的数据都多了
  • 所以这样的设计对内存并不友好,也不满足 Redis 节省内存的需求
  • 除了设计不同类型的结构头,Redis 在编程上还使用了专门的编译优化来节省内存空间
  • 在刚才介绍的 sdshdr8 结构定义中,可以看到,在 struct 和 sdshdr8 之间使用了__attribute__ ((__packed__)),如下所示:

  • 其实这里,__attribute__ ((__packed__))的作用就是告诉编译器,在编译 sdshdr8结构时,不要使用字节对齐的方式,而是采用紧凑的方式分配内存
  • 这是因为在默认情况下,编译器会按照 8 字节对齐的方式,给变量分配内存
  • 也就是说,即使一个变量的大小不到 8个字节,编译器也会给它分配 8 个字节
  • 举个例子:
  • 假设定义了一个结构体 s1,它有两个成员变量,类型分别是 char 和 int,如下所示
  • 虽然 char 类型占用 1 个字节,int 类型占用 4 个字节,但是如果你运行这段代码,就会发现打印出来的结果是 8
  • 这就是因为在默认情况下,编译器会给 s1 结构体分配 8 个字节的空间,而这样其中就有 3 个字节被浪费掉了
  • 为了节省内存,Redis 在这方面的设计上可以说是精打细算的
  • 所以,Redis 采用了__attribute__ ((__packed__))属性定义结构体,这样一来,结构体实际占用多少内存空间,编译器就分配多少空间
  • 比如,用__attribute__ ((__packed__))属性定义结构体 s2,同样包含 char 和 int两个类型的成员变量,代码如下所示
  • 当运行这段代码时,可以看到,打印的结果是 5,表示编译器用了紧凑型内存分配,s2结构体只占用 5 个字节的空间
  • 好了,总而言之,如果在开发程序时,希望能节省数据结构的内存开销,就可以把__attribute__ ((__packed__))这个编程方法用起来
  • 小结

  • 主要介绍了 Redis 中字符串的设计与实现
  • 要知道,字符串的实现需要考虑操作高效、能保存任意二进制数据,以及节省内存的需求
  • 而 Redis 中设计实现字符串的方式,就非常值得学习和借鉴
  • 需要重点关注三个要点,分别是:
  • C 语言中使用 char* 实现字符串的不足,主要是因为使用“\0”表示字符串结束,操作时需遍历字符串,效率不高,并且无法完整表示包含“\0”的数据,因而这就无法满足 Redis的需求
  • Redis 中字符串的设计思想与实现方法
  • Redis 专门设计了 SDS 数据结构,在字符数组的基础上,增加了字符数组长度和分配空间大小等元数据
  • 这样一来,需要基于字符串长度进行的追加、复制、比较等操作,就可以直接读取元数据,效率也就提升了
  • 而且,SDS 不通过字符串中的“\0”字符判断字符串结束,而是直接将其作为二进制数据处理,可以用来保存图片等二进制数据
  • SDS 中是通过设计不同 SDS 类型来表示不同大小的字符串,并使用__attribute__((__packed__))这个编程小技巧,来实现紧凑型内存布局,达到节省内存的目的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/374300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

渗透之信息收集

信息收集 当我们需要渗透某一个网站、服务器。。。。时 我们首先得收集它得相关信息 比如: 域名、ip、端口、web cms指纹、目录扫描、网络空间测绘。。。。等等等等手段尽可能的去收集它的信息。 收集越多信息,相对于我们越有利,让我们有更多手段去对…

计算机组成原理(1)--计算机系统概论

一、计算机系统简介1.计算机系统软硬件概念计算机系统由“硬件”和“软件”两大部分组成。所谓“硬件”,是指计算机的实体部分,它由看得见摸得着的各种电子元器件,各类光、电、机设备的实物组成,如主机、外部设备等。所谓“软件”…

【华为OD机试模拟题】用 C++ 实现 - 某公司组织招聘(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 去重求和(2023.Q1) 文章目录 最近更新的博客使用说明招聘 | 某公司组织题目输入输出示例一输入输出说明示例二输入输出说明示例三输入输出说明

C语言if判断语句的三种用法

C if 语句 一个 if 语句 由一个布尔表达式后跟一个或多个语句组成。 语法 C 语言中 if 语句的语法: if(boolean_expression) {/* 如果布尔表达式为真将执行的语句 */ }如果布尔表达式为 true,则 if 语句内的代码块将被执行。如果布尔表达式为 false&…

吉利「银河」负重突围

吉利控股集团最新公布的数据显示,2022年,吉利控股集团汽车总销量超230万辆,同比增长4.3%。其中,新能源汽车销量超64万辆,同比增长100.3%。 在中国本土市场,2022年吉利集团旗下品牌乘用车总交付量为135.84万…

scrcpy 无线投屏基本使用(强烈推荐)

目录scrcpy 的无线投屏控制:下载 scrcpy配置系统环境变量电脑连接设备adb多设备连接常用快捷键命令scrcpy 的无线投屏控制: 这个应用程序提供了 USB(或TCP/IP) 上连接的 Android 设备的显示和控制; 它是免费且开源投屏控制工具(模拟器),它不需…

CUDA的下载安装

大家好,下面将进行CUDA的下载安装,下载安装的详细步骤描述如下: (1)CUDA下载 https://download.csdn.net/download/qq_41104871/87462747 (2)CUDA安装 1、首先,需要解压缩下载好的CUDA压缩包,CUDA压缩包如下图所示: 2、解压后,将会获得如下图所示的.exe文件: …

活动策划|深度分析年货节活动该如何策划!

四月初,不平凡的初春开始恢复往日的平静。对于新零售行业,疫情的缓解也逐渐平稳生态链的运转。2020年新零售的格局在洗礼后,业务的聚焦点也从前端促销转移到后端履约的体验闭环,同时很大程度的推进企业在危机公关下的应对。618大促…

STC32单片机 普通 I/O 口中断功能介绍和使用

STC32单片机 普通 I/O 口中断功能和使用✨STC32单片机普通 I/O 口中断,不是传统外部中断. 🔖手册上描述:STC32G 系列支持所有的 I/O 中断,且支持 4 种中断模式:下降沿中断、上升沿中断、低电平中断、高电平中断。每组 …

redis(11)事务秒杀案例

秒杀案例描述 现在有1个秒杀的功能,1个原来价值5000元的手机现在搞活动,降价到1块钱,做秒杀活动。库存就10个,假设有10000人抢购。 目前逻辑是:抢到了商品库存就减1,然后把用户id加入到秒杀成功者清单中 Re…

大数据框架之Hadoop:MapReduce(三)MapReduce框架原理——OutputFormat数据输出

3.6.1OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。 1、文本输出TextOutputFormat 默认的输出格式是TextOutputFormat,它把每条记录写为文…

【Redis】应用一 : 分布式锁

一、分布式锁 本质就是实现一个线程在 Redis 中占坑, 用完了,再 del 释放坑 问题1: 程序出现异常, 导致 del 指令未被调用 解决1: 设置一个过期时间 问题2:expire 得不到执行,导致死锁 解决…

Tina_Linux量产测试使用指南_new

OpenRemoved_Tina_Linux_量产测试_使用指南_new 1 概述 文档主要描述如何配置tinatest 并搭建量产测试环境。 1.1 编写目的 • 介绍量产配置方法; • 介绍量产测试环境搭建流程; • 介绍如何使用dragonMAT 软件; • 方便开发人员按照说明…

Java内部类(成员,局部,匿名,静态,多重继承)

java内部类内部类的定义成员内部类特点测试代码运行结果静态内部类特点测试代码运行结果匿名内部类特点测试代码运行结果局部内部类特点测试代码内部类的嵌套特点测试代码运行结果内部类的定义 Java 编程语言允许一个类被定义在另一个类中,这样的类就称为嵌套类。嵌…

【第43天】sort 的复杂运用 | 对二维数组与结构体实现自定义排序

本文已收录于专栏🌸《Java入门一百练》🌸学习指引序、专栏前言一、二维排序二、【例题1】1、题目描述2、解题思路3、模板代码4、代码解析三、【例题2】1、题目描述2、解题思路3.模板代码4.代码解析四、推荐专栏五、课后习题序、专栏前言 本专栏开启&…

【ESP 保姆级教程】疯狂毕设篇 —— 案例:基于ESP8266和EMQX的教室灯光控制系统

忘记过去,超越自己 ❤️ 博客主页 单片机菜鸟哥,一个野生非专业硬件IOT爱好者 ❤️❤️ 本篇创建记录 2023-02-26 ❤️❤️ 本篇更新记录 2022-02-26 ❤️🎉 欢迎关注 🔎点赞 👍收藏 ⭐️留言📝🙏 此博客均由博主单独编写,不存在任何商业团队运营,如发现错误,请…

二、mysql索引分析之二

二、mysql索引分析之一 二、mysql索引分析之二 二、mysql索引分析之二1 mysql的索引类型2 Explain执行计划2.1 执行计划之 id 属性2.1.1 id 的属性相同表示加载表的顺序是从上到下2.1.2 id 值越大,优先级越高2.1.3 id 有相同,也有不同,同时存…

【GO】k8s 管理系统项目22[前端部分–工作负载-Deployment]

k8s 管理系统项目[前端部分–工作负载-Deployment] 1. Deployment页面设计 src/layout/Layout.vue 功能 列表详情新增更新删除重启副本数 Main的布局 2. 连接配置 src/views/common/Config.js export default {//后端接口路径loginAuth: http://localhost:9091/api/login,…

RCEE: Event Extraction as Machine Reading Comprehension 论文解读

RCEE: Event Extraction as Machine Reading Comprehension 论文:Event Extraction as Machine Reading Comprehension (aclanthology.org) 代码:jianliu-ml/EEasMRC (github.com) 期刊/会议:EMNLP 2020 摘要 事件提取(Event extraction,…

Slurm集群调度策略详解(2)-回填调度

1. slurm集群调度系统简介 作业调度系统其实就是指按一定策略把并行程序的各子任务或者是面向多用户的一组作业按一定的选择策略使之与各计算节点的空闲资源相对应,让其在对应的资源上运行,所以作业调度系统是联系上层应用和下层资源的中枢。一个集群资…