动态字符串(Simple Dynamic String,SDS)
Redis是用C语言编写的。Redis中的简单动态字符串的设计与实现,兼顾了操作高效、能保存任意数据、以及节省内存的需求。Redis并且还兼容C语言的原生字符串API,从而提高了代码的复用度。
C语言字符串的一些缺点
- 获取字符串长度需要自己计算或者调用api(例如调用strlen方法)
- 非二进制安全(C的字符串结束标识符为’\0’,无法完整表示图片、音视频等数据)
- 缓冲溢出(C的数组不会检查自己的空间是否足够)
- 多次内存重分配
Redis中的简单字符串
例如,我存储一个字符串name,存储结构如下
其中,SDS类型指结构头类型,有以下几个
#define SDS_TYPE_5 0
#define SDS_TYPE_8 1
#define SDS_TYPE_16 2
#define SDS_TYPE_32 3
#define SDS_TYPE_64 4
采用额外的元数据来维护字符数组
Redis对C的字符串的扩展,就是在原有的基础上增加了增加了(字符数组长度)len和(分配空间大小)alloc等元数据。这样一来,需要基于字符串长度进行的追加、复制、比较等操作,就可以直接读取元数据,效率也就提升了。
设计不同的结构头
为什么要设计不同的结构头?当我们存储一些小的字符串比如’name’,'user’这些非常小的字符串,根本没必要去用int64这么大的空间去存储,否则有可能结构体定义比本身数据还要占内存。所以,为了更好的管理内存空间,Redis设计了结构头,定义了 sdshdr5(已弃用),sdshdr8,sdshdr16,sdshdr32,sdshdr64五种SDS类型,分别表示该结构体存储的字节大小。比如sdshdr8,它最大长度可存2^8(包括结束符)。
下面看看其中一个SDS结构体
struct __attribute__ ((__packed__)) sdshdr8 {
uint8_t len; /* 字符数组现有长度*/
uint8_t alloc; /* 字符数组的已分配空间,不包括结构体和\0结束字符*/
unsigned char flags; /* SDS类型*/
char buf[]; /*字符数组*/
};
采用紧凑内存分配
Redis还采用了__attribute__ ((packed))属性定义结构体,这样一来,结构体实际占用多少内存空间,编译器就分配多少空间。
举个例子,设我定义了一个结构体 s1,它有两个成员变量,类型分别是 char 和 int,如下所示:
#include <stdio.h>
int main() {
struct s1 {
char a;
int b;
} ts1;
printf("%lu\n", sizeof(ts1));
return 0;
}
虽然 char 类型占用 1 个字节,int 类型占用 4 个字节,但是如果你运行这段代码,就会发现打印出来的结果是 8。这就是因为在默认情况下,编译器会给 s1 结构体分配 8 个字节的空间,而这样其中就有 3 个字节被浪费掉了。
比如,我用__attribute__ ((packed))属性定义结构体 s2,同样包含 char 和 int 两个类型的成员变量,如下所示:
#include <stdio.h>
int main() {
struct __attribute__((packed)) s2{
char a;
int b;
} ts2;
printf("%lu\n", sizeof(ts2));
return 0;
}
当你运行这段代码时,你可以看到,打印的结果是 5,表示编译器用了紧凑型内存分配,s2 结构体只占用 5 个字节的空间。
字符串动态扩容
SDS之所以叫做动态字符串,是因为它具备动态扩容的能力,例如一个内容为"hi"的SDS:
假如我们要给SDS追加一段字符串",nihao",这里就会先申请新内存空间
- 如果字符串长度小于1M,则新空间为扩展后字符串的长度的两倍 + 1
- 如果新字符串大于1M,则新空间为扩展后字符串长度+1M +1。称为内存预分配,减少内存分配次数。
为什么要如此?
这是为了减少内存的重分配,这里涉及到系统调用,申请空间是十分耗时的操作,所以Redis采用了内存预分配机制提高性能。