系列文章目录
Linux 内核设计与实现
深入理解 Linux 内核(一)
深入理解 Linux 内核(二)
Linux 设备驱动程序(一)
Linux 设备驱动程序(二)
Linux 设备驱动程序(三)
Linux设备驱动开发详解
深入理解Linux虚拟内存管理(一)
深入理解Linux虚拟内存管理(二)
文章目录
- 系列文章目录
- 第8章 slab分配器
- 8.1 高速缓存
- 8.1.1 高速缓存描述符
- 8.1.2 高速缓存静态标志位
- 8.1.3 高速缓存动态标志位
- 8.1.4 高速缓存分配标志位
第8章 slab分配器
这一章将介绍一种通用的分配器:slab 分配器。它与 Solaris 系统 [MM01] 上的通用内核分配器在许多方面都很相似。Linux 中 slab 的实现主要是基于 Bonwick[Bon94 ] 的第 1 篇 slab 分配器的论文,并进一步做了大量的改进,这在他最近的论文中 [BA01] 有所描述。这一章我们先对 slab 分配器做一个快速的浏览,然后描述所用到的数据结构,并深入讨论 slab 分配器的每一项功能。
slab 分配器的基本思想是:将内核中经常使用的对象放到高速缓存中,并且由系统保持为初始的可利用状态。如果没有基于对象的分配器,内核将花费更多的时间分配、初始化以及释放一个对象。slab 分配器的目的是缓存这些空闲的对象,保留基本结构,从而能够重复使用它们 [Bon94]。
slab 分配器由多个高速缓存组成,它们通过双向循环链表连接在一起,称为高速缓存链表。在 slab 分配器中,高速缓存可以管理各种不同类型的对象,如 mm_struct 或者 fs_cache,它们由 struct kmem_cache_s 管理,在后面我们将详细讨论这个结构。高速缓存链表是通过字段 next 链接在一起的。
每一个高速缓存包括若干 slab,slab 由连续的页面帧组成,它们被划分成许多小的块以存放由高速缓存所管理的数据结构和对象。不同数据结构之间的关系如图 8.1 所示。
slab 分配器有三个基本目标:
- 减少伙伴系统分配小块内存时所产生的内部碎片。
- 把经常使用的对象缓存起来,减少分配、初始化以及释放对象的时间开销。在 Solaris 上的基准测试表明,使用 slab 分配器后速度有了很大的提高 [Bon94]。
- 调整对象以更好地使用 L1 和 L2 硬件高速缓存。
为减少二进制伙伴分配器所产生的内部碎片,系统需要维护两个由小内存缓冲区所构成的高速缓存集,它们的大小从 25(32) 字节到 217(131 072) 字节。一个高速缓存集适用于使用 DMA 的设备。这些高速缓存叫作 size-N 和 size-N(DMA),N 是分配器的尺寸,而函数 kmalloc()(见 8.4.1 小节)负责分配这些高速缓存。这样就解决了低级页分配器最大的问题。我们将在 8.4 节详细讨论指定大小的高速缓存。
slab 分配器的第 2 个任务是缓存经常使用的对象。初始化内核中许多数据结构所需要的时间与分配空间所花的时间相当,甚至超过了分配空间所花时间。在创建一个新的 slab 时,一些对象被存放在里面,并且由可用的构造器初始化它们。而在对象释放后,系统将保持它们为初始化时的状态,所以再次分配对象的速度很快。
slab 分配器的第 3 个任务是充分利用硬件高速缓存。若对象放入 slab 还有剩余的空间,它们就用于为 slab 着色。slab 着色方案试图让不同 slab 中的对象使用不同的硬件高速缓存行。通过将对象放置在 slab 中不同的位移起始处,对象将很可能利用 CPU 中不同的硬件高速缓存行,因此来自同一个 slab 中的对象不会彼此刷新高速缓存。这样,空间可能会因为着色而浪费掉。如图 8.2 所示,从伙伴分配器分配的页面如何存储因对齐 CPU L1 硬件高速缓存而着色的对象。
Linux 显然不会试图去给基于物理地址分配的页面帧着色 [Kes91],也不会将对象放在某一特定位置,如数据段 [GAV95]、代码段 [HK97]中,但是 slab 着色方案都可以提高硬件高速缓存行的利用率。在 8.1.5 小节中将深入讨论高速缓存着色。在 SMP 系统中,有另外的方案来利用高速缓存,即每一个高速缓存都有一个小的对象数组,而这些对象就是为每一个 CPU 所保留的。这些内容将会在 8.5 节中进一步讨论。
在编译的时候,如果设置了选项 CONFIG_SLAB_DEBUG,slab 分配器会提供额外的 slab 调试选项。其中提供的两个调试特征称为红色区域和对象感染。在红色区域中,每一个对象的末尾有一个标志位。如果这个标志位被打乱,分配器就会知道发生缓冲区溢出的对象的位置并且向系统报告。创建和释放 slab 时,感染一个对象会将预先定义好的位模(在 mm/slab.c 中定义为 0x5A)填入其中。分配时会检查这个位模,如果被改变,分配器就知道这个对象在之前已经使用过,并把它标记出来。
分配器中小而强大的 API 如表 8.1 所列。
8.1 高速缓存
8.1.1 高速缓存描述符
所有描述高速缓存的信息都存储在 mm/slab.c 中声明的 struct kmem_cache_s 中。它是一个非常大的结构,这里仅描述其中一部分。
struct kmem_cache_s {
/* 1) each alloc & free */
// 下面这些字段在分配和释放对象时很重要。
/* full, partial first, then free */
// slabs_ * :在前一节中介绍的三个 slab 链表。
struct list_head slabs_full;
struct list_head slabs_partial;
struct list_head slabs_free;
// slab 中每一个对象的大小。
unsigned int objsize;
// 一组标志位,决定分配器应该如何处理高速缓存,见 8.1.2 小节。
unsigned int flags; /* constant flags */
// 每一个 slab 中包含的对象个数。
unsigned int num; /* # of objs per slab */
// 并发控制锁,避免并发访问高速缓存描述符。
spinlock_t spinlock;
#ifdef CONFIG_SMP
// 在前面的章节中描述的为 per-cpu 高速缓存批量分配的对象数目。
unsigned int batchcount;
#endif
/* 2) slab additions /removals */
// 从高速缓存中分配和释放 slab 时将用到这些字段。
/* order of pgs per slab (2^n) */
// slab 以页为单位的大小,每个 slab 占用用 2*fpoder 个连续页面帧,其中分配的大小
// 由伙伴系统提供。
unsigned int gfporder;
/* force GFP flags, e.g. GFP_DMA */
// 调用伙伴系统分配页面帧时用到的一组 GFP 标志位,完整列表见 7.4 节。
unsigned int gfpflags;
// 尽可能将 slab 中的对象存储在不同的硬件高速缓存行中。高速缓存着色将在
// 8.1.5 小节中进一步讨论。
size_t colour; /* cache colouring range */
// 对齐 slab 中的字节。例如 ,size-X 高速缓存对齐 L1 硬件高速缓存。
unsigned int colour_off; /* colour offset */
// 这是下一个将使用的着色行,其值超过 colour 时,它重新从 0 开始。
unsigned int colour_next; /* cache colouring */
kmem_cache_t *slabp_cache;
// 这个标志位用于指示高速缓存是否增长。如果设置了该标志位,就不太可能在
// 处于内存压力的情况下选中该高速缓存以回收空闲 slab。
unsigned int growing;
// 动态标志位,在高速缓存的生命期里动态变化,见 8.1.3 小节。
unsigned int dflags; /* dynamic flags */
/* constructor func */
// 为复杂对象提供的构造函数,用以初始化每一个新的对象。这是一个函数指针,可
// 能为空(NULL)。
void (*ctor)(void *, kmem_cache_t *, unsigned long);
/* de-constructor func */
// 对象的析构函数指针,也可能为空。
void (*dtor)(void *, kmem_cache_t *, unsigned long);
// 仅仅初始化为 0,其他的地方都没有用到。
unsigned long failures;
/* 3) cache creation/removal */
// 这两个字段在创建高速缓存时设置。
// 便于识别的高速缓存名称。
char name[CACHE_NAMELEN];
// 指向高速缓存链表中的下一个高速缓存。
struct list_head next;
#ifdef CONFIG_SMP
/* 4) per-cpu data */
// per-cpu 数据,在 8.5 中进一步讨论。
cpucache_t *cpudata[NR_CPUS];
#endif
// 在编译时设置 CONFIG_SLAB_DEBUG 选项时,这些数字才有效。它们都是不重要的计
// 数器,一般不必关心。读取/proc/slabinfo 里的统计信息时,与其依赖这些字段是否有效,还不
// 如通过另一个进程检查每个高速缓存里的每个 slab 使用情况。
#if STATS
// 当前在高速缓存中活动的对象数目。
unsigned long num_active;
// 已经分配的对象数目。
unsigned long num_allocations;
// num_active 的上限。
unsigned long high_mark;
// kmem_cache_grow()的调用次数。
unsigned long grown;
// 该高速缓存被回收的次数。
unsigned long reaped;
// 这个字段从未使用过。
unsigned long errors;
#ifdef CONFIG_SMP
// 分配器使用 per-cpu 高速缓存的次数。
atomic_t allochit;
// 对 allochit 的补充,是分配器未命中 per-cpu 高速缓存的次数。
atomic_t allocmiss;
// 在 per-cpu 高速缓存中空闲的次数。
atomic_t freehit;
// 对象释放后被置于全局池中的次数。
atomic_t freemiss;
#endif
#endif
};
8.1.2 高速缓存静态标志位
一些标志位在高速缓存初始化时就被设置了,并且在生命周期内一直不变。这些标志位影响到 slab 的结构如何组织以及对象如何存储在 slab 中。这些标志位组成一个位掩码,存储在高速缓存描述符的字段 flag 中。所有的标志位都在 linux/slab.h 中声明。
有 3 组标志位,第 1 组是内部标志位,仅由 slab 分配器使用,如表 8.2 所列。CFGS_OFF_SLAB 标志位决定 slab 描述符存储的位置。
第 2 组在创建高速缓存时设置,这些标志位决定分配器如何处理 slab,如何存储对象。列表如 8.3 所列。
第 3 组在编译选项 CONFIG_SLAB_DEBUG 设置后才有效,列表如 8.4 所列。它们决定了对 slab 和对象做哪些附加的检查,主要与新建的高速缓存相关。
为了防止调用错误的标志位,mm/slab.c 中定义了 CREATE_MASK,它由所有允许的标志位所组成。在创建一个高速缓存时,请求的标志位会和 CREATE_MASK 作比较,如果使用了无效的标志位,系统将会报告一个错误。
8.1.3 高速缓存动态标志位
虽然字段 dflag 中只有一个标志位 DFLGS_GROWN,但它却非常重要。该标志位在 kmem_cache_grow() 中设置,这样 kmem_cache_reap() 就就不会选择该高速缓存进行回收。kmem_cache_reap() 将跳过设置了该标志位的高速缓存,并清除该标志位。
8.1.4 高速缓存分配标志位
这些标志位,与为 slab 分配页面帧的 GFP 页面标志位选项相对应,列表如 8.5 所列。调用者既可以使用 SLAB_* 标志位,也可以使用 GFP * 标志位,但实际上应该仅仅使用 SLAB_* 标志位。它们和 6.4 节中所述的标志位直接对应,所以在这里不再详细讨论。假设存在这些标志位是为了明确不同的作用,在这种情况下 slab 分配器对不同的标志位就要作出不同的响应。而事实上它们没有任何区别。
极少部分的标志位可能会传递给构造函数和析构函数,列表如 8.6 所列。
123