Linux内存管理：(六)页交换算法

文章说明：

Linux内核版本：5.0
架构：ARM64
参考资料及图片来源：《奔跑吧Linux内核》
Linux 5.0内核源码注释仓库地址：

zhangzihengya/LinuxSourceCode_v5.0_study (github.com)

1. 引言

在Linux操作系统中，当内存充足时，内核会尽量多地使用内存作为文件缓存（page cache），从而提高系统的性能。文件缓存页面会添加到文件类型的LRU链表中；当内存紧张时，文件缓存页面会被丢弃，或者把修改的文件缓存页面回写到存储设备中，与块设备同步之后便可释放出物理内存。现在的应用程序转向内存密集型，无论系统中有多少物理内存都是不够用的，因此Linux操作系统会使用存储设备作为交换分区，内核将很少使用的内存换出到交换分区，以便释放出物理内存，这个机制称为页交换（swapping），这些处理机制统称为页面回收（page reclaim）。

在最近几十年操作系统的发展过程中，出现了很多页面交换算法，其中每个算法都有各自的优点和缺点。Linux内核中采用的页交换算法主要是经典LRU链表算法和第二次机会（second chance）法。

2. 经典LRU链表算法

LRU是Least Recently Used的缩写，意为最近最少使用。根据局部性原理，LRU假定最近不使用的页面在较短的时间内也不会频繁使用。在内存不足时，这些页面将成为被换出的候选者。内核使用双向链表来定义LRU链表，并且根据页面的类型将LRU链表分为LRU_ANON和LRU_FILE。每种类型根据页面的活跃性分为活跃LRU链表和不活跃LRU链表，所以内核中一共有如下5个LRU链表：

// 定义了各种 LRU 链表的类型
enum lru_list {
	// 不活跃匿名页面链表
    LRU_INACTIVE_ANON = LRU_BASE,
    // 活跃匿名页面链表
	LRU_ACTIVE_ANON = LRU_BASE + LRU_ACTIVE,
    // 不活跃文件映射页面链表
	LRU_INACTIVE_FILE = LRU_BASE + LRU_FILE,
    // 活跃文件映射页面链表
	LRU_ACTIVE_FILE = LRU_BASE + LRU_FILE + LRU_ACTIVE,
    // 不可回收页面链表
	LRU_UNEVICTABLE,
	NR_LRU_LISTS
};

LRU链表之所以要分成这样，是因为当内存紧缺时总是优先换出文件映射的文件缓存页面（LRU_FILE链表中的页面），而不是匿名页面。因为大多数情况下，文件缓存页面不需要被回写到磁盘，除非页面内容修改了（称为脏页），而匿名页面总是要在写入交换分区之后，才能被换出。LRU链表按照内存节点配置，也就是说，每个内存节点中都有一整套LRU链表，因此内存节点的描述符数据结构（pglist_data）中有一个成员lruvec指向这些链表。枚举类型变量lru_list 列举出上述各种LRU链表的类型，lruvec数据结构中定义了上述各种LRU类型的链表：

// 定义了各种 LRU 链表
struct lruvec {
	struct list_head		lists[NR_LRU_LISTS];
	...
};

// 内存节点的数据结构
typedef struct pglist_data {
	// 每个内存节点中都有一整套 LRU 链表，由 lruvec 指向
	struct lruvec		lruvec;
} pg_data_t;

万事从图说起，经典LRU链表算法如下图所示：

在这里插入图片描述

为了使读者有更真切的理解，下文将根据流程图围绕源代码进行讲解这个过程：

将页面加入 LRU 链表：

static void __lru_cache_add(struct page *page)
{
	// 这里使用了页向量数据结构，借助一个数组来保存特定数目的页，可以对这些页面执行同样的操作
	// 页向量会以“批处理的方式”执行，比单独处理一个页面的方式效率要高
	struct pagevec *pvec = &get_cpu_var(lru_add_pvec);

	get_page(page);
	// pagevec_add() 函数首先往 pvec->pages[] 数组里添加页面，
	// 如果没有空间了，则调用 __pagevec_lru_add() 函数把原有的页面添加到 LRU 链表中
	if (!pagevec_add(pvec, page) || PageCompound(page))
		__pagevec_lru_add(pvec);
	put_cpu_var(lru_add_pvec);
}

void lru_cache_add(struct page *page)
{
	...
	__lru_cache_add(page);
}

lru_to_page(&lru_list)和list_del(&page->lru)函数的组合用于从LRU链表中获取页面。其中，lru_to_page()的实现如下：

#define lru_to_page(head) (list_entry((head)->prev, struct page, lru))

lru_to_page()使用了(head)->prev，表示从链表的末尾获取页面。因此，LRU链表实现了 FIFO算法。最先进入LRU链表的页面在LRU中的时间会越长，老化时间也越长。

在系统执行过程中，页面总是在活跃LRU链表和不活跃LRU链表之间转移，不是每次访问内存页面都会发生这种转移，而是发生的时间间隔比较长。随着时间的推移，这会导致—种热平衡，最不常用的页面将慢慢移动到不活跃LRU链表的末尾，这些页面正是页面回收中最合适的候选者。

3. 第二次机会法

当系统内存短缺时，LRU链表尾部的页面将会离开并被换出。当系统再需要这些页面时，这些页面会重新置于LRU链表的开头。显然，这个设计不是很巧妙，在换出页面时，没有考虑该页面是频繁使用的，还是很少使用的。也就是说，频繁使用的页面依然会因为在LRU链表末尾而被换出。

第二次机会法的改进是为了避免把经常使用的页面置换出去，设置了一个访问状态位（硬件控制的位，PTE_YOUNG），所以要检查页面的访问位。如果访问位是0，就淘汰这个页面；如果访问位是1，就给它第二次机会，并选择下一个页面来换出。当该页面得到第二次机会时，它的访问位被清零，如果该页面在此期间再次被访问过，则访问位设置为1。

Linux内核使用下面这两个标志位来是实现第二次机会法：

PG_active：表示该页面是否活跃
PG_referenced：表示该页面是否被引用过

mark_page_accessed() 函数将页面标记为活跃：

如果 PG_active==0 && PG_referenced==1，则把该页面加入活跃LRU链表，并设置 PG_active=1，清除PG_reference 标志位
如果 PG_active==0，则设置 PG_referenced 标志位

在扫描不活跃 LRU 链表时，page_check_references() 这个函数会被调用：

// page 表示要处理的物理页面的page数据结构
// sc 表示内部用来控制页面扫描的数据结构
static enum page_references page_check_references(struct page *page,
						  struct scan_control *sc)
{
	...

	// page_referenced() 检查该页面访问、引用了多少个PTE（referenced_ptes）
	referenced_ptes = page_referenced(page, 1, sc->target_mem_cgroup,
					  &vm_flags);
	// TestClearPageReferenced() 函数返回该页面 PG_referenced 标志位的值（referenced_page），并且清除该标志
	referenced_page = TestClearPageReferenced(page);

	...

	if (referenced_ptes) {
		...
		// 在内存短缺的情况下，kswapd 巧妙地释放了短时间内只访问一次的大量文件缓存
		SetPageReferenced(page);

		// referenced_ptes > 1 表示那些第一次在不活跃LRU链表中的共享文件映射页面（共享文件缓存），
		// 它们应该晋升到活跃 LRU 链表中，因为它们应该在活跃 LRU 链表中多待一段时间，以便其他用户可以再次访问到。
		if (referenced_page || referenced_ptes > 1)
			return PAGEREF_ACTIVATE;

		...
	}

	...
}

page_referenced() 函数用于判断页面是否被访问过，并返回引用的PTE的个数，即访问引用这个页面的用户进程空间虚拟页面的个数，核心思想是利用 RMAP 系统来统计访问、引用 PTE 的用户个数：

int page_referenced(struct page *page,
		    int is_locked,
		    struct mem_cgroup *memcg,
		    unsigned long *vm_flags)
{
	...
	// 定义 rmap_one() 函数的指针
	struct rmap_walk_control rwc = {
		.rmap_one = page_referenced_one,
		.arg = (void *)&pra,
		.anon_lock = page_lock_anon_vma_read,
	};

	*vm_flags = 0;
	// 判断 page->_mapcount 是否大于或等于 0
	if (!page_mapped(page))
		return 0;

	// 判断 page->mapping 是否有地址空间映射
	if (!page_rmapping(page))
		return 0;

	...

	// 遍历所有映射该页面的 PTE
	rmap_walk(page, &rwc);
	*vm_flags = pra.vm_flags;

	...

	return pra.referenced;
}

4. 页交换算法的优化

即使第二次机会算法可以尽可能地避免把经常使用地页面置换出去，但是实际上，一些场景下，某些页面经常被访问，但是在下一次访问之前在不活跃LRU链表中回收并释放了它们，因此又必须从存储系统中读取这些内容缓存页面，这会产生颠簸（thrashing）现象。

在学术界和Linux内核社区，页面回收算法的优化一直没有停止过，其中 Refault Distance 算法在Linux 3.5内核中加入，作者是社区专家 Johannes Weiner，该算法目前只针对页面高速缓存类型的页面。

Refault Distance 的概念：第一次访问内容缓存称为fault，第二次访问该页称为refault。内容缓存页面第一次被移出LRU链表并回收的时刻称为E，第二次再访问该页面的时刻称为R，那么R-E的时间里需要移动的页面个数称为Refault Distance。

Refault Distance概念再加上第一次访问的时刻，可以用一个公式来概括第一次和第二次访问的间隙（readdistance）。

在这里插入图片描述

如果页面想一直保持在LRU链表中，那么read_distance不应该比内存的大小还大；否则，该页面永远会被移出LRU链表。因此，下式成立：

在这里插入图片描述

换句话说，Refault Distance可以理解为不活跃LRU链表的“财政赤字”：

如果不活跃LRU 链表的长度至少再延长到Refault Distance，就可以保证该内容缓存在第二次访问之前不会被移出 LRU链表并释放内存；
否则，就要把该内容缓存重新加入活跃LRU链表加以保护，以防颠簸。

在理想情况下，内容缓存的平均访问间隙要大于不活跃LRU链表的大小、小于总的内存大小。Refault Distance 算法如下图所示：

在这里插入图片描述

T0时刻表示第一次访问一个内容缓存。这时会调用 add_to_page_cache_lru() 函数分配一个shadow来存储zone->inactive_age（inactive_age原子变量成员用于记录文件缓存不活跃LRU链表中的移出操作和激活操作的计数）值。每当有页面被升级为活跃LRU链表中的页面时，zone->inactive_age值会加1；每当有页面被移出不活跃LRU链表时，zone->inactive_age值也加1
T1时刻，该页面被移出LRU链表并从LRU链表中回收释放，因此把当前T1时刻的zone->inactive_age的值编码存放到 shadow 中
T2时刻，第二次访问该页面，因此要计算Refault Distance，Refault Distance＝T2-T1，如果Refault Distance≤NR_active，说明该内容缓存极有可能在下一次读时已经被移出LRU链表，因此要人为地激活该页面并且将其加入活跃LRU链表中