案例研究
Intel Core i7
该处理底层的Haswell微体系结构允许64位的虚拟和物理地址空间,而现在的Core i7实现支持48位(256TB)虚拟地址空间和52位(4PB)物理地址空间,这对目前来说已经完全够用了。(Linux的虚拟内存系统中页的大小为4KB)
-
介绍了Core i7内存系统的重要部分——处理器封装
-
介绍了Core i7的地址翻译情况
-
层级结构的TLB
-
层级结构的页表(4层),每一层页表占VPN的9位,也就是有 2 9 2^9 29个PTE
-
层次结构的高速缓存L1、L2和L3
-
其中CR3控制寄存器指向第一级页表的起始位置,CR3的值是每个进程上下文的一部分,每次上下文切换的时候,CR3的值都会被恢复
-
-
介绍了页表项PTE的格式
- 每个PTE占8个字节64位
- 其中有40位是作为指向下一级页表物理基地址(这个地方我有个疑问?在这个例子里每一级页表的每一个PTE都有40位用来下一级页表的基地址,这难道不会很浪费吗?只存一次不就好了吗?)
- 还有其他位用于权限控制和协助替换算法
Linux虚拟内存系统
-
Linux虚拟内存区域
Linux将虚拟内存组织成一些区域的集合。一个区域就是已经存在着的(已分配的——已缓存和未缓存)虚拟内存的连续片,也就是说Linux虚拟内存系统所定义的区域范围是比虚拟页大的,虚拟页是区域的基本单元。这些页是以某种方式相关联的,例如代码段、数据段、堆、共享库段和用户栈都是不同的区域。
每个存在的虚拟页面都保存在某个区域,而不属于某个区域的虚拟页是不存在的(虚拟页本就是为进程所服务),并且不能被进程引用。内核不用记录这些不存在的虚拟页,能够节省更多的资源
下图是一个Linux进程等虚拟内存
-
Linux如何组织虚拟内存
内核为每一个进程都单独维护一个task_struct,task_struct中的元素包含或者指向内核运行该进程所需的所有信息(例如PID、指向用户栈的指针%rsp,可执行目标文件的名字,程序计数器PC等)
task_struct中一个条目指向mm_struct,它描述了虚拟内存的当前状态。我们感兴趣的字段有两个,pgd和mmap:
-
pgd指向第一级页表的基址,当内核运行这个进程时就把pgd的值放进CR3寄存器中
-
mmap指向一个vm_area_struct,每一个vm_area_struct都描述了当前虚拟地址空间的一个区域
vm_area_struct的结构如下:
- vm_start:指向这个区域的起始处
- vm_end:指向这个区域的结束处
- vm_prot:描述这个区域内所有页的读写权限
- vm_flags:描述这个区域内的页面是与其他进程共享的还是私有的
- vm_next:指向链表的下一个vm_area_struct
-
-
Linux缺页异常处理
当出现缺页异常,控制将转移到内核的缺页处理程序,处理程序随后执行如下步骤:
-
虚拟地址A时合法的吗?即地址A是否在某个vm_area_struct指向的区域内。缺页处理程序通过搜索vm_area_struct的链表,把A和每个vm_area_struct的vm_start和vm_end进行对比来得到结果。如果虚拟地址A不是合法的,就会抛出段错误
因为一个进程可以创建任意个vm_area_struct,如果通过链表来搜索会造成大量时间损耗,因此在实际中,Linux利用我们看不见的字段建立了一个树,并在这棵树上查看
-
试图进行的内存访问是否合法?换句话说进程是否有读写或者执行这个区域内页面的权限?例如,如果缺页是由于一条对代码段中的只读页面进程写操作造成的,处理程序就会抛出段错误
-
此刻,内核已经知道这个缺页是由于对合法的虚拟地址进行合法访问造成的。那么处理程序会选择一个牺牲页面,如果牺牲页面被修改了,那么就将它交换出去,换入新的页面并更新页表。当缺页处理程序返回时,CPU重新启动引起缺页的指令
-
内存映射
我们好奇虚拟内存是如何与磁盘上的对象关联起来的。Linux上通过一个叫内存映射的过程来实现虚拟内存的初始化,内存映射有两种形式:
-
**Linux文件系统中的普通文件:**一个区域可以映射到一个普通磁盘文件的连续部分,例如一个可执行文件。文件区被分成页大小(4KB)的片,每一片包含一个虚拟页面的初始内容。因为虚拟页面是按需调度的(已缓存或未缓存),所以这些虚拟页面并没有实际进入物理内存(DRAM),直到CPU第一次引用到页面,即发射一个虚拟地址,触发访问合法地址的合法访问的缺页。
一个区域的大小如果比文件区要大,那么剩下的就用0填充
-
匿名文件:一个区域也可以映射到匿名文件。匿名文件是由内核创建的,包含得全是二进制零。CPU第一次引用这种页面时,内核会在虚拟内存中找到合适的替换页面,如果该页面有修改,那么就换出去,用二进制零覆盖页面并更新页表。注意在这个过程中,磁盘和内存之间没有实际的数据传输,因此映射到匿名文件的区域中的页面也叫请求二进制零的页,通常出现在可执行文件的.bss段以及栈和堆,初始长度都是0,特点都是没有和磁盘的数据交互所以就用匿名文件映射。
再看共享对象
内存映射为我们提供了一种清晰的基址,用来控制多个进程如何共享对象
一个对象被映射到虚拟内存的一个区域,可以是共享对象也可以是私有对象,一个进程对一个共享对象的任何写操作其他进程也都会看见,并且会作用在磁盘的原始对象上。
私有对象使用的是一种写时复制的技术映射到虚拟内存中,一个私有对象开始生命周期的方式与共享对象一致,在物理内存中只保存有私有对象的一份副本,其中两个进程将一个私有对象映射到它们虚拟内存的不同区域,但是共享这个对象的同一个副本。对于每个映射私有对象的进程,相应私有区域的PTE是标记为只读的,并且vm_area_struct标记为私有的写时复制
只要进程没有试图去写它的私有区域,它们就可以继续共享物理内存中对象的一个单独副本,然而只要有一个进程试图写私有区域的某个页面,那么这个写操作就会触发一个保护故障
当故障处理程序发现是由于进程试图写私有区域中一个页面而引发的时,它会在物理内存中新建这个页面的新副本(注意只是页面的副本而不是整个对象),更新当前进程对应页面的PTE指向该新副本(其他进程的页表仍然指向旧的页面),然后将页表的权限改为可写,处理完后控制传会引发故障的指令
再看fork函数
之前的知识已经告诉我们,父进程和fork的子进程拥有的是两个互不干涉的地址空间
当fork函数被父进程调用时,内核就为子进程创建各种数据结构,并分配了唯一的PID(task_struct),然后为了给这个进程创建虚拟内存,它创建了父进程的mm_struct、vm_area_struct和页表的原样副本给子进程的地址空间(因为父进程和子进程的代码和数据都有一模一样的,区别在于调用fork函数后跳转的部分不同)。并且将两个进程的每个页面都标记为只读,每个区域结构都标记为私有的写时复制
这样fork函数在子进程中返回时(即将跳转到与父进程不同的代码段),父进程现在的虚拟内存(调用fork函数时)和子进程的虚拟内存是一样的。当这两个进程中任意一个,有写操作时,写时复制机制都会创建新页面,彼此互不影响
再看execve函数
假设在当前进程中执行了如下的execve调用
execve("a.out", NULL, NULL);
execve函数在当前进程加载并运行a.out中的程序,用a.out程序替代当前程序,步骤如下:
- 删除已存在的用户区域
- 映射私有区域:为新程序的代码、数据、bss和栈区域创建新的vm_area_struct,所有的这些区域都是私有的,写时复制的
- 映射共享区域
- 设置程序计数器:execve的最后一件事就是设置当前程序上下文中的程序计数器,使之指向新代码区域的入口点
使用mmap函数的用户级内存映射
前面提到过的,一个进程可以创建大量的虚拟内存区域,怎么创建呢?Linux进程可以使用mmap函数来创建新的虚拟内存区域,并将对象映射到这些区域
#include <unistd.h>
#include <sys/mman.h>
void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);
// 如果成功则返回指向映射区域的指针,如出错则为MAP_FAILED(-1)
mmap函数要求内核创建一个新的虚拟内存区域,最好是从地址start
开始的一个区域,并将文件描述符fd
指定的对象的一个连续的片映射到这个新区域。连续的片的大小为length
字节,从距文件开始处偏移量offset
字节的地方开始。
start
只是一个暗示,通常设置为NULL
prot
包含新映射的虚拟区域的访问权限位(vm_area_struct里的vm_prot)
flags
由描述被映射对象类型的位组成,如果设置了MAP_ANON标记位,那么映射的对象就是一个匿名对象,那么相应的虚拟页面就是请求二进制零的。相应的还有MAP_PRIVATE和MAP_SHARED
例如
bufp = mmap(NULL, size, PROT_READ, MAP_PRIVATE|MAP_ANON, 0, 0);
该函数让内核创建了一个size字节的,只读的,私有的,请求二进制零的虚拟内存区域,如果调用成功,bufp包含新区域的地址
mmap函数可以删除虚拟内存的区域
int mmap(void *start, size_t length);
删除从虚拟地址start开始的长度为length字节的区域