目录
地址空间是什么
写时拷贝
地址空间存在的意义
如何管理进程地址空间
地址空间是什么
这是我们常说的c/c++程序地址空间,但是这里的空间具体指的是哪里的空间,举一个例子方便理解:
运行结果:
代码运行十秒后子进程修改了全局变量global_value的值但是父进程打印全局变量的值却不受影响,关键是两个进程打印的两个值的地址是相同的,这就很难理解,读取同一个地址的值为什么会有不同的结果。如果是物理地址打印出来的值就是同一个,说明我们这里打印出来的地址不是真实的物理地址而是虚拟地址,Linux中有时也称为逻辑地址。操作系统会给每一个进程创建地址空间,通过页表映射到物理内存这些都是由操作系统完成的。
所以对于刚才的现象就可以解释了:
父进程和子进程都有自己的独立的进程地址空间,且都有自己的页表结构,子进程由父进程创建,所以子进程的地址空间是从父进程拷贝而来,打印出来的global_value的值的地址是虚拟地址,刚开始的global_value经过映射指向同一个物理内存,所以刚开始看到的都是100后来子进程修改了自己地址空间的global_value的值,但是这个值是共享的,因为进程具有独立性,所以操作系统为了保证进程的独立性,当子进程或者父进程任何一方尝试对共享数据进行写入,操作系统会在物理内存上重新开辟一块新的内存空间,拷贝数据,然后再修改页表到物理内存的映射关系,不再指向原来的变量,在整个修改的过程中,和父子进程的虚拟地址空间没有任何关系,只是通过修改页表映射到不同的区域完成,所以我们看到了地址是一样的,但是内容却是不一样的,这就产生了看到的现象。
进程=内核数据结构+对应的代码和数据。
进程具有独立性所以:进程的pcb、页表、进程地址空间、对应的代码和数据都是独立的。
写时拷贝
指向同一个代码和数据的两个进程,任何一方尝试写入,操作系统先进行数据拷贝,更改页表映射,然后再让进程进行写入的技术称为写时拷贝。
地址空间存在的意义
1.保证了数据的安全性
每个进程都有进程地址空间,所有的进程都要通过页表映射到物理内存,如果进程直接访问物理内存,万一进程越界非法访问、非法读写时,页表就可以进行拦截,而且直接访问物理内存对于账号信息是非常不安全的,所以保证了内存数据的安全性。
2.更方便的进行进程和进程的数据代码的解耦,保证了进程独立性的特征
对于进程而言,都有独立的地址空间及页表,通过页表映射到不同的物理内存上,所以一个进程数据的改变不会影响到另一个进程,保证了进程的独立性,而对于上面我们所说的父进程和子进程而言,子进程的地址空间从父进程拷贝,页表都指向同一块物理内存,但是即使此时的数据是共享的,在修改数据的时候也会发生我们所说的写时拷贝,保证了进程的独立性。
3.让进程以统一的视角,看待进程对应的代码和数据各个区域,方便编译器也以统一的视角来进行编译代码
可执行程序被编译器编译的时候每个代码和数据在内存中已经有虚拟地址了(在磁盘上称为逻辑地址),也就是说,地址空间对于操作系统和编译器都是遵守的。所以当程序被加载到内存成为进程后,每个变量/函数都具备了物理地址。所以我们现在有两套地址:1.标识物理内存中代码和数据的地址2.在程序内部互相跳转的时候的虚拟地址加载完成之后,代码的各个区域的地址已经知道。进程被调度时,CPU拿到虚拟地址,经过地址空间查页表通过映射,进行访问查到物理地址往后执行。也就是CPU通过了虚拟地址——页表映射——物理地址执行。也就是在整个CPU运行过程中,CPU并没有见到物理地址,用的都是虚拟地址。
如何管理进程地址空间
由操作系统管理进程地址空间。并且操作系统会为每个进程创建进程地址空间,但是对于操作系统来说,存在着比较多的进程,所以操作系统需要对进程地址空间进行管理。管理的方法是:先描述再组织。
进程本身是需要被管理的(通过先描述,在组织),所以操作系统会使用内核数据结构对地址空间进行管理,这个地址空间实际是内存的一种数据结构mm_struct,OS会为每个进程创建mm_struct对象,进行管理。每一个进程有task_struct,在其属性中有mm_struct,可以找到进程的地址空间。
地址空间有很多区域,那进程地址空间是如何进行区域划分和区域调整的:把一个区域的end和start进行调整和维护内存区域
struct mm_struct{
uint32_t code_start,code_end;
uint32_t data_start,data_end;
uint32_t heap_start,heap_end;
uint32_t stack_start,stack_end;
}
对于区域的调整,本质就是修改区域的end 和start.