【进程地址空间】进程的独立性 | 虚拟地址物理地址 | 页表

前言

基本概念

进程的独立性

虚拟地址&物理地址

进程地址空间

页表（虚拟地址☞物理地址）

写时拷贝

基本理解

地址空间

写时拷贝（浅拷贝）

数据独立性的保证☞写时拷贝

写时拷贝的优点

图解分析

前言

我们在讲C语言的时候，给大家画过这样的空间布局图。但是我们并不理解，只是知道。这个空间布局图并不是语言层面上的，而是系统层面上的。

前面学习了两张表，命令行参数表和环境变量表。这里我们又出现新的问题？☞请看代码

在 cnt < 5 之前，父子进程输出出来的变量值和地址是一模一样的，因为子进程按照父进程为模版（子共享父的代码和数据），父子并没有对变量进行进行任何修改。是对代码是只读。
在cnt == 5 之后，父子进程，输出地址是一致的，但是变量内容不一样！

得出以下结论：

变量内容不一样,所以父子进程输出的变量绝对不是同一个变量。
但地址值是一样的，说明，该地址绝对不是物理地址！
在Linux地址下，这种地址叫做虚拟地址。
我们在用C/C++语言所看到的地址，全部都是虚拟地址！
物理地址，用户一概看不到，由OS统一管理。
OS必须负责将虚拟地址转化成物理地址。
虚拟地址从可执行程序加载到内存中得到，也就是从二进制的可执行程序得到。

所以之前说‘程序的地址空间’是不准确的，准确的应该说成进程地址空间，那该如何理解呢？☞下面

注❗：关于进程的地址空间会讲解3~4次，信号和多线程都会再次深入理解，这里只是入门

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>

int g_val = 100;//数据--全局变量
int main()
{
        printf("father is running,pid:%d,ppid:%d\n",getpid(),getppid());//只有父进程对数据只读
        pid_t id = fork();
        if (id < 0)
        {
                perror("fork");
                return 0;
        }
        else if (id == 0)//子进程
        {
            int cnt = 0;
            while(1)
            {
                //child
                printf("I am child process,pid:%d,ppid:%d,g_val:%d,&g_val:%p\n",getpid(),getppid(),g_val,&g_val);
                sleep(1);
                cnt++;
                if(cnt == 5)//修改
                {
                    g_val = 300;
                    printf("I am child process,change g_val:%d->%d\n",100,300);
                }
             }
        }
        else
        { //father
             while(1)//只读
             {
                printf("I am parent process,pid:%d,ppid:%d,g_val:%d,&g_val:%p\n",getpid(),getppid(),g_val,&g_val);
                sleep(1);
             }
        }
        return 0;
}

基本概念

进程的独立性：PCB+代码+数据（只读；写入-写时拷贝）
虚拟地址&物理地址
进程的地址空间
页表：虚拟地址&物理地址的映射关系
写时拷贝

进程的独立性

前面学习了进程具有独立性，对数据的处理具有独立性。但不是指父子进程就是老死不相往来的关系了，父子进程在数据的管理上面仍然具有交叉。在正常运行的情况下，一个进程的退出也不会影响另外一个进程。

进程 = 内核数据结构（task_struct) + 代码 + 数据
每个进程都有一份PCB，所以进程在内核数据结构的管理上是独立的。
在只读的前提下，子进程会共享父进程的代码和数据。
对于代码来说，代码是只读的，所以父子进程共享一份代码即可。
对于数据来说，数据具有既可读又可写的属性，若只读，也只共享一份。但若一方要写入，则就会发生写时拷贝。所以，在数据上就可以体现进程的独立性。
父进程的代码和数据能被子进程继承，包括命令行参数和环境变量表等。大部分数据字段都是无需修改的，只读即可。存在小部分的数据会被修改时，发生写时拷贝。
数据：无论是全局变量还是局部变量都是一样的

❓什么写时拷贝呢☞下面

❓当程序被编译成二进制之后，程序的变量和函数名还存在吗

回答：当然不存在。变量名和函数名被编译之后变成二进制文件之后，被全部替换成地址了。语言层面上来说，变量名和函数名是为了方便写代码。

虚拟地址&物理地址

以上文例子来看，无论是父进程还是子进程，&g_val是一样的，但是g_val却不一样。同一块内存空间的数值不可能存在两个值，所以可以确定的是&g_val的地址不是物理地址，那这是什么地址呢❓虚拟地址

进程地址空间

OS把程序的代码和数据从磁盘加载到物理内存当中。
同时OS会为每一个进程创建一个PCB。
同时OS也会为每一个进程创建一个进程地址空间。

进程地址空间

OS会把进程的代码和数据归列好放入地址空间的各个区域，供进程使用。
进程的地址空间被划分为很多个区域：代码区/数据区/堆/栈等等。
空间布局图是在OS内部，叫进程地址空间。是系统层面上的，和语言没有关系。
进程的PCB是有一个链接属性是指向这个进程地址空间的。
地址空间有32位和64位的，空间范围大小不一样的☞后序讲解。下面统一按照32位的来表示，从高到低总共有4G的进程空间范围。
LinuxOS中习惯低地址在下，高地址在上。（与平时画的相反）
进程地址空间的地址是虚拟地址。是线性的，连续的。
注意进程的PCB和代码/数据和程序地址空间都在物理内存中。
访问数据/代码的时候，数据和代码都不在进程地址空间，而是存在于物理空间中。

结合上面的示例g_val，我们可知整个地址空间，我们打印的g_val的地址&g_val（即变量的地址）实际上就是该进程地址空间对应的地址，也就是虚拟地址。

页表（虚拟地址☞物理地址）

进程访问初始化的数据是怎样访问的呢❓

找到进程地址空间中线性的该数据的虚拟地址
根据虚拟地址在页表中查找到隐射关系
根据隐射关系在物理内存中找到物理地址，即找到该数据
关于页表，我们这里先当作一个整体，后面再细讲。

页表

功能：将地址空间中的虚拟地址和物理内存中的物理地址之间建立隐射关系
使用虚拟地址访问

OS拿到虚拟地址
去页表查询
找到物理地址
找到物理地址所指向的物理内存空间，从而访问到数据

写时拷贝

在上面我们遗留下一个问题：❓一个变量不可能同时存在多个内容。❗重点在数据

进程访问代码/数据的时候用的都是虚拟地址间接访问物理内存中的数据和代码；不直接物理地址访问物理内存。（原因存在3点☞后面讲）
子进程在被创建出来的时候，它的代码/数据初始化都是共享父进程的，PCB中的属性也和父进程差不多，除了pid，ppid之外等。
程序的代码是只读的，所以父子进程共享一份即可
程序的数据大部分也是不会写入，若要写入，子进程的数据就需要发生写时拷贝，然后初始化和父进程一样的。

概念：写时拷贝是浅拷贝解决浅拷贝析构冲突的一种解决方案，写时拷贝也叫延时拷贝，几个对象共用一块空间，当执行读操作时不会有影响，当你需要进行写操作改变一个对象的内容时，空间的值不能被修改，会互相影响，那么就需要单独开辟一块空间将对象拷贝过去然后改，不改变就不需要开辟。

优先：写时浅拷贝与深拷贝比较优点，占用空间少（相同内容不开辟新空间）,复制效率高。

浅拷贝：有一块内存空间，有一个指针指向这块内存空间，进行拷贝的时候，并不会把数据拷贝一份，而是把数据/代码的地址拷贝一份

基本理解

地址空间

OS会为每一个进程创建一个PCB和虚拟地址空间和独立的页表。

如果有很多的进程，就有PCB，很多地址空间。
PCB需要管理，地址空间也需要管理。先组织，再描述。
进程的地址空间本质上是一个内核数据结构-结构体
地址空间的本质就是内核中的一个结构体对象。

父子进程
父进程有自己的PCB(内部属性）和进程地址空间（内部属性）
在创建时，只读阶段：子进程和父进程一样，全部照搬。
子进程会把父进程的很多内核数据结构全拷贝一份，初始化基本一样。（除了个别的pid / ppid / 指针字段不考虑）

浅拷贝：有一块内存空间，有一个指针指向这块内存空间，进行拷贝的时候，并不会把数据拷贝一份，而是把数据/代码的地址拷贝一份

写时拷贝（浅拷贝）

在上面我们遗留下一个问题：❓一个变量不可能同时存在多个内容。

创建子进程之后，子进程照搬父进程（只读层面）
若这是我们子进程要写入：修改g_val的值
发生写时拷贝
再去修改写时拷贝后的子进程的g_val的值。
可以做到直接把物理内存原本的g_val修改，但是子进程对数据写入修改，直接会影响到了父进程的g_val，直接影响父进程的运行）

原因：父子进程的g_val的存在物理内存中的物理地址不一样，但是他们的虚拟地址是一样的，所以打印出来的地址是一样的，但是变量内容不一样。这是因为相同的虚拟地址在各自的页表中存在不同的隐射关系，所指向的物理内存的物理地址不同，导致的变量的值不同。

数据独立性的保证☞写时拷贝

独立性：多进程运行，需要独享各种资源，多进程运行期间互不干扰。

进程在运行时保持独立性。OS在设计进程的独立性时候是怎样保证的❓以下操作都由OS自主完成。

当子进程对变量修改写入时
OS发现子进程修改的变量不仅仅是子进程在使用，有其他的进程共享使用
OS就暂停子进程的写入操作
OS在物理内存空间重新开辟一段新的空间（含物理地址）（这个空间仅仅合适容纳这个要写入的数据的大小，不是全部数据拷贝一份❌）
OS把以前和父进程共享的数据拷贝到新开辟的空间
OS再把新的物理地址和旧的虚拟地址重新形成新的隐射关系
OS于是让子进程继续写入操作

总：打印出来的是地址是虚拟地址（子进程从父进程继承下来的），各自都有自己独立的地址空间/页表/PCB，属性几乎一样。刚开始的值，地址都一样。一旦发生写入操作，OS底层就会发生写时拷贝（完成在物理内存独立分开的效果）

写时拷贝的优点

如果父子进程不写入，数据默认是被父子共享的。（只读）
如果一旦写入，就要发生写时拷贝。

为什么要这样做呢❓为什么不把父进程的数据全部拷贝一份给子进程随便使用呢❓

进程具有独立性（数据独立）
因为在父进程当中有很多数据，父子进程不一样会修改，数据几乎不会改动。（命令行参数，环境变量等等）占用的空间却很大。如果全部拷贝一份，浪费空间。
写时拷贝时是浅拷贝，不浪费空间，按需申请。

有人说写时拷贝很慢❓

其实不然，如果按照每次创建子进程就拷贝一份全部的代码和数据。数据却又只修改少部分这种策略，是又慢又浪费空间时间。
如果按需申请，相较于全拷贝，是节省空间和拷贝的次数（拷贝的时间）
通过调整拷贝的时间顺序，达到有效的节省空间的目的。