进程【Linux系统编程】

一、先谈硬件——冯诺依曼体系结构

存储器：内存（硬盘是外存）

输入设备：鼠标、键盘、摄像头、话筒、磁盘、网卡……

输出设备：显示器、播放器硬件、磁盘、网卡……

输入输出设备是外部设备，简称外设。

中央处理器（CPU）：

运算器：对我们的数据进行计算任务（算数运算、逻辑运算）

控制器：对我们的计算硬件流程进行一定的控制。

以上每一个部分都是独立的个体，也就是说，各个硬件单元必须用“线”链接起来。

“线”分两类：1、系统总线（CPU和内存之间） 2、IO总线（内存和外设之间）

不考虑缓存的情况，CPU只能对内存进行读写，不能访问外设。

所有设备都只能直接和内存打交道。

二、再谈软件——操作系统（Operator System）

操作系统是一款进行管理的软件。

why？

1、操作系统帮助用户管理好下面的软硬件资源（手段）。

2、为了给用户提供一个良好的（稳定、高效、安全）运行环境（目的）。

how？

先描述再组织。

操作系统里面会有各种数据，但操作系统不相信任何用户！

操作系统为了保证自己的数据安全，也为了保证给用户能够提供服务，操作系统以接口的方式给用户提供调用的入口，来获取系统内部的数据。

接口是操作系统提供的用C实现的，自己内部的函数调用——系统调用。

所有访问操作系统的行为，都只能通过系统调用完成。

操作系统的核心功能：内存管理、进程管理、文件管理、驱动管理。

三、再谈进程

一个操作系统，不仅仅只能运行一个进程，可以同时运行多个进程。

操作系统如何将进程管理起来？先描述，再组织。

任何一个进程，加载到内存时，形成真正的进程时，操作系统要先创建进程属性的结构体对象------PCB（process control block：进程控制块）

进程 = 内核PCB数据结构对象 + 你自己的代码和数据

描述进程-PCB

进程信息被放在一个叫做进程控制块的数据结构中，可以理解为进程属性的集合。
课本上称之为PCB（process control block），Linux操作系统下的PCB是: task_struct

task_struct内容分类

标示符: 描述本进程的唯一标示符，用来区别其他进程。
状态: 任务状态，退出代码，退出信号等。
优先级: 相对于其他进程的优先级。
程序计数器: 程序中即将被执行的下一条指令的地址。
内存指针: 包括程序代码和进程相关数据的指针，还有和其他进程共享的内存块的指针
上下文数据: 进程执行时处理器的寄存器中的数据[休学例子，要加图CPU，寄存器]。
I／O状态信息: 包括显示的I/O请求,分配给进程的I／O设备和被进程使用的文件列表。
记账信息: 可能包括处理器时间总和，使用的时钟数总和，时间限制，记账号等。
其他信息

怎么组织

在Linux中是如何组织进程的，Linux内核中，最基本的组织进程task_struct的方式，是采用双向链表组织的。

查看进程

在Linux中，ps axj 指令可查到当前正在运行的进程。

ls /proc 查看当前系统中所有进程

终止一个进程：kill -9 PID

怎么获取PID，系统调用接口：getpid

PPID：getppid

当我们每次登录Xshell时，系统会为我们创建一个bash进程即创建一个命令行解释进程，我们在对话框中输入的指令都是bash进程的子进程。

fork：创建一个子进程

.\指令层面创建进程

fork（）代码层面创建进程。

当我们调用fork（）函数时，它会创建一个子进程，并给子进程返回0，给父进程返回子进程的pid，然后分两个执行流，id>0的进程是老的进程。

1、为什么fork（）要给子进程返回0，给父进程返回子进程的pid？

返回不同的返回值，是为了区分让不同的执行流，执行不同的代码块！

一般来说，fork（）之后的代码父子共享。

子进程只有一个父进程，它只需要通过getppid就可以确定父进程，但是父进程可能有多个子进程，所以它需要拿到子进程的pid来确定子进程。

2、一个函数是如何做到两个返回值？如何理解？

任何平台，进程在运行时，是具有独立性的。

数据层面的写时拷贝：在父子进程刚创建时，数据和代码确实是共享的，但是，当子进程要修改数据时，操作系统会另外在拷贝一份它要改的数据来给子进程更改。

4、fork（）函数在干什么？干了什么？

5、如果父子进程创建好后，谁先运行？

谁先运行，由调度器决定，不确定。

进程状态

1、一般操作系统学科中的：运行、阻塞、挂起

1、运行状态 R（在CPU上的和在运行队列中的都叫运行态）

一个进程把自己放到cpu上运行，并不是要运行完才把自己放下来。

每个进程都有一个时间片的概念，在一个时间段内，所有进程代码都会被执行，并发执行。

所以，我们的代码中一定会存在大量的把进程从CPU上拿下来或者放上去的动作------进程切换。

2、阻塞状态

每一个设备都有一个等待队列（系统里有很多等待队列，进程也有等待队列），进程想等那个设备，如果状态没有就绪，是不可读的，此时，此时，这个进程就自动把自己的PCB链入该设备的等待队列里，如果已经可读了，这个进程就把自己放运行队列里。

3、阻塞挂起状态

如果操作系统中的内存资源严重不足了，就会在保证正常运行的情况下，省出来内存资源。

会阻塞状态的进程的PCB保留，将代码和数据放到外设中（换出），此时的状态就叫挂起，当下次资源就绪，把这个进程要放入运行队列时，再把代码和数据从新换入进来。

电脑中除了C\D\E盘这些分区，还有一个swap（交换分区）。

2、具体Linux状态是如何维护的？

R（running）运行状态 R+：带+号表示前台运行。

S（sleeping）阻塞状态（浅度睡眠，可以被唤醒，随时响应外部变化）

D（disk sleep）阻塞状态（深度睡眠该状态下进程不可被kill，不响应操作系统的任何请求）

T（stopped）暂停状态

t（tracing stopped）暂停状态打断点时，到断点处会变为t状态

kill -19 PID （发19号信号，让目标进程处于stop状态）

X（dead）：终止态，资源被回收后，才会变成X状态

Z（zombie僵尸）：进程一般退出时，如果父进程没有主动回收子进程信息，子进程会一直让自己处于Z状态，进程的相关资源尤其是task_struck结构体不能被释放。

如果父进程一直不回收这个进程的资源，那么就会一直占用资源，导致内存泄露。

孤儿进程：如果父进程先挂了，子进程的PPID就变成了1（1号进程就是操作系统）

进程优先级

PRI：优先级，一个整型数组，数字越小，优先级越高。

NI：nice值，优先级修正数据

PRI(new) = PRI（old）（这个值是80）+nice

程序（进程）地址空间

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_val = 0;
int main()
{
    pid_t id = fork();
    if(id < 0){
        perror("fork");
        return 0;
    }
    else if(id == 0){ //child,子进程肯定先跑完，也就是子进程先修改，完成之后，父进程再读取
        g_val=100;
        printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
    }
    else{ 
        //parent
        sleep(3);
        printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
    }
    sleep(1);
    return 0;
}
//与环境相关，观察现象即可
child[3046]: 100 : 0x80497e8
parent[3045]: 0 : 0x80497e8

父子进程，输出地址是一致的，但是变量内容不一样！能得出如下结论:
变量内容不一样,所以父子进程输出的变量绝对不是同一个变量
但地址值是一样的，说明，该地址绝对不是物理地址！
在Linux地址下，这种地址叫做虚拟地址
我们在用C/C++语言所看到的地址，全部都是虚拟地址！物理地址，用户一概看不到，由OS统一管理。