进程概念理解

既然要了解计算机的进程，那么就需要先了解一下计算机的底层结构

冯洛伊曼体系结构

操作系统

系统调用接口

进程

PCB

task_struct 内容

操作系统如何组织进程

冯洛伊曼体系结构

想了解计算机的底层结构，那么必定绕不开冯洛伊曼体系结构；

作为计算机的基本构成，冯洛伊曼结构大概如下图：

不过需要注意的是，此处的存储器并非指的硬盘，而是单纯指的内存；

硬盘属于外设，既能够输入数据到设备中，也能够输出数据到硬盘中，并非是存储器；

其中运算器+控制器就是CPU，也就是中央处理器，用来处理数据和代码；

根据冯洛伊曼体系结构，我们能够发现

不管是输入设备还是输出设备，亦或是中央处理器；

它们之间工作都必须经过存储器，也就是内存才能够进行数据的交换；

这是为什么呢？

1.CPU是最快的设备，内存速度仅次于CPU，而外设的速度最慢；

2.若是直接让CPU和外设交换数据，那么外设就会拖慢CPU的速度；

3.内存作为中间设备，能够提高工作效率；

这时就有一个问题了——既然内存既能够存储数据，速度又快，那为什么不直接用内存存储数据而抛弃硬盘这种外设呢?

这就设计到内存的特点了——断电易失；

和硬盘不同的是，内存只能够做临时存储，当电源断开的时候，内部的数据就会全部丢失；

而硬盘能够做到永久存储，因此只能够使用硬盘来存储数据，让硬盘和内存配合工作；

结论：

1.在数据层面上，CPU不和外设交互，只和内存进行交互；

2.当外设的数据需要载入，必须先将数据载入到内存中去，再由内存载入到CPU中；

3.CPU想要将数据写入到外设中，也必须先载入到内存中去；

操作系统

了解了计算机的硬件结构之后，我们需要再来了解一下软件层面的操作系统；

操作系统是一种管理软硬件资源的软件，其目的是通过合理管理软硬件资源，来给用户提供良好的执行环境；

那么操作系统是如何做到管理软硬件资源的呢？

我们先来看下面的图：

我们发现，在操作系统和底层硬件之间，还有一层软件——驱动程序；

而每种硬件都有对应的驱动；

而操作系统就是通过驱动来获取硬件的数据；

并且通过驱动来对硬件进行管理；

现在我们知道了操作系统是通过驱动来管理底层的硬件；

但是操作系统究竟是如何做的呢？

这就要说到管理的本质了；

管理的本质——先描述，再组织；

操作系统将每一种硬件设备抽象成一种结构体；

这个结构体内部成员有表示硬件类型的成员，有表示硬件状态的成员；

操作系统将硬件描述成统一的结构体之后；（先描述）

使用链表或者其他的一些数据结构来将这些结构体对象组织起来；（再组织）

通过这样的操作，操作系统就从对硬件的管理转换为对结构体对象的管理；

每一个结构体对象都对应了对应的硬件，通过驱动来不断获取对应硬件的数据并更新数据；

而操作系统是能够管理软硬件资源的，它对软件管理方式和对硬件管理也是一样的；

将软件描述成结构体后，再用数据结构组织起来；

系统调用接口

经过上面的解释，我们可以初步了解操作系统；

而因为操作系统过于复杂，不能让用户随意更改，所以它不会暴露自己的全部接口；

对于用户来说，操作系统只会暴露一部分接口，供用户使用；

这就是所谓的系统调用接口；

但是系统调用接口的使用难度较高，因此开发者们对部分系统调用接口进行了包装；

也就是所谓的库，利于开发者们进行开发；

而我们想要了解的进程就是由操作系统管理的，也是通过先描述，再组织的方法来管理的；

进程

：加载到内存中的程序

进程就是一种加载到内存中的程序，而进程的信息都被放在一个叫做进程控制块的数据结构中；

也就是PCB；

PCB

这里我们用PCB的一种——task_struct 来解释；

task_struct 是linux中用来描述进程的结构体；

它将进程抽象成一个结构体，有各种各样的内容：

task_struct 内容

1.标识符：用来区别其他进程

2.状态：任务状态，退出码，退出信号等

3.优先级：相对于其他进程的优先级

4.程序计数器：程序中将被执行的下一条指令的地址

5.内存指针：包括程序代码和进程相关数据的指针，以及其他进程共享的内存块的指针

6.上下文数据：进程执行时处理器的寄存器中的数据

7.I/O状态信息：包括各种各样的I/O请求，分配给进程的I/O设备等

8.记账信息：包括处理器时间总和等

9.其他信息

了解了 task_struct 的内容后，那么操作系统是怎么组织进程的呢？

操作系统如何组织进程

我们先来看一张图

当磁盘中的程序被加载到内存中，操作系统会创建一个对应的 task_struct 对象来与该程序关联

若是有多个程序被加载到内存后，操作系统会用链表的方式将 task_struct 对象们组织起来

然后操作系统再根据 task_struct 对象的优先级来将对应的程序加载到 CPU 中；

若是需要结束某个进程，也只是需要找到对应进程的 task_struct 对象，释放对应的程序后，

删除该 task_struct 对象就行；

这样就将对程序的管理转换为对 task_struct 对象的管理了；

查看进程

ps axj | grep <对应程序名>

#include<stdio.h>
#include<unistd.h>
int main()
{
        while(1)
        {
                printf("I am process!\n");
                sleep(1);
        }
        return 0;
}

（以上代码在xshell中进行）

我们在代码中写下一个死循环，来输出一句话；

接着输入 "ps axj " 的指令来查看对应的进程；

简单解释一下我所输入的指令；

ps axj 表示查询进程，而它 ' | ' 上 "head -1" 表示带上对应数据的标题；

而 "grep myprocess" 表示我所需要查询的进程是哪个；

而 "ps axj | head -1" && 上 "ps axj | grep myprocess | grep -v grep"则表示这两个查询同时进行；

而 "grep -v grep " 则是因为 grep 本身也是一个进程，这句话表示不用查询 grep 进程

ls /proc/<进程对应的pid>

除了ps axj 以外，还有一种方式查看进程，而 pid 则是对应文件的标示符；

#include<stdio.h>
#include<sys/types.h>
#include<unistd.h>
int main()
{
        while(1)
        {
                printf("I am process!my id = %d \n",getpid());
                sleep(1);
        }
        return 0;
}

此处我使用 getpid() 来获取该进程的文件标示符；

通过 ls /proc/<pid> 的命令，我们能够进入到对应进程所在目录（在linux下，进程也能用目录表示），看到进程的所有内容；

而我们的 proc 实际上是一种内存级的目录，用来管理 linux 下所有的进程；

通过系统调用接口获取文件标示符

上面的 getpid 指的是获取本进程的文件标示符，而 ppid 则是本进程的父进程的文件标示符；

而通过 pid ，我们可以使用各种指令来操作该进程，比如 kill 指令；

kill 指令有各种操作， kill -9 <pid >表示杀死某个进程；

而这里的父进程的pid一般是不会该改变的；

接下来我们写这样的代码：

#include<stdio.h>
#include<sys/types.h>
#include<unistd.h>
int main()
{
        while(1)
        {
                printf("I am process!my pid = %d,ppid = %d   \n",getpid(),getppid());
                sleep(1);
        }
        return 0;
}

然后重复运行；

我们发现，pid 每次都改变了，但是 ppid 并没有变化；

那么这里的 ppid 是什么进程？？

我们发现，ppid 的进程是 -bash，也就是 shell 中的命令行解释器；

若是我们 kill 了bash会怎么样？

kill 之后，我们就需要重新登录 shell 了；

通过系统调用创建进程 fork()

fork 就是单纯的创建一个子进程，但是它的返回值却不同；

fork 的返回值对于子进程来说，会返回 0 给子进程；

而对于父进程来说，fork 会返回子进程的 pid 给父进程；

若是创建失败，则返回-1给父进程，不会创建子进程；

#include<stdio.h>
#include<sys/types.h>
#include<unistd.h>
int main()
{
        pid_t  id = fork();
        if(id == 0)
        {
                printf("I am child process!my pid = %d,ppid = %d id = %d\n",getpid(),getppid(),id);
        }
        else
        {
                printf("I am parent process!my pid = %d,ppid = %d id = %d\n",getpid(),getppid(),id);
        }
        return 0;
}

我们发现，确实给返回值没出错，并且 id 值不同；

至于为什么 id 值会不同，只能在后面的进程控制才能讲解；

进程状态

在之前我们使用 ps axj 命令查看进程的时候，可以看到有这样的一个字母：

有一栏 STAT 的标题，下面有一个字母 S ；

这是表示什么呢？

实际上这是 linux 中用来表示进程状态的字符；

而进程的状态有许多种：

名称	含义
R(运行状态)	表明进程在运行或者在运行队列中
S(睡眠状态)	表明进程在等待事件完成
D(磁盘休眠状态)	不可中断的睡眠，需要等待IO结束或者强制断电
T(停止状态)	发送SIGSTOP停止进程，SIGCONT来继续进程
X(死亡状态)	这只是返回状态，无法看到这个状态
阻塞状态	进程的pcb放在了某种资源(不包括CPU)的等待队列中
挂起状态	当内存空间不够时，将阻塞的进程的代码和数据暂时放入磁盘中，被转移的进程就是挂起状态

在不同的操作系统下，这些状态可能会不同；

比如linux下的 s 状态其实就是阻塞状态的一种；

而T状态是比较有趣的一种；

#include<stdio.h>
#include<sys/types.h>
#include<unistd.h>
int main()
{

                        printf("I am child process!my pid = %d,ppid = %d\n",getpid(),getppid());


        return 0;

}

当我们编译并运行这个代码后，再使用 kill -19 <pid> 的方式，它就会进入T状态

而在暂停之前，它的状态是 S+;

并且此时可以用 ctrl + c 来强制停止这个进程；

但是暂停后使用 kill -18 <pid> 的方式来继续，就会进程就会变为 S 状态

并且不能让使用ctrl + c 来停止这个进程；

只能使用 kill 命令杀死进程；

这说明 + 是有意义的；

状态后面带 + 号，表示前台进程，没 + 号表示后台进程，只可用kill命令杀死；

僵尸进程和孤儿进程

僵尸进程：子进程退出，但父进程未读取到子进程退出的返回代码时子进程的状态

孤儿进程：子进程未退出，但父进程提前退出时子进程的状态

首先我们讲讲僵尸进程

#include<stdio.h>
#include<sys/types.h>
#include<unistd.h>
#include<stdlib.h>
int main()
{
        pid_t id = fork();

        if(id == 0)
        {
                printf("I m child process! pid = %d \n",getpid());
                sleep(5);

                exit(1);
        }
        else
        {
                while(1){


                        printf("I m parent process! pid = %d \n",getpid());
                        sleep(1);
                }
        }
        return 0;
}

代码中，子进程在休眠五秒后就退出，而父进程并未接收退出代码；

我们能够看到5秒后，子进程的状态变为了僵尸状态；

僵尸状态的危害

1.父进程一直不回收，那么子进程的PCB就一直要维护，就会占用资源

2.会造成内存泄漏

接下来将孤儿进程：

#include<stdio.h>
#include<sys/types.h>
#include<unistd.h>
#include<stdlib.h>
int main()
{
        pid_t id = fork();

        if(id != 0)
        {
                printf("I m parent process! pid = %d \n",getpid());
                sleep(5);

                exit(1);
        }
        else
        {
                while(1){


                        printf("I m child process! pid = %d \n",getpid());
                        sleep(1);
                }
        }
        return 0;
}

上面的代码我们的父进程在休眠五秒后，就会退出，而同时能够看到，子进程的状态由S+变成了S状态，并且子进程的 ppid 变成了 1 ，也就是所谓的 init进程；

总结：

1.父进程先退出，子进程会由系统回收；

2.回收原因是因为子进程成孤儿后，没有父进程接收退出信息，会导致子进程僵尸；

3.前台进程创建的子进程变成孤儿后，就会称为后台进程；

进程优先级

由于计算机中的CPU或者硬件资源的缺席，进程之间通常需要争抢这些资源；

而有的进程比较重要有的没那么重要，因此操作系统在资源的分配上需要分出一个轻重缓急；

这个时候就出现了进程优先级；

而linux则是用两个数值共同决定一个进程的优先级

查看进程优先级

ps -la

#include<stdio.h>

int main()
{
        int a = 1+1;
        while(1)
        {
                a = 1+1;
        }
        return 0;
}

我们随便写下一个死循环，然后使用ps -la的指令查看当前的所有进程；

我们能够看到一连串数字，而优先级有 PRI 和 NI 的数值决定

PRI	进程的优先级，越小优先级越高
NI	进程优先级的修正值(-20 ~ 19)

虽然PRI实际上的数值是上面的80，但实际上优先级 = PRI + NI ；

而我们的 NI 值是能够修改的；

输入 top 命令，会出现如下界面：

这里显示了各种进程们的pid以及优先级等一些值；

然后输入 'r' 表示修改 NI 值；

然后输入想要修改的进程的 NI 值；

但是修改 NI 值有一定的风险，因此只有是有 sudo 提权或者 root 用户才能成功修改；

其他概念

1.竞争性：不同进程之前需要相互争夺CPU资源，因而有了优先级；

2.独立性：多进程同时运行，独享各种资源，并且相互不影响；

3.并行：多个进程在多个CPU下分别同时运行；

4:并发：多个进程在一个CPU下采用进程切换的方式，使得多进程在一段时间内得以推进