二、进程与线程

2.1 进程与线程

2.1.1 进程的概念和特征

进程：是动态的，是程序的一次执行过程。同一个程序多次执行会对应多个进程。当进程被创建时，操作系统会为该进程分配一个唯一的、不重复的PID（进程ID）。

操作系统要记录PID、进程所属用户ID（UID），还要记录给进程分配了哪些资源（如：分配了多少内存、正在使用哪些I/O设备、正在使用哪些文件），以及记录进程的运行情况（如：CPU使用时间、磁盘使用情况、网络流量使用情况等）
分别对应：基本的进程描述信息，可以让操作系统区分各个进程；可以用于实现操作系统对资源的管理；可用于实现操作系统对进程的控制、调度
以上信息都被保存在一个数据结构PCB中，即进程控制块
操作系统需要对各个并发运行的进程进行管理，但凡管理时所需要的信息，都会被放在PCB中
在这里插入图片描述

PCB是给操作系统用的。程序段、数据段是给进程自己使用的。
一个进程实体（进程映像）由PCB、程序段、数据段组成。
进程是动态的，进程实体（进程映像）是静态的。

进程是进程实体的运行过程，是系统进行资源分配和调度的一个独立单位。
一个进程被“调度”，就是指操作系统决定让这个进程上CPU运行。

进程的特征：
在这里插入图片描述

2.1.2 进程的状态与转换

进程的状态—创建态、就绪态
进程正在被创建时，它的状态是“创建态”，在这个阶段操作系统会为进程分配资源、初始化PCB
当进程创建完成后，便进入“就绪态”，处于就绪态的进程已经具备运行条件，但由于没有空闲CPU，就暂时不能运行
系统中可能会有很多个进程都处于就绪态，当CPU空闲时，操作系统就会选择一个就绪进程，让它上处理机运行
如果一个进程此时在CPU上运行，那么这个进程处于“运行态”。CPU会执行该进程对应的程序（执行指令序列）
在进程运行的过程中，可能会请求等待某个事件的发生（如等待某种系统资源的分配，或者等待其他进程的响应）。在这个事件发生之前，进程无法继续往下执行，此时操作系统会让这个进程下CPU，并让他进入“阻塞态”。
当CPU空闲时，又会选择另一个“就绪态”进程上CPU运行

在这里插入图片描述
进程的整个生命周期中，大部分时间都处于三种基本状态
单CPU情况下，同一时刻只会有一个进程处于运行态，多核CPU情况下，可能有多个进程处于运行态
进程PCB中，会有一个变量state来表示进程的当前状态。

2.1.3 进程的组织

进程的组织–链接方式
在这里插入图片描述
进程的组织–索引方式

2.1.4 进程控制

进程控制的主要功能是对系统中的所有进程实施有效的管理，它具有创建新进程、撤销已有进程、实现进程状态转换等功能
使用原语来实现进程控制，因为原语的执行具有原子性，即执行过程只能一气呵成，期间不允许被中断
可以用“关中断指令”和“开中断指令”这两个特权指令实现原子性
在这里插入图片描述

在这里插入图片描述

运行环境就是一些必要的寄存器信息，用于切换进程时保存上一个进程存储在寄存器中的中间结果
无论哪个进程控制原语，要做的无非三类事：

更新PCB中的信息（修改进程状态（state），保存/恢复运行环境）
将PCB插入合适的队列
分配/回收资源

2.1.5 进程间通信（IPC）

进程间通信（IPC）是指两个进程之间产生数据交互。
进程间通信需要操作系统的支持
进程是分配系统资源的单位（包括内存地址空间），因此各进程拥有的内存地址空间相互独立。

为了保证安全，一个进程不能直接访问另一个进程的地址空间。
在这里插入图片描述

共享存储
在这里插入图片描述
Linux中通过shm_open系统调用，申请一片共享内存区，通过mmap系统调用，将共享内存区映射到进程自己的地址空间，通过“增加页表项/段表项”即可将同一片共享内存区映射到各个进程的地址空间中。
为避免出错，各个进程对共享空间的访问应该是互斥的，各个进程可使用操作系统内核提供的同步互斥工具（如P、V操作）

基于存储区的共享：操作系统在内存中划出一块共享存储区，数据的形式、存放位置都由通信进程控制，而不是操作系统。这种共享方式速度很快，是一种高级通信方式。
基于数据结构的共享：比如共享空间里只能放一个长度为10的数组。这种共享方式速度慢、限制多，是一种低级通信方式。

消息传递
进程间的数据交换以格式化的消息（Message）为单位。进程通过操作系统提供的“发送消息/接收消息”两个原语进行数据交换
在这里插入图片描述

直接通信方式

间接通信方式

那么多个进程往同一个信箱send消息，也可以多个进程从同一个信箱中receive消息
管道通信

“管道”是一个特殊的共享文件，又名pipe文件。其实就是在内存中开辟一个大小固定的内存缓冲区。

管道先进先出，只能采用半双工通信，某一个时间段内只能实现单向的传输。如果要实现双向同时通信，则需要设置两个管道
各进程要互斥地访问管道（由操作系统实现）
当管道写满时，写进程将阻塞，直到读进程将管道中的数据取走，即可唤醒写进程
当管道读空时，读进程将阻塞，直到写进程往管道中写数据，即可唤醒写进程
管道中的数据一旦被读出，就彻底消失。因此，当多个进程读同一个管道时，可能会错乱。对此，通常由两种解决方案：①一个管道允许多个写进程，一个读进程；②允许有多个写进程，多个读进程，但系统会让各个读进程轮流从管道中读数据。（以第一种为标准答案）

2.1.6 线程和多线程模型

传统的进程是程序执行流的最小单位。
引入线程后，线程成为了程序执行流的最小单位
线程是一个基本的CPU执行单元，也是程序执行流的最小单位。引入线程后，不仅是进程之间可以并发，进程内的各线程之间也可以并发，从而进一步提升了系统的并发度，使得一个进程内也可以并发处理各种任务。
引入线程后，进程只作为除CPU之外的系统资源的分配单元。
在这里插入图片描述
线程的属性

线程的实现方式、多线程模型

用户级线程（ULT）
早期的操作系统只支持进程，不支持线程。当时的“线程”是由线程库实现的。

从代码的角度看，线程其实就是一段代码逻辑。一个while循环就是一个最弱智的“线程库”，线程库完成了对线程的管理工作（如调度）。
很多编程语言提供了强大的线程库，可以实现线程的创建、销毁、调度等功能。

线程的管理工作由谁来完成？
由应用程序通过线程库来完成
线程切换是否需要CPU变态？
不需要，线程切换可以在用户态下即可完成，无需操作系统干预
操作系统是否能意识到用户级线程的存在？
不能，在用户看来是有多个线程。但是在操作系统内核看来，并意识不到线程的存在。“用户级线程”就是“从用户视角看能看到的线程”
优缺点
优点：用户级线程的切换在用户空间即可完成，不需要切换到核心态，线程管理的系统开销小，效率高
缺点：当一个用户级线程被阻塞后，整个进程都会被阻塞，并发度不高。多个线程不可在多核处理机上并发运行。

内核级线程（KLT）：由操作系统支持的线程
在这里插入图片描述

线程的管理工作由谁来完成
内核级线程的管理工作由操作系统内核完成
线程切换是否需要CPU变态？
线程调度、切换等工作都由内核负责，因此内核级线程的切换必然需要在核心态下才能完成
操作系统是否能意识到内核级线程的存在？
操作系统会为每个内核级线程建立相应的TCB（线程控制块），通过TCB对线程进行管理。“内核级线程”就是“操作系统内核视角看能看到的线程”
优缺点
优点：当一个线程被阻塞后，别的线程还可以继续执行，并发能力强。多个线程可以在多核处理机上并发执行
缺点：一个用户进程会占用多个内核级线程，线程切换由操作系统内核完成，需要切换到核心态，因此线程管理的成本高，开销大

多线程模型
在支持内核级线程的系统中，根据用户级线程和内核级线程的映射关系，可以划分为多个多线程模型

一对一模型：一个用户级线程映射到一个内核级线程。每个用户进程有与用户级线程同数量的内核级线程
优点：当一个线程被阻塞后，别的线程还可以继续执行，并发能力强。多线程可在多核处理机上并发执行
缺点：一个用户进程会占用多个内核级线程，线程切换由操作系统内核完成，需要切换到核心态，因此线程管理的成本高，开销大。
在这里插入图片描述
多对一模型：多个用户级线程映射到一个内核级线程。且一个进程只被分配到一个内核级线程。
优点：用户级线程的切换在用户空间即可完成，不需要切换到核心态，线程管理的系统开销小，效率高
缺点：当一个用户级线程被阻塞后，整个进程都会被阻塞，并发度不高。多个线程不可在多核处理机上并发运行
重点：操作系统只“看得见”内核级线程，因此只有内核级线程才是处理机分配的单位
在这里插入图片描述
多对多模型：n用户级线程映射到m个内核级线程（n>=m）每个用户进程对应m个内核级线程
克服了多对一模型并发度不高的缺点（一个阻塞全体阻塞），又克服了一对一模型中一个用户进程占用太多内核级线程，开销太大的缺点
可以这么理解：用户级线程是“代码逻辑”的载体；内核级线程是“运行机会”的载体。
只有所有内核级线程都被阻塞时，进程才算是被阻塞
在这里插入图片描述