操作系统基础—多线程

1.为何引入线程

利用传统的进程概念和设计方法已经难以设计出适合于SMP(多对称处理机)结构计算机系统的OS，其根本原因在于多处理机环境下进程的创建，调度，分配所花费的时空开销太大，引入线程，以线程作为调度和分派的基本单位可以提升系统的并发性，改善多处理机系统的性能。

程序并发的时空开销

1.创建进程：系统在创建一个进程时，必须为它分配其所必须的，除处理机外的所有资源，如内存空间，IO设备，以及建立相应的PCB。

2.撤销进程：系统在撤销进程时，必须先对其所占有的资源执行回收操作，然后再撤销PCB；

3.进程切换：对进程进行上下文切换时，需要保留当前进程的CPU环境，设置新选中的CPU环境，需要花费不少处理机时间。

线程的设计思路

设法将进程的两个属性分开，即：不把作为调度和分派的基本单位也同时作为拥有资源的单位，以做到“轻装上阵”；而对于拥有资源的基本单位，又不对之施以频繁的切换。

线程的状态和线程控制块TCB

线程运行的三个状态：

1）执行状态：线程已获得处理机而正在运行
2）就绪状态：线程已获得除处理机外的所有执行条件，获得处理机后可立即执行
3）阻塞状态：线程在执行中因某事件受阻而处于暂停状态

线程控制块TCB

①线程标识符
②一组寄存器
③线程运行状态
④优先级
⑤线程专有存储区
⑥信号屏蔽
⑦堆栈指针

2.线程与进程的比较

1.调度的基本单位
在引入线程的OS中，已把线程作为调度和分派的基本单位，当线程切换时，仅需保存和设置少量寄存器内容，切换代价远低于进程。在同一进程中，线程的切换不会引起进程的切换，但从一个进程的线程切换到另一个进程的线程时，必然会引起进程的切换。

2.并发性
在引入线程的OS中，不仅进程之间可以并发执行，而且在一个进程中的多个线程之间亦可并发执行，甚至允许一个进程中的所有线程都能并发执行，不同进程中的线程也能并发执行。使OS具有了更好的并发性。

3.拥有资源
进程可以拥有资源，并作为系统中拥有资源的一个基本单位。然而，线程本身并不拥有资源，而是仅有一点必不可少的，能保证独立运行的资源。每个线程中都应具有一个用于控制线程运行的线程控制块TCB，用于指示被执行指令序列的程序计数器，保留局部变量，少数状态参数和返回地址等的一组寄存器和堆栈。
多个线程可以共享该进程所拥有的资源，属于同一进程的所有线程都具有相同的地址空间，线程可以访问该地址空间中的每一个虚地址；此外，还可以访问进程所拥有的资源，如已打开的文件，定时器，信号量机构等的内存空间和它所申请的IO设备等。

4.独立性
同一进程中的不同线程之间的独立性要比不同进程之间的独立性低得多。为防止进程之间彼此干扰和破坏，每个进程都拥有一个独立的地址空间和其它资源，除了共享全局变量外，不允许其它进程访问。但是同一进程的不同线程往往为了提高并发性以及进行相互之间的合作而创建的，它们共享进程的内存地址空间和资源，如每个线程都可以访问它们所属进程地址空间中的所有地址，一个线程的堆栈可以被其它线程读，写，甚至完全清除。由一个线程打开的文件可以供其它线程读，写。

5.系统开销
在创建或撤销进程时，系统都要为之分配和回收进程控制块，分配或回收其它资源，如内存空间和IO设备等。OS为此所付出的开销明显大于线程创建或撤销时所付出的开销。此外由于一个进程中多个线程具有相同的地址空间，线程之间的同步和通信也比进程的简单。因此一些OS中，线程的切换，同步和通信都无需操作系统内核的干预。

6.支持多处理机系统
在多处理机系统中，单线程进程只能在一个处理机上运行，但多线程进程可以将一个进程中的多个线程分配到多个处理机上，使它们并行执行。

多线程OS中的进程：

在多线程OS中，进程仍是作为系统资源分配的基本单位
一个进程内的多个线程可并发执行
进程已不是可执行的实体：多线程OS中把线程作为独立运行的基本单位，此时进曾不再是基本可执行实体。
但进程仍具有与执行相关的状态：
- 进程执行状态：实际上指该进程的某线程正在执行
- 将某进程挂起：实际上将该进程的所有线程也挂起
- 将某进程激活：实际上将该进程的所有线程也激活

3.线程的实现⭐

1.内核支持线程KST

概念介绍：
kST——Kernel Supported Threads
内核支持线程KST是在内核的支持下运行的，它们的创建，阻塞，撤销和切换等，都是在内核空间实现的。为了对内核线程进行控制和管理，在内核空间为每一个内核线程设置了一个线程控制块，内核根据该控制块而感知某线程的存在，并对其加以控制。当前大多数OS都支持内核支持线程。

内核支持线程的优点：

①在多处理器系统中，内核能够同时调度同一进程中的多个线程并行执行；
②如果进程中的一个线程被阻塞了，内核可以调度该进程中的其它线程占有处理器运行，也可以运行其它进程中的线程；
③内核支持线程具有很小的数据结构和堆栈，线程的切换比较快，切换开销小；
④内核本身也可采用多线程技术，可提高系统的执行速度和效率。

内核支持线程的缺点：

对于用户的线程切换而言，其模式切换的开销较大，在同一个进程中，从一个线程切换到另一个线程时，需要从用户态转到核心态进行，这是因为用户进程的线程在用户态运行，而线程调度和管理是在内核实现的，系统开销较大。

内核支持线程的实现

系统在创建一个新进程时，便为它分配一个任务数据区PTDA(Per Task Data Area)，其中包括若干个线程控制块TCB空间。
在每一个TCB中可保存线程标识符，优先级，线程运行的CPU状态等信息。
这些信息与用户级线程TCB中的信息相同，但是现在却是被保存在内核空间当中。
每当进程要创建一个线程时，便为新线程分配一个TCB，将有关信息填入该TCB中，并为之分配必要的资源。内核支持线程的调度和切换与进程的调度和切换十分相似。

2.用户级线程

概念介绍：
用户级线程是在用户空间中实现的。对于线程的创建，撤销，同步与通信等功能，都无需内核的支持，即用户级线程是与内核无关的。在一个系统中的用户级线程的数目可以达到数百个至数千个。由于这些线程的任务控制块都是设置在用户空间，而线程所执行的操作也无需内核的帮助，因而内核完全不知道用户级线程的存在。
注：对于设置了用户级线程的系统，其调度仍是以进程为单位进行的。
而内核支持线程调度是以线程为单位进行的

用户级线程的优点：

①线程切换不需要转移到内核空间。对一个进程而言，所有线程的管理数据结构均在该进程的用户空间中，管理线程切换的线程库也在用户地址空间运行，因此进程不必切换到内核方式来做线程管理，从而节省了模式切换的开销。
②调度算法可以是进程专用的。在不干扰OS调度的情况下，不同的进程可以根据自身需要选择不同的调度算法，对自己的线程进行管理和调度，而与OS的低级调度算法是无关的。
③用户级线程的实现与OS平台无关。因为对于线程管理的代码是属于用户程序的一部分，所有的应用程序都可以对之进行共享。因此，用户级线程甚至可以在不支持线程机制的操作系统平台上实现。

用户级线程的缺点：

①系统调用的阻塞问题
②在单纯的用户级线程实现方式中，多线程应用不能利用多处理机进行多重处理的优点，内核每次分配给一个进程仅一个CPU，进程中仅有一个线程可以执行，其它线程在该线程放弃CPU之前只能等待。

用户级线程的实现
用户级线程是在用户空间实现的。所有的用户级线程都具有相同的结构，它们都运行在一个中间系统上。当前有两种方式实现中间系统：

1.运行时系统：实质上是用于管理和控制线程的函数的集合，包括用于创建和撤销线程的函数，线程同步和通信的函数以及实现线程调度的函数等。这些函数能使用户级线程与内核无关。运行时系统中的所有函数都驻留在用户空间，并作为用户级线程与内核之间的接口。
用户级线程在切换时不须转入核心态，而是由运行时系统中的线程切换过程来执行切换任务。当线程需要系统资源时，将该要求传送给运行时系统，由后者通过相应的系统调用来获得系统资源。
2.内核控制线程：这种线程又称为轻型进程LWP。
- 每一个进程都可拥有多个LWP
- 同用户级线程一样，每个LWP都有自己的数据结构如TCB，其中包括线程表示符，优先级，状态，另外还有栈和局部存储区等。
- LWP也可以共享进程所拥有的资源。
- LWP可以通过系统调用来获得内核提供的服务
- 当一个用户级线程运行时，只须将它连接到一个LWP上，此时它便具有了内核支持线程的所有属性。这种线程的实现方式就是组合方式！
- 每一个LWP都要连接在一个内核级线程上，LWP可把用户级线程与内核连接起来
- 同时LWP实现了内核与用户级线程之间的隔离，内核所看到的总是多个LWP而看不到用户级线程，从而使用户级线程与内核无关

为了节省资源，将多个LWP做成一个缓冲池，称为线程池。
用户进程中的任何一个线程都可以连接到LWP池中的任何一个LWP上。
多个用户级线程可多路复用一个LWP，但是只有当前连接到LWP上的线程才能和内核通信，其余线程或阻塞或等待LWP。

3.组合方式

概念介绍：
在组合方式线程系统中，内核支持多个内核支持线程的建立，调度和管理，同时也允许用户应用程序建立，调度和管理用户级线程。

由于用户级线程和内核支持线程连接方式不同，从而形成了三种不同模型：
在这里插入图片描述

1）多对一模型：将多个属于一个进程的用户线程映射到一个内核控制线程。当用户线程需要访问内核时，将其映射到这个内核控制线程上，但每次只允许一个线程进行映射。该模型优点是线程管理开销小，效率高；缺点是如果一个线程在访问内核时发生阻塞，则整个进程都会被阻塞，并且任何时间只有一个线程可访问内核，多个线程不能同时在多个处理机上运行。
2）一对一模型：每一个用户级线程映射到一个内核支持线程。解决了多对一模型的缺点，它唯一的缺点是：每创建一个用户线程，就相应地创建一个内核线程，开销较大，需要限制整个系统的线程数。
3）多对多模型：允许多用户线程映射到同样数量或更少数量的内核线程上。它既可以使多个线程并行地运行在多处理机系统上，也可以减少线程的管理开销。