【Linux】第四十站：线程概念

文章目录

一、线程
二、Linux中线程应该如何理解
三、重新定义线程
四、四谈进程地址空间（页表相关）
五、Linux线程周边的概念
- 1. 线程与进程切换
- 2.线程优点
- 3.线程缺点
- 4.线程异常
- 5.线程用途

一、线程

线程：是进程内的一个执行分支。线程的执行粒度，要比进程要细

在一个程序里的一个执行路线就叫做线程（thread）。更准确的定义是：线程是“一个进程内部的控制序列”
一切进程至少都有一个执行线程
线程在进程内部运行，本质是在进程地址空间内运行
在Linux系统中，在CPU眼中，看到的PCB都要比传统的进程更加轻量化
透过进程虚拟地址空间，可以看到进程的大部分资源，将进程资源合理分配给每个执行流，就形成了线程执行流

二、Linux中线程应该如何理解

如下图所示的内容，我们都是可以理解的

我们可以注意到，我们进程所能看到的资源都是通过地址空间+页表才能看到的。

所以地址空间是进程的资源窗口

而进程的独立性是，当我们创建好一个子进程的时候，他们就有了不同内核数据结构，他们就可以映射到不同的物理地址中

如果我们再创建一个进程，并且它不创建新的地址空间。而是去共享地址空间，直接把原来地址空间中的一部分给他，并且和内存建立映射

那么这些进程它的执行粒度就更细了，因为它只执行那一点点，我们将这样的进程称为线程

Linux的具体的实现线程的方案：

再linux中，线程在”进程内部“执行，线程在进程的地址空间内运行（为什么？）

我们知道任何执行流要执行，都要有资源！进程空间是进程的资源窗口。
在linux中，线程的执行粒度要比进程更细，代码执行进程代码的一部分

进程它访问的时候更粗犷一些，而线程是比较细一些的

在CPU看来，它不知道也不需要知道哪个task_struct是进程还是线程。

CPU只有调度执行流的概念

在不通过的平台中，实现线程的方案各有不同。

三、重新定义线程

什么叫做线程？

我们认为线程是操作系统调度的基本单位

起初我们认为进程=内核数据结构（task_struct） + 代码和数据

上面的当然是正确的。

其实：像下面的红色框所圈的部分，这才是进程！，进程 = 一大堆的执行流+进程地址空间+页表+在物理内存中所占据的代码和数据

所以我们可以重新理解进程：

内核观点：进程是承担分配系统资源的基本实体

那么执行流是资源吗？当然是的！

所以线程和进程的关系就是，进程是包含线程的

因为进程是承担分配系统资源的基本实体

而线程是内部的执行流资源

如何理解，我们以前谈的这个进程？（下图的）

操作系统以进程为单位，给我们分配资源，只不过我们当前的进程内部，只有一个执行流！

在我们的系统中，进程：线程一定是1：n的，至少也是1：1。所以linux系统中线程一旦躲起来，它也要进行管理。所以还是我们曾经说的那六个字 先描述，在组织，它也是要管理线程的

在大部分的教材中，存在一个tcb
struct tcb;//therad ctrl block
所以就需要创建tcb之后，然后将他们组织起来

而windows就这样干了，就是为每个线程创建tcb,然后把进程和线程管理起来

而对于linux系统，它直接复用了进程数据结构和管理算法。使用下面的去模拟线程
struct task_struct //模拟线程
所以Linux没有真正意义上的线程而是用”进程“（用它的内核数据结构）模拟的线程

那么windows的方案还是linux的方案。那么更好呢？

当然那是linux中的，因为像如果专门设计一个tcb的话，那么中间必然有大量的相似的代码，就会导致它的维护成本直线上升。它的健壮性就不够好了。

所以其实linux有线程，不过它没有真正意义上的线程罢了。它用的是进程的数据结构去模拟的线程（进程还包括代码和数据，这里我们只用内核数据结构）

站在我们CPU的视角上，CPU无法区分是线程还是进程

但是在在CPU的视角线程(tcb)<=执行流(进程模拟的线程)<=进程

我们将Linux当中的执行流，称之为轻量级进程

举个例子，在我们的家庭中。我们的每个人都有自己的任务，我们要学习，父母要赚钱，爷爷奶奶要养好身体。所有人都有自己的任务，但是所有人的共同目标是将家里的日子过好。这个家就是一个进程，而每个人就是一个线程。而进程中的哪些其他资源都是给这些对应的执行流的。

而我们的创建进程，就需要创建这些资源，其实就好比买房买车

四、四谈进程地址空间（页表相关）

如何理解资源分配给线程？？

如下图所示，是我们曾经所提及的内容，CPU中一个CR3寄存器指向页表，还有一个寄存器指向task_struct，物理内存也是被划分为一个个的也页框，磁盘中的可执行程序也是按照4KB的大小放的

而4KB其实就是2^12

虚拟地址是如何转换到物理地址的？？？

当我们将物理地址读到CPU的时候，这里是虚拟地址

我们这里以32位计算机虚拟地址为例

虚拟地址就是32位的。其实这个32位的虚拟地址不是一个整体：而是10 + 10 +12

其次页表也不是一整块的。如果它是整块的，假设我们页表的一行是10个字节（它至少也有四个字节的虚拟地址，四个字节的物理地址，还有一些其他的标志位，我们这里为了方便计算，就按10字节来计算）

如果我们的页表是满的话，它有2^32次方个条目，每行10字节，总共需要40GB！

我们会发现，整个内存全放页表都放不下，更何况这只是一个页表，所以计算机中肯定不可能是页表是一整块的

其实32位是被拆成两级的

第一级页表是1024个条目。每一个条目，还存放另一个二级页表，而每个二级页表也有1024个条目。如下图所示是页表的真实面目

我们可以来计算一下此时的页表有多大

一个二级页表假设每一个页表表项是4字节，那么它一共是4KB。其实这刚好是一个页框。而他一共最多有1024个二级页表。所以是4MB

它相比上面的结构，已经大大减少了内存了。而且二级页表也不一定是全部存在的，大部分情况下二级页表都是不全的。

所以创建一个进程其实依旧是一个”很重“的工作

现在我们已经找到了这个数据的地址了。可是我们访问的时候访问的是4个字节等。这如何找到呢？所以这里就需要用类型了，它会认识这个int。然后就会取出四个字节。这些类型是给CPU看的，CPU就知道了读取几个字节了。

起始地址+类型==>起始地址+偏移量

所以如何理解资源分配呢？

线程分配资源的本质，本质是分配地址空间范围

五、Linux线程周边的概念

1. 线程与进程切换

我们知道线程比进程要更轻量化（为什么？）

创建和释放更加轻量化（创建线程只需要创建tcb，进程还有一堆进程地址空间，页表等…）
切换更加轻量化（运行时，页表等不需要切换）

整个生命周期都是更加轻量化的

线程的执行本质就是进程的执行，因为线程是进程的一个分支

所以CPU内还有一个硬件级别的缓存：Cache(它里面就是一些缓存的热数据)

CPU在切换线程的时候，上下文虽然一直在变化，但是缓存一直不变，或者在少量更新。而进程切换的时候，它的这些Cache里面的热数据都要被丢弃掉，重新缓存新的数据。所以进程内的线程切换时，Cache内的数据不需要重新缓存。

那么我们怎么知道当前切换的线程是进程被切换了，还是一个线程内的被切换了。所以我们需要对每个线程作一个标识，第一个创建的线程是主线程，其他的线程就是新线程

2.线程优点

创建一个新线程的代价要比创建一个新进程小得多
与进程之间的切换相比，线程之间的切换需要操作系统做的工作要少很多
线程占用的资源要比进程少很多
能充分利用多处理器的可并行数量
在等待慢速I/O操作结束的同时，程序可执行其他的计算任务
计算密集型应用，为了能在多处理器系统上运行，将计算分解到多个线程中实现
I/O密集型应用，为了提高性能，将I/O操作重叠。线程可以同时等待不同的I/O操作。

3.线程缺点

性能损失
一个很少被外部事件阻塞的计算密集型线程往往无法与共它线程共享同一个处理器。如果计算密集型线程的数量比可用的处理器多，那么可能会有较大的性能损失，这里的性能损失指的是增加了额外的同步和调度开销，而可用的资源不变。
健壮性降低
编写多线程需要更全面更深入的考虑，在一个多线程程序里，因时间分配上的细微偏差或者因共享了不该共享的变量而造成不良影响的可能性是很大的，换句话说线程之间是缺乏保护的。
缺乏访问控制
进程是访问控制的基本粒度，在一个线程中调用某些OS函数会对整个进程造成影响。
编程难度提高
编写与调试一个多线程程序比单线程程序困难得多