【Linux】一文带你入门了解线程和虚拟地址空间中页表映射的秘密（内附手绘底层逻辑图通俗易懂）

绪论

每日激励：“努力去做自己该做的，但是不要期待回报，不是付出了就会有回报的，做了就不要后悔，不做才后悔。—Jack”

绪论：
本章是LInux中非常重要的线程部分，通过了解线程的基本概念：线程到底是什么、进程和线程的关系、线程为什么叫轻量级进程、为什么要用线程（他的比较与进程的优点）…；当我们了解完线程后此次对虚拟地址空间进一步认识，它其中的一些细节页表到底是如何映射的找到物理内存中的正确位置的，后续还将持续更新Linux线程的更多知识，敬请期待~
————————
早关注不迷路，话不多说安全带系好，发车啦（建议电脑观看）。

思维导图：
在这里插入图片描述

1.线程的概念

线程是比进程更加轻量化的一种执行流
线程是在进程内部执行的一种执行流
线程是CPU调度的基本单位 / 进程是承担系统资源的基本实体

1.1解释线程的概念：

在这里插入图片描述

在Linux下线程本质就是进程，因为他们共用一套数据结构，线程不一样的是他并不用再次的申请资源，多线程和第一个创建的线程共用同一块资源（上图中线程都指向同一块地址空间！）
TCB（Thread线程）结构体，线程的实现不同的平台不一样，Windows就单独实现了TCB，而Linux中线程的实现的TCB是复用了PCB（Process进程）的，Linux这是为了防止冗余（还要单独的实现一份TCP的数据结构以及系统调用的消耗）
线程是比进程更加轻量化的一种执行流：因为创建一个进程的成本是比较大的（地址空间，页表，状态设置，io的创建各种数据结构），而线程他们共用同一份资源（同一份地址空间），也就是不用再次创建各种数据结构和申请各种资源的，所以称他是轻量化的。
线程优点及原理：将原本一个进程完成的工作分成多份，各个线程分工的来完成各自部分，最终全部完成，所以线程在地址空间间运行。
线程（本质是）不同于进程（进程 = 内核数据结构pcb + 数据和代码），现在它由多个执行流（多个pcb）组成，所以我们可以把这种线程称为轻量级进程，因为其一个线程并不能代表整个进程，整个进程为上图蓝色框内的所有组成（不同于之前的是他由多个执行流 + 数据和代码组成）。
Linux中TCB和PCB是一样，所以CPU并不用区分PCB和TCB，并且CPU拿到的其实是TCP中的LWP（后面会细说，先了解）而非线程中PCB的PID来找到每个轻量级进程（PCB本质就是单独只有一个进程，它能理解为只有一个执行流的线程，其中第一个执行流被称为主线程，他的LWP和PID是一样的，所以就表示我们之前学的其实也没错，通过PID也能控制各个进程（因为虽然CPU控制的是LWP，但一个进程只有一个线程它的LWP就和PID相同，所以是一样的概念））。
线程是CPU调度的基本单位 / 进程是承担系统资源的基本实体：因为进程是分成多份的一份份线程，故CPU的调度时就会一份份的调度；进程整体能通过进程地址空间和页表找到所需的资源所以有进程是承担系统资源的基本实体。
一个进程里若有多个执行流，那么也就是线程，其中这些每个线程的pid是相同的
虽然线程TCB是进程PCP的一部分（相当于共用一个），但注意的是每个线程都有属于自己的TCB进行管理

可以想象成理解成：相当于社会上，都是以每个家庭为单位（一个个进程），每个家庭都有多个成员（相当于线程），并且所有家庭成员的工作都是为了总体（一个目的），只有当我们每个家庭成员都做好对应的事（每个线程做好事），才能让家庭过好（进程正常执行）。（而之前的进程相当于一个家庭只有一口人）

1.2 线程是属于一个进程的多个执行流：

原理：
通过函数pthread_create()创建线程，查看他们pid是否相同即可

#include<pthread.h>
//新线程
void *ThreadRoutine(void* arg)
{
    const char* threadname = (const char*)arg;
    while(true)
    {
        cout << "I am a new thread" << threadname << ", pid:" << getpid() << endl;
        sleep(1);
    }
}
int main()
{
    //执行线程前已经有进程了！
    pthread_t tid;
    //创建线程并执行ThreadRoutine函数，后面的是传进去的参数
    pthread_create(&tid,nullptr,ThreadRoutine,(void*)"thread 1");
    //thread 线程tid，atttr 设置的线程属性，
    //start_routine 函数指针（传一个函数）
    //arg前面函数指针的参数

    //主线程，线程执行的同时 主线程会继续往后执行！
    while(true)
    {
        cout << "I am main thread" << ", pid:" << getpid()<< endl;
        sleep(1);
    }
    return 0;
}

他们的pid相同，并且用ps ajx查看也进程也只有一个，所以就证明了他们是在同一个进程中的不同线程。

查看指定进程指令

ps ajx | grep process

查看进程并过滤出含process的进程，发现确实只有一个进程在运行：
在这里插入图片描述

查看所有轻量级进程指令：

ps -aL（all light）

查看发现此时有两个线程，也就对应了一个主线程和一个刚创建的新线程：
在这里插入图片描述

LWP：Light Weight Processes也就是轻量级进程，他就像进程的PID一样来区别不同线程！
CPU调度时本质看的是LWP（而不是PID），其中主线程他的PID = LWP，所以上图的第一个线程就是主线程

总结：
线程是CPU调度的基本单位，在Linux内核中它的结构复用了进程PCB，让线程复用进程的代码，所以多线程共用一个资源。Linux中所有的线程又叫做轻量级进程。若要谈进程那就不能只谈pcb还有进程地址空间和页表，谈执行流那就都是轻量级进程（线程），当进程内只有一个执行流就是进程，若有多个执行流就是线程，其中每个线程指向同一个地址空间让数据资源共享，并且通过划分代码给到各个线程来执行不同代码。

1.3 线程比进程更轻量化

从CPU调度上看：
1. 线程间切换：地址空间和页表（会有寄存器存着他们的位置，指向他们）不用切换，只用切换产生的临时数据的寄存器。
2. 进程切换：所有寄存器都要切换，页表，上下文保存，…。
从线程上看：
1. CPU内有硬件级别的cache缓存，他的作用是把正在执行的代码的附近代码先缓存进cache中，原因一般数据正在访问某一行代码，此时较大可能会访问这一行附近的代码（称为局部性原理），所以会把附近的代码先缓存进cache（预加载），方便后续继续用，把存在cache中的代码/数据叫做热数据。
2. 线程切换时就不用切换cache（里面的数据可能还有用）
3. 进程间就要切换cache（一个进程的代码对另外一个进程无意义）

所以线程切换效率高是因为：

切换寄存器少
不用更新cache

假如一个进程的分配10ms的时间片，此时线程会瓜分这些时间片（时间片也是资源）
因为每个线程都分配了一定的时间片，所以调度时当把这些线程的时间片都用完后才算进程调度完。

1.4 线程的优点：

创建、调度、释放量级比进程轻。
创建成本低
并行进行多种任务的处理处理（进程也有）

附：

进程分为：

计算密集型应用（计算分为多份）
IO密集型应用（下载时多线程下载）

1.5 线程的缺点：

线程的切换：性能损失
健壮性降低（鲁棒性）：多线程程序，当一个线程崩溃会导致全部线程都崩溃（就好比一个团队一人做的事情就相当于整个团队的事情）
缺乏访问控制：线程间的资源可能会因为共享而出现问题

1.6 线程的用途：

合理的使用多线程，能提高CPU密集型程序的执行效率
合理的使用多线程，能提高IO密集型程序的用户体验（如生活中我们一边写代码一边下载开发工具，就是多线程运行的一种表现）

1.7 TCP和PCB的关系

线程除了地址空间共享外还有共享：

文件描述符
每种信号的处理方式（handler，每个线程有独立的tcb，但block和pending不是私有的）
cwd表示当前所在目录的字符串（进程启动时tcb会记录）

线程他也有自己的私有成员：

线程ID（LWP）
调度优先级（每个线程被单独调用）
一组寄存器：线程有独立的上下文数据（动态切换）
独立的栈结构（函数中，动态运行）

2.重谈地址空间（虚拟地址 ->物理地址）

回顾之前文件系统IO他的基本单位（最小单位）大小：4kb（文件块）

操作系统文件系统维护和管理磁盘打开与加载文件到物理内存中运行。
在这里插入图片描述

物理内存和磁盘进行交互的基本单位是4kb，所以文件系统上看到的可执行程序内的数据都是一块块的4kb，对此物理内存上也是分成了一块块4kb的段，他们就像杯子与盒子必须大小适配，其中物理内存所分成的一块块数据称为页框，而可执行程序的称为页帧，所以物理内存分成的块和文件块都指定是4kb。
物理内存中其实是有无数个小的存储01的高低硬件电路，用来通过充放电的方式来存储或删除数据（但他的前提是有电，当掉电他就会丢失内存里的数据）。
一个页框的大小为4kb，那就会有32个INode文件（一个INode文件大小为128byte，1024 * 4 / 128 = 32）
物理内存的空间是4GB时会有1048,576（102410241024 * 4 / 4*1024）个页框

其中这里有点混乱，但只需要你始终保持区分 物理内存（页框） 和 磁盘空间（页帧） 即可更好的理解

而这些直接分出来的一块块数据区域（页框，页帧）：
页框可以描述成结构体：

struct  page
{
    //描述page的使用情况 int flag; 定义宏来描述其是否使用：#define unuse 0x1
    //page的属性
}

通过一个数组的形式来进行管理，这样形成一个数组，这样对内存的管理，就变成了对数组的管理。

struct page pages[1048576]

在这里插入图片描述

2.1页表的原理

页表的作用是用于将虚拟地址空间通过映射找到真正在物理内存上的空间的，之前我们把页表想象成一张类似哈希表的结构，左边是虚拟地址右边映射物理地址，但是实际我们算算就发现是不行的，一个页表存在两个地址那就8byte在加上一些标志位那么就算一行（组）是10byte，而我们32位机上会有2^32个地址，那么页表就需要有2 ^ 32个行每一行是10字节，那么一个页表就非常的大了，所以他是不完善不合理的。

对此页表存的虚拟地址其实是是分比特位来使用的，其中前20位用来找到正确的物理地址中的页框。
其中20位又分成

前10位对应着页目录：存着页表项数组下标（用于从页框结构数组中找到正确的位置）
后10位对应着页表项：存的就是页框的起始地
页目录、页表项本质它们都是数组
后12位用来找到页框中的准确位置（相当于找到了页框后地址需要确定偏移量找到具体位置）（12位 = 2 ^ 2 * 2 ^ 10 = 4kb，因为刚好是4kb所以就能找到页框中的所有数据）
设计成这样我们前20位所找到的页框（4kb），而非字节这样就能很大的缩小了所要的空间。

所以虚拟地址 -> 物理地址：前20比特位找到数据所在页框的起始地址 + 后12个比特位找到数据具体地址