【Linux】一文带你入门了解线程和虚拟地址空间中页表映射的秘密(内附手绘底层逻辑图 通俗易懂)

news2025/2/6 7:52:05

绪论​
请添加图片描述
每日激励:“努力去做自己该做的,但是不要期待回报,不是付出了就会有回报的,做了就不要后悔,不做才后悔。—Jack”

绪论​:
本章是LInux中非常重要的线程部分,通过了解线程的基本概念:线程到底是什么、进程和线程的关系、线程为什么叫轻量级进程、为什么要用线程(他的比较与进程的优点)…;当我们了解完线程后此次对虚拟地址空间进一步认识,它其中的一些细节页表到底是如何映射的找到物理内存中的正确位置的,后续还将持续更新Linux线程的更多知识,敬请期待~
————————
早关注不迷路,话不多说安全带系好,发车啦(建议电脑观看)。

思维导图:
在这里插入图片描述

1.线程的概念

  1. 线程是比进程更加轻量化的一种执行流
  2. 线程是在进程内部执行的一种执行流
  3. 线程是CPU调度的基本单位 / 进程是承担系统资源的基本实体

1.1解释线程的概念:

在这里插入图片描述

  1. 在Linux下线程本质就是进程,因为他们共用一套数据结构,线程不一样的是他并不用再次的申请资源,多线程和第一个创建的线程共用同一块资源(上图中线程都指向同一块地址空间!
  2. TCB(Thread线程)结构体,线程的实现不同的平台不一样,Windows就单独实现了TCB,而Linux中线程的实现的TCB是复用了PCB(Process进程)的,Linux这是为了防止冗余(还要单独的实现一份TCP的数据结构以及系统调用的消耗)
  3. 线程是比进程更加轻量化的一种执行流因为创建一个进程的成本是比较大的(地址空间,页表,状态设置,io的创建各种数据结构),而线程他们共用同一份资源(同一份地址空间),也就是不用再次创建各种数据结构和申请各种资源的,所以称他是轻量化的
  4. 线程优点及原理:将原本一个进程完成的工作分成多份,各个线程分工的来完成各自部分,最终全部完成,所以线程在地址空间间运行
  5. 线程(本质是)不同于进程(进程 = 内核数据结构pcb + 数据和代码),现在它由多个执行流(多个pcb)组成,所以我们可以把这种线程称为轻量级进程,因为其一个线程并不能代表整个进程,整个进程为上图蓝色框内的所有组成(不同于之前的是他由多个执行流 + 数据和代码组成)。
  6. Linux中TCB和PCB是一样,所以CPU并不用区分PCB和TCB,并且CPU拿到的其实是TCP中的LWP(后面会细说,先了解)而非线程中PCB的PID来 找到每个轻量级进程(PCB本质就是单独只有一个进程,它能理解为只有一个执行流的线程,其中第一个执行流被称为主线程,他的LWP和PID是一样的,所以就表示我们之前学的其实也没错,通过PID也能控制各个进程(因为虽然CPU控制的是LWP,但一个进程只有一个线程它的LWP就和PID相同,所以是一样的概念))。
  7. 线程是CPU调度的基本单位 / 进程是承担系统资源的基本实体:因为进程是分成多份的一份份线程,故CPU的调度时就会一份份的调度;进程整体能通过进程地址空间和页表找到所需的资源所以有进程是承担系统资源的基本实体。
  8. 一个进程里若有多个执行流,那么也就是线程,其中这些每个线程的pid是相同的
  9. 虽然线程TCB是进程PCP的一部分(相当于共用一个),但注意的是每个线程都有属于自己的TCB进行管理

可以想象成理解成:相当于社会上,都是以每个家庭为单位(一个个进程),每个家庭都有多个成员(相当于线程),并且所有家庭成员的工作都是为了总体(一个目的),只有当我们每个家庭成员都做好对应的事(每个线程做好事),才能让家庭过好(进程正常执行)。(而之前的进程相当于一个家庭只有一口人)

1.2 线程是属于一个进程的多个执行流:

原理:
通过函数pthread_create()创建线程,查看他们pid是否相同即可

#include<pthread.h>
//新线程
void *ThreadRoutine(void* arg)
{
    const char* threadname = (const char*)arg;
    while(true)
    {
        cout << "I am a new thread" << threadname << ", pid:" << getpid() << endl;
        sleep(1);
    }
}
int main()
{
    //执行线程前已经有进程了!
    pthread_t tid;
    //创建线程并执行ThreadRoutine函数,后面的是传进去的参数
    pthread_create(&tid,nullptr,ThreadRoutine,(void*)"thread 1");
    //thread 线程tid,atttr 设置的线程属性,
    //start_routine 函数指针(传一个函数)
    //arg前面函数指针的参数

    //主线程,线程执行的同时 主线程会继续往后执行!
    while(true)
    {
        cout << "I am main thread" << ", pid:" << getpid()<< endl;
        sleep(1);
    }
    return 0;
}

他们的pid相同,并且用ps ajx查看也进程也只有一个,所以就证明了他们是在同一个进程中的不同线程。

查看指定进程指令

ps ajx | grep process

查看进程并过滤出含process的进程,发现确实只有一个进程在运行:
在这里插入图片描述

查看所有轻量级进程指令:

ps -aL(all light)

查看发现此时有两个线程,也就对应了一个主线程和一个刚创建的新线程:
在这里插入图片描述

LWP:Light Weight Processes也就是轻量级进程,他就像进程的PID一样来区别不同线程!
CPU调度时本质看的是LWP(而不是PID),其中主线程他的PID = LWP,所以上图的第一个线程就是主线程


总结:
线程是CPU调度的基本单位,在Linux内核中它的结构复用了进程PCB,让线程复用进程的代码,所以多线程共用一个资源。Linux中所有的线程又叫做轻量级进程。若要谈进程那就不能只谈pcb还有进程地址空间和页表,谈执行流那就都是轻量级进程(线程),当进程内只有一个执行流就是进程,若有多个执行流就是线程,其中每个线程指向同一个地址空间让数据资源共享,并且通过划分代码给到各个线程来执行不同代码。


1.3 线程比进程更轻量化

  1. 从CPU调度上看
    1. 线程间切换:地址空间和页表(会有寄存器存着他们的位置,指向他们)不用切换,只用切换产生的临时数据的寄存器
    2. 进程切换所有寄存器都要切换,页表,上下文保存,…。
  2. 从线程上看
    1. CPU内有硬件级别的cache缓存,他的作用是把正在执行的代码的附近代码先缓存进cache中,原因一般数据正在访问某一行代码,此时较大可能会访问这一行附近的代码(称为局部性原理),所以会把附近的代码先缓存进cache(预加载),方便后续继续用,把存在cache中的代码/数据叫做热数据。
    2. 线程切换时就不用切换cache(里面的数据可能还有用)
    3. 进程间就要切换cache(一个进程的代码对另外一个进程无意义)
      在这里插入图片描述

所以线程切换效率高是因为:

  1. 切换寄存器少
  2. 不用更新cache

假如一个进程的分配10ms的时间片,此时线程会瓜分这些时间片(时间片也是资源)
因为每个线程都分配了一定的时间片,所以调度时当把这些线程的时间片都用完后才算进程调度完。

1.4 线程的优点:

  1. 创建、调度、释放量级比进程轻。
  2. 创建成本低
  3. 并行进行多种任务的处理处理(进程也有)

附:

进程分为:

  1. 计算密集型应用(计算分为多份)
  2. IO密集型应用(下载时多线程下载)

1.5 线程的缺点:

  1. 线程的切换:性能损失
  2. 健壮性降低(鲁棒性):多线程程序,当一个线程崩溃会导致全部线程都崩溃(就好比一个团队一人做的事情就相当于整个团队的事情)
  3. 缺乏访问控制:线程间的资源可能会因为共享而出现问题

1.6 线程的用途:

  1. 合理的使用多线程,能提高CPU密集型程序的执行效率
  2. 合理的使用多线程,能提高IO密集型程序的用户体验(如生活中我们一边写代码一边下载开发工具,就是多线程运行的一种表现)

1.7 TCP和PCB的关系

线程除了地址空间共享外还有共享:

  1. 文件描述符
  2. 每种信号的处理方式(handler,每个线程有独立的tcb,但block和pending不是私有的)
  3. cwd表示当前所在目录的字符串(进程启动时tcb会记录)

线程他也有自己的私有成员:

  1. 线程ID(LWP)
  2. 调度优先级(每个线程被单独调用)
  3. 一组寄存器:线程有独立的上下文数据(动态切换)
  4. 独立的栈结构(函数中,动态运行)

2.重谈地址空间(虚拟地址 ->物理地址)

回顾之前文件系统IO他的基本单位(最小单位)大小:4kb(文件块)

操作系统文件系统 维护和管理 磁盘打开与加载文件到物理内存中运行。
在这里插入图片描述

  1. 物理内存和磁盘进行交互的基本单位是4kb,所以文件系统上看到的可执行程序内的数据都是一块块的4kb,对此物理内存上也是分成了一块块4kb的段,他们就像杯子与盒子必须大小适配其中物理内存所分成的一块块数据称为页框,而可执行程序的称为页帧,所以物理内存分成的块和文件块都指定是4kb

  2. 物理内存中其实是有无数个小的存储01的高低硬件电路,用来通过充放电的方式来存储或删除数据(但他的前提是有电,当掉电他就会丢失内存里的数据)。

  3. 一个页框的大小为4kb,那就会有32个INode文件(一个INode文件大小为128byte,1024 * 4 / 128 = 32)

  4. 物理内存的空间是4GB时会有1048,576(102410241024 * 4 / 4*1024)个页框

其中这里有点混乱,但只需要你始终保持区分 物理内存(页框)磁盘空间(页帧) 即可更好的理解

而这些直接分出来的一块块数据区域(页框,页帧):
页框可以描述成结构体

struct  page
{
    //描述page的使用情况 int flag; 定义宏来描述其是否使用:#define unuse 0x1
    //page的属性
}

通过一个数组的形式来进行管理,这样形成一个数组,这样对内存的管理,就变成了对数组的管理。

struct page pages[1048576]

在这里插入图片描述

2.1页表的原理

页表的作用是用于将虚拟地址空间通过映射找到真正在物理内存上的空间的,之前我们把页表想象成一张类似哈希表的结构,左边是虚拟地址右边映射物理地址,但是实际我们算算就发现是不行的,一个页表存在两个地址那就8byte在加上一些标志位那么就算一行(组)是10byte,而我们32位机上会有2^32个地址,那么页表就需要有2 ^ 32个行每一行是10字节,那么一个页表就非常的大了,所以他是不完善不合理的。

对此页表存的虚拟地址其实是是分比特位来使用的其中前20位用来找到正确的物理地址中的页框
其中20位又分成

  1. 前10位 对应着页目录:存着页表项数组下标(用于从页框结构数组中找到正确的位置)
  2. 后10位 对应着页表项:存的就是页框的起始地
  3. 页目录、页表项本质它们都是数组
  4. 后12位用来找到页框中的准确位置(相当于找到了页框后地址需要确定偏移量找到具体位置)12位 = 2 ^ 2 * 2 ^ 10 = 4kb,因为刚好是4kb所以就能找到页框中的所有数据
  5. 设计成这样我们前20位所找到的页框(4kb),而非字节这样就能很大的缩小了所要的空间。
    在这里插入图片描述
    所以虚拟地址 -> 物理地址:前20比特位找到数据所在页框的起始地址 + 后12个比特位找到数据具体地址

页表中的标记位(物理地址旁边的3列)

在这里插入图片描述

  1. 访问期间若发现目标资源不在内存,则会触发缺页中断,再次进行内存的分配,并建立新映射。
  2. U/K权限:U表示当前是User用户态,K表示当前是Kernel内核态。

本章完。预知后事如何,暂听下回分解。

如果有任何问题欢迎讨论哈!

如果觉得这篇文章对你有所帮助的话点点赞吧!

持续更新大量Linux细致内容,早关注不迷路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2293676.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flash Attention与Attention

原始Attention是&#xff1a; Flash Attention&#xff1a; 伪代码&#xff1a;4d&#xff08;分别代表Q\K\V\O&#xff09; Flash Attention2优化了

JAVA进阶之线程

为神马有线程&#xff1f;这玩意儿在干嘛&#xff1f;&#xff1f;&#xff1f; 回答这个问题&#xff0c;就先要知道一点点计算机的工作方式。 总所周知&#xff0c;计算机有五部分&#xff1a;输入输出、计算器、存储器、控制器。而在计算机内&#xff0c;CPU、内存、I/O之…

机器学习专业毕设选题推荐合集 人工智能

目录 前言 毕设选题 开题指导建议 更多精选选题 选题帮助 最后 前言 大家好,这里是海浪学长毕设专题! 大四是整个大学期间最忙碌的时光&#xff0c;一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理…

C++ 中的 `string` 类型:全面解析与高效操作

C 中的 string 类型&#xff1a;全面解析与高效操作 在 C 中&#xff0c;string 类型是对字符数组的高级封装&#xff0c;它提供了大量内置函数&#xff0c;使得字符串的处理变得更为简便和高效。与 C 风格的字符数组不同&#xff0c;string 类型不仅自动管理内存&#xff0c;…

Java入门进阶

文章目录 1、常用API 1.1、Math1.2、System1.3、Object1.4、Arrays1.5、基本类型包装类 1.5.1、基本类型包装类概述1.5.2、Integer1.5.3、int和String相互转换1.5.4、自动装箱和拆箱 1.6、日期类 1.6.1、Date类1.6.2、SimpleDateFormat类 1.6.2.1、格式化&#xff08;从Date到…

C#结合html2canvas生成切割图片并导出到PDF

目录 需求 开发运行环境 实现 生成HTML范例片断 HTML元素转BASE64 BASE64转图片 切割长图片 生成PDF文件 小结 需求 html2canvas 是一个 JavaScript 库&#xff0c;它可以把任意一个网页中的元素&#xff08;包括整个网页&#xff09;绘制到指定的 canvas 中&#xf…

485网关数据收发测试

目录 1.UDP SERVER数据收发测试 使用产品&#xff1a; || ZQWL-GW1600NM 产品||【智嵌物联】智能网关型串口服务器 1.UDP SERVER数据收发测试 A&#xff08;TX&#xff09;连接RX B&#xff08;RX&#xff09;连接TX 打开1个网络调试助手&#xff0c;模拟用户的UDP客户端设…

InnoDB和MyISAM的比较、水平切分和垂直切分、主从复制中涉及的三个线程、主从同步的延迟产生和解决

InnoDB和MyISAM的比较 事务支持&#xff1a; InnoDB支持&#xff1a;支持事务 (ACID 属性)。支持 Commit、Rollback 和 Savepoint 操作。适合需要事务处理的应用&#xff0c;例如银行系统。MyISAM:不支持事务。每次操作都是自动提交&#xff0c;不能回滚或中止。适合对事务要求…

JDK9新特性

文章目录 新特性&#xff1a;1.模块化系统使用模块化module-info.java&#xff1a;exports&#xff1a;opens&#xff1a;requires&#xff1a;provides&#xff1a;uses&#xff1a; 2.JShell启动Jshell执行计算定义变量定义方法定义类帮助命令查看定义的变量&#xff1a;/var…

基于Ubuntu2404搭建Zabbix7.2

Zabbix 搭建zabbix zabbix7.2已推出&#xff1a;官网 增加的新功能如下&#xff1a; 1.使用新的热门商品小部件全面概览指标 数据概览小部件已转换为热门项目小部件使用项目模式可以实现细粒度的项目选择利用条形图、指标和迷你图来可视化您的数据定义价值阈值以动态地可视化…

Math Reference Notes: 符号函数

1. 符号函数的定义 符号函数&#xff08;Sign Function&#xff09; sgn ( x ) \text{sgn}(x) sgn(x) 是一个将实数 ( x ) 映射为其 符号值&#xff08;即正数、负数或零&#xff09;的函数。 它的定义如下&#xff1a; sgn ( x ) { 1 如果 x > 0 0 如果 x 0 − 1 如…

【数据结构】链表应用-链表重新排序

重新排序 反转链表预期实现思路解题过程code力扣代码核心代码完整代码 总结 删除链表中间节点代码解惑 链表重新排序题目描述解题思路解题过程复杂度代码力扣代码完整代码 反转链表 预期实现 思路 你选用何种方法解题&#xff1f; 我选用了迭代法来反转链表。这是一种经典且高…

学习threejs,pvr格式图片文件贴图

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️PVR贴图1.2 ☘️THREE.Mesh…

2022年全国职业院校技能大赛网络系统管理赛项模块A:网络构建(样题2)-网络部分解析-附详细代码

目录 附录1:拓扑图​编辑 附录2:地址规划表 1.SW1 2.SW2 3.SW3 4.SW4 5.SW5 6.SW6 7.SW7 8.R1 9.R2 10.R3 11.AC1 12.AC2 13.EG1 14.EG2 15.AP2 16.AP3 附录1:拓扑图 附录2:地址规划表

C++,STL,【目录篇】

文章目录 一、简介二、内容提纲第一部分&#xff1a;STL 概述第二部分&#xff1a;STL 容器第三部分&#xff1a;STL 迭代器第四部分&#xff1a;STL 算法第五部分&#xff1a;STL 函数对象第六部分&#xff1a;STL 高级主题第七部分&#xff1a;STL 实战应用 三、写作风格四、…

【AI论文】直接对齐算法之间的差异模糊不清

摘要&#xff1a;直接对齐算法&#xff08;DAAs&#xff09;通过在对齐人类反馈的强化学习&#xff08;RLHF&#xff09;中用直接策略优化替代强化学习&#xff08;RL&#xff09;和奖励建模&#xff08;RM&#xff09;&#xff0c;简化了语言模型对齐过程。DAAs可以根据其排序…

(9)gdb 笔记(2):查看断点 info b,删除断点 delete 3,回溯 bt,

&#xff08;11&#xff09; 查看断点 info b&#xff1a; # info b举例&#xff1a; &#xff08;12&#xff09;删除断点 delete 2 或者删除所有断点&#xff1a; # 1. 删除指定的断点 delete 3 # 2. 删除所有断点 delete 回车&#xff0c;之后输入 y 确认删除所有断点 举…

中间件的概念及基本使用

什么是中间件 中间件是ASP.NET Core的核心组件&#xff0c;MVC框架、响应缓存、身份验证、CORS、Swagger等都是内置中间件。 广义上来讲&#xff1a;Tomcat、WebLogic、Redis、IIS&#xff1b;狭义上来讲&#xff0c;ASP.NET Core中的中间件指ASP.NET Core中的一个组件。中间件…

S4 HANA手工记账Tax Payable – FB41

本文主要介绍在S4 HANA OP中手工记账Tax Payable – FB41。具体请参照如下内容&#xff1a; 手工记账Tax Payable – FB41 该事务代码用于手工处理税码统驭科目的记账&#xff0c;一般税码科目需要设置为只能自动记账&#xff0c;因此无法手工对税码统驭科目记账&#xff0c;但…

Java 大视界 -- Java 大数据在智慧文旅中的应用与体验优化(74)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…