🍎作者:阿润菜菜
📖专栏:Linux系统编程
目录
- 一、线程概念 -- 理解线程与进程的区别和联系
- 1. 再次理解用户级页表和进程地址空间
- 2.理解Linux的轻量级进程
- 3. 线程的属性
- 4.线程的优点和缺点
- 二、线程的控制 --- 学学接口使用
一、线程概念 – 理解线程与进程的区别和联系
在Linux中其实没有真正线程的概念,在Linux中线程的概念其实就是进程内部的一个执行流。在宏观层面上理解,线程是执行流这句话放在任何一个OS上都没错,但落实到具体操作系统上,不同的OS多线程实现策略是不一样的,例如Windows底层就有真正的线程实现(所以程序开多了会卡),而Linux的线程只是一种轻量级进程,下面我们落实到Linux系统的多线程实现策略上,来一起学习一下!
1. 再次理解用户级页表和进程地址空间
在我们写出下面这两行代码时,为什么编译器会报错呢?但是只写第一行编译器会报个Warning,可以编译通过,有没有想过?
char *ptr = "hello world!";
*ptr = "Hello";
在语言级别,我们给出的解释是:
- 第一行代码能编过的原因是权限缩小,虽然ptr是可读可写的权限,但在指向常量字符串"hello world"(堆区)之后,ptr的权限就变为了只读,所以如果仅仅修改一下权限,g++并不会报错,只是报个warning罢了,
- 但当解引用ptr,将ptr指向的内容修改为"H"字符串后,编译器就会报错了,因为我们说ptr的权限是只读,因为常量字符串是不可修改的,你现在进行了ptr指向内容的修改,编译器则一定会报错!
现在我们来看看内核角度,为什么ptr指针指向一修改,编译器就能报错呢?进程就会退出呢?进程怎么知道的?怎么被终止的?
实际上,页表帮我们做的事情不止虚拟地址到物理地址空间的映射转换这么简单!他还会记录虚拟地址映射到物理地址的权限,如读写及执行权限,用户层/内核层权限,虚拟地址是否有效命中到对应的物理地址上等等!
所以上面解引用指针ptr时,底层经过用户级页表映射,MMU会发现ptr这个虚拟地址对应的权限是R权限,那就是只读不能被修改,此时进程如果执意要进行修改,那就会导致硬件MMU直接报错,操作系统知晓MMU报错后,就会给对应的进程发11号信号(Segmentation fault),当进程在合适的时候就会去处理这个信号,处理信号的默认动作就是终止当前进程!
如何理解用户级页表和进程地址空间呢?-
从功能角度来谈,进程地址空间就是进程能够看到的资源的窗口,因为进程所占用的系统资源都是分配在物理内存上的,想要访问这些系统资源都需要地址空间来作为中间件去访问。
而页表真正决定了进程实际拥有资源的情况,进程对某个资源具有什么权限?访问此资源需要的进程级别?一个不属于当前进程的虚拟地址,进程能否通过这个地址访问对应物理内存上的资源呢?这些问题都需要依靠页表来解决!所以进程对资源的真正掌握情况是通过页表来实现的!
那该如何对进程的资源进行划分呢? 合理的对地址空间+页表进行资源划分,我们就可以对进程的所有资源进行分类!
那虚拟地址到底是如何转换到物理地址的?
实际上,OS作为软硬件资源的管理者,实施的还是那套经典方法:“先组织,在管理”。
我们知道Linux中虚拟地址到物理地址的转换是通过MMU(内存管理单元)和页表(page table)来实现的。而页表是OS的一种数据结构,用于存储虚拟地址和物理地址之间的映射关系。Linux使用多级页表,通常有四级:页全局目录(PGD)、页上级目录(PUD)、页中间目录(PMD)和页表(PT)。每一级页表都有一个索引,用于定位下一级页表的地址。最后一级页表中的表项包含了物理地址的基地址,再加上虚拟地址的偏移量,就得到了最终的物理地址。
这个过程可以用以下图来表示:
具体参考: Linux内核学习3——虚拟地址转换成物理地址
2.理解Linux的轻量级进程
1.我们可以将进程的资源划分给不同的线程,让线程来执行某些代码块儿,而线程就是进程内部的一个执行流。那么此时我们就可以通过地址空间+页表的方式将进程的资源划分给每一个线程,那么线程的执行粒度一定比之前的进程更细!
2.Linux中并没有专门为线程创建真正的数据结构来管理,而是直接复用进程的PCB当作线程的描述结构体,用PCB来当作Linux系统内部的"线程"。 这么做的好处是什么呢?如果要创建真正的线程结构体,那就需要对其进行维护,需要和进程构建好关系,每个线程还需要和地址空间进行关联,CPU调度进程和调度线程还不一样,操作系统要对内核中大量的进程和线程做管理,这样维护的成本太高了!不利于系统的稳定性和健壮性,所以直接复用PCB是一个很好的选择,维护起来的成本很低,因为直接复用原来的数据结构就可以实现线程。所以这也是linux系统既稳定又高效,成为世界上各大互联网公司服务器系统选择的原因。
3.所以Linux内核是怎么设计线程的? Linux用进程的PCB来模拟线程,是完全属于自己实现的一套方案!站在CPU的角度来看,每一个PCB,都可以称之为轻量级进程,因为它只需要PCB即可,而进程承担分配的资源更多,量级更重!
Linux线程是CPU调度的基本单位,进程是承担分配系统资源的基本实体!
进程用来整体向操作系统申请资源,线程负责向进程伸手要资源。如果线程向操作系统申请资源,实质上也是进程在向操作系统要资源,因为线程在进程内部运行,是进程内部的一部分!
用pcb模拟线程的好处是维护成本大大降低,系统变得更加可靠、高效、稳定。windows操作系统是给老百姓用的,可用性必须要高。linux是给程序用的,必须要可靠稳定高效。所以由于需求的不同,产生了不同实现方案的操作系统。
我们说Linux中没有线程只有轻量级进程,怎么证明呢?
因为Linux内核并没有单独为线程设计数据结构,而是复用了进程的PCB。所以Linux无法直接提供创建线程的系统调用接口,只能提供创建轻量级进程的接口。轻量级进程是建立在内核之上并由内核支持的用户线程,它是内核线程的高度抽象,每一个轻量级进程都与一个特定的内核线程关联。
Linux为了让用户能够得到他想要的线程,只能通过原生线程库来给用户他想要的,所以在用户和内核之间有一个软件层,这个软件层负责给程序员创建出程序员想要的线程。除这个原生线程库会创建出线程结构体外,但同时linux内核中会通过一个叫clone的系统调用来对应的创建出一个轻量级进程,所以我们称这个库是用户级线程库,因为linux是没有真正意义上的线程的,无法给用户创建线程,只能创建对应的PCB,也就是轻量级进程!
我们要证明Linux中没有线程只有轻量级进程,可以通过查看 /proc目录下的进程信息,或者使用ps -eLf 命令查看进程和线程的标识符。所以Linux下线程实际上是封装了原生线程库的!
而且如果在编译时不带-lpthread
选项,可以看到g++报错pthread_create()函数未定义,其实就是因为链接器链接不上具体的动态库,此时就可以看出来linux内核中并没有真正意义的线程,他无法提供创建线程的接口,而只能通过第三方库libpthread.so或libpthread.a来提供创建线程的接口。
3. 线程的属性
请简述什么是LWP?
LWP是轻量级进程,在Linux下进程是资源分配的基本单位,线程是cpu调度的基本单位,而线程使用进程pcb描述实现,并且同一个进程中的所有pcb共用同一个虚拟地址空间,因此相较于传统进程更加的轻量化。
我们可以通过ps -aL
命令就可以看到正在运行的线程有哪些,可以看到有两个标识符,一个是PID,一个是LWP(light weight process),所以CPU在调度那么多的PCB时,其实是以LWP作为每个PCB的标识符,以此来区分进程中的多个轻量级进程(线程)。
主线程的PID和LWP是相同的,所以从CPU调度的角度来看,如果进程内只有一个执行流,那么LWP和PID标识符对于CPU来说都是等价的,但当进程内有多个执行流时,CPU是以LWP作为标识符来调度线程,而不是以PID来进行调度。
线程一旦被创建,几乎所有的资源都是共享的!
因为一个进程中的所有线程都共享进程地址空间,地址空间中的栈,堆,已初始化/未初始化数据段,代码段,这些区域中的资源都是共享的,每个线程都可以看到,那么任意一个线程就都可以去访问这些资源了!
所以如果线程想要通信,那成本是要比进程间通信低很多的,由于进程具有独立性,所以进程间通信的前提是让不同的进程能够看到同一份资源,看到同一份资源的成本就很大,例如之前我们所学的,通过创建管道或共享内存的方式来让进程先能够看到同一份资源,然后才能继续向下谈通信的话题。但是今天,对于线程来说完全不需要考虑看到同一份资源这个问题,因为一个进程内的所有线程天然的可以共享进程地址空间,你可以直接定义一个全局缓冲区,一个线程往里写,另一个线程立马就可以从缓冲区中看到另一个线程写的信息,所以线程通信的成本非常低!
那什么资源是线程应该私有的呢?
a.线程PCB的属性,例如线程id,线程调度优先级,线程状态等等…(这个回答不回答不重要,重要的是回答出下面那两点)
b.线程在被CPU调度时,也是需要进行切换的,所以,线程的上下文结构也必须是线程的私有资源。(这点可以体现出我们知道线程是动态的,CPU调度线程会轮换,线程会被切换上来也会被切换下去)
c.每个线程都会执行自己的线程函数,就是那个start_routine函数指针所指向的函数,所以每个线程都有自己的私有栈结构。
Linux中轻量级进程之间可以共享进程的资源和环境,如代码段、数据段、堆、文件描述符、信号处理器、当前工作目录等。但是轻量级进程也有自己的私有数据,如寄存器组、栈空间、错误返回码、信号屏蔽字、优先级等
4.线程的优点和缺点
线程优点:
缺点:
二、线程的控制 — 学学接口使用
未完待续