文章目录
- 1. Linux线程概念
- 1.1 什么是线程
- 2. 页表
- 3. 线程的优点
- 4. 线程的缺点
- 5. 线程用途
- 6.进程和线程
- 7. 线程异常
1. Linux线程概念
1.1 什么是线程
线程是CPU调度的基本单位,它是在进程内部运行的执行流,线程比进程粒度更细,调度成本更低。
这是什么意思,大家可能都不理解,下面画图说明:
这是前面说过的创建进程的样子,如果此时我们想再创建一个进程,OS就会帮我们再创建一个虚拟地址和页表进行映射。那么线程是什么样子的呢?
线程和进程一样会创建task_struct,但是它没有创建单独的虚拟地址和页表,它和父进程用的是同一个虚拟地址和页表,并且线程执行的是进程一小部分代码和数据。
从上图可以看出,线程:进程=n : 1的关系,那么线程也需要描述和管理。在windows系统认为进程和线程在执行流层面是不一样的。所以windows系统中会创建单独的tcb来描述线程。
但是在Linux认为线程和进程在概念上没有区分,只有一个。叫做执行流。Linux的线程是用进程的PCB来模拟的。
那么我们就需要重新定义进程,内核视角:向系统申请资源的基本单位。
那么之前的概念我们又该如何理解呢?
内部只有一个执行流的进程——单执行流进程。
内部多个执行流的进程——多执行流进程。
CPU看到的所有task_struct都是一个执行流。
在Linux中没有真正意义上的线程,而是用进程task_struct模拟实现的,并且Linux下的"进程"<=其它操作系统进程的概念。在Linux系统中,在CPU眼中,看到的PCB都要比传统的进程更加轻量化,所以Linux中的线程也叫做轻量化进程。
那么我们如何证明:Linux下的线程是用进程来模拟的呢?
Linux没有真正意义上的创建线程的接口,但是有原生线程库:
第一个参数是:线程id,是一个输出型参数。
第二个参数是:线程属性,我们暂时不管,我们先设置成null。
第三个参数是:是一个函数指针,是线程调用代码的函数入口。
第四个参数是:指定传递给 start_routine 函数的实参,当不需要传递任何数据时,将 arg 赋值为 NULL 即可。
返回值:成功返回0;失败返回错误码。
这个是线程的等待。第一个参数是:你要等哪个线程,第二个是退出的结果。
代码演示:
这个类型是线程原生库提供给我们的,其实就是一个无符号长整型。
下面我们就需要创建线程:
callback是回调函数,thread 1和thread 2是创建线程的名字。
这里的运行结果,我们可以看到会有三个线程。
这里在编译的时候我们需要加上-pthread
从这里可以看出它是一个动态库,是用户级调用。
运行结果:
我们可以看到有三个执行流一起执行,并且它们的pid都是一样的,因为它们是三个线程,同一个进程。
那么我们如何查看线程呢?
LWP叫做轻量级进程id,也就是线程id。当LWP和PID是相等的,就是主线程。
2. 页表
页表不仅仅具有映射功能,还有是否命中功能。
是否命中的意思是:你访问的空间是否在物理内存里,在物理内存里就叫命中,不在就不命中,不命中进程就不会被调度。
这里的U/K的意思是:这个进程执行的是用户级代码还是内核态代码。
3. 线程的优点
1.创建一个新线程的代价要比创建一个新进程小得多。
2.与进程之间的切换相比,线程之间的切换需要操作系统做的工作要少很多,因为线程不需要虚拟地址和页表的切换。
3.线程占用的资源要比进程少很多。
4.能充分利用多处理器的可并行数量。
5.在等待慢速I/O操作结束的同时,程序可执行其他的计算任务。
6.计算密集型应用,为了能在多处理器系统上运行,将计算分解到多个线程中实现。比如:加密和解密。
7.I/O密集型应用,为了提高性能,将I/O操作重叠。线程可以同时等待不同的I/O操作。
4. 线程的缺点
1.性能损失:一个很少被外部事件阻塞的计算密集型线程往往无法与共它线程共享同一个处理器。如果计算密集型线程的数量比可用的处理器多,那么可能会有较大的性能损失,这里的性能损失指的是增加了额外的同步和调度开销,而可用的资源不变。
2.健壮性降低:编写多线程需要更全面更深入的考虑,在一个多线程程序里,因时间分配上的细微偏差或者因共享了不该共享的变量而造成不良影响的可能性是很大的,换句话说线程之间是缺乏保护的。
3.缺乏访问控制:进程是访问控制的基本粒度,在一个线程中调用某些OS函数会对整个进程造成影响。
5. 线程用途
1.合理的使用多线程,能提高CPU密集型程序的执行效率。
2.合理的使用多线程,能提高IO密集型程序的用户体验(如生活中我们一边写代码一边下载开发工具,就是多线程运行的一种表现)。
6.进程和线程
1.进程是资源分配的基本单位。
2.线程是调度的基本单位。
3.进程的多个线程共享同一地址空间,因此Text Segment、Data Segment都是共享的。如果定义一个函数,在各线程中都可以调用,如果定义一个全局变量,在各线程中都可以访问到,除此之外,各线程还共享以下进程资源和环境:
1.文件描述符表。
2.每种信号的处理方式(SIG_ IGN、SIG_ DFL或者自定义的信号处理函数)。
3.当前工作目录。
4.用户id和组id。
4.线程共享进程数据,但也拥有自己的一部分数据:
1.线程ID
2.一组寄存器
3.线程栈
4.errno
5.信号屏蔽字
6.调度优先级
7. 线程异常
1.单个线程如果出现除零,野指针问题导致线程崩溃,进程也会随着崩溃。
2.线程是进程的执行分支,线程出异常,就类似进程出异常,进而触发信号机制,终止进程,进程终止,该进程内的所有线程也就随即退出。