在正式学习 Java 的并发编程之前,我们需要熟悉和学习几个并发编程的基础概念。
1 进程和线程
1.1 进程
我们常说的是应用程序,也就是 app,由指令和数据组成。但是当我们不运行一个具体的 app 时,这些应用程序就是放在磁盘(也包括 U 盘、远程网络存储等等)上的一些二进制的代码。一旦我们运行这些应用程序,指令需要运行,数据需要读写,就必须将指令加载至 CPU,数据加载至内存。在指令运行过程中还需要用到磁盘、网络等设备,从这种角度来说,进程就是用来加载指令、管理内存、管理IO 的。
当一个程序被运行,从磁盘加载这个程序的代码至内存,这时就开启了一个进程。
进程就可以视为程序的一个实例。大部分程序可以同时运行多个实例进程(例如记事本、画图、浏览器等),有的程序只能启动一个实例进程(如有道云笔记、360 安全卫士等)。显然,程序是死的、静态的,进程是活的、动态的。进程可以分为系统进程和用户进程。凡是用于完成操作系统的各种功能的进程就是系统进程,它们就是处于运行状态下的操作系统本身,用户进程就是所有由用户启动的进程。
站在操作系统的角度,进程是程序运行资源分配(以内存为主)的最小单位。
1.1.1 进程间的通信
同一台计算机的进程通信称为 IPC(Inter-process communication),不同计算机之间的进程通信被称为R(mote)PC,需要通过网络,并遵守共同的协议,比如 Dubbo 就是一个RPC 框架,而 Http 协议也经常用在 RPC 上,比如 SpringCloud 微服务。
进程间通信有几种方式?
- 管道:分为匿名管道(pipe)及命名管道(named pipe):匿名管道可用于具有亲缘关系的父子进程间的通信,命名管道除了具有管道所具有的功能外,它还允许无亲缘关系进程间的通信。
- 信号(signal):信号是在软件层次上对中断机制的一种模拟,它是比较复杂的通信方式,用于通知进程有某事件发生,一个进程收到一个信号与处理器收到一个中断请求效果上可以说是一致的。
- 消息队列(message queue):消息队列是消息的链接表,它克服了上两种通信方式中信号量有限的缺点,具有写权限得进程可以按照一定得规则向消息队列中添加新信息;对消息队列有读权限得进程则可以从消息队列中读取信息。
- 共享内存(shared memory):可以说这是最有用的进程间通信方式。它使得多个进程可以访问同一块内存空间,不同进程可以及时看到对方进程中对共享内存中数据得更新。这种方式需要依靠某种同步操作,如互斥锁和信号量等。
- 信号量(semaphore):主要作为进程之间及同一种进程的不同线程之间得同步和互斥手段。
- 套接字(socket):这是一种更为一般得进程间通信机制,它可用于网络中不同机器之间的进程间通信,应用非常广泛。同一机器中的进程还可以使用 Unix domain socket(比如同一机器中 MySQL 中的控制台mysql shell 和MySQL 服 务程序的连接),这种方式不需要经过网络协议栈,不需要打包拆包、计算校验 和、维护序号和应答等,比纯粹基于网络的进程间通信肯定效率更高。
1.2 线程
一台电脑通常会运行很多的程序,我们CPU 又是有限的,如何让有限的 CPU 运行这么多程序呢?就需要一种机制在程序之间进行协调,也就所谓 CPU 调度。 线程是 CPU 调度的最小单位。
线程必须依赖于进程而存在,线程是进程中的一个实体,是 CPU 调度和分派的基本单位,它是比进程更小的、能独立运行的基本单位。线程自己基本上不拥有系统资源,只拥有在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源。一个进程可以拥有多个线程,一个线程必须有一个父进程。
线程,有时也被称为轻量级进程 (Lightweight Process,LWP),早期 Linux 的线程实现几乎就是复用的进程,后来才独立出自己的API。
1.2.1 Java 中线程无处不在
在 Java 中不管任何程序都必须启动一个main 函数的主线程;在 Java Web 开发里面的定时任务、定时器、JSP 和 Servlet、异步消息处理机制,远程访问接口 RMI 等, 任何一个监听事件,onclick 的触发事件等都离不开线程和并发的知识。
1.2.2 CPU 核心数和线程数的关系
前面我们说过,目前主流 CPU 都是多核的,线程是 CPU 调度的最小单位。同一 时刻,一个 CPU 核心只能运行一个线程,也就是 CPU 内核和同时运行的线程数是 1:1 的关系,也就是说 4 核CPU 同时可以执行 4 个线程的代码。但 Intel 引入超线程技术后,产生了逻辑处理器的概念,使核心数与线程数形成1:2 的关系。在我们前面的 Windows 任务管理器贴图就能看出来,内核数是 4 而逻辑处理器数是8。
在Java 中提供了 Runtime.getRuntime().availableProcessors(),可以让我们获取当前的CPU 核心数,注意这个核心数指的是逻辑处理器数。
public class CPUCores {
public static void main(String[] args) {
int cores = Runtime.getRuntime().availableProcessors();
System.out.println("CPU cores: " + cores);
}
}
CPU cores: 8
获得当前的 CPU 核心数在并发编程中很重要,并发编程下的性能优化往往 和CPU 核心数密切相关。
2 并行和并发
有了多线程和多核 CPU 之后就有了并发和并行。
举个例子,如果有条高速公路 A 上面并排有 4 条车道,那么最大的并行车辆就是 4 辆此条高速公路A 同时并排行走的车辆小于等于 4 辆的时候,车辆就可以并行运行。CPU 也是这个原理,一个 CPU 相当于一个高速公路 A,核心数或者线程数就相当于并排可以通行的车道。
当谈论并发的时候一定要加个单位时间,也就是说单位时间内并发量是多少?离开了单位时间其实是没有意义的。
并发Concurrent:指应用能够交替执行不同的任务,比如单 CPU 核心下执行多线程并非是同时执行多个任务,而是多个任务交替执行,比如开两个线程执行,CPU 在肉眼不可能察觉到的速度不断去切换这两个任务,以达到"同时执行效果",单核 CPU 的"同时执行效果"是对我们的一种“欺骗”,只是计算机的速度太快,我们无法察觉到而已。
并行Parallel:指应用能够同时执行不同的任务,比如坐地铁的时候可以看书,这两件事情可以同时执行 。
两者区别:一个是交替执行,一个是同时执行,如下图所示。
3 上下文切换(Context switch)
既然操作系统要在多个进程(线程)之间进行调度,而每个线程在使用 CPU 时总是要使用CPU 中的资源,比如 CPU 寄存器和程序计数器。这就意味着,操作系统要保证线程在调度前后的正常执行,所以,操作系统中就有上下文切换的概念,它是指CPU(中央处理单元)从一个进程或线程到另一个进程或线程的切换。
上下文是 CPU 寄存器和程序计数器在任何时间点的内容。
寄存器是 CPU 内部的一小部分非常快的内存(相对于CPU 内部的缓存和CPU 外部较慢的RAM 主内存),它通过提供对常用值的快速访问来加快计算机程序的执行。
程序计数器是一种专门的寄存器,它指示 CPU 在其指令序列中的位置,并保存着正在执行的指令的地址或下一条要执行的指令的地址,这取决于具体的系统。
上下文切换可以更详细地描述为内核(即操作系统的核心)对 CPU 上的进程 (包括线程)执行以下活动:
- 暂停一个进程的处理,并将该进程的 CPU 状态(即上下文)存储在内存中的某个地方。
- 从内存中获取下一个进程的上下文,并在 CPU 的寄存器中恢复它。
- 返回到程序计数器指示的位置(即返回到进程被中断的代码行)以恢复进程。
从数据来说,以程序员的角度来看,是方法调用过程中的各种局部的变量与资源;以线程的角度来看,是方法的调用栈中存储的各类信息。
引发上下文切换的原因一般包括:线程、进程切换、系统调用等等。上下文切换通常是计算密集型的,因为涉及一系列数据在各种寄存器、缓存中的来回拷贝。就CPU 时间而言,一次上下文切换大概需要5000~20000 个时钟周期,相对一个简单指令几个乃至十几个左右的执行时钟周期,可以看出这个成本巨大。