一、进程的基本概念
什么是进程?
进程是计算机中正在运行的程序的实例。它是操作系统进行资源分配和调度的基本单位。每个进程都有自己的内存空间、代码、数据和执行状态。进程可以独立运行,相互之间不会干扰。操作系统可以同时运行多个进程,通过分配时间片轮流执行它们,从而实现多任务处理。进程可以与其他进程进行通信和协作,共享资源和数据。
如何管理进程?
操作系统同样需要对进程进行管理。操作系统是怎样管理进程的呢?很简单,先把进程描述起来,再把进程组织起来!
-
描述进程:使用PCB结构体描述进程的各种属性
-
组织进程:使用数据结构将各进程的PCB结构体组织起来,形成进程表;再通过对进程表的增删查改实现对进程的管理。
要让存储在磁盘中的可执行文件变为进程,一是要将其代码和数据拷贝的内存中,二是要为其创建一个PCB结构体并初始化其属性,三是要将创建好的PCB加入到操作系统的进程队列。这样就形成了一个可被操作系统管理的进程了。
总结:进程=代码和数据+PCB结构体
PCB结构体、进程表是什么?
PCB:进程的属性信息被放在一个叫做进程控制块的数据结构中,可以理解为进程属性的集合。这类数据结构被称为PCB(process control block)。
提示:不同的操作系统有属于自己的不同的PCB。
进程表:进程表是操作系统中的数据结构,用于组织记录系统中所有进程的PCB。每个进程都有一个对应的进程表项(PCB),包含进程的标识符、状态、优先级、资源使用情况等信息。进程表可以用于管理和调度进程,操作系统可以根据进程表中的信息对进程进行分配资源、切换上下文等操作。
提示:在Linux系统中进程表是一个双向链表。
二、Linux中的PCB——task_struct
在Linux中描述进程属性的PCB结构体叫做task_struct。
task_struct是Linux内核的一种数据结构,它会被装载到RAM(内存)里并且包含着进程的属性信息。
task_ struct中记录的进程属性有:
- 标示符(PID): 描述本进程的唯一标示符,用来区别其他进程。
- 状态: 任务状态,退出代码,退出信号等。
- 优先级: 相对于其他进程的优先级。
- 程序计数器: 程序中即将被执行的下一条指令的地址。
- 内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
- 上下文数据: 进程执行时处理器的寄存器中的数据[休学例子,要加图CPU,寄存器]。
- I/O状态信息: 包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表。
- 记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
- 其他信息
三、查看进程
3.1 使用ps或top工具获取进程信息
ps命令:查看当前终端的所有进程 加axj选项 查看系统所有进程
以下是一个持续监控指定进程的脚本:
[zty@192 ~]$ while :; do ps axj | head -1 && ps axj | grep myproc | grep -v grep; echo "###########################"; sleep 1; done
这段代码是一个无限循环的脚本。它的作用是每隔1秒钟打印出当前正在运行的进程中包含"myproc"关键字的进程信息。
具体解释如下:
-
while :; do
:表示开始一个无限循环,:
是一个永远返回true的命令,所以这个循环会一直执行下去。 -
ps axj | head -1
:通过ps axj
命令获取当前所有进程的信息,并通过head -1
命令只取第一行,即进程信息的标题行。这一行会被打印出来。 -
ps axj | grep myproc | grep -v grep
:通过ps axj
命令获取当前所有进程的信息,并通过grep myproc
过滤出包含"myproc"关键字的进程信息,然后通过grep -v grep
去除掉包含"grep"关键字的行。这样就只剩下包含"myproc"关键字的进程信息了,它们会被打印出来。 -
echo "###########################"
:打印一行分隔符,用于区分不同时间点的进程信息。 -
sleep 1
:暂停1秒钟,等待下一次循环。
top命令:查看系统所有进程,类似于windows下的任务管理器
3.2 通过proc目录查看进程信息
进程的信息可以通过/proc 系统目录查看
系统中进程的属性数据都保存在/proc下以其PID为名的目录下:
/proc目录下的文件是动态的,每创建进程就会新增一个PID目录,进程结束该PID目录同时也会被删除。
PID目录如下:
- cwd:当前进程的工作目录,可执行程序的所在目录,程序中读写文件的默认路径。
- exe:可执行程序的路径
四、进程标识符——PID
getpid:获取调用进程的PID
- 头文件<unistd.h>和<sys/types.h>是由Linux操作系统提供的,和语言无关。
- pid_t:由操作系统提供的数据类型,实际上是一个无符号整数。
kill -9 pid:向指定进程发送9号指令,终止指定进程。
getppid:获取父进程的PID
-
无论是直接调用系统命令还是通过
./
运行自己编写的程序,其父进程都是bash -
bash会通过创建子进程来执行命令
-
每一次登录,都会创建一个独属于当前终端的bash。
测试代码:
void Test1(){
while(1)
{
pid_t pid = getpid();
pid_t ppid = getppid();
cout << "hello world!";
cout << " pid:" << pid;
cout << " ppid:" << ppid << endl;
sleep(1);
}
}
运行结果:
每次运行程序,进程的pid都不同,但其父进程ppid都是9031——bash
五、创建子进程
5.1 初识fork
测试代码:
void Test2(){
cout << "I'm parent process:" << getpid() << endl;
pid_t ret = fork();
//下面的代码由父进程和子进程执行
cout << "ret:" << ret << " ";
cout << "pid:" << getpid() << " ";
cout << "ppid:" << getppid() << endl;
}
运行结果:
- fork之后的代码由两个进程执行,一个是父进程,一个是子进程
- fork创建子进程成功返回给父进程子进程的PID,返回给子进程0
- fork创建进程失败返回-1
5.2 fork的基本用法
- fork之后的代码是父子进程共享的
- 可通过判断fork的返回值使用分支语句对父子进程进行分流,即让父子进程执行不同的代码。
测试代码:
int Test1(){
pid_t id = fork();
if(id < 0)
{
//创建失败
cerr << "fork" << endl;
return 1;
}
else if(id == 0)
{
//子进程执行流
while(1)
{
cout << "I'm child process, ";
cout << "pid:" << getpid() << " ";
cout << "ppid:" << getppid() << endl;
sleep(1);
}
return 0;
}
else{
//父进程执行流
while(1)
{
cout << "I'm parent process, ";
cout << "pid:" << getpid() << " ";
cout << "ppid:" << getppid() << endl;
sleep(1);
}
return 0;
}
}
运行结果:
为什么fork给父进程返回子进程PID,给子进程返回0?
- 因为一个父进程可以有多个子进程,所以需要子进程PID对子进程进行标识。而每个子进程都只有一个父进程,所以不需要父进程PID,返回0即可。
- 代码中需要区分父子进程以进行分流操作,因此不能返回父进程PID。
为什么fork能有两个返回值?
- fork是一个系统调用接口(C函数),由Linux内核实现
- 在fork内部,return之前子进程就已经被创建出来了。父子进程会执行各自的return语句,因此会有两个返回值。
- 两个返回值返回到两个不同的进程;一个进程中只有一个确切的返回值。
创建出子进程后,父子进程哪一个先运行呢?
- 创建子进程的本质是以父进程为模版创建一个子进程的test_struct,并加入到进程表,交由操作系统进行进程管理。
- 操作系统会创建一个CPU运行队列,调度器会根据进程的优先级,状态等信息,将进程的test_struct加入到运行队列。CPU会依次执行队列中的进程
- 无法确定父子进程的运行顺序,因为进程运行的先后顺序有多种影响因素,最终由操作系统的调度器决定。
CPU运行队列
- CPU运行队列是操作系统中的一个数据结构,用于存放等待在CPU上执行的进程。当操作系统决定将CPU分配给某个进程时,该进程会被放入CPU运行队列中等待执行。CPU运行队列可以根据不同的调度算法来确定进程的执行顺序,例如先来先服务、短作业优先、时间片轮转等。
- 进程表和CPU运行队列是相关但不完全相同的概念。简而言之,进程表是记录系统中所有进程的信息的数据结构,而CPU运行队列是存放等待在CPU上执行的进程的数据结构。进程表可以用于管理和调度进程,而CPU运行队列则是用于确定进程的执行顺序。