进程概念(三)----- fork 初识

news2024/9/20 16:44:48

目录

  • 前言
  • 1. pid && ppid
  • 2. fork
    • a. 为什么 fork 要给子进程返回 0, 给父进程返回子进程的 pid ?
    • b. 一个函数是如何做到两次的?
    • c. fork 函数在干什么?
    • d. 一个变量怎么做到拥有不同的内容的?
    • e. 拓展:fork()之后,父子进程谁先运行?

前言

该篇文章是继 添加链接描述 文章的后续,针对 linux 中的 task_struct 进程的 PID(也即标识符)介绍,和系统调用中的 fork 展开初步的认识。

task_ struct 内容分类:
标识符:  描述本进程的唯一标识符,用来区别其他进程。
状态:  任务状态,退出代码,退出信号等。
优先级:  相对于其他进程的优先级。
程序计数器:  程序中即将被执行的下一条指令的地址。(其作用就相当于进程运行了一段时间后,因为系统调度等原因,停止了对该进程的执行而后续回来继续执行的时候,需要知道上次执行到什么地方了。也好比我们看书,今天看完不想看了之后,会在此处做一下标记,方便后续继续向下观看)
内存指针:  包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针(比如记录了该进程所匹配的代码和数据的存储位置)
上下文数据:  进程执行时处理器的寄存器中的数据[休学例子,要加图CPU,寄存器]。
I/O状态信息:  包括显示的I/O请求,分配给进程的 I/O 设备和被进程使用的文件列表。
记账信息:  可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。(保证系统调度的公平等)
其他信息


1. pid && ppid

在前面的进程相关的文章,我们已经知道了,因为用户不擅长直接对操作系统进行访问,并且操作系统也不会相信用户,因此用户无法直接访问操作系统。而在上一篇文章的末尾,我们简单见过了进程的 PID,但是那是通过系统指令获取到的 PID,而作为用户在编程语言上,在无法访问操作系统拿到数据的前提下,如何获取进程的 PID 等进程信息呢?

// 测试demo
#include<iostream>
#include<unistd.h>
using namespace std;

int main()
{
    while(1)
    {
     	cout << "I am a process, my pid is " << getpid() << ", my parentId is " << getppid() << '\n';
        sleep(1);
    }
    return 0;
}

在这里插入图片描述

左右对比,我们是可以得知,在我们通过 c / c++ 编写的程序,运行起来后,系统会自动会该进程创建一个 PID,并且在cpp 中预取这个 PID 和我们在系统中获取的 PID 是一致的。

所以,PID 有什么用呢?? ---- 既然 PID 是每个进程的唯一标识符,那么当我们对进程进行管理的时候,就可以通过其PID 对该进程进行操作,比如杀掉该进程 kill -9 20059 等操作。

在这里插入图片描述

而当我们结束上一次进程,重新运行我们的程序时,我们又会发现,它的 pid 不一样了,这也是正常的现象。但是我们可以发现,进程自己的 pid 会变,但是他的父进程的 pid 确不会变!一直是 2742,好奇心驱动我们去查看这个父进程,它到底是谁!

在这里插入图片描述

没错!2742 它就是我们的 bash,这个 bash 进程是由 xshell 为我们创建的一个命令行的进程!所以同理,当我们断开对 linux 的链接之后,再一次链接 linux,进程的 ppid 也会随之改变,即我们每一次通过xshell 远程连接我们的服务器时,xshell 都会为我们重新分配一个 bash 进程,用来给我们提供命令行服务!


2. fork

但是上述的这些进程,可都是操作系统给我们创建出来的。那么现在我要手动创建进程,该怎么做呢? ---- 调用 fork 系统函数。那么修改后的 demo 代码如下:

int main()
{
    cout << "before the fork!\n";
    fork();
    cout << "after the fork!\n";
    sleep(1)
    return 0;
}

在这里插入图片描述

很明显,在执行完 fork函数之后,fork 之后的代码,被执行了 两次!为什么?最简单的回答就是,因为 fork 是创建进程的系统函数,因此在执行完 fork 之后,会有两个进程,同时执行这一份代码,所以代码一共被执行了两次!

但是上述仅仅是我们的猜测,为了更清楚的了解 fork 函数干了什么,我们需要通过 man 手册进一步了解 fork 函数!

在这里插入图片描述

以上是 fork 函数介绍中的一段信息,但是有一点奇怪的是!这个函数怎么可以返回两个值呢??据 man 手册的介绍,如果进程创建成功,返回这个进程的 pid 给它的父进程,返回 0 给自己;创建失败,则返回 -1 给父进程。这显然是我们无非理解的,在 C/C++ 语言当中,函数的返回值一直都只能有一个啊!而现在,这个 fork 函数,它告诉我有两个返回值!

多的不说,我们再来做一个 demo 测试,到底是不是真的这样,这个函数有两个返回值。

int main()
{
	cout << "I am a process, pid: " << getpid() << ", ppid: " << getppid() << '\n';
    pid_t pid = fork();
    if(pid == 0)
    {
     	// 子进程部分
        while(1)
        {
            cout << "I am a child process, pid: " << getpid() << ", ppid: " << getppid() << "\n";
            sleep(1);
        }
    }
    else if(pid > 0)
    {
    	// 父进程部分
     	while(1)
        {
            cout << "I am a parent process, pid: " << getpid() << ", ppid: " << getppid() << "\n";
            sleep(1);
        }
    }
    else
    {
     	cout << "error\n";
    }
    return 0;
}

在这里插入图片描述

没错!就是这么神奇,如果站在语言上的认知,这是根本无法理解的现象,每个 if 分支里面都是一个死循环,但是,运行起来确出现了两个 if 分支里的内容!所以这可以进一步的说明了,fork 之后,会多一个进程,而这个进程是由原来的进程所创建出来的,它的 ppid (即父进程)就是创建它的进程的 pid !而 fork 作为系统调用接口,也会为创建出来的进程进行属性初始化(分配 pid 等操作)。所以站在系统的角度看待这一段代码的话,那么就能说明原本的进程,作为父进程,在执行完 fork 函数之后,接收到的是创建出来的子进程的 pid,因此会执行第一个 if 分支,而子进程自己接收到 0 的返回值,所以执行第二个 if 分支的内容。

一般而言,fork 之后的代码,是父进程与子进程共享的!所以返回值的不同,恰恰是为了区分,让不同的执行流执行不同的代码块!

接下来,我们要回答几个关于 fork 的问题。

a. 为什么 fork 要给子进程返回 0, 给父进程返回子进程的 pid ?

你知道的,父亲永远只有一个,而孩子可以有很多个,一个孩子也不可能同时有两个父亲。因此在操作系统中同理,一个父进程可以有多个子进程,但是不可能存在一个子进程有多个父进程!所以把子进程的 pid 给父进程,是为了让父进程可以明确的找到它的子进程,而子进程永远只有一个父进程,就不用谈找不到这件事了。假设今天父进程有10个子进程,但是它并不知道这个进程跟那个进程的 pid,也就无法明确指定操作其中某一个子进程了!再者,父进程在创建时,父进程有自己的内核 pcb 数据结构,也有自己的代码和数据,那现在父进程创建出一个子进程之后,系统会为子进程其分配一个 pcb,这没问题,但是子进程应该执行什么样的代码和访问什么样的数据呢? 而开始创建子进程是时候,子进程是没有自己的代码和数据的,所以子进程只能与父进程共享一样的代码(数据另谈)!那问题又来了,当 cpu 在调度的时候,父进程在执行这一份代码,子进程也是执行的这一份代码,这也是上面实验时,fork 之后的代码会重复执行两遍的原因。那这有什么意义呢?或者说,同样的代码为什么要执行两遍呢?所以问题就回归到了 我们为什么要创建这个子进程?! 所以一定是为了让父进程和子进程执行不同的代码,完成不同的工作!所以就需要让 fork 具有不同的返回值,才能达到区别不同的执行流!

b. 一个函数是如何做到两次的?

既然 fork 是用于创建进程的一个系统调用函数,而站在系统层面上,创建进程就要为其创建一个 pcb,并且每个进程需要有与其匹配的代码和数据,这是系统在创建进程时需要做的工作。那么我们就不难猜测,fork 在干什么。

pid_t fork(void)
{
	创建子进程
	填充 PCB 对应的内容
	让父子进程共享同一份代码
	到这一步,父子进程都用拥有了自己独立的 task_struct(即 PCB),可以被 cpu 调度运行了
	......
	return ret;
}

我们知道的是,子进程被创建出来之后,父子进程会共享代码,因此 fork 之后的代码才会被执行两次。现在的问题就是那么 return ret 是不是一条代码? ---- 它是代码是不争的事实!又因为在 return 之前子进程就已经被创建了,并且也完成了其 pcb 的各种初始化工作,同父进程一样拥有独立的 task_struct,所以既然在 return 语句的时候,子进程就已经完全存在了,那么 return 语句就自然是会被父子进程都执行!所以父进程返回一次,子进程返回一次,这个函数一共就返回了两次!

c. fork 函数在干什么?

其实这个问题在上面的介绍中,就已经不难得知了。fork 就是在创建一个进程,并且用其父进程对应的字段来初始化子进程,而因为子进程刚创建出来,没有自己的代码和数据,所以就需要和父进程共享同一份代码(数据另谈)。我们都知道,之所以可以共享代码,是因为代码存储在系统的常量区,它是不能够被修改的,因此父进程并不会因为与子进程进行代码共享而受到影响。但是数据就不一定,数据是可以被修改的!所以假如父进程和子进程共享同一份数据,然后子进程需要对其中的数据进行修改,这个数据又恰恰是父进程的某一个条件判断所需的数据,这就势必会影响到父进程的正常运行!那怎么办呢??所以子进程可以将父进程的数据拷贝一份给自己独立使用,自己怎么修改都不会影响到父进程。但是问题又来了,假设父进程当中有100个全局变量数据,而将来子进程只需要用到其中一个,其它的 99 个甚至更多都不需要修改,这样就会导致系统资源变少,利用率也变低。而实际上,被创建出来的子进程,需要修改到的数据其实是不大的,基本不可能有子进程需要修改父进程的全部数据。因此在面对数据方面,子进程则是采用了 写时拷贝 的策略,当子进程与父进程进行数据共享之后,子进程需要修改数据,系统就会为子进程开辟一块属于子进程自己的空间,并且将要修改的数据拷贝一份,供子进程修改和使用,子进程需要多少空间,系统就开辟多少,而后续子进程访问的也是自己的数据,这样父子进程就不会互相影响(因为我们需要保证让进程之间相互独立,互不影响。总不能是今天我csdn网页的进程奔溃了,连同我的音乐进程也奔溃了吧)。

d. 一个变量怎么做到拥有不同的内容的?

这个问题对 b 问题的一个延续,在上面的问答中,我们已经能够得知,一个函数之所以可以返回两个值,是因为在 return 的时候,子进程就已经被创建出来了,并且开始与父进程共享代码;在数据层面上,子进程并不是完全与父进程进行数据共享,而是采用了 写时拷贝 的策略。所以现在需要确定的是,return 是不是一种对数据的修改,或者是算不算数据的写入? ---- return 将数据进行返回,所以有数据,就必须要接收,也即数据的写入,而写入就是修改的范畴,所以当系统检测到子进程要对父进程的数据进行修改的时候,就会为其开辟一块自己的空间供子进程使用。所以站在系统层面上,这个变量数据在内存中存在两份,一份是父进程的,一份是子进程的,所以当我们站在语言的角度上,才看到了一个变量拥有两个不一样的值。

e. 拓展:fork()之后,父子进程谁先运行?

如果大家有这方面的疑惑的话,就需要深入了解在系统调度器方面的知识,因为谁先运行,这是调度器决定的!在系统层面上,谁先运行,取决于调度器决定先将哪个进程提携给 cpu 执行。而每个系统的调度原理都不太一样,所以这方面又是一门足以压死人的学问,小篇也是无能为力。


进程介绍到这里的时候,还远远没有结束,我们现在只是弄清楚进程是什么,以及与进程相关的系统调用 fork,但是进程还会有所谓的状态,比如进程等待,堵塞等等。但是由于篇幅问题,关于进程的状态等方面的信息,小篇会在后续文章中一一介绍。

如果感觉该篇文章给你带来了收获,可以 点赞👍 + 收藏⭐️ + 关注➕ 支持一下!

感谢各位观看!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1952706.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

简单快捷!Yarn的安装与使用指南

Yarn 是由 Facebook (现 Meta) 开发的包管理工具。 今天&#xff0c;我将介绍如何使用 Yarn。 目录 Yarn 的官方网站 关于安装 版本确认 开始一个新项目&#xff08;创建 package.json 文件&#xff09; 安装软件包 升级包 运行脚本 执行包的命令 卸载包 总结 Yarn 的…

光伏+农业,会激发出怎样的火花?

在这个科技与自然和谐共生的时代&#xff0c;光伏技术与现代农业的深度融合&#xff0c;正悄然掀起一场绿色革命。当“光伏”这一代表未来能源方向的技术与承载着人类生存之本的“农业”相遇&#xff0c;两者之间的化学反应&#xff0c;不仅照亮了清洁能源的道路&#xff0c;更…

MP的使用

1、MP简介 MyBatis-Plus&#xff08;简称MP&#xff09;是一个MyBatis的增强工具&#xff0c;在MyBatis的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生 官网&#xff1a;MyBatis-Plus &#x1f680; 为简化开发而生 参考教程&#xff1a;https://baomidou.c…

【LeetCode 随笔】C++入门级,详细解答加注释,持续更新中。。。

文章目录 58.【简单】最后一个单词的长度&#x1f31f; &#x1f308;你好呀&#xff01;我是 山顶风景独好 &#x1f388;欢迎踏入我的博客世界&#xff0c;能与您在此邂逅&#xff0c;真是缘分使然&#xff01;&#x1f60a; &#x1f338;愿您在此停留的每一刻&#xff0c;都…

全网最详细!! Linux 安装、配置教程

一、下载安装包 首先去官网下载VMware最新版本&#xff0c;以及发行版CentOS -7&#xff0c;懒得下载的可以私信我&#xff0c;我给你发包 其中&#xff0c;CentOS&#xff08;Community Enterprise Operating System&#xff09;是一个基于Linux的开源操作系统&#xff0c;它是…

VBA技术资料MF181:图片导入Word后添加说明文字

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套&#xff0c;分为初级、中级、高级三大部分&#xff0c;教程是对VBA的系统讲解&#…

Java学习Day15:基础篇5

1.参数问题 2.变量 3.可变参数 package 方法demo1__code;public class two {public static void main(String[] args) {text.add(3,4,5,6);} } class text{static void add(int ... a){} } 可变参数其实是一个数组&#xff0c;可以用数组的方式使用&#xff1b; ATT&#xf…

Jenkins详细使用教程

目录 1. 什么是Jenkins&#xff1f; 2. 为什么使用Jenkins&#xff1f; 3. 安装Jenkins 3.1 下载相关文件 3.2 解压Linux版本的JDK 3.3 配置JDK环境 3.4 运行jenkins.war 3.5 安装完成 4. 访问Jenkins 5. 修改密码 6. 集成JDK 7. Jenkins集成Git 7.1 使用Jenkins拉取…

[C++] vector入门迭代器失效问题详解

文章目录 vector介绍**vector iterator 的使用** vector迭代器失效问题由扩容或改变数据引起的迭代器失效reserve的实现&#xff08;野指针&#xff09;insert实现&#xff08;迭代器位置意义改变&#xff09;insert修改后失效的迭代器 it迭代器失效 erase后的问题总结&#xf…

代码随想录||day25 非递减子序列,全排列问题

491非递减子序列 力扣题目链接 题目描述&#xff1a; 给你一个整数数组 nums &#xff0c;找出并返回所有该数组中不同的递增子序列&#xff0c;递增子序列中 至少有两个元素 。你可以按 任意顺序 返回答案。 数组中可能含有重复元素&#xff0c;如出现两个整数相等&#x…

【C++】透析类和对象(下)

有不懂的可以翻阅我之前文章&#xff01; 个人主页&#xff1a;CSDN_小八哥向前冲 所属专栏&#xff1a;CSDN_C入门 目录 拷贝构造函数 运算符重载 赋值运算符重载 取地址运算符重载 const成员函数 取地址重载 再探构造函数 初始化列表 类型转换 static成员 友元 内…

LLMs之Llama 3.1:Llama 3.1的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama 3.1&#xff1a;Llama 3.1的简介、安装和使用方法、案例应用之详细攻略 导读&#xff1a;2024年7月23日&#xff0c;Meta重磅推出Llama 3.1。本篇文章主要提到了Meta推出的Llama 3.1自然语言生成模型。 背景和痛点 >> 过去开源的大型语言模型在能力和性能上一…

vmware虚拟机安装linux没有IP地址

直接设置固定IP 1、在虚拟机菜单栏选择编辑&#xff0c;然后点击虚拟网络编辑器 2、选择Vmnet8 Net网络连接方式&#xff0c;随意设置子网IP 3、点击NAT设置页面&#xff0c;查看子网掩码和网关&#xff0c;修改静态IP会用到 4、打开电脑控制面板–网络和Internet–网络连…

Visual Studio 智能代码插件:Fitten Code

Fitten Code 是由非十大模型驱动的AI编程助手&#xff0c;它可以自动生成代码&#xff0c;提升开发效率&#xff0c;协助调试 Bug&#xff0c;节省时间。还可以对话聊天&#xff0c;解决编程碰到的问题。 Fitten Code 免费且多种编程语言&#xff0c;包括 Python、C、Javascri…

【CG】计算机图形学(Computer Graphics)基础(其贰)

0 学习视频 B站GAMES101-现代计算机图形学入门-闫令琪 ※ 接上文【CG】计算机图形学&#xff08;Computer Graphics&#xff09;基础&#xff08;其壹&#xff09; 7 光线追踪 7.1 为什么需要光线追踪&#xff1f; 光栅化无法妥善处理全局效果 &#xff08;软&#xff09;阴…

sizeof和strlen区别

如图&#xff0c;sizeof来计算的时候&#xff0c;得出的是计算机用多少个字节来表示一个地址 而strlen来计算的时候&#xff0c;只是计算出他的有效字符长度 打印出的不同地址就是其不同的区别

数据中心同步指南 : 数据中心架构师和其他网络专家需要了解有关 5G 同步的知识

随着 5G 的推出&#xff0c;电信基础设施的设计方式正在发生巨大变化。由于网络运营商希望创建更开放的网络基础设施生态系统&#xff0c;部分基础设施&#xff08;如基带处理&#xff09;被虚拟化并移至电信数据中心。影响数据中心架构的另一个与 5G 相关的趋势是移动边缘计算…

20240727 每日AI必读资讯

&#x1f310;OpenAI向Google宣战&#xff0c;重磅推出AI搜索引擎SearchGPT &#xff01; - 将 AI 与实时网络信息结合 提供生成式UI结果 - SearchGPT 结合网络最新信息可以直接回答问题&#xff0c;同时注明相关来源链接。 - 还可以像与人对话一样提出后续问题&#xff0c;…

YOLOv8 改进 | 注意力机制 | 处理原始SE通道信息丢失问题的ESE【含分割,检测,OBByaml文件】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…