一. 前置知识
1.1冯诺依曼体系结构
我们常见的计算机,如笔记本。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系
为什么计算机要采用冯诺依曼体系呢?
在计算机出现之前有很多人都提出过计算机体系结构,但最终选择冯诺依曼是因为用比较少的钱就可以做出效率不错的计算机
截至目前,我们所认识的计算机,都是由一个个的硬件组件组成
1.2 操作系统 (OS)
1.2.1 简述操作系统
操作系统是什么?
是软件,管理软硬件资源,开机自动再内存启动
为什么开机自动启动,为什么用它?
操作系统管理软硬件资源,为用户提供良好的体验,如果没有它,用户就得自己手动调试硬件,自己兼顾软硬件
1.2.2 用户部分
用户就是指的是使用者,用户操作接口就是操作系统给用户提供的系统调用接口
为什么要提供操作接口?
操作接口分为shell外壳(Linux下的shell,Windows下的图形化界面),lib(动静态库),部分指令(部分指令指的是操作系统提供的一些基本命令或者工具)
1) 用户直接使用接口,降低了技术门槛
2) 其次是操作系统怕用户搞破坏,给硬件搞坏
system call就是操作系统向上层提供的系统调用函数
1.2.3 系统软件部分
这部分就是操作系统管理软硬件,操作系统对软硬件资源的管理分为两步:
1.2.4硬件部分
二.进程
2.1基本概念
1、已经加载到内存中的程序/正在运行的程序叫做进程,一个操作系统不仅仅只能运行一个进程,可以同时运行多个进程。
2、操作系统,必须将进程管理起来,而管理的过程是先描述,再组织。
3、任何一个进程,在加载到内存的时候,形成真正的进程时,操作系统要先创建描述进程(属性)的结构体对象PCB(process control block)---进程控制块(进程属性的集合)。
4、此结构体包括进程编号,进程的状态,优先级,代码和数据相关的指针信息等。
5、根据进程的PCB类型,该进程创建对应的PCB对象。有了PCB结构体对象,在操作系统中对进程进行管理,变成了对单链表进行增删改查。
6、进程=内核数据结构(PCB)+代码和数据。
7、在linux中描述进程的结构体叫做task_struct,最基本的组织进程task struct方式采用双向链表组织的,里面包含进程的所有属性。
2.2Linux有关进程的指令
#include<stdio.h>
#include<unistd.h>
int main()
{
while(1)
{
printf("我的pid是%d,我的ppid是%d\n",getpid(),getppid());
sleep(1);
}
return 0;
}
父进程含义:
我们登录xshell时,系统会为我们创建一个bash进程,即命令行解释的进程,帮我们在显示器中打印对话框终端。
我们在对话框中输入的所有的指令都是bash进程的子进程。
bash进程只进行命令行解释,具体执行出错只会影响他的子进程。
进程PID会变化,而它的ppid一般在同一个终端下启动,它都是不变的,而它的所有的进程的父进程都是bash。
fork:创建子进程:
创建子进程PCB,填充PCB对应的内容,让子进程和父进程指向相同的代码,父子进程都是有独立的task struct,可以被CPU调度运行了。
不同方法创建子进程
①./运行程序---指令级别创建子进程
②fork() --- 代码层面创建子进程
为什么fork要给子进程返回零,给父进程返回子进程PID?
fork给父进程返回子进程pid,用来标定子进程的唯一性。而子进程只要调用getpid()就可获取进程的PID。返回不同的返回值,是为了区分,让不同的执行流,执行不同的代码快。(一般而言,fork之后的代码父子共享)
一个函数是如何做到返回两次的?一个变量怎么会有不同的内容?如何理解?
任何平台,进程在运行的时候是具有独立性的。代码共享并不影响独立性,因为代码不可修改。而数据上互相独立,子进程理论上要拷贝父进程数据。但创建出来的子进程,对于大部分父进程不会访问,所以子进程在访问父进程数据时进行写时拷贝即可(子进程和父进程访问的是不同的内存区)。
谁决定把一个进程放到CPU上去运行呢?是由调度器(CPU)去决定的。
如果父子进程被创建好fork()往后谁先进行呢?谁先进行由调度器决定,不确定。
三. 进程的状态
3.1 概括
进程状态其实就是进程PCB中的一个变量,int status,更改状态就是更改这个变量的
#define NEW 1
#define RUNNING 2
#define BLOCK 3
pcb->status = NEW;
if(pcb->status == NEW) //如果状态是NEW,该放入哪个队列
else if(pcb->status == RUNNING) //如果是RUNNING,该放入哪个队列
3.2 运行状态
只要在运行队列的进程,状态就是运行状态
3.3 阻塞状态
所编写的代码中或多或少都会访问系统的某些资源,比如键盘,在调用scanf函数时,就是从键盘拿数据,如果一直不输入,键盘上就不会有数据 -------> 进程要访问的资源就没有就绪 --------> 不具备足够的资源和条件 ---------> 进程代码就没法接着执行。
这时候的进程状态就是阻塞状态
3.4挂起状态(阻塞挂起状态)
如果一个进程被阻塞了,注定了,这个进程需要的资源没有就绪,如果这时候操作系统的内存资源严重不足了怎么办呢?操作系统会将内存数据进行置换到外设,将所有的阻塞状态的进程置换到外设的swap分区,( 补充:swap分区时在磁盘的一块区域,大小和内存大小一样或者比内存小,不能太大,如果太大,就会很依赖swap分区,就会增加置换次数,置换次数变多,IO操作次数变多,效率就会受到影响 ),被置换到sawp分区的进程的状态就是挂起,如果不讲这些进程置换,计算机就宕机了,所以置换就算非常慢也没有办法。这种状态一般不会出现,出现了就说明计算机快完蛋了。
体现在Linux中,有些差别但是无可厚非
①R运行状态: 表明进程是在运行中或者在运行队列里。
②S睡眠状态: 意味着进程在等待事件完成。
③D磁盘休眠状态:让进程在磁盘写入完毕期间,这个进程不能被任何人杀掉。
④T停止状态: 可以通过发送 SIGSTOP(kill -19) 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号(kill -18)让进程继续运行。
⑤X死亡状态:操作系统将该进程的数据全部释放掉。
⑥Z僵尸进程:进程一般退出的时候,如果父进程,没有主动回收子进程信息,子进程会一直让自己出于Z状态,进程的相关资源尤其是task_struct结构体不能被释放。
四. 进程优先级
4.1基本概念
4.1 PRI NI
五. 环境变量
5.1基本概念
5.2常见环境变量
5.3查看环境变量方法
5.4和环境变量相关的命令
5.5环境变量的组织方式
5.6通过代码如何获取环境变量
#include <stdio.h>
int main(int argc, char *argv[], char *env[])
{
int i = 0;
for(; env[i]; i++){
printf("%s\n", env[i]);
}
return 0;
}
通过第三方变量environ,libc中定义的全局变量environ指向环境变量表,environ没有包含在任何头文件中,所以在使用时 要用extern声明。
#include <stdio.h>
int main(int argc, char *argv[])
{
extern char **environ;
int i = 0;
for(; environ[i]; i++){
printf("%s\n", environ[i]);
}
return 0;
}
六. 进程地址空间
6.1程序地址空间分布情况
//myproc.c
#include <stdio.h>
#include <stdlib.h>
int g_val_1;
int g_val_2 = 100;
int main()
{
printf("code addr: %p/n", main);
const char *str = "hello bit";
printf("read only string addr: %p\n", str);
printf("init global value addr: %p\n", &g_val_2);
printf("uninit global value addr: %p\n", &g_val_1);
char *mem = (char*)malloc(100);
printf("heap addr: %p\n", mem);
printf("stack addr: %p\n", &str);
return 0;
}
注:static修饰的局部变量,编译的时候已经被编译到全局数据区。
6.2地址空间
一个小实验
#include<stdio.h>
#include<stdlib.h>
#include<unistd.h>
int g_val = 100;
int main()
{
pid_t id = fork();
if (id == 0)
{
int cnt = 5;
//子进程
while (1)
{
printf("I am child, pid : %d, ppid : %d, g_val: %d, &g_val: %p\n", getpid(), getppid(), g_val, &g_val);
sleep(1);
if (cnt) cnt--;
else
{
g_val = 200;
printf("子进程change g_val : 100->200\n");
cnt--;
}
}
}
else
{
//父进程
while (1)
{
printf("I am parent, pid : %d, ppid : %d, g_val: %d, &g_val: %p\n", getpid(), getppid(), g_val, &g_val);
sleep(1);
}
}
}
问1:怎么可能同一个变量,同一个地址,同时读取,读到了不同的内容结论?
答:
①如果变量的地址是物理地址,不可能存在上面的现象,绝对不是物理地址,是线性地址/虚拟地址。
②子进程的进程地址空间继承自父进程,但是当实际访问读取时,需要根据相同的虚拟地址(映射)查找不同的物理地址。
③修改子进程变量时,先经过写时拷贝(是由操作系统自动完成的)并重新开辟空间,但是在这个过程中,不会影响虚拟地址。
拓展:在32位计算机中,有32位的地址和数据总线
每一根地址总线只有0、1(32根,2^32种)
(三类线:地址总线,数据总线控制,总线
CPU和内存中连的线叫系统总线
内存和外设中连的线叫IO总线)
问2:什么叫做地址空间?如何理解?
答:
①进程在极端情况下所能访问的物理内存的最大值。地址,总线,排列组合形成地址范围[0,2^32]。
②通过定义一个区域的起始和结束来实现地址空间上的区域划分。
③所谓的进程地址空间,本质上是一个描述进程可视范围的大小
地址空间内一定要存在各种区域划分,对线性地址进行start和end即可
在范围内,连续空间中,每一个最小单位都可以有地址,这个地址可以被对象直接使用。
问3:地址空间本质是内核的一个数据结构对象,类似PCB一样,地址空间也是要被操作系统管理的:先描述,再组织 。这样做的目的是什么?
答:
①让进程以统一的视角看待内存,进程就不需要再维护自己冗余的代码
②增加进程虚拟地址空间可以让我们访问内存的时候,增加一个转换的过程,在这个转化的过程中,可以对寻址记请求进行审查,所以一旦异常访问,直接拦截,该请求不会到达内存,保护物理内存。
6.3页表
①每个当前正在执行的进程的页表,在CPU内有一个cr3寄存器,保存当前页表的起始地址(这是物理地址)。该进程在运行期间cr3寄存器中页表的地址/当前进程正在运行的临时数据,本质上属于进程的硬件上下文。
②代码区和字符常量区所匹配的页表所对应的虚拟物理地址映射标志位决定是否只读。(代码是只读的,字符常量区只读的)
③操作系统对大文件可以实现分批加载,惰性加载的方式。另外有一个标志位标识对你的代码和数据是否已经被加载到内存。
④如果发现当前代码和数据并未加载到内存里,此时,操作系统触发缺页中断。将未加载到内存中的代码和数据,重新加载到内存里,把这段内存的地址填写到对应的页表当中,再访问。
注:写时拷贝也是缺页中断:一旦创建子进程,可读的内容不变,可写的内容对应的虚拟内存以及操作系统会把父进程对应的可写区域内容全部改成只读,从而子进程继承下来也为只读。一旦父进程或子进程尝试对数据段进行写入时,会通过触发读权限问题进行写时拷贝。
问:进程在被创建的时候,是先创建内核数据结构呢,还是先加载对应的可执行程序呢?
答:先要创建内核数据结构,即处理好进程维护的PCB地址空间和页表对应关系,再慢慢加载可执行程序。
⑤挂起:进程对应的代码和数据全部释放掉,页表清空,并且页表标志位,对应虚拟地址所表征的是否在内存的标志位置为0代表不在内存里。
6.4 Linux的内存管理模块:进程管理和内存管理,实现软件层面上的解耦合
①因为有地址,空间和页表的存在将进程管理模块和内存管理模块进行解耦合
②进程=内核数据结构(task_struct&&mm_struct&&页表)+程序的代码和数据
③总结:进程具有独立性,为什么?怎么做到的?
a.每个进程具有单独的PCB和进程地址空间页表,所以在那个数据结构上,每个进程都是互相独立的。
b.只要将页表,映射到物理内存的不同区域,每个区域的代码和数据就会互相解耦。
c.把PCB换了,进程地址空间自然而然就换了。页表的起始地址属于进程的下文,进程只要切换,页表也就切换。
补充:缺页中断的好处:缺页中断本质上是重新分配内存,改变加载程序的先后顺序和单次加载量。提高首次加载速度,局部上加载速度变快。很好的将内存分批释放,减少内存申请空窗期,加快内存申请释放,从而变相是我们内存的使用率越来越高。