八、Linux进程检测与控制

章节目标

了解进程和程序的关系
了解进程的特点
能够使用top动态查看进程信息
能够使用ps静态查看进程信息
能够使用kill命令给进程发送信号
能够调整进程的优先级（扩展）

引言

在运维的日常工作中，监视系统的运行状况是每天例行的工作，在 Windows 中我们可以很直观的使用"任务管理器"来进行进程管理，了解系统的运行状态
通常，使用"任务管理器"主要有 3 个目的：

1. 利用"应用程序"和"进程"标签来査看系统中到底运行了哪些程序和进程；
2. 利用"性能"和"用户"标签来判断服务器的健康状态；
3. 在"应用程序"和"进程"标签中强制中止任务和进程；

在工作中，我们很少会用到Linux的图形化界面，更多时候会使用命令进行进程管理，但是进程管理的主要目的是一样的，即：

- 查看系统中运行的程序和进程
- 判断服务器的健康状态
- 停止不需要的进程。

一、相关概念

1. 什么是进程和程序？

进程是正在执行的一个程序或命令，每个进程都是一个运行的实体，并占用一定的系统资源。
程序是人使用计算机语言编写的可以实现特定目标或解决特定问题的代码集合。

简单来说，程序是人使用计算机语言编写的，可以实现一定功能，并且可以执行的代码集合。进程是正在执行中的程序。

举例：谷歌浏览器是一个程序，当我们打开谷歌浏览器，就会在系统中看到一个浏览器的进程，当程序被执行时，程序的代码都会被加载入内存，操作系统给这个进程分配一个 ID，称为 PID（进程 ID）。我们打开多个谷歌浏览器，就有多个浏览器子进程，但是这些进程使用的程序，都是chrome
PID = Process ID = 进程编号

2. 进程管理的内容

进程查看，通过查看，判断健康状态
进程终止
进程优先级控制

二、进程管理命令

工作场景：

小黑入职到一家公司，接到的第一项任务，就是监控生产服务器的性能，提到服务器性能，我们首先想到的就是CPU，内存和磁盘。

1. 【top】动态监测CPU信息

top

1.1. 系统整体信息

第一行

内容	说明
10:12:28	系统当前时间
up 13:05	系统的运行时间.本机己经运行 13 小时 05 分钟
3 users	当前登录了三个用户
load average: 0.00,0.01，0.05	系统在之前 1 分钟、5 分钟、15 分钟的平均负载。如果 CPU 是单核的，则这个数值超过 1 就是高负载：如果 CPU 是四核的，则这个数值超过 4 就是高负载

第二行

Tasks: 230 total	系统中的进程总数
1 running	正在运行的进程数
229 sleeping	睡眠的进程数
0 stopped	正在停止的进程数
0 zombie	僵尸进程数。如果不是 0，则需要手工检查僵尸进程

第三行

内容	说明
Cpu(s): 0.1 %us	用户模式占用的 CPU 百分比
0.1%sy	系统模式占用的 CPU 百分比
0.0%ni	改变过优先级的用户进程占用的 CPU 百分比
99.7%id	idle缩写，空闲 CPU 占用的 CPU 百分比
0.1%wa	等待输入/输出的进程占用的 CPU 百分比
0.0%hi	硬中断请求服务占用的 CPU 百分比
0.1%si	软中断请求服务占用的 CPU 百分比
0.0%st	st（steal time）意为虚拟时间百分比，就是当有虚拟机时，虚拟 CPU 等待实际 CPU 的时间百分比

问题：如果我的机器有4核CPU，我想查看每一核心分别的负载情况怎能办？

答：交换快捷键 “1”

第四行

内容	说明
Mem: 1863252 total	物理内存的总量，单位为KB
829960 used	己经使用的物理内存数量
68352 free	空闲的物理内存数量。我们使用的是虚拟机，共分配了 628MB内存，所以只有53MB的空闲内存
96490 buff/cache	作为缓冲的内存数量

扩展：真正剩余内存 = free + buff/cache，真正使用内存 = used - buff/cache

第五行

内容	说明
Swap: 2097148 total	交换分区（虚拟内存）的总大小
3336 used	已经使用的交换分区的大小
2093812 free	空闲交换分区的大小
622420 avail Mem	可用内存

根据整体信息部分，判断服务器的健康状态

在Linux操作系统分区时，最少需要3个分区：

① /boot分区：系统分区

② swap交换分区：一般情况下为内存的1~2倍，但是尽量不要超过2G

③ /分区：根分区，所有文件都存放于此

swap分区：就是当计算机的内存不足时，系统会自动从硬盘中划出一块区域充当内存使用。

我们通过 top 命令的整体信息部分，就可以判断服务器的健康状态。如果 1 分钟、5 分钟、15 分钟的平均负载高于CPU核数，说明系统压力较大。如果物理内存的空闲内存过小，则也证明系统压力较大。

问题：根据以上信息，目前我们的系统压力如何？

答：看CPU负载及内存的使用情况

问题：如果我们发现CPU负载过大，接下来怎么办？

答：如果1分钟、5分钟以及15分钟全部超过CPU的总核心数（必须引起警觉），这个时候就要查看底部的进程信息了。

如果一个总核数=8核心的CPU，理论上平均负载达到16，也还可以坚持很长一段时间。

1.2. 系统进程信息

PID	进程的 ID。
USER	该进程所属的用户。
PR	优先级，数值越小优先级越高。
NI	NICE优先级，数值越小优先级越高，取值范围-20到19，默认都是0
VIRT	该进程使用的虚拟内存的大小，单位为 KB。
RES	该进程使用的物理内存的大小，单位为 KB。
SHR	共享内存大小，单位为 KB。计算一个进程实际使用的内存 = 常驻内存（RES）- 共享内存（SHR）
S	进程状态。其中S 表示睡眠，R 表示运行
%CPU	该进程占用 CPU 的百分比。
%MEM	该进程占用内存的百分比。
TIME+	该进程共占用的 CPU 时间。
COMMAND	进程名

问题：如果我们发现CPU负载过大，接下来怎么办？

答：查看占用CPU最多的进程

问题：如何查看占用CPU最多的进程？

答：交互操作快捷键P，P（大写）：，表示将结果按照CPU 使用率从高到低进行降序排列

问题：如果我们发现内存可用量很小，接下来怎么办？

答：查看占用内存最多的进程，使用交互快捷键M（大写）：表示将结果按照内存（MEM）从高到低进行降序排列

问题：当我们查看完系统状态，需要做什么？

答：退出，使用q，按键盘上的q，就会回到#提示符的状态。

2. 【free】查看内存使用情况

# free [选项]

1GB = 1024MB 1MB = 1024KB

选项说明：

-m : 以MB的形式显示内存大小

案例：显示计算机的内存使用情况

free -m

和Centos6相比，buffer和cached被合成一组，加入了一个available。

关于此available，即系统可用内存，用户不需要去计算buffer/cache，即可以看到还有多少内存可用，更加简单直观

3. 【df】查看磁盘

# df [选项]

df = disk free = 磁盘剩余

-h ：以较高的可读性显示磁盘剩余空间大小

Filesystem	磁盘名称
Size	总大小
Used	被使用的大小
Avail	剩余大小
Use%	使用百分比
Mounted on	挂载路径（相当于Windows 的磁盘符）

4. 【ps】查看进程命令（静态）

top ：动态查看系统进程的信息（每隔3s切换一次）

ps ：静态查看系统进程的信息（只能查询运行ps命令瞬间，系统的进程信息）

# ps [选项]

选项说明：

-e : 等价于“-A”，表示列出全部（all）的进程

-f : 表示full，显示全部的列（显示全字段）

案例：显示当前系统中所有进程的信息

ps -ef

UID	该进程执行的用户ID
PID	进程ID
PPID	该进程的父级进程ID，如果找不到，则该进程就被称之为僵尸进程（Parent Process ID）
C	Cpu的占用率，其形式是百分数
STIME	进程的启动时间
TTY	终端设备，发起该进程的设备识别符号，如果显示“?”则表示该进程并不是由终端设备发起
TIME	进程实际使用CPU的时间
CMD	该进程的名称或者对应的路径

在实际工作中使用ps命令其实主要用于查询某个进程的PID或PPID

工作场景

小黑用学到的命令，发现某个进程占用CPU很高，希望进一步查看这个简称的信息。

【ps -ef】会列出全部进程，但是我们发现进程非常多，我们很难找到自己想要看的进程。这里需要使用过滤命令【grep】，来过滤掉我们不需要的信息。

用法：ps -ef |grep 想要看到的进程名

示例代码：

# ps -ef |grep crond

含义：查看crond进程的详细情况

注意：查询结果中，如果只有一条则表示没查到对应的进程（这1 条表示刚才ps 指令的自身）。只有查到的结果多余1 条，才表示有对应的进程。

案例：查询crond的进程信息

# ps -ef |grep crond

问题：以上信息只有第一行是crond的进程，第二行，实际是管道命令发起时，grep所启动的进程，如何去掉？

# ps -ef |grep crond |grep -v "grep"

root 7102 1 0 Mar23 ? 00:00:04 /usr/sbin/crond -n

【grep -v】需要去除的相关信息：去除包含指定关键词的那一行

4.1. 扩展：【ps aux】命令

ps aux

# man ps

1 UNIX options, which may be grouped and must be preceded by a dash. ps -ef

2 BSD options, which may be grouped and must not be used with a dash. ps aux

USER	该 process 属于哪个使用者账号	TTY	该 process 是在那个终端机上面运作，若与终端机无关，则显示 ? 另外， tty1-tty6 是本机上面的登入者程序，若为 pts/0 等等的，则表示为由网络连接进主机的程序。
PID	该 process 的ID	STAT	该程序目前的状态，主要的状态有 R ：该程序目前正在运作，或者是可被运作 S ：该程序目前正在睡眠当中 (可说是 idle 状态)，但可被某些讯号 (signal) 唤醒。 T ：该程序目前正在侦测或者是停止了 Z ：该程序应该已经终止，但是其父程序却无法正常的终止他，造成 zombie (疆尸) 程序的状态
%CPU	该 process 使用掉的 CPU 资源百分比	START	该 process 被触发启动的时间
%MEM	该 process 所占用的物理内存百分比	TIME	该 process 实际使用 CPU 运作的时间
VSZ	该 process 使用掉的虚拟内存量 (Kbytes)	COMMAND	该程序的实际指令
RSS	该 process 占用的固定的内存量 (Kbytes)

5. 【netstat】【ss】查看进程网络访问

# netstat [选项] |grep 进程名称

选项说明：

-t：表示只列出tcp 协议的连接（tcp协议与udp协议）

-n：表示将地址从字母组合转化成ip 地址，将协议转化成端口号来显示 10.1.1.10:80

-l：表示过滤出"state（状态）"列中其值为LISTEN（监听）的连接

-p：表示显示发起连接的进程pid 和进程名称

案例：查询Web Server（httpd）服务的端口信息

netstat -tnlp |grep httpd

ss -naltp |grep 进程名称

比 netstat 好用的socket统计信息，允许查询 socket 的有关统计信息

-n, --numeric 不解析服务名称

-a, --all 显示所有套接字（sockets）

-l, --listening 显示监听状态的套接字（sockets）

-t, --tcp 仅显示 TCP套接字（sockets）

-p, --processes 显示使用套接字（socket）的进程

案例：查询sshd服务的端口信息

ss -naltp |grep sshd

netstat与ss区别？① netstat信息比较简洁，ss更加丰富 ② ss执行效率比netstat略高一些

6. 杀死进程

6.1. 【kill】根据pid杀掉进程

命令：kill

语法：kill [信号] PID

作用：kill 命令会向操作系统内核发送一个信号（多是终止信号）和目标进程的 PID，然后系统内核根据收到的信号类型，对指定进程进行相应的操作

经验：kill经常结合ps命令一起使用

kill命令用于杀死某个进程，这其实只是其一个功能。kill命令的实质是向进程发送信号

信号种类：

信号编号	含义
9	杀死进程，即强制结束进程。
15	正常结束进程，是 kill 命令的默认信号。

案例：使用kill命令杀死crond进程

#ps -ef |grep crond

查询crond进程信息，想知道它的进程名，以便使用killall终止进程

#kill 6925

结束6925的进程，这里使用默认信号，正常结束，如果强制结束，就是kill -9 6925

#systemctl start crond

使用前面学过的systemctl命令，重启crond服务

#ps -ef |grep crond

查询crond进程信息,这次查询是为了确认crond进程已经重新启动了，我们看到多了一个32934的进程，表明crond已经启动，并且进程ID变化了，这是一个新的进程

备注：在互联网中，经常看到kill -9 进程PID，强制杀死某个进程，kill -9 pid

6.2. 【killall】根据进程名称杀掉进程

killall [信号编号] 进程名称

案例：使用killall命令杀死crond进程

# killall crond

案例：使用killall命令杀死httpd进程

# killall httpd

单独的进程用pid（kill）杀死，多个进程用进程名（killall）杀死

三、进程优先级

1. 什么是进程优先级？

Linux是一个多用户、多任务的操作系统，系统中通常运行着非常多的进程。哪些进程先运行，哪些进程后运行，就由进程优先级来控制

思考：什么时候需要用到进程的优先级呢？

答：当CPU负载过高时，如CPU的使用率>=90%以上。这个时候进程的优先级就会起作用。

2. 查看进程优先级

PR 优先级，数值越小优先级越高。
NI 优先级，数值越小优先级越高，可以人为更改。（NI = NICE = Nice）

讲个小故事：Nice值 = 0，Nice值越高，代表这个人越绅士（Nice值越高，优先级越低）

NI值有一个范围 -20 ~ 19

问题：这两个数值是在哪里看到的？

答：top命令

3. 调整进程优先级

3.1. 【top】调整进程的优先级

第一步：使用top命令获取你要调整的进程信息（PID编号）

# top -bn 1 //获取所有进程的信息

回车后看到有很多进程信息，假如要调整atd的优先级

PID COMMAND

7107 atd（at命令的底层服务）

第二步：运行top命令，然后按"r"，输入要调整进程的PID编号

# top

按r，输入要调整进程的PID编号,按回车

第三步：根据提示，重置NICE值

Renice PID 7107 to value : -5

第四步：按q退出top模式，然后使用top -p PID编号，只查询某个进程的信息

# top -p 7107

3.2. 【renice】调整进程的优先级

renice [NI优先级设置的数字] 想调整的进程ID

案例：使用renice调整atd的优先级

第一步：通过ps或top命令获取atd的PID编号

# ps -ef |grep atd

7107

第二步：使用renice命令调整7107的NICE值

# renice -10 7107

7107 (process ID) old priority 0, new priority -10

注意：NICE值取值范围-20 ~ 19，不能使用小数

3.3. 【nice】调整进程的优先级

nice [NI优先级设置的数字] 想调整的进程名称

-n：指定进程的优先级（整数

注意：nice命令只能调整没有运行的程序

nice实际操作三步走

第一步：将程序停止

# ps -ef |grep crond

# kill PID

或

# systemctl stop crond

第二步：启动并制定优先级（使用nice）

nice -n -10 crond

第三步：确认优先级（查看优先级）

# ps -ef |grep crond

PID

# top -p PID