top命令和系统负载

1 top中的字段说明

top是一个实时系统监视工具，可以动态展现出 CPU 使用率、内存使用情况、进程状态等信息，注意这些显示的文本不能直接使用 > 追加到文件中。

[root@vv~]# top -bn 1 | head
top - 20:08:28 up 138 days, 10:29,  4 users,  load average: 0.07, 0.05, 0.05
Tasks: 110 total,   1 running, 109 sleeping,   0 stopped,   0 zombie
%Cpu(s):  3.2 us,  0.0 sy,  0.0 ni, 96.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  1798504 total,    97356 free,   500408 used,  1200740 buff/cache
KiB Swap:  1049596 total,  1049596 free,        0 used.  1117880 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0  199480   3436   1844 S   0.0  0.2  30:34.35 systemd
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.13 kthreadd
    4 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H

在这里插入图片描述

%Cpu(s):  3.2 us,  0.0 sy,  0.0 ni, 96.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st

us：用户空间占用的CPU时间百分比，表示运行用户进程的时间。
sy：内核空间占用的CPU时间百分比，表示运行内核进程的时间。
ni：优先级已调整（nice）进程占用的CPU时间百分比。
id：空闲CPU时间百分比，表示CPU没有忙于处理任何任务的时间。
wa：等待I/O操作的CPU时间百分比，表示CPU等待输入/输出完成的时间。
hi：硬中断占用的CPU时间百分比，表示处理硬件中断的时间。

中断：允许硬件设备或软件程序在处理器的当前任务中打断执行，以便立即处理某些紧急事件或请求
硬中断是由硬件设备（如网卡、硬盘等）发起的中断信号，通常用于处理设备的紧急请求，优先级较高
si：软中断占用的CPU时间百分比，表示处理软件中断的时间。
- 软中断则是由软件或操作系统发起的中断，用于处理非紧急的任务，如网络协议处理或定时器事件，优先级相对较低
st：被其他虚拟机窃取的CPU时间百分比，表示虚拟化环境下被分配给其他虚拟机的CPU时间。

    PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                             
   4050 root      20   0 7393848 946260   7016 S  11.6  47.9   2:02.83 java

PID：进程的 ID，例如 1234 和 5678。
USER：进程的所有者，例如 root 和 user1。
PR：进程的优先级，通常是 20。PR 值的范围通常是从 -20 到 +19。优先级的数值越小，表示进程的优先级越高，越容易被调度器分配给 CPU
- 静态优先级：静态优先级是 Linux 内核用于普通进程调度的优先级，由进程在启动时设定的 nice 值（以及其他因素）决定，且在进程生命周期内通常保持不变。低静态优先级的进程会在 CPU 时间分配中被延迟执行，可能会因为其他高优先级进程的执行而受到影响
  - 静态优先级的范围通常是从 100 到 139，并由进程的 nice 值影响。
  - nice 值为 0 的进程有一个标准的优先级，通常为 120
  - nice 值较小（如 -20）会给进程提供较高的静态优先级（即更高的数字优先级）。
  - nice 值较大（如 +19）会导致较低的静态优先级。
- 实时优先级：是操作系统分配的最高优先级，不受 nice 值的影响
NI：进程的 nice 值。可以用于影响进程的 PR 优先级
- nice 值与调度优先级的关系：
  - nice 值越小，进程优先级越高，系统调度时更倾向于分配更多的 CPU 时间给该进程
  - nice 值越大，进程优先级越低，调度器会让其他进程更优先执行该进程会被“让步”
- nice 值与 PR（优先级）的关系： nice 值直接影响 PR（进程的调度优先级），但 PR 还会受到进程的其他因素（如静态优先级、实时优先级等）的影响
VIRT：进程的虚拟内存大小。单位默认是KB
RES：进程使用的物理内存大小。
SHR：进程共享的内存大小。

进程使用的共享内存的大小。共享内存是多个进程之间共享的内存区域，允许多个进程访问相同的内存地址空间，以实现高效的数据共享。这种方法比其他IPC机制（如管道、消息队列等）要高效得多，因为避免了数据复制的开销

S：进程状态，S 表示正在休眠。R 表示进程正在运行

常见状态	解释
R	运行中（正在运行或就绪等待运行）
S	可中断睡眠（等待某个事件）
D	不可中断睡眠（通常与 I/O 操作相关）
T	停止（由于信号，通常是暂停）
Z	僵尸（已经终止，但父进程尚未收集状态）
I	空闲（内核空闲进程）
W	分页等待（进程在等待交换或内存分页）
X	死亡（进程已经消失）
+	前台进程（终端控制）

%CPU：进程占用的 CPU 百分比。
%MEM：进程占用的物理内存的百分比。
TIME+：该进程的累计 CPU 时间。
COMMAND：进程名称。

1.top命令可以看到CPU使用率超过100%

在 top 命令中，CPU 使用率可以超过 100%，在多核或多线程系统中。每个 CPU 核心的使用率可以单独计算，因此总使用率是所有核心的使用率之和。例如，若有 4 个核心，理论上最大值可以达到 400%。如果某个进程充分利用了多个核心，CPU 使用率就可能显示为超过 100%

2 top命令用法

top是交互式查看，可以再输入其他字母进行交互。

top选项	说明
-b	非交互模式
-n	只输出1次结果
-H	查看线程信息
-p	指定进程PID，如 top -p 1234

top交互按键	说明
f	自定义显示的列
k	终止一个进程（需要输入 PID 和信号）
r	重新设置一个进程的优先级（需要输入 PID 再输入优先级）
P	按CPU占用排序
M	按内存占用排序
z	进入颜色模式
shift + < >	左右选择
x	标记当前列
q	退出 `top`
u	显示特定用户的进程

高亮查看，如下图

在这里插入图片描述

3 top+awk查看僵尸进程数量

思路：截取第二行的倒数第二列

注意：awk只能处理非交互式的文本信息

[root@centos7 ~]# top 
top - 13:30:24 up 10 min,  3 users,  load average: 0.30, 0.12, 0.07
Tasks: 220 total,   1 running, 219 sleeping,   0 stopped,   0 zombie

方法1：
[root@centos7 ~]# top -bn1 | awk 'NR==2' | awk '{print $(NF-1)}'
0
方法2：
[root@centos7 ~]# top -bn1 | awk 'NR==2' | awk '{print $(NF-1),$(NF)}'
0 zombie
方法3：
[root@centos7 ~]# top -bn1 | awk 'NR==2{print $(NF-1),$(NF)}'
0 zombie

4 htop 图形化操作

htop需要手动安装，yum -y install htop，这时可以通过鼠标点击终端来切换需要查看的指标

在这里插入图片描述

5 系统负载高了如何排查

排查原因
CPU高？
- uptime 查看负载情况
- top，查看用户/系统CPU高
IO高？
- top命令的第三行wa表示IO状态
- iotop查看
最后结束对应进程

IO命令	说明
-bn	通top
-o	只查看正在读写的进程

5.1 vmstat 命令介绍

系统监视工具，查看swap统计信息以及系统的整体状态。vmstat 还可以关于进程、内存、分页、块 I/O、陷阱和 CPU 活动的详细信息


vmstat 5 3	显示虚拟内存统计信息，每 5 秒报告一次，共报告 3 次
vmstat -d	查看磁盘信息
vmstat -p /dev/sda	打印sda磁盘信息
vmstat -s	显示各种事件的总计
vmstat -t	在输出中包含时间戳

vmstat输出列	说明
r	运行队列中等待 CPU 的进程数量
b	等待 I/O 的进程数量
swpd	已使用的虚拟内存（swap）的大小，单位是 KB
free	空闲内存的大小，单位是 KB
buff	用作缓冲区的内存量，单位是 KB
cache	用作缓存的内存量，单位是 KB
si	从磁盘交换到内存的交换数据量，单位是 KB/s，如果 `si` 值较高，说明系统可能存在内存压力，频繁进行磁盘交换
so	从内存交换到磁盘的交换数据量，单位是 KB/s，如果 `so` 值较高，可能表示内存不足
bi	每秒从块设备（磁盘）读取的数据量，单位是 KB/s
bo	每秒写入到块设备（磁盘）的数据量，单位是 KB/s
in	每秒中断的次数；通常与硬件（如磁盘或网络接口）或其他外部事件有关
cs	每秒上下文切换的次数；如果此值很高，可能表明系统负载较重
us	用户空间（用户进程）占用的 CPU 时间百分比；表示应用程序的计算负载
sy	内核空间（系统进程）占用的 CPU 时间百分比；表示内核或系统进程的负载
id	CPU 空闲时间百分比
wa	CPU 等待 I/O 完成的时间百分比
st	被虚拟化环境占用的 CPU 时间百分比（如被 hypervisor 占用）

每2秒刷新一次查看

[root@qwe~]# vmstat  2
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0      0 159096 159024 940948    0    0     4     8    1    1  1  1 99  0  0
 0  0      0 160564 159024 940892    0    0     0     0 1051 1633  1  1 99  0  0
 0  0      0 156708 159024 941220    0    0     0     0 2927 2673  1  2 97  0  0

tps（每秒 I/O 操作次数）
kB_read/s（每秒读取的 KB 数）
kB_wrtn/s（每秒写入的 KB 数）
kB_read 和 kB_wrtn（总读取和写入的 KB 数）

5.2 iostat命令介绍

[root@qwe~]# iostat 
Linux 3.10.0-1160.108.1.el7.x86_64 (qwe)        11/12/2024      _x86_64_        (2 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.59    0.00    0.63    0.04    0.00   98.74

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
vda               2.59         7.54        14.87  120804422  238351765

5.3 情况1：CPU高、Load高

通过top命令查找占用CPU最高的进程PID；
通过top -Hp PID查找占用CPU最高的线程TID;
对于java程序，使用jstack打印线程堆栈信息（可联系业务进行排查定位）；
通过printf %x tid打印出最消耗CPU线程的十六进制；
在堆栈信息中查看该线程的堆栈信息；

5.4 情况2：CPU低、Load高

7.54        14.87  120804422  238351765




## 5.3 情况1：CPU高、Load高

- 通过top命令查找占用CPU最高的进程PID；
- 通过top -Hp PID查找占用CPU最高的线程TID;
- 对于java程序，使用jstack打印线程堆栈信息（可联系业务进行排查定位）；
- 通过printf %x tid打印出最消耗CPU线程的十六进制；
- 在堆栈信息中查看该线程的堆栈信息；

## 5.4 情况2：CPU低、Load高

- 通过top命令查看CPU等待IO时间，即%wa