1 top中的字段说明
top是一个实时系统监视工具,可以动态展现出 CPU 使用率、内存使用情况、进程状态等信息,注意这些显示的文本不能直接使用 > 追加到文件中。
[root@vv~]# top -bn 1 | head
top - 20:08:28 up 138 days, 10:29, 4 users, load average: 0.07, 0.05, 0.05
Tasks: 110 total, 1 running, 109 sleeping, 0 stopped, 0 zombie
%Cpu(s): 3.2 us, 0.0 sy, 0.0 ni, 96.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 1798504 total, 97356 free, 500408 used, 1200740 buff/cache
KiB Swap: 1049596 total, 1049596 free, 0 used. 1117880 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 199480 3436 1844 S 0.0 0.2 30:34.35 systemd
2 root 20 0 0 0 0 S 0.0 0.0 0:00.13 kthreadd
4 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H
%Cpu(s): 3.2 us, 0.0 sy, 0.0 ni, 96.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
-
us:用户空间占用的CPU时间百分比,表示运行用户进程的时间。
-
sy:内核空间占用的CPU时间百分比,表示运行内核进程的时间。
-
ni:优先级已调整(nice)进程占用的CPU时间百分比。
-
id:空闲CPU时间百分比,表示CPU没有忙于处理任何任务的时间。
-
wa:等待I/O操作的CPU时间百分比,表示CPU等待输入/输出完成的时间。
-
hi:硬中断占用的CPU时间百分比,表示处理硬件中断的时间。
中断:允许硬件设备或软件程序在处理器的当前任务中打断执行,以便立即处理某些紧急事件或请求
-
硬中断是由硬件设备(如网卡、硬盘等)发起的中断信号,通常用于处理设备的紧急请求,优先级较高
-
si:软中断占用的CPU时间百分比,表示处理软件中断的时间。
- 软中断则是由软件或操作系统发起的中断,用于处理非紧急的任务,如网络协议处理或定时器事件,优先级相对较低
-
st:被其他虚拟机窃取的CPU时间百分比,表示虚拟化环境下被分配给其他虚拟机的CPU时间。
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
4050 root 20 0 7393848 946260 7016 S 11.6 47.9 2:02.83 java
-
PID
:进程的 ID,例如 1234 和 5678。 -
USER
:进程的所有者,例如root
和user1
。 -
PR
:进程的优先级,通常是 20。PR
值的范围通常是从-20
到+19
。优先级的数值越小,表示进程的优先级越高,越容易被调度器分配给 CPU-
静态优先级:静态优先级是 Linux 内核用于普通进程调度的优先级,由进程在启动时设定的
nice
值(以及其他因素)决定,且在进程生命周期内通常保持不变。低静态优先级的进程 会在 CPU 时间分配中被 延迟执行,可能会因为其他高优先级进程的执行而受到影响-
静态优先级的范围通常是从 100 到 139,并由进程的
nice
值 影响。 -
nice
值为 0 的进程有一个标准的优先级,通常为 120 -
nice
值较小(如 -20) 会给进程提供较高的静态优先级(即更高的数字优先级)。 -
nice
值较大(如 +19) 会导致较低的静态优先级。
-
-
实时优先级:是操作系统分配的 最高优先级,不受
nice
值的影响
-
-
NI
:进程的 nice 值。可以用于影响进程的 PR 优先级nice
值与调度优先级的关系:nice
值越小,进程优先级越高,系统调度时更倾向于分配更多的 CPU 时间给该进程nice
值越大,进程优先级越低,调度器会让其他进程更优先执行该进程会被“让步”
nice
值与PR
(优先级)的关系:nice
值直接影响PR
(进程的调度优先级),但PR
还会受到进程的其他因素(如静态优先级、实时优先级等)的影响
-
VIRT
:进程的虚拟内存大小。单位默认是KB -
RES
:进程使用的物理内存大小。 -
SHR
:进程共享的内存大小。进程使用的共享内存的大小。共享内存是多个进程之间共享的内存区域,允许多个进程访问相同的内存地址空间,以实现高效的数据共享。这种方法比其他IPC机制(如管道、消息队列等)要高效得多,因为避免了数据复制的开销
-
S
:进程状态,S
表示正在休眠。R
表示进程正在运行-
常见状态 解释 R 运行中(正在运行或就绪等待运行) S 可中断睡眠(等待某个事件) D 不可中断睡眠(通常与 I/O 操作相关) T 停止(由于信号,通常是暂停) Z 僵尸(已经终止,但父进程尚未收集状态) I 空闲(内核空闲进程) W 分页等待(进程在等待交换或内存分页) X 死亡(进程已经消失) + 前台进程(终端控制)
-
-
%CPU
:进程占用的 CPU 百分比。 -
%MEM
:进程占用的物理内存的百分比。 -
TIME+
:该进程的累计 CPU 时间。 -
COMMAND
:进程名称。
1.top命令可以看到CPU使用率超过100%
在
top
命令中,CPU 使用率可以超过 100%,在多核或多线程系统中。每个 CPU 核心的使用率可以单独计算,因此总使用率是所有核心的使用率之和。例如,若有 4 个核心,理论上最大值可以达到 400%。如果某个进程充分利用了多个核心,CPU 使用率就可能显示为超过 100%
2 top命令用法
top是交互式查看,可以再输入其他字母进行交互。
top选项 | 说明 |
---|---|
-b | 非交互模式 |
-n | 只输出1次结果 |
-H | 查看线程信息 |
-p | 指定进程PID,如 top -p 1234 |
top交互按键 | 说明 |
---|---|
f | 自定义显示的列 |
k | 终止一个进程(需要输入 PID 和信号) |
r | 重新设置一个进程的优先级(需要输入 PID 再输入 优先级) |
P | 按CPU占用排序 |
M | 按内存占用排序 |
z | 进入颜色模式 |
shift + < > | 左右选择 |
x | 标记当前列 |
q | 退出 top |
u | 显示特定用户的进程 |
- 高亮查看,如下图
3 top+awk查看僵尸进程数量
思路:截取第二行的倒数第二列
注意:awk只能处理非交互式的文本信息
-
[root@centos7 ~]# top top - 13:30:24 up 10 min, 3 users, load average: 0.30, 0.12, 0.07 Tasks: 220 total, 1 running, 219 sleeping, 0 stopped, 0 zombie
-
方法1: [root@centos7 ~]# top -bn1 | awk 'NR==2' | awk '{print $(NF-1)}' 0 方法2: [root@centos7 ~]# top -bn1 | awk 'NR==2' | awk '{print $(NF-1),$(NF)}' 0 zombie 方法3: [root@centos7 ~]# top -bn1 | awk 'NR==2{print $(NF-1),$(NF)}' 0 zombie
4 htop 图形化操作
htop需要手动安装,yum -y install htop
,这时可以通过鼠标点击终端来切换需要查看的指标
5 系统负载高了如何排查
- 排查原因
- CPU高?
- uptime 查看负载情况
- top,查看用户/系统CPU高
- IO高?
- top命令的第三行wa表示IO状态
- iotop查看
- 最后结束对应进程
IO命令 | 说明 |
---|---|
-bn | 通top |
-o | 只查看正在读写的进程 |
5.1 vmstat 命令介绍
系统监视工具,查看swap统计信息以及系统的整体状态。vmstat
还可以关于进程、内存、分页、块 I/O、陷阱和 CPU 活动的详细信息
vmstat 5 3 | 显示虚拟内存统计信息,每 5 秒报告一次,共报告 3 次 |
vmstat -d | 查看磁盘信息 |
vmstat -p /dev/sda | 打印sda磁盘信息 |
vmstat -s | 显示各种事件的总计 |
vmstat -t | 在输出中包含时间戳 |
vmstat输出列 | 说明 |
---|---|
r | 运行队列中等待 CPU 的进程数量 |
b | 等待 I/O 的进程数量 |
swpd | 已使用的虚拟内存(swap)的大小,单位是 KB |
free | 空闲内存的大小,单位是 KB |
buff | 用作缓冲区的内存量,单位是 KB |
cache | 用作缓存的内存量,单位是 KB |
si | 从磁盘交换到内存的交换数据量,单位是 KB/s,如果 si 值较高,说明系统可能存在内存压力,频繁进行磁盘交换 |
so | 从内存交换到磁盘的交换数据量,单位是 KB/s,如果 so 值较高,可能表示内存不足 |
bi | 每秒从块设备(磁盘)读取的数据量,单位是 KB/s |
bo | 每秒写入到块设备(磁盘)的数据量,单位是 KB/s |
in | 每秒中断的次数;通常与硬件(如磁盘或网络接口)或其他外部事件有关 |
cs | 每秒上下文切换的次数;如果此值很高,可能表明系统负载较重 |
us | 用户空间(用户进程)占用的 CPU 时间百分比;表示应用程序的计算负载 |
sy | 内核空间(系统进程)占用的 CPU 时间百分比;表示内核或系统进程的负载 |
id | CPU 空闲时间百分比 |
wa | CPU 等待 I/O 完成的时间百分比 |
st | 被虚拟化环境占用的 CPU 时间百分比(如被 hypervisor 占用) |
每2秒刷新一次查看
[root@qwe~]# vmstat 2
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
1 0 0 159096 159024 940948 0 0 4 8 1 1 1 1 99 0 0
0 0 0 160564 159024 940892 0 0 0 0 1051 1633 1 1 99 0 0
0 0 0 156708 159024 941220 0 0 0 0 2927 2673 1 2 97 0 0
tps
(每秒 I/O 操作次数)kB_read/s
(每秒读取的 KB 数)kB_wrtn/s
(每秒写入的 KB 数)kB_read
和kB_wrtn
(总读取和写入的 KB 数)
5.2 iostat命令介绍
[root@qwe~]# iostat
Linux 3.10.0-1160.108.1.el7.x86_64 (qwe) 11/12/2024 _x86_64_ (2 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.59 0.00 0.63 0.04 0.00 98.74
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
vda 2.59 7.54 14.87 120804422 238351765
5.3 情况1:CPU高、Load高
- 通过top命令查找占用CPU最高的进程PID;
- 通过top -Hp PID查找占用CPU最高的线程TID;
- 对于java程序,使用jstack打印线程堆栈信息(可联系业务进行排查定位);
- 通过printf %x tid打印出最消耗CPU线程的十六进制;
- 在堆栈信息中查看该线程的堆栈信息;
5.4 情况2:CPU低、Load高
7.54 14.87 120804422 238351765
## 5.3 情况1:CPU高、Load高
- 通过top命令查找占用CPU最高的进程PID;
- 通过top -Hp PID查找占用CPU最高的线程TID;
- 对于java程序,使用jstack打印线程堆栈信息(可联系业务进行排查定位);
- 通过printf %x tid打印出最消耗CPU线程的十六进制;
- 在堆栈信息中查看该线程的堆栈信息;
## 5.4 情况2:CPU低、Load高
- 通过top命令查看CPU等待IO时间,即%wa