linux 故障定位

news2025/1/11 1:31:59

linux 故障定位

    • 1. cpu
      • 1.1 说明
      • 1.2 分析工具
      • 1.3 使用方式
    • 2. 内存
      • 2.1 说明
      • 2.2 分析工具
      • 2.3 使用方式
    • 3. I/O
      • 3.1 说明
      • 3.2 分析工具
      • 3.3 使用方式
    • 4. 网络
      • 4.1 说明
      • 4.2 分析工具
      • 4.3 使用方式
    • 5. 系统负载
      • 5.1 说明
      • 5.2 分析工具
      • 5.3 使用方式
    • 6. 火焰图
      • 6.1 说明
      • 6.2 安装依赖库
      • 6.3 安装
      • 6.4 CPU级别火焰图
        • 6.4.1 on-CPU
        • 6.4.2 off-CPU
      • 6.5 内存级别火焰图
      • 6.6 性能回退-红蓝差分火焰图
    • 7. 案例分析
      • 7.1 接入层nginx集群异常现象
      • 7.2 分析nginx相关指标
      • 7.3 分析系统cpu情况
      • 7.4 火焰图分析cpu
      • 7.5 案例总结
        • 7.5.1 深入分析
        • 7.5.2 解决方式

有时候会遇到一些疑难杂症,并且监控插件并不能一眼立马发现问题的根源。这时候就需要登录服务器进一步深入分析问题的根源。那么分析问题需要有一定的技术经验积累,并且有些问题涉及到的领域非常广,才能定位到问题。所以,分析问题和踩坑是非常锻炼一个人的成长和提升自我能力。如果我们有一套好的分析工具,那将是事半功倍,能够帮助大家快速定位问题,节省大家很多时间做更深入的事情。

1. cpu

1.1 说明

针对应用程序,我们通常关注的是内核CPU调度器功能和性能。

线程的状态分析主要是分析线程的时间用在什么地方,而线程状态的分类一般分为:

  • a. on-CPU:执行中,执行中的时间通常又分为用户态时间user和系统态时间sys。
  • b. off-CPU:等待下一轮上CPU,或者等待I/O、锁、换页等等,其状态可以细分为可执行、匿名换页、睡眠、锁、空闲等状态。

如果大量时间花在CPU上,对CPU的剖析能够迅速解释原因;如果系统时间大量处于off-cpu状态,定位问题就会费时很多。但是仍然需要清楚一些概念:

  • 处理器
  • 硬件线程
  • CPU内存缓存
  • 时钟频率
  • 每指令周期数CPI和每周期指令数IPC
  • CPU指令
  • 使用率
  • 用户时间/内核时间
  • 调度器
  • 运行队列
  • 抢占
  • 多进程
  • 多线程
  • 字长

1.2 分析工具

工具描述
uptime平均负载
vmstat包括系统范围的cpu平均负载
mpstat查看所有cpu核信息
top监控每个进程cpu用量
sar -u查看cpu信息
pidstat每个进程cpu用量分解
perfcpu剖析和跟踪,性能计数分析

说明:

  • uptime,vmstat,mpstat,top,pidstat只能查询到cpu及负载的的使用情况。
  • perf可以跟着到进程内部具体函数耗时情况,并且可以指定内核函数进行统计,指哪打哪。

1.3 使用方式

查看系统cpu使用情况

top

查看所有cpu核信息,工具在sysstat包中

mpstat -P ALL 1 5	#每隔1秒打印5次所有信息

mpstat [ -P { cpu [,...] | ON | ALL } ] [ interval [ count ] ]
[root@node-135 ~]# mpstat -P ALL 1 5
Linux 3.10.0-1160.92.1.el7.x86_64 (node-135)    07/27/2023      _x86_64_        (2 CPU)

05:10:11 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
05:10:12 PM  all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
05:10:12 PM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
05:10:12 PM    1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

05:10:12 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
05:10:13 PM  all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
05:10:13 PM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
05:10:13 PM    1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
...

查看cpu使用情况以及平均负载

vmstat 1 5	#

vmstat [options] [delay [count]]
[root@node-135 ~]# vmstat 1
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0      0 1328796   2108 378172    0    0   325    48  158  249  1  2 94  3  0
 0  0      0 1328796   2108 378204    0    0     0     0   86  127  0  0 100  0  0
 1  0      0 1328796   2108 378204    0    0     0     0   68  103  0  0 100  0  0

进程cpu的统计信息

pidstat -u 1 -p pid

pidstat  [ -U [ username ] ] [ -u ]  [ -p { pid [,...]| SELF | ALL } ]  [ interval [ count ] ]

[root@node-135 ~]# pidstat -u 1 -p 1
Linux 3.10.0-1160.92.1.el7.x86_64 (node-135)    07/27/2023      _x86_64_        (2 CPU)

05:14:39 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
05:14:40 PM     0         1    0.00    0.00    0.00    0.00     0  systemd
05:14:41 PM     0         1    0.00    0.00    0.00    0.00     0  systemd
05:14:42 PM     0         1    0.00    0.00    0.00    0.00     0  systemd
05:14:43 PM     0         1    0.00    0.00    0.00    0.00     0  systemd

跟踪进程内部函数级cpu使用情况,这个有点厉害了,能跟踪函数

perf top -p pid -e cpu-clock

Samples: 58  of event 'cpu-clock', 4000 Hz, Event count (approx.): 12686807 lost: 0/0 drop: 0/4
Overhead  Shared O  Symbol
  80.55%  [kernel]  [k] mpt_put_msg_frame
   8.57%  [kernel]  [k] _raw_spin_unlock_irqrestore
   2.98%  [kernel]  [k] finish_task_switch
   1.97%  [kernel]  [k] __radix_tree_preload
   1.97%  [kernel]  [k] put_page
   1.97%  [kernel]  [k] vmware_sched_clock
   0.88%  [kernel]  [k] __fget_light
   0.59%  dockerd   [.] sync.(*RWMutex).Lock
   0.52%  [kernel]  [k] futex_wait

2. 内存

2.1 说明

内存是为提高效率而生,实际分析问题的时候,内存出现问题可能不只是影响性能,而是影响服务或者引起其他问题。同样对于内存有些概念需要清楚:

主存
虚拟内存
常驻内存
地址空间
OOM
页缓存
缺页
换页
交换空间
交换
用户分配器libc、glibc、libmalloc和mtmalloc
LINUX内核级SLUB分配器

2.2 分析工具

工具描述
free缓存容量统计信息
vmstat虚拟内存统计信息
top监视每个进程的内存使用情况
pidstat显示活动进程的内存使用统计
pmap查看进程的内存映像信息
sar -r查看内存
dtrace动态跟踪
valgrind分析程序性能及程序中内存泄露错误

2.3 使用方式

查看系统内存使用情况

free -m
[root@node-135 ~]# free -h
              total        used        free      shared  buff/cache   available
Mem:           1.8G        1.6G         90M         12M        137M         80M
Swap:          2.0G        1.0G        996M

虚拟内存统计信息

vmstat 1

查看系统内存情况

top

每隔1秒采集5次,获取内存的统计信息

pidstat  [ -r ]  [ -U [ username ] ]  [ -p { pid [,...]| SELF | ALL } ] [ -T { TASK | CHILD | ALL } ] [ interval [ count ] ]

[root@node-135 ~]# pidstat -p 8593 -r 1 5
Linux 3.10.0-1160.92.1.el7.x86_64 (node-135)    07/27/2023      _x86_64_        (2 CPU)

05:25:55 PM   UID       PID  minflt/s  majflt/s     VSZ    RSS   %MEM  Command
05:25:56 PM     0      8593      0.00      0.00  763936  14124   0.76  dockerd
05:25:57 PM     0      8593      0.00      0.00  763936  14124   0.76  dockerd
05:25:58 PM     0      8593      0.00      0.00  763936  14124   0.76  dockerd
05:25:59 PM     0      8593      0.00      0.00  763936  14124   0.76  dockerd
05:26:00 PM     0      8593      0.00      0.00  763936  14124   0.76  dockerd
Average:        0      8593      0.00      0.00  763936  14124   0.76  dockerd

查看进程的内存映像信息

pmap [options] pid [...]

pmap -d pid
[root@node-135 ~]# pmap -d 8593
8593:   /usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock
Address           Kbytes Mode  Offset           Device    Mapping
000000c000000000   65536 rw--- 0000000000000000 000:00000   [ anon ]
000055e7d7140000   56980 r-x-- 0000000000000000 0fd:00000 dockerd
000055e7daae4000   28588 r---- 00000000037a4000 0fd:00000 dockerd
000055e7dc6cf000     588 rw--- 000000000538f000 0fd:00000 dockerd
000055e7dc762000     192 rw--- 0000000000000000 000:00000   [ anon ]
000055e7de446000     132 rw--- 0000000000000000 000:00000   [ anon ]
00007f7f44000000     132 rw--- 0000000000000000 000:00000   [ anon ]
00007f7f44021000   65404 ----- 0000000000000000 000:00000   [ anon ]
00007f7f4c000000     132 rw--- 0000000000000000 000:00000   [ anon ]
...

检测程序内存问题

valgrind --tool=memcheck --leak-check=full --log-file=./log.txt  ./程序名

valgrind [valgrind-options] [your-program] [your-program-options]

3. I/O

3.1 说明

磁盘通常是计算机最慢的子系统,也是最容易出现性能瓶颈的地方,因为磁盘离 CPU 距离最远而且 CPU 访问磁盘要涉及到机械操作,比如转轴、寻轨等。访问硬盘和访问内存之间的速度差别是以数量级来计算的,就像1天和1分钟的差别一样。要监测 IO 性能,有必要了解一下基本原理和 Linux 是如何处理硬盘和内存之间的 IO 的。

在理解磁盘IO之前,同样我们需要理解一些概念,例如:

文件系统
VFS
文件系统缓存
页缓存page cache
缓冲区高速缓存buffer cache
目录缓存
inode
inode缓存
noop调用策略

3.2 分析工具

工具描述
iostat磁盘详细统计信息
iotop按进程查询磁盘IO的使用情况
pidstat按进程查询磁盘IO的使用情况
perf动态跟踪工具

3.3 使用方式

查看系统io信息

iotop

Total DISK READ :      74.74 K/s | Total DISK WRITE :      26.16 K/s
Actual DISK READ:      74.74 K/s | Actual DISK WRITE:      48.58 K/s
   TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND
  9743 be/4 root        0.00 B/s    0.00 B/s  0.00 %  0.05 % [kworker/1:3]
  9310 be/4 1000        0.00 B/s    3.74 K/s  0.00 %  0.00 % java -jar lib/sonar-application-9.1.0.~/postgres:5432/sonar [VM Periodic Tas]
  9339 be/4 200         0.00 B/s    7.47 K/s  0.00 %  0.00 % java -server -Dinstall4j.jvmDir=/usr/l~exus.karaf.NexusMain [VM Periodic Tas]
  9416 be/4 1000        0.00 B/s    3.74 K/s  0.00 %  0.00 % java -XX:+UseG1GC -Djava.io.tmpdir=/op~tstrap.Elasticsearch ...

统计io详细信息

iostat -d -x -k 1 10

[root@node-135 home]# iostat -d -x -k 1 2
Linux 3.10.0-1160.92.1.el7.x86_64 (node-135)    07/27/2023      _x86_64_        (2 CPU)

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda              22.31   161.26   63.39    5.84  3506.85   871.70   126.49     4.74   68.28   61.82  138.35   3.02  20.91
scd0              0.00     0.00    0.01    0.00     0.44     0.00   114.22     0.00   43.67   43.67    0.00  42.89   0.03
dm-0              0.00     0.00   49.69    5.87  3357.45   220.04   128.78     4.39   78.92   77.62   90.01   3.09  17.15
dm-1              0.00     0.00   35.36  161.25   142.25   644.98     8.01    68.35  347.61   14.80  420.61   0.65  12.80

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda              14.00     0.00    3.00    0.00    72.00     0.00    48.00     0.00    2.33    2.33    0.00   1.33   0.40
scd0              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
dm-0              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
dm-1              0.00     0.00   16.00    0.00    64.00     0.00     8.00     0.02    1.62    1.62    0.00   0.25   0.40

查看进程级io的信息

pidstat -d 1 -p  pid

[root@node-135 home]# pidstat -d 1 -p 8593
Linux 3.10.0-1160.92.1.el7.x86_64 (node-135)    07/27/2023      _x86_64_        (2 CPU)

05:42:32 PM   UID       PID   kB_rd/s   kB_wr/s kB_ccwr/s  Command
05:42:33 PM     0      8593      0.00      0.00      0.00  dockerd
05:42:34 PM     0      8593      0.00      0.00      0.00  dockerd
05:42:35 PM     0      8593      0.00      0.00      0.00  dockerd
05:42:36 PM     0      8593      0.00      0.00      0.00  dockerd
05:42:37 PM     0      8593      0.00      4.00      0.00  dockerd

查看系统IO的请求,比如可以在发现系统IO异常时,可以使用该命令进行调查,就能指定到底是什么原因导致的IO异常

perf record -e block:block_rq_issue -ag

perf report
Samples: 87  of event 'block:block_rq_issue', Event count (approx.): 87
  Children      Self  Trace output
+   10.34%    10.34%  0,0 R 8 (4a 01 00 00 10 00 00 00 08 00) 0 + 0 [kworker/1:3]
+    1.15%     1.15%  8,0 R 0 () 2849088 + 64 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2849440 + 32 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2845376 + 16 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2845400 + 40 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2845440 + 32 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2845472 + 32 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2845504 + 32 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2845536 + 32 [elasticsearch[s]
+    1.15%     1.15%  8,0 R 0 () 2845568 + 64 [elasticsearch[s]

4. 网络

4.1 说明

网络的监测是所有 Linux 子系统里面最复杂的,有太多的因素在里面,比如:延迟、阻塞、冲突、丢包等,更糟的是与 Linux 主机相连的路由器、交换机、无线信号都会影响到整体网络,并且很难判断是因为 Linux 网络子系统的问题还是别的设备的问题,增加了监测和判断的复杂度。现在我们使用的所有网卡都称为自适应网卡,意思是说能根据网络上的不同网络设备导致的不同网络速度和工作模式进行自动调整。

4.2 分析工具

工具描述
ping主要透过ICMP封包来进行整个网络的状况报告
traceroute用来检测发出数据包的主机到目标主机之间所经过的网关数量的工具
netstat用于显示与IP、TCP、UDP和ICMP协议相关的统计数据,一般用于检验本机各端口的网络连接情况
ss可以用来获取socket统计信息,而且比netstat更快速高效
host可以用来查出某个主机名的IP,跟nslookup作用一样
tcpdump是以包为单位进行输出的,阅读起来不是很方便
tcpflow是面向tcp流的,每个tcp传输会保存成一个文件,很方便查看
sar -n DEV网卡流量情况
sar -n SOCK查询网络及tcp、udp状态信息

ICMP(Internet Control Message Protocol)Internet控制报文协议。它是TCP/IP协议簇的一个子协议,用于在IP主机、路由器之间传递控制消息。控制消息是指网络通不通、主机是否可达、路由是否可用等网络本身的消息。这些控制消息虽然并不传输用户数据,但是对于用户数据的传递起着重要的作用。

4.3 使用方式

显示网络统计信息,在net-tools包中,端口统计信息和ss基本一样

[root@node-135 home]# netstat -s
Ip:
    16106 total packets received
    64 forwarded
    0 incoming packets discarded
    16039 incoming packets delivered
    12629 requests sent out
    4 outgoing packets dropped
    16 dropped because of missing route
Icmp:
    12 ICMP messages received
    0 input ICMP message failed.
...
[root@node-135 home]# netstat -nltp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name
tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      993/sshd
tcp        0      0 127.0.0.1:25            0.0.0.0:*               LISTEN      1503/master
tcp        0      0 127.0.0.1:40030         0.0.0.0:*               LISTEN      8581/containerd
tcp6       0      0 :::22                   :::*                    LISTEN      993/sshd
tcp6       0      0 :::5432                 :::*                    LISTEN      8912/docker-proxy
tcp6       0      0 ::1:25                  :::*                    LISTEN      1503/master
tcp6       0      0 :::9090                 :::*                    LISTEN      8900/docker-proxy
tcp6       0      0 :::8081                 :::*                    LISTEN      8886/docker-proxy

显示当前UDP连接状况

netstat -nu

显示UDP端口号的使用情况

netstat -apu

//统计机器中网络连接各个状态个数

netstat -a | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

[root@node-135 home]# netstat -at
Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address           Foreign Address         State
tcp        0      0 0.0.0.0:ssh             0.0.0.0:*               LISTEN
tcp        0      0 localhost:smtp          0.0.0.0:*               LISTEN
tcp        0      0 localhost:40030         0.0.0.0:*               LISTEN
tcp        0     48 node-135:ssh            192.168.17.1:51805      ESTABLISHED
tcp        0      0 node-135:ssh            192.168.17.1:51810      ESTABLISHED
tcp6       0      0 [::]:ssh                [::]:*                  LISTEN
tcp6       0      0 [::]:postgres           [::]:*                  LISTEN
tcp6       0      0 localhost:smtp          [::]:*                  LISTEN
tcp6       0      0 [::]:websm              [::]:*                  LISTEN
tcp6       0      0 [::]:tproxy             [::]:*                  LISTEN
[root@node-135 home]# netstat -a | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
LISTEN 8
ESTABLISHED 2

显示TCP连接

ss -t -a

显示sockets摘要信息

[root@node-135 home]# ss -s
Total: 1834 (kernel 1887)
TCP:   32 (estab 2, closed 22, orphaned 0, synrecv 0, timewait 0/0), ports 0

Transport Total     IP        IPv6
*         1887      -         -
RAW       1         0         1
UDP       3         2         1
TCP       10        5         5
INET      14        7         7
FRAG      0         0         0

显示所有udp sockets

ss -u -a

tcp,etcp状态

[root@node-135 home]# sar -n TCP,ETCP 1
Linux 3.10.0-1160.92.1.el7.x86_64 (node-135)    07/28/2023      _x86_64_        (2 CPU)

09:13:39 AM  active/s passive/s    iseg/s    oseg/s
09:13:40 AM      0.00      0.00      0.00      0.00

09:13:39 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
09:13:40 AM      0.00      0.00      0.00      0.00      0.00

09:13:40 AM  active/s passive/s    iseg/s    oseg/s
09:13:41 AM      0.00      0.00      1.00      1.00

查看网络IO

[root@node-135 home]# sar -n DEV 1 2
Linux 3.10.0-1160.92.1.el7.x86_64 (node-135)    07/28/2023      _x86_64_        (2 CPU)

09:14:54 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
09:14:55 AM vethab7170f     14.00     18.00      1.33      2.01      0.00      0.00      0.00
09:14:55 AM     ens37      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:55 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:55 AM br-9230369a4904      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:55 AM     ens33      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:55 AM veth03e8740     18.00     14.00      2.01      1.33      0.00      0.00      0.00
09:14:55 AM veth6725483      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:55 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

09:14:55 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
09:14:56 AM vethab7170f      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:56 AM     ens37      3.00      2.00      0.26      0.28      0.00      0.00      0.00
09:14:56 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:56 AM br-9230369a4904      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:56 AM     ens33      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:56 AM veth03e8740      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:56 AM veth6725483      0.00      0.00      0.00      0.00      0.00      0.00      0.00
09:14:56 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

抓包以为单位进行输出

tcpdump -i eth1 host 192.168.1.1 and port 80 

[root@node-135 home]# tcpdump -i ens37 host 192.168.17.1 and port 22
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on ens37, link-type EN10MB (Ethernet), capture size 262144 bytes
09:18:00.178935 IP node-135.ssh > 192.168.17.1.51805: Flags [P.], seq 1526219631:1526219679, ack 3271988518, win 1432, length 48
09:18:00.220769 IP 192.168.17.1.51805 > node-135.ssh: Flags [.], ack 48, win 4101, length 0
09:18:00.242269 IP node-135.ssh > 192.168.17.1.51805: Flags [P.], seq 48:240, ack 1, win 1432, length 192
09:18:00.242408 IP node-135.ssh > 192.168.17.1.51805: Flags [P.], seq 240:320, ack 1, win 1432, length 80
09:18:00.242493 IP 192.168.17.1.51805 > node-135.ssh: Flags [.], ack 320, win 4100, length 0
09:18:00.242613 IP node-135.ssh > 192.168.17.1.51805: Flags [P.], seq 320:416, ack 1, win 1432, length 96
09:18:00.242789 IP node-135.ssh > 192.168.17.1.51805: Flags [P.], seq 416:480, ack 1, win 1432, length 64
09:18:00.242872 IP 192.168.17.1.51805 > node-135.ssh: Flags [.], ack 480, win 4106, length 0

抓包以为单位显示数据内容

rpm -ivh https://download-ib01.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm;yum install -y tcpflow;

tcpflow -cp host 192.168.1.1

5. 系统负载

5.1 说明

Load 就是对计算机干活多少的度量(WikiPedia:the system Load is a measure of the amount of work that a compute system is doing)简单的说是进程队列的长度。Load Average 就是一段时间(1分钟、5分钟、15分钟)内平均Load。

5.2 分析工具

工具描述
top查看系统负载情况
uptime查看系统负载情况
strace统计跟踪内核态信息
vmstat查看系统负载情况
dmesg查看内核日志信息

5.3 使用方式

查看负载情况

uptime
top
vmstat
[root@node-135 home]# uptime
 09:38:45 up 16:36,  3 users,  load average: 0.01, 0.07, 0.11
[root@node-135 home]# vmstat
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0 1276160 106256      0 324328    6   17    96    25  167  326  0  0 99  1  0

统计系统调用耗时情况

strace -c -p pid

[root@node-135 home]# strace -c -p  8886
strace: Process 8886 attached
% time     seconds  usecs/call     calls    errors syscall
------ ----------- ----------- --------- --------- ----------------
 92.69    0.000203         101         2         1 futex		#重启服务
  7.31    0.000016          16         1           rt_sigreturn
------ ----------- ----------- --------- --------- ----------------
100.00    0.000219                     3         1 total

跟踪指定的系统操作例如epoll_wait

strace -T -e epoll_wait -p pid

[root@node-135 home]# strace -T -e epoll_wait -p 1
strace: Process 1 attached
epoll_wait(4, 3
[{EPOLLIN, {u32=3241125888, u64=94406622291968}}], 38, -1) = 1 <42.303390>

查看内核日志信息

[root@node-135 home]# dmesg
[    0.000000] Initializing cgroup subsys cpuset
[    0.000000] Initializing cgroup subsys cpu
[    0.000000] Initializing cgroup subsys cpuacct
[    0.000000] Linux version 3.10.0-1160.92.1.el7.x86_64 (mockbuild@kbuilder.bsys.centos.org) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) ) #1 SMP Tue Jun 20 11:48:01 UTC 2023
[    0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.10.0-1160.92.1.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet LANG=en_US.UTF-8
[    0.000000] Disabled fast string operations
[    0.000000] e820: BIOS-provided physical RAM map:
[    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009ebff] usable
[    0.000000] BIOS-e820: [mem 0x000000000009ec00-0x000000000009ffff] reserved
[    0.000000] BIOS-e820: [mem 0x00000000000dc000-0x00000000000fffff] reserved
[    0.000000] BIOS-e820: [mem 0x0000000000100000-0x000000007fedffff] usable
[    0.000000] BIOS-e820: [mem 0x000000007fee0000-0x000000007fefefff] ACPI data
...

6. 火焰图

6.1 说明

火焰图(Flame Graph是 Bredan Gregg 创建的一种性能分析图表,因为它的样子近似火焰而得名。

火焰图主要是用来展示 CPU的调用栈。

y 轴表示调用栈,每一层都是一个函数。调用栈越深,火焰就越高,顶部就是正在执行的函数,下方都是它的父函数。
x 轴表示抽样数,如果一个函数在 x 轴占据的宽度越宽,就表示它被抽到的次数多,即执行的时间长。
注意,x 轴不代表时间,而是所有的调用栈合并后,按字母顺序排列的。

火焰图就是看顶层的哪个函数占据的宽度最大。只要有”平顶”(plateaus),就表示该函数可能存在性能问题。颜色没有特殊含义,因为火焰图表示的是 CPU 的繁忙程度,所以一般选择暖色调。

常见的火焰图类型有On-CPU、Off-CPU、Memory、Hot/Cold、Differential等等。

6.2 安装依赖库

安装systemtap,默认系统已安装

yum install systemtap systemtap-runtime

内核调试库必须跟内核版本对应,例如:

[root@node-135 kernel]# uname -r
3.10.0-1160.92.1.el7.x86_64
#需要安装如下
kernel-debuginfo-common
kernel-debuginfo				
kernel-devel					#yum可直接安装
#去对应的网站下载即可(下面的几个应该都可以下载):
http://mirror.facebook.net/centos-debuginfo/
http://linuxsoft.cern.ch/centos-debuginfo/
https://ftp.sjtu.edu.cn/scientific/7/archive/debuginfo/
ftp://mirror.switch.ch/pool/4/mirror/scientificlinux/7.0/

安装内核调试库

debuginfo-install  search kernel
debuginfo-install  search glibc

6.3 安装

git clone https://github.com/lidaohang/quick_location.git			#科学上网
cd quick_location

6.4 CPU级别火焰图

cpu占用过高,或者使用率提不上来,你能快速定位到代码的哪块有问题吗?
一般的做法可能就是通过日志等方式去确定问题。现在我们有了火焰图,能够非常清晰的发现哪个函数占用cpu过高,或者过低导致的问题。

6.4.1 on-CPU

cpu占用过高,执行中的时间通常又分为用户态时间user和系统态时间sys。
使用方式:

cd demo
gcc test.c -g -o test
./test

ps -ef|grep test
45721

//on-CPU user
sh ngx_on_cpu_u.sh 45721

//进入结果目录
cd ngx_on_cpu_u

//on-CPU kernel
sh ngx_on_cpu_k.sh 45721

//进入结果目录
cd ngx_on_cpu_k

//开一个临时端口8088
python -m SimpleHTTPServer 8088

//打开浏览器输入地址
127.0.0.1:8088/pid.svg

DEMO:

#include <stdio.h>
#include <stdlib.h>

void foo3()
{
}

void foo2()
{
  int i;
  for(i=0 ; i < 10; i++)
       foo3();
}

void foo1()
{
  int i;
  for(i = 0; i< 1000; i++)
     foo3();
}

int main(void)
{
  int i;
  for( i =0; i< 1000000000; i++) {
      foo1();
      foo2();
  }
}

DEMO火焰图:
在这里插入图片描述

6.4.2 off-CPU

cpu过低,利用率不高。等待下一轮CPU,或者等待I/O、锁、换页等等,其状态可以细分为可执行、匿名换页、睡眠、锁、空闲等状态。

使用方式:

// off-CPU user
sh ngx_off_cpu_u.sh pid

//进入结果目录
cd ngx_off_cpu_u

//off-CPU kernel
sh ngx_off_cpu_k.sh pid

//进入结果目录
cd ngx_off_cpu_k

//开一个临时端口8088
python -m SimpleHTTPServer 8088

//打开浏览器输入地址
127.0.0.1:8088/pid.svg

官网DEMO:
在这里插入图片描述

6.5 内存级别火焰图

如果线上程序出现了内存泄漏,并且只在特定的场景才会出现。这个时候我们怎么办呢?有什么好的方式和工具能快速的发现代码的问题呢?同样内存级别火焰图帮你快速分析问题的根源。

使用方式:

sh ngx_on_memory.sh pid

//进入结果目录
cd ngx_on_memory

//开一个临时端口8088
python -m SimpleHTTPServer 8088

//打开浏览器输入地址
127.0.0.1:8088/pid.svg

官网DEMO:
在这里插入图片描述

6.6 性能回退-红蓝差分火焰图

你能快速定位CPU性能回退的问题么?如果你的工作环境非常复杂且变化快速,那么使用现有的工具是来定位这类问题是很具有挑战性的。当你花掉数周时间把根因找到时,代码已经又变更了好几轮,新的性能问题又冒了出来。主要可以用到每次构建中,每次上线做对比看,如果损失严重可以立马解决修复。

通过抓取了两张普通的火焰图,然后进行对比,并对差异部分进行标色:红色表示上升,蓝色表示下降。差分火焰图是以当前(“修改后”)的profile文件作为基准,形状和大小都保持不变。因此你通过色彩的差异就能够很直观的找到差异部分,且可以看出为什么会有这样的差异。

cd quick_location

//抓取代码修改前的profile 1文件
perf record -F 99 -p pid -g -- sleep 30
perf script > out.stacks1

//抓取代码修改后的profile 2文件
perf record -F 99 -p pid -g -- sleep 30
perf script > out.stacks2

//生成差分火焰图:
./FlameGraph/stackcollapse-perf.pl ../out.stacks1 > out.folded1
./FlameGraph/stackcollapse-perf.pl ../out.stacks2 > out.folded2
./FlameGraph/difffolded.pl out.folded1 out.folded2 | ./FlameGraph/flamegraph.pl > diff2.svg

DEMO:

//test.c
#include <stdio.h>
#include <stdlib.h>

void foo3()
{
}

void foo2()
{
  int i;
  for(i=0 ; i < 10; i++)
       foo3();
}

void foo1()
{
  int i;
  for(i = 0; i< 1000; i++)
     foo3();
}

int main(void)
{
  int i;
  for( i =0; i< 1000000000; i++) {
      foo1();
      foo2();
  }
}

//test1.c
#include <stdio.h>
#include <stdlib.h>

void foo3()
{
}

void foo2()
{
  int i;
  for(i=0 ; i < 10; i++)
       foo3();
}

void foo1()
{
  int i;
  for(i = 0; i< 1000; i++)
     foo3();
}

void add()
{
  int i;
  for(i = 0; i< 10000; i++)
     foo3();
}

int main(void)
{
  int i;
  for( i =0; i< 1000000000; i++) {
      foo1();
      foo2();
      add();
  }
}

DEMO红蓝差分火焰图:
在这里插入图片描述

7. 案例分析

7.1 接入层nginx集群异常现象

通过监控插件发现在2017.09.25 19点nginx集群请求流量出现大量的499,5xx状态码。并且发现机器cpu使用率升高,目前一直持续中。

7.2 分析nginx相关指标

a) 分析nginx请求流量
在这里插入图片描述
结论:
通过上图发现流量并没有突增,反而下降了,跟请求流量突增没关系。
b) 分析nginx响应时间
在这里插入图片描述
结论:
通过上图发现nginx的响应时间有增加可能跟nginx自身有关系或者跟后端upstream响应时间有关系。
c) 分析nginx upstream响应时间
在这里插入图片描述
结论:

通过上图发现nginx upstream 响应时间有增加,目前猜测可能后端upstream响应时间拖住nginx,导致nginx出现请求流量异常。

7.3 分析系统cpu情况

a) 通过top观察系统指标
在这里插入图片描述
结论:

发现nginx worker cpu比较高
b) 分析nginx进程内部cpu情况

perf top -p pid

结论:

发现主要开销在free,malloc,json解析上面

7.4 火焰图分析cpu

a) 生成用户态cpu火焰图

//test.c
#include <stdio.h>
#include <stdlib.h>
//on-CPU user
sh ngx_on_cpu_u.sh pid

//进入结果目录
cd ngx_on_cpu_u

//开一个临时端口8088
python -m SimpleHTTPServer 8088

//打开浏览器输入地址
127.0.0.1:8088/pid.svg

在这里插入图片描述
结论:

发现代码里面有频繁的解析json操作,并且发现这个json库性能不高,占用cpu挺高。

7.5 案例总结

a) 分析请求流量异常,得出nginx upstream后端机器响应时间拉长

b) 分析nginx进程cpu高,得出nginx内部模块代码有耗时的json解析以及内存分配回收操作

7.5.1 深入分析

根据以上两点问题分析的结论,我们进一步深入分析。

后端upstream响应拉长,最多可能影响nginx的处理能力。但是不可能会影响nginx内部模块占用过多的cpu操作。并且当时占用cpu高的模块,是在请求的时候才会走的逻辑。不太可能是upstram后端拖住nginx,从而触发这个cpu的耗时操作。

7.5.2 解决方式

遇到这种问题,我们优先解决已知的,并且非常明确的问题。那就是cpu高的问题。解决方式先降级关闭占用cpu过高的模块,然后进行观察。经过降级关闭该模块cpu降下来了,并且nginx请求流量也正常了。之所以会影响upstream时间拉长,因为upstream后端的服务调用的接口可能是个环路再次走回到nginx。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/801700.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

应用程序流量警报软件

为了避免因使用资源密集型应用程序&#xff08;如基于云的应用程序&#xff09;而出现的潜在中断和延迟问题&#xff0c;企业需要监控应用程序流量并尽快找到网络事件的根本原因。业务的应用程序流量监视是了解业务关键型应用程序何时具有高时间可用性以及何时存在利用率超过基…

网上订货系统源码 购买后交付一些什么内容

随着电子商务的快速发展&#xff0c;越来越多的企业开始意识到建立一个高效的网上订货系统的重要性。网上订货系统不仅可以提高企业的销售效率&#xff0c;还可以降低成本&#xff0c;提升客户满意度。然而&#xff0c;要建立一个完善的网上订货系统并不容易&#xff0c;需要考…

SpringMVC 拦截器详解

目录 一、介绍 二、过滤器与拦截器的简单对比 三、自定义拦截器 四、注册拦截器 五、案例演示-登录拦截器 5.1 自定义拦截器 5.2 注册拦截器 编写的初衷是为了自己巩固复习&#xff0c;如果能帮到你将是我的荣幸❣️ 一、介绍 SpringMVC提供的拦截器类似于JavaWeb中的过…

火山引擎VeDI最新分享:消费行业的数据飞轮从“四更”开始

更多技术交流、求职机会&#xff0c;欢迎关注字节跳动数据平台微信公众号&#xff0c;回复【1】进入官方交流群 数据飞轮&#xff0c;正在为消费行业的数字化升级提供一套全新模式。 在刚刚结束的《全链路增长&#xff1a;数据飞轮转动消费新生力》专场活动上&#xff0c;火山引…

事务隔离:为什么你改了我还看不见

前提概要 你肯定不陌生&#xff0c;和数据库打交道的时候&#xff0c;我们总是会用到事务。最经典的例子就 是转账&#xff0c;你要给朋友小王转 100 块钱&#xff0c;而此时你的银行卡只有 100 块钱。 转账过程具体到程序里会有一系列的操作&#xff0c;比如查询余额、做加减法…

第五章 Scala 变量与运算符

1 变量 变量是一种使用方便的占位符&#xff0c;用于引用计算机内存地址&#xff0c;变量创建后会占用一定的内存空间。基于变量的数据类型&#xff0c;操作系统会进行内存分配并且决定什么将被储存在保留内存中。因此&#xff0c;通过给变量分配不同的数据类型&#xff0c;你…

MyBatis查询数据库入门学习<一>

目录 1.MyBatis 是什么&#xff1f; MyBatis官网&#xff1a;mybatis – MyBatis 3 | 简介 2.为什么要学习 MyBatis&#xff1f; 3.怎么学MyBatis&#xff1f; 4.第⼀个MyBatis查询 4.1 创建数据库和表 4.2 添加MyBatis框架⽀持 4.2.1 ⽼项⽬添加MyBatis 4.2.2 新项⽬添…

Git时间:版本控制工具进阶

Git时间&#xff1a;版本控制工具进阶 忽略文件 Git允许用户将指定的文件或目录排除在版本控制之外&#xff0c;它会检查代码仓库的目录下是否存在一个名为.gitignore的文件&#xff0c;如果存在&#xff0c;就去一行行读取这个文件中的内容&#xff0c;并把每一行指定的文件…

Matlab的SimuLink对FS32K144编程--SPI通讯控制12bitDAC输出

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ 1、硬件介绍&#xff0c;DAC芯片&#xff1a;AD5328BRUZ DAC_SPI_SCK----PTD0(SPI1) DAC_SPI_DIN----PTE0(SPI1)单片…

Android 之 使用 SoundPool 播放音效

本节引言&#xff1a; 第九章给大家带来的是Android中的多媒体开发&#xff0c;与其说是多媒体开发还不如是多媒体相关API的 的使用&#xff0c;说下实际开发中我们做了一些和多媒体搭边的东西&#xff1a;拍照&#xff0c;录音&#xff0c;播放音乐&#xff0c;播放视频... 嗯…

stable-diffusion-webui汉化教程

第一种方法 1.打开stable diffusion webui&#xff0c;进入"Extensions"选项卡 2.点击"Install from URL" 3、注意"URL for extension’s git repository"下方的输入框 4、填入地址&#xff1a;https://github.com/VinsonLaro/stable-diffus…

让企业出海支付流程更加安全,亚马逊云科技推出支付加密服务

在咖啡店买一杯咖啡&#xff0c;在电商平台下单一件商品&#xff0c;其消费流程背后&#xff0c;都要涉及到金融支付的多个环节&#xff0c;而其中对金融数据存储和流通的加密则是保障金融安全的重要环节。 加密是保障消费者支付流程安全的最大挑战。亚马逊云科技首席安全布道…

医学案例|ROC曲线

一、案例介绍 研究者想要进行“糖化血蛋白”的研究&#xff0c;对糖尿病患者和非糖尿病患者各100名检测糖化血红蛋白&#xff08;HbAlc&#xff09;含量&#xff0c;希望可以研究糖化血蛋白对患有糖尿病的情况是否有诊断价值&#xff0c;如果有最佳的诊断界值是多少。 二、问…

MQ, RocketMQ, 安装

文章说明 本文主要说明RocketMQ的几种常见的安装方式。之前在工作中也用过RocketMQ&#xff0c;但是一直用的是测试环境上的&#xff0c;也没有自己动手安装过。这次专门抽了时间学习了一下。 文章目录 文章说明参考文献安装windows安装环境要求下载配置环境变量启动注意事项 …

OJ练习第146题——杨辉三角 II

力扣链接&#xff1a;119. 杨辉三角 II 题目描述 给定一个非负索引 rowIndex&#xff0c;返回「杨辉三角」的第 rowIndex 行。 在「杨辉三角」中&#xff0c;每个数是它左上方和右上方的数的和。 示例 Java代码&#xff08;直接法&#xff09; class Solution {/*** 获取…

程序员自由创业周记#4:从一笔30美元的收入谈起

程序员自由创业周记#4&#xff1a;从一笔30美元的收入谈起 pexels-freestocksorg-127713 本文是一位程序员进行独立开发创业的记录&#xff0c;将分享创业过程中的所思所想以及收支明细。在文末&#xff0c;您还可以找到之前的历史文章。 惊喜之旅 这次的惊喜源于 学伟扫描Pro …

初探webAssembly | 京东物流技术团队

1 WebAssembly是什么&#xff1f; 一种运行在现代网络浏览器中的新型代码&#xff0c;并且提供新的性能特性和效果 W3C WebAssembly Community Group开发的一项网络标准&#xff0c;对于浏览器而言&#xff0c;WebAssembly 提供了一条途径&#xff0c;让各种语言编写的代码以接…

AXI协议之AXILite开发设计(三)

微信公众号上线&#xff0c;搜索公众号小灰灰的FPGA,关注可获取相关源码&#xff0c;定期更新有关FPGA的项目以及开源项目源码&#xff0c;包括但不限于各类检测芯片驱动、低速接口驱动、高速接口驱动、数据信号处理、图像处理以及AXI总线等 三、xilinx的AXILite的ip组件生成及…

智能RFID追溯系统优化空调装配效能

智能RFID追溯系统优化空调装配效能 空调作为现代家庭和工业建筑中必备的设备&#xff0c;其装配过程对生产效率和质量至关重要。传统的装配方式往往依赖于人工操作&#xff0c;存在一定的人为失误和效率低下的问题。而RFID技术的应用能够为空调装配带来一系列的优势。 RFID技…

景区如何对旅行社进行分销管理?

旅行社的买票能力强&#xff0c;一般景区会跟多家旅行社合作门票分销。其中卖票下单、价格设定、财务对账结算都出现了很多问题&#xff0c;导致对账困难&#xff0c;查询困难&#xff0c;甚至可能有偷票漏票的情况出现&#xff0c;给景区收入造成损失。那要怎么处理呢&#xf…