linux下性能分析工具Perf安装与用法

news2025/1/19 23:27:54

目录

1、Perf介绍

2、火焰图分类

 (1)CPU

 (2)Memory Flame Graphs

 (3)Off-CPU Flame Graphs

 (4)Hot/Cold Flame Graphs

 (5)Differential

 3、火焰图安装命令

(1)安装Perf工具

(2)下载可视化工具FlameGraph

 4、火焰图demo测试

(1)生成CPU火焰图1

(2)火焰图表解析

(3)当前程序图标分析

a> 入口函数地址确定

b> 获取对应地址入口函数

 (4)生成火焰图2

 (5)生成差分火焰图


1、Perf介绍

perf是Linux下的一款性能分析工具,能够进行函数级与指令级的热点查找。它由一个叫“Performance counters“的内核子系统实现,基于事件采样原理,以性能事件为基础,支持针对处理器相关性能指标与操作系统相关性能指标的性能剖析,可用于性能瓶颈的查找与热点代码的定位。

Perf的主要功能和用途如下:

  1. 事件采样:Perf使用硬件性能计数器来采样事件,如CPU指令、缓存命中、缓存失效等,从而获取系统在运行时的性能数据。

  2. 调用图:Perf可以生成函数调用图,显示函数之间的调用关系和耗时,帮助识别程序的热点和性能瓶颈。

  3. 火焰图:火焰图是Perf输出的一种可视化图表,它可以直观地展示函数调用的耗时情况和函数的调用关系,以便快速准确地识别最频繁的代码路径,帮助快速定位性能瓶颈。

  4. 内存分析:Perf可以收集内存事件,如内存访问、缺页异常等,帮助识别内存性能问题。

  5. 锁分析:Perf可以监测锁的使用情况,帮助发现多线程程序中的竞争问题。

  6. Tracing支持:Perf支持Linux Trace Toolkit Next Generation (LTTng)和eBPF等跟踪工具,用于深入分析系统的行为。

  7. 报告生成:Perf能够生成详细的报告和统计信息,方便用户理解和分析性能数据。

2、火焰图分类

(1)CPU

用途:检测导致CPU运行繁忙的原因。

(2)Memory Flame Graphs

用途:检测应用程序内存使用量增加的原因。

 (3)Off-CPU Flame Graphs

用途:有些性能问题不是CPU的性能问题,即进程和线程不在CPU上运行时花费角度的时间,而是在程序请求期间花费了不少时间,这种情况也会成比例的影响性能。

 (4)Hot/Cold Flame Graphs

用途:将CPU和非CPU火焰图结合在一起。它在一个图表中显示了所有线程的运行时间,并允许直接比较在CPU和非CPU上的代码路径持续时间。

 (5)Differential

       用途:红蓝差异火焰图,分析不同时刻CPU性能变化的原因。

 3、火焰图安装命令

(1)安装Perf工具

$ sudo apt-get install linux-tools-$(uname -r) linux-tools-generic -y    //下载Perf
$ perf -v    //查看安装Perf的版本

(2)下载可视化工具FlameGraph

下载地址:GitHub - brendangregg/FlameGraph: Stack trace visualizer

 4、火焰图demo测试

测试程序如下:

#include <stdio.h>
#define DEF_PRINT    


void funcA()
{
    for(int i=0; i < 10*10000;i++)
    {
#ifdef DEF_PRINT
       printf("funcA\n");
#endif
    }
}

void funcB()
{
    for(int i=0; i < 20*10000;i++)
    {
#ifdef DEF_PRINT
         printf("funcB\n");
#endif
    }
}

void funcC()
{
    for(int i=0; i < 30*10000;i++)
    {
#ifdef DEF_PRINT
         printf("funcC\n");
#endif
    }
}

void printf1();
void printf2();
void funcD()
{
    for(int i=0; i < 20*10000;i++)
    {
#ifdef DEF_PRINT
         printf("funcD\n");
#endif
    }
    printf1();
}

void printf1()
{
    for(int i=0; i < 10*10000;i++)
    {
#ifdef DEF_PRINT
         printf("printf1\n");
#endif
    }
    printf2();
}

void printf2()
{
    for(int i=0; i < 10*10000;i++)
    {
#ifdef DEF_PRINT
        printf("printf2\n");
#endif
    }
}

int main()
{
    while (true) {
        funcA();
        funcB();
        funcC();
        funcD();
    }
    return 0;
}

 程序编译命令:

g++ -g -O0 main.cpp -o main

(1)生成CPU火焰图1

生成火焰图步骤如下:

程序运行结果如下:

//上面main程序运行时,使用top查看,进程PID为5606,CPU为86.3%左右。

$ sudo perf record -F 99 -p 5606 -g -- sleep 30
//-F 99 表示每秒99次采样, -p 5606 是进程号, 即对哪个进程进行分析, -g 表示记录调用栈, sleep 30 则是持续30秒。

$ sudo perf script -i perf.data &>perf.unfold
//perf script 工具对 perf.data 进行解析,生成折叠后的调用栈。

$ ../FlameGraph/stackcollapse-perf.pl perf.unfold &>perf.folded
//下载的可视化工具FlameGraph在当前文件上一层,用 stackcollapse-perf.pl 将 perf 解析出的内容 perf.unfold 中的符号进行折叠。

$ ../FlameGraph/flamegraph.pl perf.folded >perf1.svg
//生成svg图

使用浏览器打开perf.svg图,效果如下:

(2)火焰图表解析

 上图中每个方块代表堆栈中的一个函数,也叫堆栈帧。

y轴:表示堆栈深度,火焰越高,表示函数调用层级越深,最顶部的方块表示当前CPU上运行的函数,每一块的函数下方都是当前函数的调用方。

x轴:表示当前函数的采样数,与大多数图表不同,它不显示从左到右的时间流逝。左到右的排序没有意义(它按字母顺序排序以最大程度地合并帧),方框的宽度显示了它在CPU上运行的总时间(基于采样计数)。哪个方块的宽度比较大,就表示该函数可能存在性能问题。

注意:图标中颜色不具有显著意义,通常是随机选择的暖色调。这种可视化称为"火焰图",因为它最初用于显示CPU上的热点,而且看起来像火焰。

它也是交互式的:将鼠标悬停在SVG上以显示详细信息,并单击进行缩放。

(3)当前程序图标分析

从(1)中火焰图中看出,没有demo中定义的函数,这是因为printf函数占用改进程的CPU性能较高,而for循环逻辑占用性能较低,可以点击火焰图上的搜索按键Search进行搜索,本文搜索程序入口函数。

确定入口函数的步骤如下:

a> 入口函数地址确定

输入下面命令

$ readelf -h main

可执行文件信息如下: 

b> 获取对应地址入口函数

输入下面命令:

$ readelf -s main

 由上图可知入口函数为_start,所以搜索_start函数。

_start搜索结果如下:

点击__libc_start_main函数,进入对于函数调用过程,如下:

上面火焰图中printf函数占用该进程CPU性能较高,printf的函数输出内容到显示的过程可参考下面链接:

printf函数打印(一)—— 过程解析篇_printf调用过程_仲夏夜之梦~的博客-CSDN博客

printf函数打印(二)—— 缓冲区篇(文件读写再探究)_printf flush_仲夏夜之梦~的博客-CSDN博客

 (4)生成火焰图2

将上面的代码中的#define DEF_PRINT  行进行屏蔽,这样函数就不会打印输出到屏幕上。重新编译代码,运行。

 生成火焰图步骤跟上面(1)中一样,只是-p参数的进程ID号不同,生成的svg图片如下:

由svg图表可知,funcA在mainNoPrint进程中,占用该进程CPU 10%,funcB占用该进程CPU 20%,funcC占用该进程CPU 30%,funcD占用该进程CPU 40%。 

 (5)生成差分火焰图

运行mainNoPrint函数,抓取系统所有进程的CPU,命令如下:

$ sudo perf record -F 99 -a -g -- sleep 30     //a表示对所有进程堆栈数据进行抓取
$ sudo perf script -i perf.data &>perf.unfold
$ ../FlameGraph/stackcollapse-perf.pl perf.unfold &>perf.folded1
$ ../FlameGraph/flamegraph.pl perf.folded1 >perf1.svg

 生成的火焰图如下:

 停止mainNoPrint程序,抓取系统所有进程的CPU,命令如下:

$ sudo perf record -F 99 -a -g -- sleep 30
$ sudo perf script -i perf.data &>perf.unfold
$ ../FlameGraph/stackcollapse-perf.pl perf.unfold &>perf.folded2
$ ../FlameGraph/flamegraph.pl perf.folded2 >perf2.svg

生成的火焰图如下:

以perf.folded2的为基准,生成差分火焰图,命令如下:

$./FlameGraph/difffolded.pl perf.folded2 perf.folded1|../FlameGraph/flamegraph.pl >diff1.svg

 生成的差分火焰图如下:

 由红色部分图可知,CPU中funcD等函数占用的CPU增加了,蓝色部分相对于上次CPU减少了。

附加:

1、火焰图的介绍也可参考:

 Linux下用火焰图进行性能分析_perf火焰图分析_CHENG Jian的博客-CSDN博客

 2、可视化工具官方可参考:Flame Graphs (brendangregg.com)

 3、其他性能分析工具可参考:C++ performance 性能分析工具(sanitizers valgrind gprof gperftools perf)的使用_performance测试工具_超级大洋葱806的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/837407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【项目 线程 1】 3.1线程概述 3.2创建线程 3.3终止线程 3.4连接已终止的线程

文章目录 3.1线程概述线程概述线程和进程区别线程和进程虚拟地址空间线程之间共享和非共享资源NPTL 3.2 创建线程线程操作创建线程出现报错及原因 3.3终止线程3.4连接已终止的线程 3.1线程概述 线程概述 并发&#xff1a;两队人用同一个咖啡机&#xff08;本质上同一时刻只有…

算法竞赛入门【码蹄集新手村600题】(MT1100-1120)C语言

算法竞赛入门【码蹄集新手村600题】(MT1100-1120&#xff09;C语言 目录MT1101 带参数的宏IIMT1102 长方体MT1103 球体积MT1104 三角形MT1105 英寸英尺英里MT1106 盎司磅MT1107 加仑/升MT1108 保留小数MT1109 和10相比MT1110 最小值MT1111 最大值MT1112 中庸之道MT1113 三人同行…

这可是全网最全的网络工程师零基础实战视频整理,最新版分享

互联网中每一项傍身的技能都是需要从如何入门开始的&#xff0c;网络技术也是如此&#xff01; 网络技术区别其他互联网技能的一点是学习需要从设备开始&#xff0c;只有认识了解了路由器、交换机、防火墙这些网络设备&#xff0c;才开始从网络通信原理开始&#xff0c;这使得网…

数据安全与可追溯:PDM系统的信息保护锦囊

在当今数字化时代&#xff0c;数据安全与可追溯是企业管理中至关重要的环节。PDM系统&#xff08;Product Data Management&#xff0c;产品数据管理&#xff09;作为一款强大的数字化工具&#xff0c;为企业提供了全方位的信息保护锦囊。让我们一同深入探讨&#xff0c;看看PD…

k8s手动发布镜像的方法

kubectl edit deploy编辑对应的文件&#xff0c;并:wq!保存即可

STL C++学习背景

STL C学习背景 背景知识 背景知识 STL前置知识 STL&#xff0c;英文全称 standard template library&#xff0c;中文可译为标准模板库或者泛型库&#xff0c;其包含有大量的模板类和模板函数&#xff0c;是 C 提供的一个基础模板的集合&#xff0c;用于完成诸如输入/输出、数…

2023新款MacBook Pro 14效果如何

新款MacBook Pro 14 显示屏背面依然保持着苹果LOGO&#xff0c;而且比Air大一圈&#xff0c;看来贵是有道理的&#xff0c;LOGO都变大了&#xff01;该机配件是一个67W的充电头&#xff0c;以及MagSafe 3的充电线。而机身金属感十足&#xff0c;上手体验&#xff0c;确实有万元…

Java阶段五Day21

Java阶段五Day21 文章目录 Java阶段五Day21问题解析rocketmq清空数据 linux学习背景什么是linux系统虚拟机介绍启动 虚拟机linux虚拟机网络的问题 linux系统的基础命令命令提示符命令格式pwd指令ls指令cd指令mkdirtouch指令cp指令rm指令mv指令cat指令tail指令 文本编辑器vim操作…

代码随想录算法训练营第八天| 28.找到字符串中第一个匹配项的下标,459.重复的子字符串(二刷三刷)

28. 找出字符串中第一个匹配项的下标 28.找到字符串中第一个匹配项的下标 KMP算法 原串&#xff1a;sadbutsad 匹配串&#xff1a;sad 构造next数组其实就是计算模式串s的前缀表的过程。与原串是无关的 关于最长公共前缀和最长公共后缀&#xff1a; 前缀是指不包含最后一…

cmake配置Qt工程

cmake 工程配置 # 指定版本和项目 cmake_minimum_required(VERSION 3.10) set(TARGET_NAME labelDeviceView) project(${TARGET_NAME} ) include(${CMAKE_CURRENT_LIST_DIR}/../../../../../../ossLib/ossLib/env.cmake) set(CMAKE_PREFIX_PATH "D:/Qt6/6.5.2/msvc2019…

进程复制fork详解 僵尸进程 孤儿进程 写时拷贝技术 缓冲区

fork函数讲解 进程复制fork基本使用简单分页 逻辑页 物理页 页表fork的三个面试练习题缓冲区僵死进程孤儿进程写时拷贝 进程替换exexc 介绍简易命令解释器strtok()函数讲解 进程复制 fork基本使用 父进程fork后&#xff0c;新的进程产生&#xff0c;新的进程就继续从fork往后的…

Spring集成Web

目录 1、简介 2、监听器 3、Spring提供的listener 3.1、xml 3.2、配置类 3.3、WebApplicationContextUtils 3.4、说明 4、自己复现的listener 4.1、ContextLoaderListener 4.2、WebApplicationContextUtils 4.3、Web调用 ⭐作者介绍&#xff1a;大二本科网络工程专业…

Less is More: Focus Attention for Efficient DETR

摘要 类似detr的模型显著提高了探测器的性能&#xff0c;甚至优于经典的卷积模型。然而&#xff0c;在传统的编码器结构中&#xff0c;所有的标记都带来了冗余的计算负担。最近的稀疏化策略利用了信息标记的一个子集&#xff0c;通过稀疏编码器来降低注意力的复杂性&#xff0…

观测,让运维更简单!龙蜥社区系统运维 MeetUp 等你报名

为了让广大社区用户和开发者近距离感受 Linux 和 eBPF 技术的魅力&#xff0c;龙蜥社区系统运维于 08 月 12 日在杭州举行 MeetUp 。过去&#xff0c;系统运维 SIG 和大家一起交流了 eBPF 在安全和网络的最佳应用和实践&#xff0c;以及 Linux 在手机和服务器上的运维经验等技术…

深度学习训练营之CGAN生成手势图像

深度学习训练营之CGAN生成手势 原文链接CGAN简单介绍环境介绍前置工作数据导入所需的包加载数据创建数据集查看数据集 模型设置初始化模型的权重定义生成器构造判别器 模型训练定义损失函数设置超参数正式开始训练 结果可视化 原文链接 &#x1f368; 本文为&#x1f517;365天…

leetcode 763. 划分字母区间

2023.8.3 本题的关键是要确保同一字母需要在同一片段中&#xff0c;而这就需要关注到每个字母最后一次出现的位置。 思路&#xff1a;用一个哈希表保存每个字母&#xff08;26个&#xff09;最后一次出现的位置。然后从头遍历&#xff0c;不断更新最右边界&#xff0c;直到当前…

LLVM笔记1

参考&#xff1a;https://www.bilibili.com/video/BV1D84y1y73v/?share_sourcecopy_web&vd_sourcefc187607fc6ec6bbd2c74a3d0d7484cf 文章目录 零、入门名词解释1. Compiler & Interpreter2. AOT静态编译和JIT动态解释的编译方式3. Pass4. Intermediate Representatio…

Eureka增加账号密码认证登录

一、业务背景 注册中心Eureka在微服务开发中经常使用到&#xff0c;用来管理发布的微服务&#xff0c;供前端或者外部调用。但是如果放到生产环境&#xff0c;我们直接通过URL访问的话&#xff0c;这显然是不安全的。 所以需要给注册中心加上登录认证。 通过账号和密码认证进行…

openGauss学习笔记-30 openGauss 高级数据管理-别名

文章目录 openGauss学习笔记-30 openGauss 高级数据管理-别名30.1 语法格式30.1.1 列别名语法30.1.2 表别名语法 30.2 参数说明30.3 示例 openGauss学习笔记-30 openGauss 高级数据管理-别名 SQL可以重命名一张表或者一个字段的名称&#xff0c;这个名称为该表或该字段的别名。…

Spring:JDBCTemplate

JDBCTemplate 概述 概述 JDBC&#xff08;Java DataBase Connectivity&#xff0c;Java 数据库连接&#xff09;&#xff0c; 一 种用于执行 SQL 语句的 Java API&#xff08;Application Programming Interface &#xff0c; 应用程序设计接口 &#xff09;&#xff0c;可以为…