记一次perf实验,检验CPU的分支预测功能

news2025/1/22 12:05:09

实验介绍

在上一篇文章中,作者通过给Alder Lake(12th gen i5 1240p)安装Ubuntu22.04,终于把PMU用起来了

$ dmesg | grep PMU
[    0.127326] Performance Events: XSAVE Architectural LBR, PEBS fmt4+-baseline,  AnyThread deprecated, Alderlake Hybrid events, 32-deep LBR, full-width counters, Intel PMU driver.
[    0.127326] core: cpu_core PMU driver: 
[    0.127326] NMI watchdog: Enabled. Permanently consumes one hw-PMU counter.
[    0.019855] core: cpu_atom PMU driver: PEBS-via-PT 
[    4.096409] RAPL PMU: API unit is 2^-32 Joules, 4 fixed counters, 655360 ms ovfl timer
[    4.096413] RAPL PMU: hw unit of domain pp0-core 2^-14 Joules
[    4.096414] RAPL PMU: hw unit of domain package 2^-14 Joules
[    4.096415] RAPL PMU: hw unit of domain pp1-gpu 2^-14 Joules
[    4.096416] RAPL PMU: hw unit of domain psys 2^-14 Joules

先来简单实验一下,检验一下CPU的分支预测功能。

在实验前,先要有一个给定预期的程序,于是,我就写了一个死循环,如下所示

int main()
{
	while (1);
	return 0;
}

命名为dead_loop.c

$ gcc -g -O0 dead_loop.c -o dead_loop
$ ./dead_loop
$ ps -ef | grep dead_loop #查看进程ID
$ perf stat -p [dead_loop的进程ID]

Performance counter stats for process id '9177':

         12,727.43 msec task-clock                #    1.000 CPUs utilized          
               168      context-switches          #   13.200 /sec                   
                24      cpu-migrations            #    1.886 /sec                   
                 0      page-faults               #    0.000 /sec                   
    55,753,235,526      cpu_core/cycles/          #    4.381 G/sec                  
     <not counted>      cpu_atom/cycles/                                              (0.00%)
   130,101,578,945      cpu_core/instructions/    #   10.222 G/sec                  
     <not counted>      cpu_atom/instructions/                                        (0.00%)
   130,082,139,921      cpu_core/branches/        #   10.221 G/sec                  
     <not counted>      cpu_atom/branches/                                            (0.00%)
            17,389      cpu_core/branch-misses/   #    1.366 K/sec                  
     <not counted>      cpu_atom/branch-misses/                                       (0.00%)

      12.730348071 seconds time elapsed

这里有两个数据值得关注一下:
(1)cpu_core/instructions为什么是10G/sec
(2)cpu_core/branch-misses为什么不是0

两个疑问

每秒指令数为什么有10G,而运行时频率只有4302.811 MHz

这里就涉及到IPC(Instructions Per Cycle)了,再看一下我们的程序执行的指令

$ objdump -S dead_loop

在这里插入图片描述
CPU(准确讲应该是CPU的某一个核)其实一直在疯狂的执行这条jmp指令。也就是说执行jmp的时候,IPC大约是2

IPC为什么会大于1

为此,笔者找到了一篇参考文献[1],其中讲到超标量处理,如下图所示
在这里插入图片描述
有两个ALU,配合对应的register file结构,在1个时钟周期中能执行2条指令。这也是为什么笔者这款处理器出现每秒10G指令数的原因。

为什么会有分支预测失败

按理说,这个程序都没有分支跳转,哪里来的分支预测失败呢?突然想到,上面报的分支预测可能是内核态导致的,于是试验了一下

$ perf stat -e branch-misses:u -p [dead_loop的PID] #这次PID是20910
Performance counter stats for process id '20910':

                 0      cpu_core/branch-misses:u/                                     (100.00%)
                 0      cpu_atom/branch-misses:u/                                     (0.00%)

      26.299047205 seconds time elapsed

和预期的一样,branch-misses成为0了。再看看内核态的分支预测miss数

$ perf stat -e branch-misses:u -p 20910
Performance counter stats for process id '20910':

             5,670      cpu_core/branch-misses:k/                                   
     <not counted>      cpu_atom/branch-misses:k/                                     (0.00%)

       6.563240004 seconds time elapsed

和预期一样,果然是内核态导致了分支预测失败

参考文献

[1] https://www.sciencedirect.com/topics/computer-science/instructions-per-cycle

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/504844.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

明文传输的FTP 是否已慢慢被时代所抛弃?

什么是FTP&#xff1f;FTP即File Transfer Protocol&#xff0c;含FTPS/SFTP&#xff0c;诞生于1971年&#xff0c;是最为古老的网络协议和工具之一&#xff0c;是一种在网络进行文件传输的标准应用层协议&#xff0c;也泛指基于FTP协议实现文件传输的服务端软件和客户端软件&a…

《双向队列》

介绍 双向队列&#xff08;deque&#xff0c;全名double-ended queue&#xff09;是一种具有队列和栈性质的数据结构。 对于队列&#xff0c;我们只能在头部删除或在尾部添加元素&#xff0c; 而「双向队列 Deque」更加灵活&#xff0c;在其两端都能执行元素添加或删除操作。…

【笔记】【HTTP】《图解HTTP》第3章 HTTP报文内的HTTP信息

前言 有输入就要有产出&#xff0c;该笔记是本人看完《图解HTTP》后对每章涉及到的知识进行汇总博客将会已书的每章为一篇发布&#xff0c;下一篇博客发布时间不确定笔记中有些个人理解后整理的笔记&#xff0c;可能有所偏差&#xff0c;也恳请读者帮忙指出&#xff0c;谢谢。…

TCP网络编程-python

OSI七层模型和TCP/IP四层模型 通信时需要用到网络模型来进行数据封装。一层一层封装和拆包。 OSI 模型把网络通信的工作分为 7 层&#xff0c;从下到上分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。 分层太多&#xff0c;增加了网络工作的复杂性。 简…

锐捷网络,无边光景一时新

绍熙五年&#xff0c;朱熹在除知潭州、荆湖南路安抚&#xff0c;在长沙岳麓山扩建了闻名天下的岳麓书院。他写过这样一句赞美春日的诗&#xff1a;胜日寻芳泗水滨&#xff0c;无边光景一时新。 近一千年后&#xff0c;我们依旧能在长沙感受到“无边光景一时新”魄力雄浑。这次&…

Python自动化测试实战篇(8),pytest 测试用例初始化的五种方法与清洗方法

这些是之前的文章&#xff0c;里面有一些基础的知识点在前面由于前面已经有写过&#xff0c;所以这一篇就不再详细对之前的内容进行描述 1.什么是是自动化测试环境初始化与清除2.自动化测试环境初始化与清除有哪些步骤&#xff1f;3.pytest中如何进行用例初始化与清洗方法1.类…

【JMeter】前端使用JMeter测试JSEncrypt加密登录

前端使用JMeter测试JSEncrypt加密登录 简介&#xff1a;前端开发时会接触到用户登录&#xff0c;登录时为了数据的安全会使用到jsencrypt加密工具&#xff0c;同时我们需要使用jmeter来进行压测&#xff0c;帮助我们了解Web应用程序在高负载情况下的性能表现&#xff0c;从而为…

工业物联网是什么?工业物联网发展前景如何?

工业物联网 (IIoT) 是在工业环境中使用互连的智能设备、传感器和软件来提高运营效率、生产力和安全性。IIoT 系统通常涉及机器、设备和传感器&#xff0c;这些机器、设备和传感器嵌入了相互通信以及与中央系统通信的技术。这允许对工业过程进行实时监控和分析&#xff0c;并能够…

jenkins配置springcloudalibaba流水线加服务器自动构建

参数化构建过程 Extended Choice Parameter Name&#xff1a;project_name Description&#xff1a;请选择需要构建的项目名称 Basic Parameter Types Parameter Type: Hidden Number of Visible Items: 20 Delimiter: , Choose Source for Value value: deerchain-gateway-95…

Linux权限划分的原则

考察的不仅是一个具体的指令&#xff0c;还考察对技术层面的认知。 如果对 Linux 权限有较深的认知和理解&#xff0c;那么完全可以通过查资料去完成具体指令的执行。更重要的是&#xff0c;认知清晰的程序员可以把 Linux 权限管理的知识迁移到其他的系统设计中。 权限抽象 一…

MyBatisPlus学习笔记(SpringBoot版)

MyBatisPlus学习笔记&#xff08;SpringBoot版&#xff09; 一、MyBatis-Plus简介1、简介2、特性3、支持数据库4、框架结构5、代码及文档地址 二、入门案例1、开发环境2、创建数据库及表2.1 创建表2.2 添加数据 3、创建Spring Boot工程3.1 初始化工程3.2 引入依赖3.3 idea中安装…

【MySQL】绪论 MySQL工作环境

文章目录 实验内容实验步骤实验内容 MySQL命令MySQL 的启动与关闭MySQL 管理备份和还原数据库navicat工具使用实验步骤 1. MySQL命令 (1)查看MySQL基本命令 (2)查看MySQL版本信息 2. MySQL的启动与关闭 (1)启动MySQL服务器 (2)测试服务器启动成功 (3)合法用

MATLAB绘图函数的相关介绍——海底测量、二维与三维图形绘制

系列文章目录 MATLAB求函数极限的简单介绍 文章目录 一、问题引导 1.1、海底曲线绘制问题 1.2、绘制二维与三维图形 二、代码演示 2.2、二维与三维绘图案例 2.2.1、官方对plot函数的解释 总结 一、问题引导 1.1、海底曲线绘制问题 海底测量&#xff0c;低潮时海平面上…

案例研究|萤石网络通过JumpServer解决安全运维难题

杭州萤石网络股份有限公司&#xff08;以下简称为萤石网络&#xff09;于2015年在杭州成立&#xff0c;是安全智能生活主流品牌&#xff0c;核心产品包括智能家居摄像头、智能门锁、智能服务机器人等。2021年&#xff0c;萤石网络家用摄像头占国内出货量市场份额的25%&#xff…

代码随想录算法训练营day32 | 贪心算法:122.买卖股票的最佳时机II ,55. 跳跃游戏,45.跳跃游戏II

代码随想录算法训练营day32 | 贪心算法&#xff1a;122.买卖股票的最佳时机II &#xff0c;55. 跳跃游戏&#xff0c;45.跳跃游戏II 122.买卖股票的最佳时机II55. 跳跃游戏45.跳跃游戏II 122.买卖股票的最佳时机II 教程视频&#xff1a;https://www.bilibili.com/video/BV1ev4…

Java基础(33)Java集合详解

集合类主要负责保存、盛装其他数据&#xff0c;因此集合类也被称为容器类。Java 所有的集合类都位于 java.util 包下&#xff0c;提供了一个表示和操作对象集合的统一构架&#xff0c;包含大量集合接口&#xff0c;以及这些接口的实现类和操作它们的算法。 集合类和数组不一样&…

2023年湖北安全员ABC证报考条件都有哪些?有什么区别?启程别

2023年湖北安全员ABC证报考条件都有哪些&#xff1f;有什么区别&#xff1f;启程别 一、安全员ABC证是什么&#xff1f; 安全员A、B、C证属于建筑三类人员证书。建筑三类人员&#xff1a;是指建筑施工企业主要负责人、项目负责人和专职安全生产管理人员。 建筑企业的法人代表&…

【Linux下】 线程操作及线程互斥

【Linux下】 线程操作及线程互斥 线程操作 注&#xff1a;以下函数使用时&#xff0c;编译文件时需带上-lpthread选项&#xff0c;因为下面的函数都是线程库里面的函数 pthread_self #include <pthread.h> pthread_t pthread_self(void);**作用&#xff1a;**获取当前…

淘宝天猫1688京东商品详情API接口,封装接口可高并发

要提供商品详情数据需要知道具体的商品信息&#xff0c;但通常商品详情数据应包括以下内容&#xff1a; 商品名称&#xff1a;商品的名称&#xff0c;以方便顾客对其进行识别和区分。 商品描述&#xff1a;一段让顾客能够全面认识商品的描述。应能够有效地展示商品的特性、功能…

大数据赛项|2023年广东省大学生计算机设计大赛初赛结果公示

2023年广东省大学生计算机设计大赛 暨第16届中国大学生计算机设计大赛 粤港澳大湾区赛初赛结果公示 根据《广东省教育厅关于做好2023年广东省本科高校大学生学科竞赛工作的通知》&#xff0c;广东外语外贸大学承办2023年“广东省大学生计算机设计大赛”。 在广大师生的热情…