对提高数据和指令缓存命中率方法的验证

news2025/1/21 4:54:19

对于如何写出让CPU跑得更快的代码这一问题,我看到了两种方法,分别是:1、提高数据缓存命中率;2、提高指令缓存命中率。

本文对这两种方法进行了简单的验证,并提供了示例代码。

本文基于2.3 如何写出让 CPU 跑得更快的代码? | 小林coding (xiaolincoding.com)进行分析

在虚拟机上使用的编译环境为:

image-20240804164633280

  • 数据缓存命中率验证

    • 现象与验证

      对于下列代码:

      //二维数组
      array[N][N] = 0;
      //形式一:
      for( i = 0; i<N;i+=1){
          for(j = 0; j <N;j+=1){
          array[i][j] = 0;
          }
      }
      //形式二:
      for( i = 0; i<N; i+=1) {
          for(j = 0; j <N;j+=1) {
          array[j][i] = 0;
          }
      }
      

      对于以上二维数组,提供了两种遍历形式,为了测试哪一种遍历形式执行速度更快,将代码补充为完整的C语言程序:

      #include <stdio.h>
      #include <stdlib.h>
      #include <time.h>
      
      #define N 1000  // 数组大小
      
      void initializeArray(int array[N][N], int mode) {
          int i, j;
          if (mode == 1) {
              for (i = 0; i < N; i++) {
                  for (j = 0; j < N; j++) {
                      array[i][j] = 0;
                  }
              }
          } 
          else if (mode == 2) {
              for (i = 0; i < N; i++) {
                  for (j = 0; j < N; j++) {
                      array[j][i] = 0;
                  }
              }
          }
      }
      
      double getTimeInSeconds() {
          return (double)clock() / CLOCKS_PER_SEC;
      }
      
      int main() {
          int array[N][N];
          double startTime, endTime;
      
          // 形式一
          startTime = getTimeInSeconds();
          initializeArray(array, 1);
          endTime = getTimeInSeconds();
          printf("形式一执行时间: %f 秒\n", endTime - startTime);
      
          // 形式二
          startTime = getTimeInSeconds();
          initializeArray(array, 2);
          endTime = getTimeInSeconds();
          printf("形式二执行时间: %f 秒\n", endTime - startTime);
      
          return 0;
      }
      

      执行结果如下:

      image-20240804154400043

      可见形式一(对内存进行连续遍历)确实要快一些

    • 原因说明

      二维数组array所占内存连续,

      • 对于形式一,按array[i][j]顺序访问数组元素,与内存中数组元素存放的顺序一致。当CPU访问到array[0][0]时,由于该数据不在Cache中,会顺序把其后的一些元素从内存加载到CPU Cache中,这样当CPU访问后面的几个数组元素时,就能在CPU Cache中中成功找到数据,这意味着缓存命中率很高,缓存命中的数据不需要访问内存,这就大大提高了代码的性能。

      • 对于形式二,访问的方式是跳跃的,而不是顺序的,那么如果N的数值很大,那么操作array[j][i]时,没办法把array[j+1][i]也读入到CPU Cache中,那么就需要从内存读取该数据元素了。这种方式不能利用CPU Cache的特性,从而代码的性能不高。

      • 输入指令cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size可以查看CPU Cache一次性能加载的数据的大小:

        image-20240804155806575

  • 指令缓存命中率验证

    intarray[N];
    for (i = 0; i<N;i++){
        array[i] = rand()% 100;
    }
    
    //操作一:数组遍历
    for( i = 0; i<N;i++) {
        if ( array [i] < 50){
            array[i] = 0;
        }
    }
    //操作二:排序
    sort(array,array + N);
    

    为了测试是先遍历再排序执行速度快,还是先排序再遍历速度快,将代码补充为完整的C++语言程序:

    #include <iostream>
    #include <cstdlib>
    #include <ctime>
    #include <algorithm>
    #include <cstring>
    
    #define N 100000  // 数组大小
    
    void generateArray(int array[N]) {
        for (int i = 0; i < N; i++) {
            array[i] = rand() % 100;
        }
    }
    
    void arrayTraversal(int array[N]) {
        for (int i = 0; i < N; i++) {
            if (array[i] < 50) {
                array[i] = 0;
            }
        }
    }
    
    void sort(int array[N]) {
        std::sort(array, array + N);
    }
    
    int main() {
        int array1[N], array2[N];
        clock_t start, end;
        double duration1, duration2;
    
        // 生成随机数组
        generateArray(array1);
        std::memcpy(array2, array1, N * sizeof(int));
    
        // 排序 -> 遍历
        start = clock();
        sort(array1);
        arrayTraversal(array1);
        end = clock();
        duration2 = (double)(end - start) / CLOCKS_PER_SEC;
        std::cout << "排序 -> 遍历 执行时间: " << duration2 << " 秒" << std::endl;
    
        // 遍历 -> 排序
        start = clock();
        arrayTraversal(array2);
        sort(array2);
        end = clock();
        duration1 = (double)(end - start) / CLOCKS_PER_SEC;
        std::cout << "遍历 -> 排序 执行时间: " << duration1 << " 秒" << std::endl;
    
        return 0;
    }
    

    执行结果如下:

    image-20240804162036654

    从结果上看感觉先排序再遍历速度好像还慢一点,我们将这两个操作的顺序反过来再验证看:

    image-20240804162309409

    实践发现结果又反了过来,直观上分支预测器在这里的效果并不明显

  • 总结

    对于如何让CPU跑得更快这一问题,本文对提高数据缓存命中率与提高指令缓存命中率的方法分别进行了简单的实验验证。

    其中前者成功进行了验证,后者在本文中的程序中效果并不明显。

    更深层的原因暂未深究,但使用时仍可按原文方法进行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1978569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大规模深度学习推理引擎是什么?

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 首先&#xff0c;我们来理解 “深度学习”&#xff1a;它是人工智能的一个重要分支&#xff0c;模仿人脑的神经网络结构&#xff0c;运用多层神经网络来学习和解析数据。这些神经网络能够从庞大的数据集…

二、版本更新与插件安装

版本更新 点击版本管理 点击刷新列表后点击一键更新&#xff0c;即可完成更新&#xff08;注意完成更新必须要关闭正在运行的服务&#xff09; 更新拓展&#xff08;更新插件&#xff09; 点击拓展-刷新列表-一键更新 即可 注意&#xff1a;操作完成以后必须重新启动方可生效…

(六)activiti-modeler 设计器属性编辑弹窗bug修复

BUG重现 在使用流程设计器时&#xff0c;经常碰到弹窗不小心关闭&#xff0c;比如不小心点击了灰色背景上&#xff0c;此时BUG就出现了。弹窗被关闭了&#xff0c;分配用户属性被置空了&#xff0c;以前有数据也被清空了&#xff0c;还无法再次点击弹窗编辑。 不仅仅是分配用…

deque和优先级队列

咱学完栈和队列之后&#xff0c;又了解到了vector和list&#xff0c;更深入的了解到了它们各自的优势&#xff0c;那么有没有可能结合它们的优点摒弃弱点呢&#xff0c;其实是有人这么试过的&#xff0c;不过咱还在学vector和list就证明他可能没成功&#xff0c;不过并不影响我…

python中类class的魔法方法

开始介绍之前&#xff0c;我们先看下之前文章我们介绍过的内置类merryview的一些方法&#xff0c;如下图所示&#xff1a; 有很多双下划线开始和结束的method&#xff0c;这么多method是做啥子用的呢&#xff1f; 其实这些方法就是我们常说的魔法方法&#xff0c;也是python中的…

【代码随想录】二分查找

文章为代码随想录的学习笔记&#xff0c;链接&#xff1a; 代码随想录 只要看到面试题中给出的数组是有序数组&#xff0c;都可以想一想是否可以使用二分法。 基本概念 二分查找要求线性表必须采用顺序存储结构&#xff0c;而且表中元素按关键字有序排列。‘ 查找过程&…

2024年华数杯数学建模竞赛——赛题浅析

本次华数杯与国赛同频【第一天下午六点发题&#xff0c;第四天下午八点收卷】&#xff0c;一共74小时。难度约为国赛的0.8&#xff0c;题量约为国赛的0.8-0.9.非常适合作为国赛前的练手赛。下面为大家带来本次华数杯的选题建议&#xff0c;希望对大家有所帮助。 一图流 选题人…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 卢小姐的字符串解压缩(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM金牌🏅️团队| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试D卷目录,全、新、准,题目覆盖率达 95% 以上,支持题…

36-38 关系数据库入门

关系数据库入门 关系数据库概述 数据持久化 - 将数据保存到能够长久保存数据的存储介质中&#xff0c;在掉电的情况下数据也不会丢失。 数据库发展史 - 网状数据库、层次数据库、关系数据库、NoSQL数据库。 1970年&#xff0c;IBM的研究员E.F.Codd在Communication of the ACM…

【Material-UI】Autocomplete中的禁用选项:Disabled options

文章目录 一、简介二、基本用法三、进阶用法1. 动态禁用2. 提示禁用原因3. 复杂的禁用条件 四、最佳实践1. 一致性2. 提供反馈3. 优化性能 五、总结 Material-UI的Autocomplete组件提供了丰富的功能&#xff0c;包括禁用特定选项的能力。这一特性对于限制用户选择、提供更好的用…

长短期记忆网络LSTM

目录 一、LSTM提出的背景&#xff1a;1.RNN存在的问题&#xff1a;2.LSTM的思想&#xff1a;2.1回顾GRU的提出&#xff1a;2.2LSTM在GRU上的改进&#xff1a; 二、遗忘门、输入门、输出门&#xff1a;三、LSTM网络架构&#xff1a;1.候选记忆单元C~t&#xff1a;2.遗忘门、输入…

顶刊TPAMI 2024!无需全标注,仅用少量涂鸦标注即可获得确定和一致的语义分割预测结果...

本文介绍了山东大学&#xff0c;北京大学和纽约州立大学石溪分校合作开展的一项工作。该工作面向图像涂鸦弱标注语义分割任务&#xff0c;重点关注采用涂鸦弱标注时语义分割网络的不确定性和不一致性问题。 作者提出最小化熵损失函数和网络嵌入的随机游走过程来分别改善分割网络…

Altera之FPGA器件系列简介

目录 一、前言 二、命名规则 2.1 MAX V系列 2.2 Cyclone 系列 2.3 Arria 系列 2.4 Stratix 系列 2.5 Agilex 系列 三、器件划分 3.1 工艺制程 3.2 使用领域 四、参考 一、前言 Altera是作为FPGA领域的头部企业&#xff0c;是一家老牌的技术公司&#xff0c;成立于19…

【一图学技术】7.削峰与限流防刷技术解决方案及限流算法图解

削峰与限流防刷技术 一、削峰技术 ✈解决问题&#xff1a;解决流量大的问题&#xff0c;限制单机流量 &#x1f680;核心技术&#xff1a; 秒杀令牌&#xff1a;颁发给用户令牌&#xff0c;给予操作特权 秒杀大闸&#xff1a;限制令牌数量 队列泄洪&#xff1a;队列增加缓…

4_损失函数和优化器

教学视频&#xff1a;损失函数与反向传播_哔哩哔哩_bilibili 损失函数&#xff08;Loss Function&#xff09; 损失函数是衡量模型预测输出与实际目标之间差距的函数。在监督学习任务中&#xff0c;我们通常希望模型的预测尽可能接近真实的目标值。损失函数就是用来量化模型预…

神经网络基础--激活函数

&#x1f579;️学习目标 &#x1f579;️什么是神经网络 1.神经网络概念 2.人工神经网络 &#x1f579;️网络非线性的因素 &#x1f579;️常见的激活函数 1.sigmoid激活函数 2.tanh激活函数 3.ReLU激活函数 4.softmax激活函数 &#x1f579;️总结 &#x1f57…

计算机基础(Windows 10+Office 2016)教程 —— 第5章 文档编辑软件Word 2016(上)

第5章 文档编辑软件Word 2016 5.1 Word 2016入门5.1.1 Word 2016 简介5.1.2 Word 2016 的启动5.1.3 Word 2016 的窗口组成5.1.4 Word 2016 的视图方式5.1.5 Word 2016 的文档操作5.1.6 Word 2016 的退出 5.2 Word 2016的文本编辑5.2.1 输入文本5.2.3 插入与删除文本5.2.4 复制与…

二进制与进制转换与原码、反码、补码详解--内含许多超详细图片讲解!!!

前言 今天给大家分享一下C语言操作符的详解&#xff0c;但在此之前先铺垫一下二进制和进制转换与原码、反码、补码的知识点&#xff0c;都非常详细&#xff0c;也希望这篇文章能对大家有所帮助&#xff0c;大家多多支持呀&#xff01; 操作符的内容我放在我的下一篇文章啦&am…

基于人工智能的口试模拟、LLM将彻底改变 STEM 教育

概述 STEM教育是一种整合科学&#xff08;Science&#xff09;、技术&#xff08;Technology&#xff09;、工程&#xff08;Engineering&#xff09;和数学&#xff08;Mathematics&#xff09;的教育方法。这种教育模式旨在通过跨学科的方式培养学生的创新能力、问题解决能力…

MySQL 高级 - 第十四章 | 事务基础知识

目录 第十四章 事务基础知识14.1 数据库事务概述14.1.1 存储引擎支持情况14.1.2 基本概念14.1.3 事务的 ACID 特性14.1.4 事务的状态 14.2 如何使用事务14.2.1 显示事务14.2.2 隐式事务14.2.3 隐式提交数据的情况14.2.4 使用举例14.2.4.1 提交与回滚14.2.4.2 测试不支持事务的 …