cache miss问题C++示例

news2024/9/22 15:35:20

原题是:

const int LEN = 64*1024*1024;
int *arr = new int[LEN];
for (int i = 0; i < LEN; i += 2) arr[i] *= i; // 循环1
for (int i = 0; i < LEN; i += 8) arr[i] *= i; // 循环2

第二个循环比第一个循环少了四倍的计算量,理论上应该要快4倍,但是实际跑起来的数据,我自己的机器跑出来的数据:

循环1执行时间:339.960 ms

循环2执行时间:325.230 ms

两个循环的执行时延相差无几。和我们的想象很不一样,why?


写个小程序验证:

#include <iostream>
#include <ctime>
#include <array> 
using namespace std;
int main()
{
	const int LEN = 64 * 1024 * 1024;

	int *a = new int [LEN];
	cout << "a的长度是" << sizeof(a) << endl;
	cout << "*a的长度是" << sizeof(*a) << endl;
	cout << "int 的长度是" << sizeof(int) << endl;
	for (int i = 0; i < LEN; i += 2)
	{
		a [i] = i * 3;
	}
	clock_t endTime = clock();
	cout << "程序执行时间为" << (double)endTime / CLOCKS_PER_SEC * 1e3 << "ms" << endl;

	const int LEN_1 = 64 * 1024;
	array<int, LEN_1> b;
	cout << "b的长度 " << b.size() << endl;
}

输出结果是:

a的长度是8
*a的长度是4
int 的长度是4
程序执行时间为270.029ms
b的长度 65536

注意程序执行时间有一定的随机性,大致在270ms附近浮动,此时循环的步长是2。

而将步长改为8后,程序执行时间如下:

a的长度是8
*a的长度是4
int 的长度是4
程序执行时间为217.026ms
b的长度 65536

可以看到,步进是2和8的执行时间的确相差不大。
为此我们测试了以下几组数据,绘制表格大致如下:
在这里插入图片描述
在这里插入图片描述

感觉还是不太对,步长到16之后,时间并未出现减半式的下跌。不知道问题出在哪。
原题在以下链接中:
http://igoro.com/archive/gallery-of-processor-cache-effects/


第2天:
原题的答案是和计算机硬件结构直接相关的,《现代操作系统》的第1.3.2节 存储器,书中所讲与本题的官方答案基本一致。带着题目看书的过程中,也加深了我对计算机存储结构的理解。所以在这里用自己的话总结一下。
计算机中的典型的存储结构如下图所示:
在这里插入图片描述
计算机的典型存储单元包括寄存器、高速缓存、主存、磁盘。自上而下看,越往下的存储器,从架构上说,其离CPU越远,运行速度越慢,但容量也更大。

第一层的寄存器是最接近CPU的存储器,其材质和CPU一样,所以有着和CPU同样的存取速度。其实也很好理解,因为它要保证CPU指令的正常执行,所以他们一样快就行了。但是其造价昂贵,所以其大小一般就是32 * 32bit = 128B(32位操作系统)或64 * 64bit = 512B(64位操作系统),很明显连1KB都不到。

第二层是高速缓存,或者简称为缓存,它本来是属于主存的一部分,但是它在架构上离CPU更近一些,其每行有64字节数据,称为“高速缓存行”。假设其大小为4MB,则其一共有64 000个高速缓存行。当CPU运行指令所需的数据在高速缓存行中时,称为“命中”。当没有命中时,高速缓存行就需要向总线申请向主存中调取数据。正是因为缓存速度快,所以工程师们又将其分为L1级缓存和L2级缓存。其中L1级缓存没有时延,就类似于寄存器,而L2级缓存会有1-2个时钟周期的时延,但也非常短了。

第三层是主存(内存),也称为RAM(random access memory,随机访问存储器)。我的云桌面的主存就是12G的(本书是2017年及以前更新和编写的,那时的容量可能就只有1-8G),主存里存的东西都是暂时的,当电脑关机后,就丢失了。

第四层是磁盘,这里讲的是盘面会旋转的,带有磁头的机械硬盘,类似于留声机。其实这个也快淘汰了,因为我的Mac电脑里就没有机械硬盘了,取而代之的是固态硬盘(solid state disk,SSD),机械硬盘的读写速度可能只有10M/s,而固态硬盘能达到500M/s。但是它的速度和主存仍然不是一个数量级的。

对于这个题目,程序在运行到声明数组时,是要给他申请内存的,也就是说数组里的数全存在主存里。当CPU运行的乘法指令时,乘法本身很快,因为CPU里有乘法器硬件。但是高速缓存行里没有数组的各个数字。所以此时需要去内存中取,而这个过程叫cache存取。

高速缓存行的长度是64字节,而一个int整型的长度是4个字节,高速缓存行去取数字时,不是每个字节依次取,而是一次性取满整行。所以一个高速缓存行一次可以取16个int整型。

高速缓存行一旦无法命中,则要重新来主存取数。甭管循环步长是1-16之间的任何数字,高速缓存行都得挨个将所有主存的的64M数据都取走,但一旦步长是32时,情况发生了变化,高速缓存行每隔16个int取一次,所以时间缩短了一半。

指令执行的时间很快,而高速缓存行申请内存的过程很耗时间,这就是本题的关键。

通过假设也可以看出来,假设电脑的主频是2G,即在单核单线程单发射的结构的情况下,CPU每秒能运行2G条指令。64M个int字中,假设循环步长是2,则共有32M条指令需要运行,耗费时间是:
在这里插入图片描述
当步长是16时,共有4M就算运行这些指令不需要花时间,那也才比步长为2的快了16ms,但是程序的整体运行时间是300ms+,由此说明,存取数据的时间比指令运行时间长得多,二者不是一个数量级的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2122549.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度解析RAG:你必须要了解的RAG优化方法

RAG&#xff08;Retrieval-Augmented Generation&#xff09;是一种结合检索和生成能力的技术框架&#xff0c;旨在通过从外部知识库中检索相关信息来增强生成模型的输出。其基本思想是利用大型语言模型&#xff08;LLM&#xff09;的生成能力&#xff0c;同时通过检索机制获取…

OpenStack × OceanBase: 打造高可用可扩展的基础设施平台

OceanBase 社区资深总监封仲淹在9月3日参加 OpenInfra 亚洲峰会中&#xff0c;分享了OceanBase与OpenStack的联合解决方案。本文将介绍这一联合方案的技术亮点及其为用户带来的独特价值。 OpenStack长期以来一直是云计算领域的先行者&#xff0c;通过提供强大的开源平台&#x…

西门子博途零基础学PLC必会的100个指令

#西门子##PLC##自动化##工业自动化##编程##电工##西门子PLC##工业##制造业##数字化##电气##工程师# 工控人加入PLC工业自动化精英社群 工控人加入PLC工业自动化精英社群

MATLAB求解0-1线性规划问题的详细分析

引言 0-1线性规划是整数规划中的一种特殊形式&#xff0c;它广泛应用于资源分配、工厂选址、投资组合优化、物流运输等多个领域。0-1线性规划的特点是&#xff0c;决策变量只能取0或1的离散值&#xff0c;通常用于描述“是-否”决策问题。随着计算机技术的发展&#xff0c;数学…

红日靶机(一) 笔记

红日靶机(一)笔记 概述 域渗透靶机&#xff0c;可以练习对域渗透的一些知识&#xff0c;主要还是要熟悉 powershell 语法&#xff0c;powershell 往往比 cmd 的命令行更加强大&#xff0c;而很多渗透开源的脚本都是 powershell 的。例如 NiShang&#xff0c;PowerView 等等。…

料品档案没有配置主供应商信息

这个问题经常会出现在普通用户的面前。没有合适的工程人员去打理料品档案。信息是缺漏的。用友给出来的提示&#xff0c;也让人摸不着头脑。只能是记下来备用吧。

Ai+若依(集成easyexcel实现excel表格增强)

EasyExcel 介绍 官方地址:EasyExcel官方文档 - 基于Java的Excel处理工具 | Easy Excel 官网 Java解析、生成Excel比较有名的框架有Apache poi、jxl。但他们都存在一个严重的问题就是非常的耗内存,poi有一套SAX模式的API可以一定程度的解决一些内存溢出的问题,但POI还是有一…

Web3 项目安全手册

现如今针对 Web3 项目的攻击手法层出不穷&#xff0c;且项目之间的交互也越发复杂&#xff0c;在各个项目之间的交互经常会引入新的安全问题&#xff0c;而大部分 Web3 项目研发团队普遍缺少的一线的安全攻防经验&#xff0c;并且在进行 Web3 项目研发的时候&#xff0c;重点关…

JavaWeb中处理 Web 请求的方式总结

文章目录 JavaWeb中处理 Web 请求的方式总结1. 原始的 Servlet 方式1.1. 环境搭建**创建 Maven 或 Gradle 项目**&#xff1a;**添加 Servlet 依赖**&#xff1a;**创建 Servlet 类**&#xff1a;**配置项目**&#xff1a;**配置 Tomcat**&#xff1a; 1.2. 路由机制1.3. 示例代…

[产品管理-4]:NPDP新产品开发 - 2 - 制定企业经营战略目标的结构化方法与工具

目录 一、SWOT分析工具 1、SWOT分析工具概述 2、SWOT分析与企业战略目标制定的关系 3、SWOT分析在企业战略目标制定中的应用实例 4、SWOT分析的改进与应用建议 二、P E S T L E 分 析&#xff1a;外部环境分析 2.1 概述 1. 政治因素&#xff08;Political&#xff09; …

2024第三届大学生算法大赛 真题训练3 解题报告 | 珂学家

前言 题解 C. 洞穴探险 题目描述&#xff1a; 简单来说&#xff0c;就是 在一个无向图中&#xff0c;两个点之间关系 (存在多条简单路径&#xff0c;一条简单路径&#xff0c;不联通&#xff09;, 请判断两点之间的关系。 思路: 并查集 tarjan割边 对于通联和非联通&#x…

Java学习Day41:手刃青背龙!(spring框架之事务)

1.spring事务概念 在数据层和业务层保证一系列数据库操作原子性成功失败&#xff01;&#xff08;相比事务可以在业务层开启&#xff09; 1.事务定义&#xff1a;关键字&#xff1a;Transactional&#xff08;一般写在接口上&#xff09; 2.事务管理器&#xff1a;在JdbcCon…

vscode ssh离线远程连接ubuntu调试

遇见问题&#xff1a; 1 ssh连接上无法启动服务器的虚拟环境&#xff1b; 2 ssh连接上启动服务器的虚拟环境后无法打断点&#xff1b; 对于问题需要参考下面连接安装python和debugy的插件拓展&#xff0c;并且配置json文件link。VSCode - 离线安装扩展python插件教程_vscode…

web 自动化测试框架 TestCafe 安装和入门使用

一、TestCafe 介绍&#xff1a; TestCafe 是一款基于 Node.js 的端到端 Web 自动化测试框架&#xff0c;支持 TypeScript 或 JavaScript 来编写测试用例&#xff0c;运行用例&#xff0c;并生成自动化测试报告。 TestCafe 兼容 Windows&#xff0c;MacOS 和 Linux 系统&#x…

基于C++实现(控制台+界面)通讯录管理系统

个人通讯录管理系统 问题描述&#xff1a; 主要内容&#xff1a; 个人通讯录是记录了同学&#xff08;包含一起上学的学校名称&#xff09;、同事&#xff08;包含共事的单位名称&#xff09;、朋友&#xff08;包含认识的地点&#xff09;、亲戚&#xff08;包含称呼&#…

国家级|加速科技成功入选国家级专精特新“小巨人”企业

9月6日&#xff0c;浙江省通过的第六批专精特新“小巨人”企业名单在省经济和信息化厅官网完成公示&#xff0c;经过严格评审&#xff0c;杭州加速科技有限公司正式获国家级专精特新“小巨人”企业认定。 专精特新”小巨人”企业具备专业化、精细化、特色化、新颖化特征&#x…

“我”变小了但更强了!英伟达发布最新大语言模型压缩技术,无损性能且提升数倍!

1. 摘要 英伟达研究团队提出了一份全面报告&#xff0c;详细介绍了如何使用剪枝和蒸馏技术将Llama 3.1 8B和Mistral NeMo 12B模型分别压缩至4B和8B参数。他们探索了两种不同的剪枝策略&#xff1a;深度剪枝和联合隐藏/注意力/MLP&#xff08;宽度&#xff09;剪枝。 研究人员…

Adoptium Temurin JDK 的下载

在当今的软件开发领域&#xff0c;Java 无疑是最受欢迎和广泛使用的编程语言之一。Java 开发工具包&#xff08;JDK&#xff09;是任何 Java 开发者不可或缺的工具&#xff0c;它提供了编译、调试和运行 Java 应用程序所需的所有工具和库。Eclipse Temurin 是一个流行的开源 JD…

网络药理学:分子动力学模拟入门、gromacs能量最小化

推荐视频 B站&#xff1a; 讲的都是有效的概论&#xff0c;其中关于分子动力学模拟归纳的三步挺有用的。 B站&#xff1a;也没有讲清楚关于分子对接后得到的文件该如何处理。 B站&#xff1a; 需要用的是autodock vina&#xff0c;而且走过一遍up主之前分子对接的视频才比较…

mysql笔记3(数据库、表和数据的基础操作)

文章目录 一、数据库的基础操作1. 显示所有的仓库(数据库)2. 创建数据库注意(命名规范)&#xff1a; 3. 删除数据库4. 查看创建数据库的SQL5. 创建数据库时跟随字符编码6. 修改数据库的字符编码 二、表的基础操作1. 引入表的思维2. 引用数据库3. 查看该数据库下面的表4. 创建表…