gem5学习(19):gem5内存系统——The gem5 Memory System

news2025/1/11 8:05:54

目录

一、Model Hierarchy

二、CPU

三、Data Cache Object

四、Tags & Data Block

五、MSHR and Write Buffer Queues

六、Memory Access Ordering

七、Coherent Bus Object

八、Simple Memory Object

九、Message Flow

1、Memory Access Ordering(read access)

2、Memory Access Ordering(write access)


官网教程:gem5: gem5_memory_system

这个教程描述了gem5中的内存子系统,重点关注CPU在进行简单内存事务(读取或写入)期间的程序流程。

一、Model Hierarchy

该教程中使用的模型包括两个乱序(O3)ARM v7 CPU,带有相应的L1数据缓存和简单内存。通过以下参数在gem5中运行来创建该模型:

configs/example/fs.py –-caches –-cpu-type=arm_detailed –-num-cpus=2

针对gem5的示例配置文件configs/example/fs.py的命令行参数。命令行指定了以下参数:

  • --caches:启用缓存子系统,包括L1指令缓存和L1数据缓存。
  • --cpu-type=arm_detailed:使用ARM详细模型的CPU类型,这是一种准确模拟ARM处理器行为的CPU模型。
  • --num-cpus=2:指定使用两个CPU进行模拟。

(总之,这行命令就是通过使用这些参数,运行模拟器,并使用示例配置文件fs.py来模拟具有缓存子系统的两个ARM处理器的行为。)

Gem5使用派生对象的模拟对象作为构建内存系统的基本块。它们通过端口连接,并建立了主/从层次结构。数据流从主端口发起,而响应消息和嗅探查询则出现在从端口上。(这个在前面的教程已经介绍过了,master port和slave port分别为主端口和从端口)

二、CPU

数据缓存对象(Data Cache object)实现了标准的缓存结构。

【其中比较陌生的MSHR,是指“Miss Status Holding Register”(缺失状态保存寄存器)。MSHR用于在缓存发生缺失(miss)时跟踪和处理缺失的数据。它类似于一个缓存的“等待区域”,用于存储等待从主存加载的数据块。当发生缺失时,MSHR负责发起内存请求,并在数据返回后将其传递给等待的CPU或缓存行。】

教程中并没有详细介绍有关O3 CPU的具体细节,大概讲了一些和模型相关的注意点:

1、读取访问(Read access)是通过将消息发送到指向DCache对象的端口来启动的。如果DCache拒绝该消息(因为被阻塞或忙碌),CPU将清空流水线,并在稍后重新尝试访问。接收到来自DCache的回复消息(ReadRep)后,访问完成。

2、写入访问(Write access)是通过将请求存储到存储缓冲区中,其上下文在每个时钟周期被清空并发送到DCache。DCache也可能拒绝该请求。当接收到DCache的写入回复(WriteRep)消息时,写入访问完成。

3、读取和写入访问的加载和存储缓冲区(Load & store buffers (for read and write access))不对活动内存访问的数量施加任何限制。因此,CPU模拟对象对CPU的内存访问请求的最大数量没有限制,而是受底层内存系统模型的限制。

4、分割内存访问(Split memory access)是在gem5中已经实现的。这意味着当一个内存访问请求涉及到多个连续的内存地址时,gem5可以将其分割为多个较小的子请求进行处理。通过分割内存访问,gem5可以更好地处理大型、连续的内存访问请求。这样可以提高内存系统的效率,并允许其他的处理任务在大型内存操作进行时继续进行,从而提高整体的系统性能。分割内存访问的实现确保了内存操作的正确性和一致性。

CPU发送的消息包含访问区域的内存类型(Normal、Device、Strongly Ordered和可缓存性)。然而,其余模型对内存类型采用了更简化的方法,因此并未使用这些信息。

三、Data Cache Object

数据缓存对象实现了标准的缓存结构:

Cached memory reads:匹配特定缓存标签(具有有效和读取标志)的缓存内存读取将在可配置的时间后完成(通过向CPU发送ReadResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Cached memory writes:匹配特定缓存标签(具有有效、读取和写入标志)的缓存内存写入将在相同可配置的时间后完成(通过向CPU发送WriteResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Uncached memory reads:未缓存的内存读取将转发到缺失状态和处理寄存器(MSHR)块。这表示需要从主存中读取数据,而不是从数据缓存中获取。MSHR是用于跟踪缺失状态的寄存器,它类似于一个缓冲区,用于存储等待从主存加载的数据块。当发生未缓存的内存读取时,该读取请求将被添加到MSHR中,gem5会向主存发送请求以获取所需的数据。一旦数据返回,gem5将通过向CPU发送ReadResp来完成未缓存的内存读取操作。

Uncached memory writes:未缓存的内存写入将转发到写入缓冲区(WriteBuffer)块。这意味着需要将数据写入主存,而不是仅在数据缓存中进行修改。写入缓冲区是一个专门用于暂存待写入主存的数据的缓冲区。当发生未缓存的内存写入时,该写入请求将被添加到写入缓冲区中。然后,gem5会周期性地将写入缓冲区中的数据上载到主存中,以确保数据的持久化。

Evicted (& dirty) cache lines:被替换(且脏)的缓存行将转发到写入缓冲区(WriteBuffer)块。gem5会将被替换的脏缓存行转发到写入缓冲区(WriteBuffer)块进行处理。当缓存行被替换并且被标记为脏时,gem5会将该脏缓存行数据添加到写入缓冲区中。然后,写入缓冲区的数据将周期性地写入主存,以确保脏数据的持久化。通过使用写入缓冲区,gem5可以将脏缓存行的写入操作与后续的主存写入操作解耦。

如果满足以下任何条件,则阻塞CPU对数据缓存的访问:

  • MSHR块已满(MSHR缓冲区的大小可配置)。
  • 写回块已满(块缓冲区的大小可配置)。
  • 针对同一内存缓存行的未完成内存访问数量达到可配置的阈值。

数据缓存处于阻塞状态时,无论是缓存命中还是缓存未命中,都会拒绝来自从端口(CPU)的请求。请注意,主端口上的传入消息(响应消息和嗅探请求)永远不会被拒绝。

对不可缓存内存区域的缓存命中(根据ARM ARM的不可预测行为)将使缓存行失效并从内存中获取数据。

四、Tags & Data Block

缓存行(在源代码中称为块)按照可配置的关联度和大小组织成集合。它们具有以下状态标志:

  • Valid(有效):表示缓存行中存储的数据是有效的,地址标签也是有效的。
  • Read(读取):在设置了该标志之前,不会接受读取请求。例如,当缓存行等待写入标志完成写入访问时,它是有效的但不可读取。
  • Write(写入):可以接受写入操作。带有写入标志的缓存行表示唯一状态 - 没有其他缓存存储器持有该副本。
  • Dirty(脏):当被替换时,需要执行写回(Writeback)操作。

如果地址标签匹配,并且设置了Valid和Read标志,读取访问将命中缓存行。如果地址标签匹配,并且设置了Valid、Read和Write标志,写入访问将命中缓存行。

五、MSHR and Write Buffer Queues

缺失状态和处理寄存器(MSHR)队列保存了CPU的未完成内存请求的列表,这些请求需要对较低内存级别进行读取访问。它们包括:

  • 缓存读取未命中(Cached Read misses)。
  • 缓存写入未命中(Cached Write misses)。
  • 未缓存的读取(Uncached reads)。

写入缓冲区队列保存了以下内存请求:

  • 未缓存的写入(Uncached writes)。
  • 来自被替换(且脏)的缓存行的写回(Writeback)【Writeback from evicted (& dirty) cache lines】。

每个内存请求都分配给相应的MSHR对象(上图中的读或写),该对象表示必须读取或写入的特定内存块(缓存行),以完成相应的命令。如上图所示,针对同一缓存行的缓存读取/写入具有共同的MSHR对象,并将通过单个内存访问完成。

块的大小(因此也是对较低内存的读写访问的大小)如下:

  • 对于缓存访问和写回,使用缓存行的大小;
  • 对于未缓存访问,根据CPU指令指定的大小。

一般来说,数据缓存模型区分了两种内存类型:

  • 普通缓存内存:始终被视为写回、读取和写入分配。
  • 普通未缓存、设备和强序类型被等同对待(视为未缓存内存)。

六、Memory Access Ordering

对于每个CPU读/写请求(按照它们在从属端口上出现的顺序),都会分配一个唯一的顺序号。MSHR对象的顺序号是从第一个分配的读/写请求中复制而来的。

这两个队列中的内存读取/写入将按照分配的顺序号依次执行。当这两个队列都不为空时,模型将从MSHR块执行内存读取,除非写入缓冲区已满。然而,它总是保持相同(或重叠)内存缓存行(块)上读取/写入的顺序。

总结一下:

  • 对于缓存内存的访问顺序不会被保留,除非它们针对同一缓存行。例如,访问#1、#5和#10将在同一个时钟周期内同时完成(仍然按顺序)。访问#5将在访问#3之前完成。
  • 所有未缓存内存写入的顺序都会被保留。Write#6始终在Write#13之前完成。
  • 所有未缓存内存读取的顺序都会被保留。Read#2始终在Read#8之前完成。
  • 未缓存访问的读取和写入的顺序不一定被保留,除非它们的访问区域重叠。因此,Write#6始终在Read#8之前完成(它们针对同一内存块)。然而,Write#13可能在Read#8之前完成。

七、Coherent Bus Object

一致性总线对象提供基本的Snoop协议支持:

所有从属端口上的请求都会转发到相应的主控端口。对于缓存内存区域的请求,也会转发到其他从属端口(作为Snoop请求)。

主控端口的回复会转发到相应的从属端口。

主控端口的Snoop请求会转发到所有从属端口。

从属端口的Snoop回复会转发到发出请求的端口。(请注意,Snoop请求的来源可以是从属端口或主控端口。)

在以下事件之后,总线会自行阻塞一段可配置的时间:

  • 将数据包发送(或发送失败)到从属端口。
  • 向主控端口发送回复消息。
  • 将一个从属端口的Snoop响应发送到另一个从属端口。

总线处于阻塞状态时,会拒绝以下传入消息:

  • 从属端口的请求。
  • 主控端口的回复。
  • 主控端口的Snoop请求。

八、Simple Memory Object

它永远不会阻塞从属端口上的访问。

内存读取/写入会立即生效。(读取或写入在收到请求时执行)。

回复消息会在可配置的一段时间后发送。

九、Message Flow

1、Memory Access Ordering(read access)

下图显示了命中具有有效和读取标志的数据缓存行的读取访问:

缓存未命中的读取访问将生成以下消息序列:

注意,总线对象从DCache2和Memory对象永远不会收到响应。它将完全相同的ReadReq数据包(消息)对象发送到内存和数据缓存。当数据缓存想要对Snoop请求进行回复时,它会使用MEM_INHIBIT标志标记该消息,告诉内存对象不要处理该消息。

2、Memory Access Ordering(write access)

下图显示了命中具有有效和写入标志的DCache1缓存行的写入访问:

接下来的图显示了命中具有有效但没有写入标志的DCache1缓存行的写入访问,这被视为写入未命中。DCache1发出UpgradeReq以获取写入权限。DCache2::snoopTiming将使命中的缓存行失效。请注意,UpgradeResp消息不携带数据。

下一个图显示了DCache中的写入未命中。ReadExReq使DCache2中的缓存行失效。ReadExResp携带内存缓存行的内容。

最后,还是有很多一知半解的零碎知识,先学完后再继续补充吧~

大年初一,祝大家新年快乐,龙年大吉!多发论文,篇篇顶刊顶会!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1443412.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[每周一更]-(第86期):PostgreSQL入门学习和对比MySQL

入门学习PostgreSQL可以遵循以下步骤: 安装 PostgreSQL: 首先,你需要在你的计算机上安装 PostgreSQL。你可以从 PostgreSQL 官方网站 下载适合你操作系统的安装包,并按照官方文档的指导进行安装。 学习 SQL: PostgreS…

【JS逆向三】逆向某某网站的sign参数,并模拟生成仅供学习

逆向日期:2024.02.06 使用工具:Node.js 类型:webpack 文章全程已做去敏处理!!! 【需要做的可联系我】 可使用AES进行解密处理(直接解密即可):AES加解密工具 1、打开某某…

深入理解Go的垃圾回收机制

导语 如果你是一位Golang的开发者,你一定对于语言特性和详细结构有所了解。但是,你是否曾经停下来深入研究过Golang背后复杂而强大的垃圾回收(GC)机制?在这篇文章中,我们将具体深入探讨Golang垃圾回收机制…

fast.ai 深度学习笔记(三)

深度学习 2:第 1 部分第 6 课 原文:medium.com/hiromi_suenaga/deep-learning-2-part-1-lesson-6-de70d626976c 译者:飞龙 协议:CC BY-NC-SA 4.0 来自 fast.ai 课程的个人笔记。随着我继续复习课程以“真正”理解它,这…

HiveSQL——不使用union all的情况下进行列转行

参考文章: HiveSql一天一个小技巧:如何不使用union all 进行列转行_不 union all-CSDN博客文章浏览阅读881次,点赞5次,收藏10次。本文给出一种不使用传统UNION ALL方法进行 行转列的方法,其中方法一采用了concat_wsposexplode()方…

记录一次centos 使用selenium运行环境

这里写自定义目录标题 宝塔面板 安装 selenium安装google-chrome 宝塔面板 安装 selenium 安装google-chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 查看chrome版本 google-chrome --version 下载对应chrome版本的chro…

【Vue3】解决路由缓存问题(响应路由参数的变化)

官方文档解释&#xff1a; 解决问题的思路: 让组件实例不复用,强制销毁重建监听路由变化,变化之后执行数据更新操作 方案一&#xff1a;给router-view添加key 以当前路由完整路径为key 的值&#xff0c;给router-view组件绑定 <RouterView :key"$route.fullPath&qu…

部门人力分配 - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 200分 题解&#xff1a; Java / Python / C 题目描述 部门在进行需求开发时需要进行人力安排。当前部门需要完成 N 个需求&#xff0c;需求用 requirements[i] 表示&#xff0c;requirements[i] 表示第 i 个需求的工作…

【5G NR】【一文读懂系列】移动通讯中使用的信道编解码技术-Turbo编码原理

目录 Turbo码&#xff1a;无线通信中的革命性技术 引言 一、Turbo码的基本原理 1.1 卷积码基础&#xff1a; 1.2 Turbo码的构造&#xff1a; 1.2.1 分量编码器 1.2.2 随机交织器 1.2.3 穿刺和复接单元 1.3 编码器结构的重要性和影响 1.4 迭代解码&#xff1a; 1.4.1 …

HiveQL——不借助任何外表,产生连续数值

注&#xff1a;参考文章&#xff1a; HiveSql一天一个小技巧&#xff1a;如何不借助其他任何外表&#xff0c;产生连续数值_hive生成连续数字-CSDN博客文章浏览阅读1.3k次。0 需求描述输出结果如下所示&#xff1a;12345...1001 问题分析方法一&#xff1a;起始值&#xff08;…

C++模版(初阶)

&#x1f308;函数复用的两种不恰当方式 ☀️1.函数重载 以Swap函数为例&#xff0c;有多少种参数类型组合&#xff0c;就要重载多少个函数&#xff1a; void Swap(int& left, int& right) {int temp left;left right;right temp; } void Swap(double& left,…

[职场] 俄语业务员是做什么的 #职场发展#媒体

俄语业务员是做什么的 俄语业务员作为我国企业开展对俄贸易的重要人才&#xff0c;他们需要不断提高自身的专业技能和综合素质&#xff0c;以适应不断变化的市场环境和企业发展需求&#xff0c;为中俄两国经贸合作做出更大的贡献。 一、俄语业务员是什么 俄语业务员是指以俄语…

SpringBoot全局异常捕获处理实现方案

在Spring Boot中实现全局异常处理可以通过以下方式&#xff1a; 使用ControllerAdvice注释创建一个全局异常处理类&#xff0c;并使用ExceptionHandler注释来定义具体异常的处理方法。 import your.package.IllegalNumberException; import org.springframework.http.HttpSta…

【数据结构】链表OJ面试题5(题库+解析)

1.前言 前五题在这http://t.csdnimg.cn/UeggB 后三题在这http://t.csdnimg.cn/gbohQ 给定一个链表&#xff0c;判断链表中是否有环。http://t.csdnimg.cn/Rcdyc 给定一个链表&#xff0c;返回链表开始入环的第一个结点。 如果链表无环&#xff0c;则返回 NULLhttp://t.cs…

c++之说_11|自定义类型 enum(枚举)与enumclass (c11新枚举)

至于枚举 会用就行 至少目前我感觉没什么太多问题 enum 被称为无作用域枚举 &#xff0c; enumclass / enumstruct 被称为有作用域枚举 看到了吧 语法规则 和 struct 差不多 只不过枚举成员 只是一个标志 它本质是数值 从上到下 下面的数根据上面的数 加 1 也可以直接…

3D裸眼技术行业研究:2026年市场投资规模为10.78亿元

3D裸眼技术大多处于研发阶段&#xff0c;它的研发分两个方向&#xff0c;一是硬件设备的研发&#xff0c;二为显示内容的处理研发。第二种已经开始小范围的商业运用。大众消费者接触的不多。从技术上来看&#xff0c;3D裸眼可分为光屏障式(Barrier)、柱状透镜(Lenticular Lens)…

4核8g服务器能支持多少人访问?- 腾讯云

腾讯云轻量4核8G12M轻量应用服务器支持多少人同时在线&#xff1f;通用型-4核8G-180G-2000G&#xff0c;2000GB月流量&#xff0c;系统盘为180GB SSD盘&#xff0c;12M公网带宽&#xff0c;下载速度峰值为1536KB/s&#xff0c;即1.5M/秒&#xff0c;假设网站内页平均大小为60KB…

多源异构数据融合是为了解决什么问题?

多源异构数据融合为了解决在数据处理和分析过程中&#xff0c;由于数据来源的多样性和数据结构的差异性所带来的问题。具体来说&#xff0c;多源异构数据主要解决以下几个方面的问题&#xff1a; 数据来源多样性&#xff1a;在实际应用中&#xff0c;数据可能来自不同的来源&am…

Linux操作系统基础(八):Linux的vi/vim编辑器

文章目录 Linux的vi/vim编辑器 一、vi/vim编辑器介绍 二、打开文件 三、VIM编辑器的三种模式(重点) 四、命令模式相关命令 五、底行模式相关命令 Linux的vi/vim编辑器 一、vi/vim编辑器介绍 vi是visual interface的简称, 是Linux中最经典的文本编辑器 vi的核心设计思想…

全局唯一id生成器 各种实现记录

全局唯一id生成器 Redis 生成 前提知识~~ 时间戳 时间戳这个东西我们老是听到,却可能不是特别了解 首先,时间戳是从1970年1月1号0点0分开始的秒数,我查了蛮多资料,理论上来说,时间戳是没有上限的,而我们一般用位数来限制这里的上限,比如32位 我们来实际计算一下 32位的二进…