CXL 内存交织(Memory Interleaving)

news2024/11/17 22:37:44


🔥点击查看精选 CXL 系列文章🔥
🔥点击进入【芯片设计验证】社区,查看更多精彩内容🔥


📢 声明

  • 🥭 作者主页:【MangoPapa的CSDN主页】。
  • ⚠️ 本文首发于CSDN,转载或引用请注明出处【https://mangopapa.blog.csdn.net/article/details/132553166】。
  • ⚠️ 本文目的为 个人学习记录知识分享。因个人能力受限,存在协议解读不正确的可能。若您参考本文进行产品设计或进行其他事项并造成了不良后果,本人不承担相关法律责任。
  • ⚠️ 若本文所采用图片或相关引用侵犯了您的合法权益,请联系我进行删除。
  • 😄 欢迎大家指出文章错误,欢迎同行与我交流 ~
  • 📧 邮箱:mangopapa@yeah.net
  • 💬 直达博主:loveic_lovelife 。(搜索或点击扫码)

文章目录

  • 0. 缩写
  • 1. CXL 内存交织概念
  • 2. CXL 内存交织实现
    • 2.1 HDM Decoder 基本介绍
      • 2.1.1 交织集/交织设置(Interleave Set)
    • 2.2 HDM Decoder 相关寄存器
      • 2.2.1 CXL HDM Decoder 能力结构
        • 2.2.1.1 状态
        • 2.2.1.2 控制
      • 2.2.2 CXL HDM Decoder 扩展能力结构
      • 2.2.3 Desired_Interleave @CXL DVSEC ID0
    • 2.3 HDM Decoder 解码规则
      • 2.3.1 CXL RP/USP 中的 HDM 地址解码
      • 2.3.2 CXL Device 中的 HDM 地址解码
  • 3. CXL 内存交织举例
  • 4. Q&A
  • 5. 参考


0. 缩写

缩略词释义
BIBack Invalidation
DPADevice Physical Address,设备物理地址
DSPDownstream Switch Port,Switch 的下行端口
eRCDExclusive Restricted CXL Device,只支持 CXL 1.1 的 CXL Device
HDMHost-managed Device Memory,由 Host 管理的 Device Memory
HPAHost Physical Address,主机物理地址
IGInterleave Granularity,交织粒度
IWInterleave Way,交织路数
RPRoot Port,根节点
UIOUnordered Input/Output,无序 IO
USPUpstream Switch Port,Switch 的上行端口


1. CXL 内存交织概念

  Memory Interleaving,内存交织,是一种内存访问方法,其将一段连续的内存地址映射到不同的内存,通过在不同内存上交叉访问来提高内存访问性能。一个带有 4 Bank 的内存交织访问示意图如下,其中红色 Bank 表示其正在进行自刷新且不可用。

https://en.wikipedia.org/wiki/Interleaved_memory#/media/File:Interleaving.gif

  对于 CXL 而言,CXL 内存交织是指把一段地址连续的 HDM 地址以统一的地址间隔映射到不同 CXL.mem Device 的 HDM 中。

  CXL 1.1 时,对于 Multi-head 的 eRCD,若多个 eRCD UP 直连到同一 CPU 内的 RCH 上,改 CPU 可以通过不同发 Flex Bus 来交织访问改 eRCD 的 HDM 空间。相关介绍可以参考《Multi-headed eRCD》。

  CXL 2.0 时支持多个 CXL Device 之间的内存交织,通过配置传输链路上相关 Host Bridge、USP 及 Device 内的 HDM Decoder 来实现相关控制。进一步地,CXL 支持在同一跨主桥逻辑下的 多个 CXL 主桥 之间、同一 CXL 主桥下的 多个 RP 之间、同一 Switch 内的 多个 DSP 之间有选择地进行 单级或多级 Interleave 访问。



2. CXL 内存交织实现

  CXL 主桥、USP 及 Device 基于 HDM Decoder 来实现内存交织中的 CXL.mem 包路由及 HPA->DPA 的地址映射。多个 CXL 主桥之间的 Interleave 由 跨主桥逻辑内的 Host 属性寄存器 进行控制。

2.1 HDM Decoder 基本介绍

  HDM Decoder 是 HDM 地址解码器,CXL 组件依据 HDM Decoder 内的相关配置把上层设备发来的 CXL.mem 访问请求路由到不同的端口或设备区域。

  HDM Decoder 位于 Host Bridge、USP 及 CXL Device 中:

  • 对于 Host Bridge 及 USP 而言,HDM Decoder 主要起路由作用,将 Host Bridge 或 USP 下发的 Transaction 分配到对应的 RP 或 DSP 上;
  • 对于 Device,HDM Decoder 主要用于把带有 Interleave 信息的 HPA 映射到 DPA。

2.1.1 交织集/交织设置(Interleave Set)

  同一 HDM Decoder 控制下的一组内存交织的 CXL Device 称为一个交织集(Interleave Set),HDM Decoder 基于以下关键参数对内存交织行为进行控制:

  • Base HPA ,HPA 基地址,要求 256 MB 地址对齐,即地址低 28b 为 0。
  • Size ,内存交织地址空间大小,需要为 256 MB 的整数倍,从 HPA Base ~ (HPA Base + Size)之间为当前 HDM Decoder 所要控制的内存交织地址范围。
  • Interleave Way (IW),内存交织路数,即把当前的 Size 的 HPA 空间映射到 IW 指示的路数,CXL 2.0 时 CXL RP/DSP/Device 支持 1/2/4/8 路交织,到 CXL 3.0 后同一 CXL Device 内还支持 3/6/12/16 路交织(RP/USP 不支持)
  • Interleave Granularity (IG),内存交织粒度,每隔 IG 所指示的粒度,就将相关包路由到下一路出口上;支持 256B、512B、1KB、2KB、4KB、8KB、16KB 粒度的内存交织,分别对应 HPA[8]~HPA[14]。对于 RCH 除外的 CXL Host Bridge 必须支持所有 IG(HPA[8:14]共七种),对于 CXL Type3 Device 必须支持其 HDM Decoder 能力结构显示的 HPA[8:11]或 HPA[12:14]中的至少一组 IG。
  • Target ,内存交织目标,可以为 CXL 根节点(RP)或 Switch 下行端口(DSP)。

  软件通过配置 HDM Decoder 来确定一个 Interleave Set。若同一 CXL 组件内存在多个 HDM Decoder,软件需确保同一组件内部多个 Decoder 之间以及同一 Path 内上下游 HDM Decoder 之间的行为一致,并通过 Commit Flow 发起自身一致性检查。对于同一组件内的多个 HDM Decoder,不能出现地址重合之类的错误;对于同一 Path 上的 HDM Decoder,上游 Decoder 的 Range 应包含下属 HDM Decoder 的 Range。

2.2 HDM Decoder 相关寄存器

2.2.1 CXL HDM Decoder 能力结构

  CXL 组件采用 CXL HDM Decoder 能力结构对其内部的 HDM Decoder 进行控制或指示,其寄存器分布如下图所示。

在这里插入图片描述

  对于 CXL 主桥(HID=“ACPI0016”),若其下存在多个 CXL RP,该 CXL 主桥的 CHBCR 中必须实现该能力结构;对于 CXL Switch,其 USP Component Register Block 中必须实现该能力结构;对于非 eRCD 的 Type 3 Device 或支持 BI/UIO 的 Type2 Device,应实现该能力结构,将 HPA 映射到其内部 DPA。

2.2.1.1 状态

  HDM Decoder 能力结构能够指示以下能力/参数/状态:

  • Decoder Count,当前组件内支持的 HDM Decoder 的数量,CXL Device 内最所支持 10 个 HDM Decoder,RP 和 Switch 最多支持 32 个;
  • Target Count,每个 Decoder 支持下属 1/2/4/8 个目标端口;
  • UIO Capable、Meta-NXM Capable,是否支持 UIO、Meta-NXM;
  • Address Interleave Capable,支持基于哪些 HPA 地址位的交织地址,有 HPA[8:11]和 HPA[12:14]两组;
  • 是否支持 3/6/12 或 16 路地址交织;、
  • ……

2.2.1.2 控制

  HDM Decoder 能力结构能够控制以下参数:

  • 是否开启 HDM Decoder
  • 每个 HDM Decoder 的基地址及 Size
  • 每个 HDM Decoder 的交织路数
  • 目标类型,为 HDM-D/DB 还是 HDM-H
  • 是否使能 BI 或 UIO 中的地址交织
  • 每一路所对应的 Port ID
  • ……

  每个 HDM Decoder 都有 Commit 相关寄存器,Commit 可以理解为 Decoder Info Valid,在配置完 HDM Decoder 之后需要按从前往后的顺序配置 Commit=1 并将其 Lock 住。

2.2.2 CXL HDM Decoder 扩展能力结构

  CXL HDM Decoder 能力结构支持的 HDM Decoder 数量有限,CXL 协议提供了一组 CXL HDM Decoder 扩展能力结构(CXL Extended HDM Decoder Capability Structure)以支持更多的 HDM Decoder 数量。CXL HDM Decoder 扩展能力结构内的寄存器布局与 CXL HDM Decoder Capability Structure 完全一致,两者 Capability ID 不同。

2.2.3 Desired_Interleave @CXL DVSEC ID0

  在 CXL Device 的 CXL PCIe DVSEC 中,HDM Range 寄存器内有换个 Desired_Interleave 字段来指示当前 HDM Range 所预期的内存交织粒度。CXL 1.1 的时候只支持 256B 和 4KB 两种粒度,到了 CXL 2.0 增加支持 512B, 1KB, 2KB, 8KB, 16KB 交织粒度。

  对于支持 CXL.mem 的 eRCD,若其通过多个 CXL Link 连接到了单个 CPU 上,该字段用以指示 Device 期望的交织粒度。BIOS 配置 CPU 通过交织的方式来访问该 HDM Range,在 Host 支持的范围内访问粒度可以采用 Device 所期望的粒度或最接近期望值的粒度。

  对于 Non-eRCD,该字段表示该设备期望交织粒度的最小值,可以视为一种 Hint。若 Device 实现了 HDM Decoder 能力结构,软件配置的 IG 建议大于等于 Device 所指示的 Desired_Interleave,即便比 Desired_Interleave 小,Device 也要保证内存交织功能正确。

  对于同一个 CXL Device,若当前 CXL Range 内的多个 DPA Range 有不同的 Desired_Interleave 值,Device 应采用所有 DPA Range 中的最大 Desired_Interleave 值;对于同一 Interleave Set 中的多个 Device,若其上报的 Desired_Interleave 值不同,软件选择最小的 Desired_Interleave 值。

2.3 HDM Decoder 解码规则

2.3.1 CXL RP/USP 中的 HDM 地址解码

  若开启了 CXL 内存交织,CXL RP 及 USP 中的 HDM Decoder 负责检测 HPA 是否位于 Active Decoder 的 HPA Base ~HPA+Size 之间,

  • 若没落在任何 Decoder 范围内,
    • Write 直接 Drop;
    • Read 且 Decoder Error Enable=0,直接反馈全 1;
    • Read 且 Decoder Error Enable=1,反馈 Poison。
  • 若落在了某 Decoder 范围之内,
    • 依据 HDM Decoder 中的交织粒度及交织路数参数,提取当前 HPA 相关地址位,判断需要路由到哪一路端口中;
    • 读取上述端口号,发送到上述请求到相关该端口。

2.3.2 CXL Device 中的 HDM 地址解码

  若开启了 CXL 内存交织,CXL Device 中的 HDM Decoder 负责检测是否位于 Active Decoder 的 HPA Base ~HPA+Size 之间,并将 HPA 还原为 DPA,

  • 若没落在任何 Decoder 范围内,
    • Write 直接 Drop;
    • Read 且 Decoder Error Enable=0,直接反馈全 1;
    • Read 且 Decoder Error Enable=1,反馈 Poison。
  • 若落在了某 Decoder 范围之内,抹去 HPA 内用以 Interleave 用的地址位作为 DPA Offset,加上 DPA.Base 作为 DPA,Device 内部访问 DPA。


3. CXL 内存交织举例

  CXL 内存交织支持单级或多级 Interleave,其中 Target 为 RP、DSP 的层级中 Interleave 路数只能为 1/2/4/8 路,跨主桥逻辑及 CXL 设备内支持 3/6/12/16 路 Interleave。

  下图是一个对 16~20 TB 的 HPA 空间进行 8 路三级 Interleave 的例子。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-luSeVGfr-1693265230892)(RackMultipart20230828-1-a7e9p4_html_b1f6f63b7c816202.gif)]

  上图释义如下:

  • 跨主桥逻辑内设置为 2 路交织,IG 为 4KB,依据 HPA[12]进行路由,即[16TB+2*n*4KB,16TB+2*n*4KB+4KB)区间内的 CXL.mem 请求路由至左侧的 CXL 主桥,[16TB+2*n*4KB+4KB,16TB+2*n*4KB+8KB)区间内的 CXL.mem 请求路由至右侧的 CXL 主桥;
  • 设置每一个 CXL 主桥的 HDM Decoder 为 2 路 2KB 粒度的交织,依据 HPA[11]决定路由到其下哪个 RP
  • 设置每一个 CXL Switch USP 的 HDM Decoder 为 2 路 1KB 粒度的交织,依据 HPA[10]决定路由到哪个 DSP;
  • 设置 CXL Device 为 8 路 1KB 交织,Device 以此为依据取 CXL.mem HPA[12:10]=0,转换为 DPA 后对 DPA 进行访问。


4. Q&A

  1. 同一 Decoder 下不同 Way 之间的 IG 可以不同吗?
    不可以,同一 Decoder 内只要=存在一个 IG 寄存器,所有 Way 均遵从该配置。

  2. RP/DSP 中没有 HDM Decoder 吗?
    RP 及 DSP 中没用 HDM Decoder,这两者的 Decode 之后的 Transaction 接收方,其根 USP 或 Device UP 是一对一点到点连接,无需 Interleave。

  3. Interleave Set 是如何建立的?
    配置链路上的各个 HDM Decoder 能力结构。

  4. HDM Decoder 能力结构中的 Commit 是什么意思?
    简单理解为 HDM Decoder 的 Info_Valid 吧。

  5. 上边下来的 CXL.mem 包没用 BDF 号吗?指定了 BDF 号的话,是怎么实现 Interleave 的?要改 BDF 吗?
    Interleave 仅限 CXL.mem 的包,其不是 PCIe 那种 TLP,没用 BDF,而是采用 HDR 或 PBR 的路由方式。



5. 参考

  1. CXL Base Spec, r3.0
  2. Interleaved memory - Wikipedia
  3. What is Interleaved Memory? | Webopedia
  4. 聊一聊DDR(7)—— 内存交织(memory interleaving) - 知乎 (zhihu.com)
  5. DDR 的多通道(channel)和交织(interleave) - 简书 (jianshu.com)
  6. memory interleaving(内存交织)_南风在冥想的博客-CSDN 博客
  7. 内存系列二:深入理解硬件原理- 知乎 (zhihu.com)
  8. 存储器术语interleave 解释_雨轩学院的博客-CSDN 博客

— END —


🔥 精选往期 CXL 协议系列文章,请查看【 CXL 专栏】🔥

⬆️ 返回顶部 ⬆️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/957439.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

php在mysql创建数组字段的高效解决方案

案例说明 1.项目展示 将血糖的数值,按照下面表格的分类进行展示。 2.前端录入 将分类名称设置为单选项,血糖数值按照单选项的属性归属到对应的位置。 案例分析及操作步骤 1.在上面场景下,如何建立mysql数字字段? 如果每个…

10个免费PPT下载资源网站分享

PPT超级市场https://pptsupermarket.com/ PPT超级市场是一个完全免费的PPT模板下载网站,不需要注册登录,点击下载就能直接使用。 叮当设计https://www.dingdangsheji.com/ 叮当设计是一个完全免费的PPT模板下载网站,每一套PPT的质量都很高。除…

FileZilla使用密钥文件连接FSTP

文件-》站点管理-》新站点 右侧协议选择SFTP 填写主机和端口号 登录类型选择:密钥文件 填写用户名 选择密钥文件即可 注: 这里密钥文件默认只能选择.ppk: 如果你的密钥文件不是这个格式(默认ssh生成的就不是)&…

ZooKeeper数据模型/znode节点深入

1、Znode的数据模型 1.1 Znode是什么? Znode维护了一个stat结构,这个stat包含数据变化的版本号、访问控制列表变化、还有时间戳。版本号和时间戳一起,可让Zookeeper验证缓存和协调更新。每次znode的数据发生了变化,版本号就增加。…

CSS中如何实现元素的渐变背景(Gradient Background)效果?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ CSS 渐变背景效果⭐ 线性渐变背景⭐ 径向渐变背景⭐ 添加到元素的样式⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&…

说说广播流与普通流

分析&回答 user actions 可以看作是事件流(普通流)patterns 为广播流,把全量数据加载到不同的计算节点。 广播流 Broadcast是一份存储在TaskManager内存中的只读的缓存数据在执行job的过程中需要反复使用的数据,为了达到数据共享&am…

智能安全科技,Vatee万腾为您服务

在智能科技的引领下,Vatee万腾将为您点亮投资之路,助您在金融市场中抓住机遇,实现财务目标。作为一家融合科技与投资的先锋平台,Vatee万腾致力于为投资者提供智能化的投资方案和支持。 Vatee万腾以其先进的智能科技为基础&#xf…

「网络」1.不知的浏览器缓存精品答案

前言:你真的懂浏览器缓存吗 文章目录 强缓存协商缓存协商缓存可以基于两种头部来实现。小结 🚀 作者简介:作为某云服务提供商的后端开发人员,我将在这里与大家简要分享一些实用的开发小技巧。在我的职业生涯中积累了丰富的经验&am…

企业级智能PDF及文档处理SDK GdPicture.NET 14.2 Crack

企业级智能PDF及文档处理SDK GdPicture.NET 提供了一组非常先进的 API,这些 API 利用了人工智能、机器学习和模糊逻辑算法等尖端技术。经过超过 15 年的持续研究和对创新的专注,我们的 SDK 已成为市场上针对PDF、OCR、条形码、文档成像和各种格式最全面的…

黑客可利用 Windows 容器隔离框架绕过端点安全系统

新的研究结果表明,攻击者可以利用一种隐匿的恶意软件检测规避技术,并通过操纵 Windows 容器隔离框架来绕过端点安全的解决方案。 Deep Instinct安全研究员丹尼尔-阿维诺姆(Daniel Avinoam)在本月初举行的DEF CON安全大会上公布了…

整理mongodb文档:分页

个人博客 整理mongodb文档:分页 个人博客,求关注,如果文章不够清晰,麻烦指出。 文章概叙 本文主要讲下在聚合以及crud的find方法中如何使用limit还有skip进行排序。 分页的情况很经常出现,这也是这篇博客诞生的理由。 数据准备…

如何使用SQL系列 之 理解什么是关系数据库

简介 数据库管理系统 (DBMS)是允许用户与数据库交互的计算机程序。DBMS允许用户控制对数据库的访问、写入数据、执行查询以及执行与数据库管理相关的任何其他任务。 为了执行这些任务,DBMS必须有某种底层模型来定义数据的组织方式。关系模型是一种组织数据的方法&…

vue自定义键盘

<template><div class"mark" click"isOver"></div><div class"mycar"><div class"mycar_list"><div class"mycar_list_con"><p class"mycar_list_p">车牌号</p>…

OpenCV(一):Android studio jni配置OpenCV(亲测有效,保姆级)

目录 1.下载OpenCV的SDK 2.创建Android Native C项目 3.Android项目中导入OpenCV工程 4.导入OpenCV的库文件 5.实现opencv高斯模糊图像处理的demo 要在Android Studio中配置使用OpenCV库的C方法&#xff0c;需要完成以下步骤&#xff1a; 1.下载OpenCV的SDK 首先&#x…

SpringBoot项目配置文件数据库用户名密码加密

1、需求 在使用SpringBoot开发过程中&#xff0c;会将一些敏感信息配置到SpringBoot项目的配置文件中(不考虑使用配置中心的情况 )&#xff0c;例如数据库的用户名和密码、Redis的密码等。为了保证敏感信息的安全&#xff0c;我们需要将此类数据进行加密配置。 2、操作步骤 …

<Linux>《SHELL脚本在crontab环境下执行失败问题处理》>> 探索SHELL运行模式和加载环境变量【实践+实验】

《SHELL脚本在crontab环境下执行失败问题处理》>> 探索SHELL运行模式和加载环境变量【实践实验】 1 现象描述2 分析3 解决方法4 深层研究4.1 shell4.2 shell脚本的环境变量4.3 shell脚本四种执行方法4.4 source 、.、./、bash 的区别4.5 shell常用的一些参数4.6 shell常见…

Netty源码NioEventLoop解析

带着问题源码 Netty 的 NioEventLoop 是如何实现的&#xff1f;它为什么能够保证 Channel 的操作是线程安全的&#xff1f;Netty 如何解决 JDK epoll 空轮询 Bug&#xff1f;NioEventLoop 是如何实现无锁化的&#xff1f; 一、作用与设计原理 Netty的NioEventLoop并不是一个存…

基于Spring Boot的住院病人管理系统设计与实现(Java+spring boot+MySQL)

获取源码或者论文请私信博主 演示视频&#xff1a; 基于Spring Boot的住院病人管理系统设计与实现&#xff08;Javaspring bootMySQL&#xff09; 使用技术&#xff1a; 前端&#xff1a;html css javascript jQuery ajax thymeleaf 微信小程序 后端&#xff1a;Java spring…

JavaScript基础04

JavaScript 基础 文章目录 JavaScript 基础函数声明和调用声明&#xff08;定义&#xff09;调用 参数形参和实参 返回值作用域全局作用域局部作用域 匿名函数函数表达式立即执行函数 理解封装的意义&#xff0c;能够通过函数的声明实现逻辑的封装&#xff0c;知道对象数据类型…

大数据项目实战(安装Hive)

一&#xff0c;搭建大数据集群环境 1.3 安装Hive 1.3.1 Hive的安装 1.安装MySQL服务 1&#xff09;检查是否安装MySQL&#xff0c;如安装将其卸载。卸载命令 rpm -qa | grep mysql 2&#xff09;搜索MySQL文件夹&#xff0c;如存在则删除 find / -name mysql rm -rf /etc/s…