一、SoC架构
1.1 整体架构
Zeppelin
参考链接:wikichip: Zeppelin
通过infinity fabric总线将单die分成多die的SoC架构,每个Die包含两个CPU核(CCX)、2各DDR通道、USB、低功耗IO以及多个IFOP和IFIS serdes接口。
如下所述中,Zen系列中的每个die都是一个Zeppelin
Zen
使用chiplet技术将多核系统划分为多个die互联封装的架构。
- 发布时间:2017年3月2日
- 制成工艺:GF 14 nm
参考链接:wikichip:Zen
SoC架构如图所示:
单die架构:
单die架构应用于Summit Ridge系列,即高端桌面应用场景。
- CCX
CPU complex,每个CCX包含4个CPU core,CCX间可以通过Infinity Fabric通信(SCF+SDF)
CCX间任务的分配由cache-corherent non-uniform memory access(ccNUMA-aware)实现,确保线程不会从一个CCX迁移到另一个是很重要的,由于CCX间数据通信需要额外的延迟,线程的搬移会引起不必要的性能损耗。
双die架构:
双Die架构应用于Ryzen Threadripper系列,即高性能桌面或工作站场景。
两个die通过Infinity Fabric协议处理,并经GMI(global memory interconnect)接口相连
四die架构
四die用于EPYC系列,即服务器场景。EPYC系列的die和Threadripper系列相同。
-
每个die有四组GMI接口,但只有和其他die最近的三组接口被使用
如图是EPYC系列die互连某层的布局布线图,视图上方和下方的粉色布线是die的UMC出来的接口,视图中间的粉色和蓝色布线是双向的GMI链路,左下和右上die的连接被隐藏了,左上芯片和右上芯片摆放位置相同,下面的芯片摆放旋转180度。 -
die间延迟如图所示
die0-3和die4-7分别为两路CPU。
Zen+
Zen2
- 发布时间:2019年
- CPU die: TSMC 7nm
- IO die: GF 14nm (server) ; GF 12nm (client)
二、CPU Core架构
三、互联方式
3.1 Die间互联
3.2 Die内互联
ONION (Fusion Compute Link)
GPU和CPU互联的一致性总线,用于cache snooping
GARLIC (Radeon Memory Bus)
GPU和Memory controller连接的非一致性总线,
3.3 通用互联总线
Infinity Fabric协议
参考链接:wikichip:Infinity Fabric
定义了AMD片间互联和片内互联的模块架构和互联关系,模块包括SDF (Scalable Data Fabric) 和SCF (Scalable Control Fabric),总线接口包括IFOP(infinity fabric on-package)和IFIS(infinity fabric intersocket)
连接模块
SDF用于各个子系统间业务数据流的通信,包括NUMA节点间、各子系统PHY间等,可以保证数据的一致性。
SCF用于处理各子系统控制信号,包括热管理、功耗管理、测试、安全等
通过这两种模块,AMD可以任意扩展基础计算模块。
(1)SDF
SDF可以保证数据的一致性,因此通过SDF的互联不会局限于在单Die内连接,也可以扩展到多个Die;总线拓扑既可以是点对点连接,也可以是中心岛结构
如图所示是一个点对点结构和中心岛结果混合的单die架构:
- 两个CCX通过CCM (Cache-Coherent Master)连接到SDF平台,CCM提供core数据一致性访问维护机制;
- IO Hub模块通过IOMS (I/O Master/Slave)接口和SDF相连。
- DDR4通过UMC (Unified Memory Controller)与SDF相连,时钟频率和DRAM memclk相同
- serdes接口通过CAKE (coherent AMD socket extender)与SDF连接,CAKE负责串行编码和解码,每个cycle发送128bit串行数据,时钟频率和DRAM memclk相同,serdes接口包括IFOP和IFIS。
- 在SDF模块中,只可以通过CCM和IOMS访问DDR
(2)SCF
SCF通过单独的IFIS接口和外部的设备连接
总线接口
(1)IFOP
封装内die-to-die的连接,
- 32bit单端data信号
- 差分时钟
- 能耗2 pJ/b
- 串行全双工
(2)IFIS
封装与封装间的通信
- 16位差分data,每个CAKE时钟周期进行8次传输
- 无时钟信号
- 能效11pJ/b
四、GPU架构
Zen-based APU
- GF 14nm
基于Zen架构的加速器处理单元是一个完整die,包括一个CCX、一个Vega计算核心和其他部件通过infinity Fabric互联组成的系统,