菜叶子芯酸笔记2：服务器、互联技术和AI芯片参数解读

服务器相关知识

服务器是一种高性能计算机，作为网络的节点，存储、处理网络上80%的数据、信息，因此也被称为网络的灵魂。

服务器的分类

种类	描述
塔式服务器(tower server)	正面似PC机，但侧面长度长很多，无统一标准，一般不需要和机柜搭配使用。主板扩展性较强，成本较低，应用范围广泛。个头太大，独立性太强，协同工作在空间占用和系统管理上都不方便，适合小型企业使用。
机架服务器(rack server)	以19英寸机架作为标准宽度，安装在机柜中。占用空间小，便于统一管理，适用于对服务器需求量较大的大型企业。由于内部空间限制，扩充性、散热性能和单机性能受限。一般比同等配置的塔式服务器贵2~3成。
刀片服务器 (blade server)	HAHD (High Availability High Density)高可用高密度。每一块刀片类似于一个独立的服务器。可运行自己的系统，服务于不同用户群。也可以通过软件集合成一个服务器集群。散热问题突出，价格较高。应用于大型数据中心或者需要大规模计算的领域，如银行、电信、金融行业以及互联网数据中心等。

AI服务器

AI服务器是一种能够提供人工智能（AI）的数据服务器。它既可以用来支持本地应用程序和网页，也可以为云和本地服务器提供复杂的AI模型和服务。AI服务器有助于为各种实时AI应用提供实时计算服务。 AI服务器主要有两种架构，一种是混合架构，可以将数据存储在本地，另一种是基于云平台的架构，使用远程存储技术和混合云存储（一种联合本地存储和云存储的技术）进行数据存储。从服务器的硬件架构来看，AI 服务器是采用异构形式的服务器，在异构方式上可以根据应用的范围采用不同的组合方式，如 CPU+GPU、CPU+TPU、CPU+其他的加速卡等。所以这里出现“异构计算”的概念。

特点：本质就是将GPU加入服务器，另外需要集成统一管理系统，将GPU资源统一管理调度。

Eg1：

华三的R5500LC G5 的拓扑图，相较于普通的服务器增加了很多GPU扩展。

Eg2: H3C：AMPHA 是 H3C 基于 Kubernetes 和 Slurm 自主开发的 AI 和 HPC 资源一体化管理的集群管理平台，是业内领先的将 AI 和 HPC 资源统一纳管的平台。

Eg3: 浪潮

除了CPU GPU，还有TPU/NPU等等

APU – Accelerated Processing Unit, 加速处理器，AMD公司推出加速图像处理芯片产品。

BPU – Brain Processing Unit,地平线公司主导的嵌入式处理器架构。

CPU – Central Processing Unit 中央处理器，目前PC core的主流产品。

DPU – Deep learning Processing Unit, 深度学习处理器，最早由国内深鉴科技提出;另说有Dataflow Processing Unit 数据流处理器， Wave Computing 公司提出的AI架构;Data storage Processing Unit，深圳大普微的智能固态硬盘处理器。

FPU – Floating Processing Unit 浮点计算单元，通用处理器中的浮点运算模块。

GPU – Graphics Processing Unit, 图形处理器，采用多线程SIMD架构，为图形处理而生。

HPU – Holographics Processing Unit 全息图像处理器，微软出品的全息计算芯片与设备。

IPU – Intelligence Processing Unit， Deep Mind投资的Graphcore公司出品的AI处理器产品。

MPU/MCU – Microprocessor/Micro controller Unit，微处理器/微控制器，一般用于低计算应用的RISC计算机体系架构产品，如ARM-M系列处理器。

NPU – Neural Network Processing Unit，神经网络处理器，是基于神经网络算法与加速的新型处理器总称，如中科院计算所/寒武纪公司出品的diannao系列。

RPU – Radio Processing Unit, 无线电处理器， Imagination Technologies 公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

TPU – Tensor Processing Unit 张量处理器， Google 公司推出的加速人工智能算法的专用处理器。目前一代TPU面向Inference，二代面向训练。

VPU – Vector Processing Unit 矢量处理器，Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。

WPU – Wearable Processing Unit，可穿戴处理器，Ineda Systems公司推出的可穿戴片上系统产品，包含GPU/MIPS CPU等IP。

XPU – 百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速，含256核。

ZPU – Zylin Processing Unit,由挪威Zylin 公司推出的一款32位开源处理器。

Scale In/Out/Up/Down

Scale Out 横向扩展

即Scale horizontally，横向扩展，向外扩展。称为集群系统。指由多个节点组成的系统，这种系统的扩展主要以水平扩展方式（指增加节点的方式）来进行。

Scale-out 通过将多个低性能的机器组成一个分布式集群来共同抵御高并发流量的冲击。比如向原有的web、邮件系统添加一个新机器。

Scale Up 纵向扩展

即Scale vertically）纵向扩展，向上扩展。称为单节点系统，指系统中只包括一个有效节点（如果需要HA时，可以将两个单节点以System Replication形式构成单节点的HA架构）。这种架构的系统只具有垂直扩展能力，当需要扩展系统时，通过在节点上增加更多的CPU、内存和硬盘来扩大系统的能力。

Scale-up通过购买性能更好的硬件提升系统的并发处理能力，比如：我们向原有的机器增加CPU、内存数。

无论是Scale Out，Scale Up，Scale In，实际上就是一种架构的概念，这些概念用在存储上可以，用在数据库上，网络上一样可以。

何时选择Scale-up或Scale-out呢？一般系统设计初期会考虑使用Scale-up，因为足够简单，堆砌硬件解决即可，但当系统并发超过单机的极限时，就要使用Scale-out了。

服务器逻辑结构

CPU是服务器的核心，类似于人的大脑。此服务器有2个CPU，通过QPI总线互连。
CPU连接速度较快的设备，比如内存、硬盘和PCIe卡(网卡、声卡、SSD卡、显卡)。
CPU优先访问本地的内存，可以通过QPI总线访问远端内存。
硬盘通过RAID控制卡与CPU相连。OS是安装在硬盘上。一般安装OS硬盘会做RAID.
pcie riser一般是指插在PCI-E接口上的功能扩展卡或转接卡。

是新一代的总线接口。它采用了目前业内流行的点对点串行连接，比起PCI以及更早期的计算机总线的共享并行架构，每个设备都有自己的专用连接，不需要向整个总线请求带宽，而且可以把数据传输率提高到一个很高的频率，达到PCI所不能提供的高带宽

CPU通过Direct Media Interface (DMI)2 与南桥相连。
南桥(芯片组)连接速度较慢的设备，如SATA盘、USB等。
南桥连接：
- TPM (安全模块)
- BIOS：一组固化到服务器主板内存芯片上程序(固件), 是服务器硬件与OS之间的抽象层，用来初始化硬件、检测硬件功能以及引导操作系统的任务。
- BMC是服务器的带外管理系统，用于管理单台的服务器。
  - RS232是串口。通过串口接入BMC和OS的字符界面。
  - VGA用于连接显示器或KVM等显示终端。
  - 网口用于登陆BMC WebUI。
  - Network Controller – Sideband Interface (NC-SI)使得BMC芯片能够使用主板上的网络接口。
  - BMC可以根据服务器的温度智能调节风扇速度。
  - 连接BMC的SD卡，类似黑匣子功能。

不同层级的互联技术

一文搞懂xPU的互联技术 - 知乎 (zhihu.com)

片间互联

UCIe

Universal Chiplet Interconnect Express (UCIe)® 是一种开放的行业标准互连，可在芯粒（Chiplet）之间提供高带宽、低延迟、节能且具有成本效益的封装连接。由英特尔、AMD、Arm、台积电和三星等众多行业巨头推动。

UltraFusion

苹果自研电脑芯片M1 Ultra，它将两个M1 Max芯片拼在一起，使得芯片各项硬件指标直接翻倍，这背后的关键技术即是苹果创新定制的封装架构UltraFusion，速到达到2.5TB/s。

NV-HBI

英伟达Blackwell里高达10TB/s全球最快Die-to-Die通信，采用的是一种叫做NV-HBI（High Bandwitdth Interface）的技术。

服务器内xPU互联

PCIe

典型的双GPU系统使用 PCI Express 连接到 CPU，GPU以最快的 PCIe 5.0 x 16速度64GBps（单向）进行通讯，PCIe是做点对点的。

PCIe Switch

NVLink 和 NVLink Switch

NVLink技术使GPU无需通过PCIe总线即可访问远程GPU内存

PCIe vs NVLink Switch

集群和数据中心的互联

简单说说算力网络：华为“万卡集群”组网实战 (qq.com)

简单说说算力网络：256台H100如何组建集群？ (qq.com)

AI芯片设计架构

多个品牌的 AI芯片的技术原理与架构 - 人工智能 - 电子发烧友网 (elecfans.com)

小白也能看懂的国内外 AI 芯片概述 - 知乎 (zhihu.com)

	华为海思的昇腾910	寒武纪的思元370	地平线的征程5	百度昆仑芯2	英伟达H100 H100SM
图片
	达芬奇架构	MLU架构 MLUarch03	双核BPU：地平线自研的第二代贝叶斯架构	昆仑架构：百度昆仑2芯片采用自研的第二代XPU架构	Hopper架构
	7nm	7nm	16nm	7nm	4nm
算力	半精度（FP16）算力：高达256TeraFLOPS（每秒万亿次浮点运算）整数精度（INT8）算力：可达512 TeraOPS（每秒万亿次整数运算）	最高256 TOPS（INT8），64 TOPS（FP16）。最大算力高达256TOPS（INT8精度）	单颗芯片AI算力最高可达128TOPS，能够处理大量的并行计算任务。	INT8整数精度算力达到256TeraOPS（每秒万亿次整数运算）。半精度（FP16）算力为128 TeraFLOPS（每秒万亿次浮点运算）。	FP64为67TFLOPS； FP32为989TFLOPS； FP16为1979TFLOPS； BF16为1979TFLOPS； INT8为3958TFLOPS
最大功耗	约350w	250w	30w	最大120w	700w
特点	配备有大量AICore（人工智能内核），例如提到的256个AICore。支持高速内存接口和通道，比如128通道全高清视频编解码能力	集成的晶体管数量：390亿个。内存支持：支持LPDDR5内存
应用		适用于云计算数据中心	自动驾驶、智能座舱、智能监控等车载AI	百度昆仑2芯片适用于云、端、边等多场景的AI计算需求。	机器学习、深度学习训练和推理、科学计算模拟、数据分析、自然语言处理等

AI芯片指标参数怎么看

硬件指标解读

	含义
架构	指处理器或GPU的设计结构。不同的架构会影响性能、功耗和兼容性。例如，NVIDIA的Ampere架构与Turing架构相比，在相同功耗下提供了更高的性能。
精度	在计算中指的是数值运算的准确程度。比如，单精度（FP32）、半精度（FP16）和整数精度（INT8）等。高精度通常意味着更准确但可能较慢的计算；低精度可以提高处理速度，但牺牲了一定的准确性。
算力	表示设备每秒能够执行的操作数量，通常以FLOPS（每秒浮点运算次数）为单位。它直接关系到设备处理复杂任务的能力。
内存	DRAM (Dynamic RAM): 动态随机存取存储器，需要定期刷新来保持数据，常见的有DDR3, DDR4, DDR5等。 SRAM (Static RAM): 静态随机存取存储器，不需要定期刷新，但成本较高，容量较小，常用于高速缓存。 GDDR (Graphics Double Data Rate): 专为显卡设计的高速DRAM，如GDDR5, GDDR6等。
访存带宽	指处理器访问内存的速度。更快的内存访问意味着更低的延迟和更好的性能。
片间互联	在同一芯片上的不同组件之间的连接方式。高效的片间互联可以减少通信延迟，提高整体性能。
系统互联	不同芯片或模块之间通过总线或其他互连技术进行通信的方式。良好的系统互联设计能确保高效的数据交换。
制程	制造半导体时使用的工艺节点，如7纳米、5纳米等。更先进的制程通常意味着更高的集成度、更低的功耗和更好的性能。
封装工艺	将裸片（die）安装到基板上并进行保护的技术。不同的封装工艺会影响到散热效率和电气性能。
散热方式	用于冷却硬件的方法，包括风冷、液冷等。有效的散热方案是保证硬件稳定运行的关键因素之一。
TDP	Thermal Design Power：热设计功率，指散热解决方案需要能够散去的最大热量，以瓦特为单位。TDP并不直接等于实际功耗，但它是一个重要的参考值。
核心频率	处理器核心的工作频率，以赫兹（Hz）为单位。更高的频率通常意味着更快的处理速度。
工作温度	设备在正常操作条件下的温度范围。保持在推荐的工作温度范围内有助于延长设备寿命并保证稳定性。
规格	述产品的物理尺寸和其他物理属性，如长度、宽度、高度等。
PCIe标识	PCI Express插槽的版本和通道数，如PCIe 4.0 x16。这决定了数据传输的带宽和支持的设备类型。
供电接口类型	设备所需的电源接口类型，如PCIe 6-pin, 8-pin等。这对于确保正确供电非常重要。
总线类型	数据传输所用的总线标准，如PCIe, SATA, USB等。不同的总线类型支持不同的传输速率和协议。
最大重量	对于显卡等板卡产品而言，指的是其最大允许的重量和尺寸限制，这对于确保安装兼容性和机箱空间管理很重要。
尺寸（仅板卡）	对于显卡等板卡产品而言，指的是其最大允许的重量和尺寸限制，这对于确保安装兼容性和机箱空间管理很重要。
视频硬解码	解码视频流速度
视频硬编码
ECC	一种内存错误检测和纠正技术。支持ECC的内存可以在一定程度上提高系统的可靠性和稳定性。
SMBUS(I2C)	一种简单的双向两线串行总线，用于系统内的管理和配置。SMBUS基于I2C，但在某些方面有所扩展。
支持标准