存算一体：架构创新，打破算力极限

1 需求背景

在全球数据量呈指数级暴涨，算力相对于AI运算供不应求的现状下，存算一体技术主要解决了高算力带来的高能耗成本矛盾问题，有望实现降低一个数量级的单位算力能耗，在功耗敏感的百亿级AIoT设备上、高能耗的数据中心、自动驾驶等领域有望发挥其低功耗、低时延、高算力密度等优势。

在现有的成熟架构及工艺下，当前依靠制程技术进步，增加晶体管密度提升算力、降低功耗已逐步趋于物理极限，且成本逐步提高；

在冯诺依曼架构下，由于数据存储与运算单元分离，算力提升受限，功耗增加：

应对存储单元与计算单元分离的现状，存算一体技术思路应运而生，在器件单元上存储与计算单元融合，通过底层的架构创新解决冯诺依曼架构的固有瓶颈：

由于存储介质技术在近年来不断突破，此外AIoT时代对于设备的智能化、低功耗、体积小、低时延等特性提出了天然要求（而现有的技术路线未能很好的满足需求），在技术突破叠加市场需求的双重作用力下，存算一体技术当前已到达产业化爆发拐点：

相对于五十多年前CPU的诞生以及二十多年前GPU的诞生，当前存算一体技术仍处于早期阶段，未来依靠其更好的并行度、更好的能效比等特性，有望成为智能化时代的主流算力平台之一，与现有的算力解决方案互为补充。

存算一体是一种通过将数据存储单元与计算单元距离拉近、互相融合，从而提升访存带宽、减少访存功耗的技术。

近存计算：不改变计算单元和存储单元本身设计功能，通过采用先进的封装方式及合理的硬件布局和结构优化，增强二者间通信宽带，增大传输速率；本质上属于冯诺依曼架构，通过拉近存储单元和计算单元的距离，对“存储墙”进行优化。

存内计算：存储单元与计算单元完全融合，无独立计算单元，通过存储器颗粒上嵌入算法，由存储器芯片内部的存储单元完成计算操作；其设计难度更高，未来可提升的空间也更大，但需要获得代工厂许可支持。本文所探讨是存算一体/存内计算企业主要集中于这类。

分析存算一体，当前存算一体芯片研发企业/机构在成熟介质上的切入点集中在SRAM、Nor-Flash和DRAM等；部分学术机构选择切入RRAM等新型介质研发。

从存储介质的分类来讲，分为易失性存储器和非易失性存储器。

易失性存储器：即在正常关闭系统或者突然性、意外性关闭系统的时候，数据会丢失，成本高。如SRAM、DRAM；

非易失性存储器：在上述断电情况下数据不会丢失，成本低。如FLASH；

不同的存储介质在计算机架构中均承担着必要的工作任务，其中SRAM距离CPU最近，响应时间最快，存储容量较小，其次分别是DRAM、NAND-Flash等介质。

SRAM：CPU缓存（一个存储单元需要4-6个晶体管），特点是速度最快（纳秒级），不需要一直充电。

优势是存储密度高于SRAM，适合数据中心等处理大容量模型的场景；但与CMOS工艺不兼容，访存性能和能效不如SRAM，其次设计需要DRAM vendor的支持。基于DRAM的存算技术路线大致有四类，具体如下：

基于SRAM的近存计算：通常指采用大量片上SRAM作为缓存的计算架构，计算采用数字方式、精度较高、通常面向大算力场景，代表：Graphcore、Tenstorrent等；
基于SRAM的数字存内计算：改造SRAM阵列，加入数字计算逻辑单元，在SRAM阵列中支持MAC计算，进一步提升Tensor计算的性能、减少功耗，适合AI大算力场景，代表：后摩智能、苹芯、TSMC等；
基于SRAM的模拟存内计算：改造SRAM宏单元，利用电流、电荷累计等模拟计算方式，支持MAC计算，在低精度计算场景有低功耗的优势，适合边缘/物联网等低算力、低功耗的场景。代表：九天睿芯；

DRAM：内存条（一个存储单元仅需一个晶体管和一个小电容），占据58%的半导体存储市场份额，当前已突破20nm，往10nm过渡。

基于2D DRAM的近存计算：在DRAM芯片内部加入定制计算单元或者通用处理器，能够显著提升访存带宽，减少能耗，这种2D设计的好处是性价比高、可扩展性好，但是由于DRAM工艺的限制，能提供的计算密度受限，而且跨芯片间的通信带宽依旧受限，代表：Upmem、三星、海力士等；
基于2.5D DRAM的近存计算：利用2.5D集成技术，高性能计算芯片将HBM与处理单元集成在一起，提供大访存带宽，适用于大算力的场景，主要挑战是价格昂贵，功耗较高，代表：GPU、TPU、寒武纪等。
基于3D DRAM的近存计算：将计算单元与DRAM进行堆叠，甚至对HBM内部进行改造，把其中部分存储替换为计算单元，从而进一步提升带宽并减少访存功耗，相应的代价是增加了功耗密度、减少了存储容量等，代表：三星、平头哥等；
基于DRAM的存内计算：修改DRAM的存储阵列，来支持基本的计算逻辑，因为对DRAM修改较大，主要在学术界提出一些原型设计；

优势是存储密度高，但读写速度慢、擦写次数受限明显。

NAND Flash：如固态硬盘、U盘和内存；容量大，但读写速度极低

NOR Flash：代码型内存，主要存一些指令；如机顶盒、网关、路由器中嵌入代码的存储；容量较小且写入数据极低，但读速较快。

基于Flash的存算技术路线大致有两类，具体如下：

基于SSD的近存计算：也称为计算存储设备（Computational Storage Drive, CSD），在SSD控制器内/附近加入计算单元或者处理器，主要面向数据中心的大规模数据密集应用（如数据库，大数据分析等），代表：三星/Xilinx，ScaleFlux, NGD Systems等；
基于Flash的模拟存内计算：基于Flash的模拟存内计算功耗低，但是由于写入速度慢，且高精度（即每个cell存储多比特）数值写入有挑战，适合模型固定的低功耗应用场景，代表：知存科技、Mythic、闪忆科技等；