引言:
具身智能(Emboided Al)是指通过身体与环境的动态互动,实现对世界的感知、认知和行为控制的智能系统。具身智能强调的是智能体与环境的交互/学习/改变,而不仅仅是身体本身。具身智能的核心要素体现在智能体通过感知-推理-行动(sense-plan-act)的交互模式,与真实世界进行实时闭环反馈的互动。此外,具身智能应展现出类似动物的行为灵活性,并能从稀疏的数据观察中做出一般性的推断。总的来说,具身智能就是集成环境理解、智能交互、认知推理、规划执行于一体的系统化方案。
图1 一种具身智能实现方案
在AI技术层面,具身智能主要依赖于多模态感知系统,这些系统整合视觉、触觉、听觉和位置感知等多种感知模式来收集环境数据,从而全面理解周围环境。具身智能在商业应用方面已展现出广泛的潜力,例如在服务行业,智能机器人能够在酒店、医院和家庭等环境中进行导航、清洁和搬运等任务,可以显著提高服务效率和质量。在自动驾驶领域,具身智能技术通过环境感知、决策制定和路径规划,也可以增强了交通系统的安全性。具身智能在工业自动化中也表现出色,可使机器人能够进行定制化的装配和质量检查,降低生产成本。
中国具身智能市场在AI算法的推动下已经实现了显著增长。据2023年数据显示,市场规模已达到3,647亿元人民币。预计随着AI算法的进一步成熟以及大模型与传动控制技术的结合,到2027年市场规模将扩大至6,328.2亿元人民币。这一增长受到了技术革新和政策支持的双重催化。在具身智能的发展过程中,集成电路和AI芯片扮演着关键角色。AI芯片的实时处理能力是支持具身智能系统如人形机器人在复杂环境中进行高效动作控制的核心。由于云计算在处理实时任务时存在延迟,本地化的AI芯片处理能力因此变得尤为重要,它能在无需依赖云端的情况下快速响应各种传感器输入,处理复杂的决策和控制算法。
目前,普通AI芯片虽然功能强大,但其高功耗性质限制了在移动机器人等端侧设备的应用。存内计算技术(In-memory computing)的发展,通过在存储芯片中直接进行数据处理,大幅降低了数据传输和处理所需的能量,从而能有效扩展具身智能设备在工业自动化、医疗、物流和交通等领域的应用场景。这项技术不仅提升了处理效率,还拓宽了具身智能市场的潜在应用领域。
图2 (a)普通AI芯片采用的冯诺依曼架构;(b)存算一体架构
存算一体芯片将存储和计算功能整合在同一片芯片中,以通过底层的架构创新解决冯诺依曼架构的固有瓶颈。这种集成化设计的优势是打破存储墙,消除不必要的数据搬移延迟和功耗,并使用存储单元提升算力,成百上千倍的提高计算效率,降低成本。尽管目前存算一体技术处于起步阶段,但其将为具身智能和大数据计算、感存算一体等应用方向带来新的可能性。
后文将初步探讨存内计算技术在具身智能产业中的应用潜力,分析其对实时性、能效比和数据密集型计算的优势,以及如何通过技术创新和系统集成提升具身智能设备的性能和市场竞争力。
- 存内计算芯片在具身智能应用行业的可能性
具身智能作为人工智能的下一个浪潮,相比传统的工业机器人、协作机器人等,其有着智能化程度高、工作场景限制小、能够自主规划复杂工作等特点,也由此对部署在底层的AI芯片的实时性、能效比、算力、集成度等参数提出了更高的需求。下面将从上述提出的需求出发,详细讨论存内计算芯片在具身智能行业的可能性。
1、实时性
实时性是具身智能的一个核心特性,它使得智能系统能够在真实世界中及时学习并迅速反馈。具备实时性的具身智能能够在接收到新信息或遇到新环境时立即做出响应。例如,在实时语音转写应用方面,具身智能通常在本地实时地进行语音转写和处理,不仅减少了延迟还实现了更加丰富和多样化的交互体验,与此相比传统的人工智能依赖于预训练的数据,在面对实时变化的环境时难以快速反应。而具身智能这种实时性的特点也要求AI芯片具备高效的特征即低延迟、高带宽、实时决策等。
图3 (a)模拟式存内计算基本结构;(b)数字式存内计算基本结构
存内计算芯片在实现实时性这方面采取了多种技术手段。首先,在硬件架构方面(图3),存内计算芯片将存储和计算单元集成在同一芯片上,使得数据可以直接在存储器内部进行计算,在显著降低数据存取的延迟的同时提高了数据的并行处理速度。例如,具身智能上的传感器数据可以直接在存储器内部进行处理,无需传输到中央处理器进行计算,从而实现快速响应。其次,在算法优化方面(图4(a)),通过量化和剪枝等技术充分发挥了存内计算的优势,以减少计算复杂度并提升计算效率和实时性。量化技术通过减少计算所需的位宽,使得计算更加高效;剪枝技术通过移除冗余的神经网络连接,减少计算量,从而提高计算速度。最后,在加速器架构设计方面(图4(b)),一些存内计算芯片集成了专用的硬件加速器以处理特定类型的计算任务(如卷积运算、矩阵乘法等)。这些硬件加速器可以在处理特定任务时显著提升计算速度和效率。例如,在深度学习应用中,卷积加速器可以大幅提高卷积神经网络的处理速度,实现实时的图像识别和分类。
(a) (b)
图4 (a)量化和剪枝;(b)基于忆阻器的存算一体神经网络加速器PRIME
2、能效比
能效比在具身智能中具有至关重要的作用,其的影响不仅体现在设备的续航和性能上,还直接关系到具身智能系统的实际应用和推广。高能效比使具身智能设备在有限电池容量下实现更长的续航,同时还减少了设备运行时产生的热量以提高设备的可靠性和用户安全。此外,高能效比允许设备在功耗限制内实现更高计算性能,从而增强系统智能化和响应速度。
存内计算芯片通过器件、架构、电路、工艺的协同创新,突破了冯诺依曼架构的限制以实现高能效比。在器件上,以MRAM、RRAM、PARAM等为代表的新型非易失性存储器介质的存内计算芯片正在由基础研究逐步向产业化迈进。在架构上,存算一体芯片采用了如近存处理或处理内存等创新计算架构。通过优化数据流和任务分配,这些新型架构提高了计算效率和能效比。在电路上,存算一体芯片通过采用低功耗设计技术和电路级的优化,降低了系统的动态功耗并使得芯片在处理复杂计算任务时更加节能高效。在工艺上,目前业界上普遍采用3D封装和高带宽内存等技术使得存储和计算单元可以更紧密地集成在一起,以此提高器件的可靠性和性能并使芯片能够在更高效的情况下运行。
3、数据密集型计算
具身智能集感知、智能、执行为一体,其通过传感器、执行器等不断与外界产生交互,通过一次次自主学习并发现最优的行动策略,这要求具身智能具有高速的数据采集、传输和处理能力。例如在图像识别方面,对于资源有限的机器人处理系统将出现数据量、AI计算能力和低延迟的瓶颈问题,这对作为加速人工智能训练和推理任务的AI芯片提出了更高的算力要求。
得益于上文所述的关于存算一体芯片的非冯诺依曼架构带来的高能效和高带宽等特点,存算一体芯片在提高算力方面具有得天独厚的优势,特别是在数据密集型计算任务中。在传统架构下数据需要频繁传输,不仅增加延迟还消耗大量能量,而存算一体芯片通过在存储单元内部完成计算任务,减少了数据传输次数,实现了更高的算力和能效比。图3列出了现阶段常见的AI芯片,相较于GPU、FPGA、ASIC等解决方案,存算一体具有更高的算力(1000TOPS以上),更高能效(超过10-100TOPS/W),并且其能绕过先进制程封锁,兼顾更强通用性与更高性价比,算力发展空间巨大。
图5 现有AI芯片对比
4、高系统集成度
当前,先进封装技术能在不单纯依靠芯片制程工艺实现突破的情况下,通过晶圆级封装、面板级封装和系统级封装,提高产品集成度和功能多样化,满足终端应用对芯片轻薄、低功耗、高性能的需求,同时大幅降低芯片成本。由于存内计算芯片自身存在的架构特点使得其本身具有高系统集成度,特别是与可重构芯片技术、晶圆级芯片技术和三维集成技术的结合更加充分发挥了存内计算芯片的内在优势。
- 可重构芯片技术:将存内计算技术与可重构芯片技术结合,可以在存储单元内实现灵活的计算功能,从而提高了系统的适应性和灵活性。随着先进封装技术的发展,存算一体芯片结合2.5D/3D/Chiplet 等先进封装技术,可以将不同工艺节点下的 CPU/GPU/存算一体芯片等集成化,充分发挥各自的优势,弥补各自的不足,以实现系统更高的性能。
- 晶圆级芯片技术:将存内计算技术应用于晶圆级芯片技术中,可以在晶圆内部实现大规模的存内计算单元,从而提高整体系统的计算能力和效率。这种集成通过物理上的接近性,进一步减少了芯片间数据传输的延迟和能耗。晶圆级封装技术使得多个独立芯片能够在微米级距离内互联,共享资源和协同工作,从而大幅提高整体系统的性能和响应速度。
- 三维集成技术:三维集成技术将多个芯片垂直堆叠在一起,实现更高的集成度和性能密度。结合存内计算技术和三维集成技术,可以在垂直方向上实现存储和计算单元的堆叠,例如如图4所示,利用硅穿孔技术(TSV)和玻璃通孔技术(TGV),以此减少数据传输距离,提高数据传输速度,同时节省芯片面积,实现更高效的数据处理和计算。
(a)
(b)
图6 (a)硅穿孔TSV封装技术工序;(b)TGV工艺流程
5、应用场景举例
目前知存科技已经拥有较为成熟的存算一体AI芯片产品,涉及语音和视频两种方向,可用于服务机器人、VR/AR智能玩具、公共场所便民服务、无人机摄影、自动驾驶等众多场景。已经发布的WTM-2和WTM-8分别采用了40nm和28nm的制造工艺实现存内计算架构搭载神经网络的设计,具有高能效的独特优势,均已实现了量产。
其中WTM-2支持RISC-V指令集以及多种外设接口,已经实现了满足端侧算力需求的语音识别等功能。在具体应用上,WTM-2搭载连续语音识别(ASR)模型可以支持40-300词的连续识别,并配套AI降噪技术,适用于酒店、公共交通、游戏等多种应用场景的拾音。此外,WTM-2还具有关键词唤醒功能,可在待机时进一步降低功耗。同时,知存科技也提供了开源的评估板测试平台,可以使采购方更方便地测试搭载不同AI模型的效果。
知存科技近期推出的WTM-8系列产品芯片拥有超过24 Tops的计算能力和64MB的参数容量,是针对高性能成像和快速视频处理的AI视觉芯片。作为全球首款存内计算视觉芯片,WTM-8支持Linux系统能够完成4K图像处理120FPS的运算任务。WTM-8不但适用于运动相机、无人驾驶等应用场景,而且针对AR/VR技术已做出优化。除了基础的AI深度信息、运动补偿、降噪和眼球追踪+注视点渲染功能,WTM-8可以实现10ms超低延迟Video See Through技术,同时可以矫正设备输出的图像畸变,在未来的虚拟/增强现实风口中可以发挥巨大的价值。
图7 WTM-8运动模糊与运动补偿功能
从上述对存内计算芯片在具身智能行业的可能性的分析中,可以看出存内计算芯片具有巨大的潜力:首先其突破了现有CPU和GPU的“存储墙”和“功耗墙”瓶颈,实现了实现处理和高能效比;其次,存内计算芯片利用自身的特点提高了系统的算力;最后其通过与先进封装集成技术的协同创新,提高了整体的集成度。展望未来,存内计算芯片将前移至感知端,向“极致低功耗”迈进;后移至边缘端/云端,向“极致大算力”迈进;协同异构架构与异构集成,实现合力突围; 驱动EDA设计工具与应用工具链开发,加速规模化量产应用。
- 2024年中国具身智能行业研究:知行合一,拥抱AI新范式(独占版)-头豹科创网 (leadleo.com)
- 年度盘点⑤:AI的下一波浪潮,一文读懂具身智能-36氪 (36kr.com)
- 具身智能_哔哩哔哩_bilibili
- 具身智能赛道爆发的前夕,我们应该了解些什么?(上)|Z研究第 5 期 (qq.com)
- SSI-2023-0311.pdf (scichina.com)
- 大模型学习路线(5)—— 大模型压缩(量化、剪枝、蒸馏、低秩分解),推理(vllm)_大模型量化和vllm区别-CSDN博客
- Chi P, Li S, Xu C, et al. PRIME: a novel processing-in-memory architecture for neural network computation in ReRAM-based main memory. In: Proceedings of the 43rd International Symposium on Computer Architecture, 2016. 27–39.
- 稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图_澎湃号·湃客_澎湃新闻-The Paper
- 景气向上,存算先行——半导体行业2024年中期策略报告
- WTM-8系列_知存科技 | 国际领先的存内计算芯片企业 (witintech.com)