生成式AI模型,例如大语言模型和大视觉模型,需要大量的计算资源进行推理,这对于传统的CPU和GPU等通用处理器来说是一个挑战。
1 NPU和异构计算的优势
- NPU (神经网络处理器): 专门为AI推理设计的处理器,具有高性能、低功耗的特点,能够高效地执行神经网络运算。
- 异构计算:利用多种处理器协同工作,例如CPU、GPU、NPU等,可以发挥各自的优势,提升AI性能和能效。
高通Hexagon NPU:
- 系统级解决方案:高通对NPU进行定制设计,并与SoC系统架构和软件基础设施进行优化,以打造最佳的AI解决方案。
- 高性能低功耗:高通Hexagon NPU具有高性能、低功耗的特点,能够以低功耗实现持续稳定的高性能AI推理。
- 快速创新:高通能够快速进行NPU设计演进和扩展,以解决瓶颈问题并优化性能。
2 高通AI引擎
高通AI引擎是高通异构计算架构的核心,包含多个硬件和软件组件,能够加速骁龙和高通平台上的终端侧AI。
2.1 硬件组件
- Hexagon NPU:高通AI引擎中最关键的组件,提供高性能的AI计算能力。
- Adreno GPU:用于图形处理和AI并行计算。
- Kryo或Oryon CPU:用于顺序控制和低计算量AI工作负载。
- 传感器中枢:用于始终在线的AI处理,例如情境感知和传感器处理。
- 内存子系统:用于高效的数据传输和存储。
2.2 软件组件
- 高通AI软件栈:提供AI开发工具和框架,帮助开发者将AI模型部署到高通平台上,并进行优化。支持主流AI框架和runtime,例如TensorFlow、PyTorch、ONNX等,并集成了高通神经网络处理SDK和高通AI引擎Direct SDK,方便开发者访问AI硬件资源。
- 高通神经网络处理SDK:提供用于推理的API,帮助开发者访问AI硬件资源。
- 高通AI模型增效工具包(AIMET):提供模型优化工具,例如量化、压缩等,以提升模型的效率和性能。
- 高通AI Studio是一个集成了模型设计、优化、部署和数据分析的工具平台,帮助开发者更高效地开发AI应用。
3 混合AI架构
将AI计算任务在云端和终端设备之间进行分配,根据任务复杂度和用户需求进行动态调整。
3.1 分布式处理机制
- 以终端为中心的混合AI:终端设备负责大部分AI计算任务,云端仅用于处理复杂任务或提供额外的数据。
- 基于终端感知的混合AI:终端设备收集用户的输入和感知数据,并用于生成更个性化的提示,发送到云端进行推理。
- 终端与云端协同处理的混合AI:终端设备与云端协同工作,例如使用终端设备进行预测性推理,并将结果发送到云端进行验证。
3.2 优势
- 降低成本:将部分计算任务转移到终端设备,可以减少云端数据中心的计算成本。
- 降低能耗:终端设备的能耗通常低于云端数据中心,因此可以降低整体能耗。
- 提升性能和时延:终端设备可以提供更低的时延,并减少对网络带宽的需求。
- 提升隐私和安全:将部分计算任务在终端设备上执行,可以减少用户数据传输,并提升隐私和安全。
- 提升个性化:终端设备可以收集用户的个人信息和行为数据,并用于优化AI模型,提升用户体验。
4 终端侧AI的演进
4.1 早期探索阶段 (2007年以前)
- 通用处理器为主: 终端设备主要依赖CPU进行计算,AI应用较少且性能有限。
- 分立芯片: 一些特定功能如2D图形、音频、图像信号处理等需要使用独立的芯片,增加了功耗和体积。
4.2 AI引擎集成阶段 (2007-2015年)
- 高通AI引擎诞生: 2007年,高通推出首款Hexagon DSP,为后来的NPU发展奠定了基础。
- 集成AI引擎: 2015年,骁龙820处理器集成首个高通AI引擎,支持成像、音频和传感器运算,标志着AI能力的初步集成。
4.3 NPU快速发展阶段 (2015年至今)
- NPU功能演进: 从最初的音频和语音AI用例,发展到支持拍照、视频、语音识别等更复杂的应用。
- 模型和用例多样化: AI模型从简单的CNN发展到Transformer、LSTM等更复杂的模型,用例也从按需型发展到持续型和泛在型。
- NPU架构升级: 高通不断优化NPU架构,提升性能和能效,例如:
- Hexagon NPU: 从2015年至今,Hexagon NPU经历了多代演进,性能和能效不断提升,并支持INT4量化等特性。
- Adreno GPU: GPU除了图形处理,也开始支持AI并行处理,例如骁龙855的GPU支持FP32、FP16和INT8运算。
- 高通传感器中枢: 面向泛在型生成式AI应用的情境化信息处理,例如骁龙865的传感器中枢支持微切片推理和INT4硬件加速。
4.4 异构计算架构阶段
- 多样化处理器协同: CPU、GPU、NPU等不同处理器协同工作,充分发挥各自优势,例如高通AI引擎中的Hexagon NPU、Adreno GPU和Kryo CPU等。
- 系统级优化: 高通从系统架构、软件基础设施等层面进行优化,确保处理器协同工作的效率,例如骁龙平台的共享内存子系统。
4.5 生成式AI应用阶段
- 大模型终端运行: 随着NPU性能提升,越来越多的生成式AI模型能够在终端上运行,例如骁龙865支持Stable Diffusion等大模型。
- 混合AI架构: 云端和终端协同工作,根据模型和用例需求进行分布式处理,例如智能手机数字助手同时使用云端LLM和终端TTS模型。
4.6 未来趋势
- 更大规模模型: 随着NPU性能进一步提升,未来终端设备将支持更大规模的生成式AI模型。
- 多模态AI: 终端设备将能够处理更多类型的输入和输出,例如文本、语音、图像、视频等。
- 个性化体验: 终端设备将根据用户行为和喜好进行个性化定制,例如数字助手根据用户习惯推荐内容。
- 隐私和安全: 终端侧AI将更加注重用户隐私和安全,例如本地处理用户数据,避免数据泄露。
更多内容可下载:https://download.csdn.net/download/robinfang2019/89645278