AI PC处理器架构变化:ARM低功耗、引入NPU算力、大模型落地端侧
ARM架构以简洁的指令集设计,快速执行每条命令,实现低功耗下的高效性能。其核心理念是节能和效率,为电池驱动设备提供了理想选择。相较之下,x86架构虽指令复杂,却能在单条指令中完成更多任务,强调性能和灵活性,成为高计算需求设备的不二之选。
ARM架构在移动和嵌入式市场占据主导地位,其高能效与低功耗特性备受青睐。相较之下,x86架构则以其卓越性能和丰富的软件生态,主导着桌面和服务器市场。
1、ARM架构因其低功耗的特点份额有望逐步提升
ARM架构的低功耗优势,源于其精简的指令集、优化的硬件实现和流水线设计。通过低功耗模式、减少晶体管数量和使用专用处理单元,以及对嵌入式系统和移动设备的深度优化,ARM处理器在低功耗应用场景中展现出卓越性能。
在AIPC场景中,ARM架构展现出卓越的能效比和高效的计算能力,同时维持低能耗。其高度定制化特性使芯片设计者能针对AI计算需求优化硬件架构。这种灵活性使ARM架构能在各种AI应用场景中提供优化解决方案。
苹果由x86架构转向ARM架构收获成功,是其市场份额上升的关键因素之一
在2020年,苹果进行了一次重大的技术转变,从x86架构的CPU转向了ARM架构CPU,并推出了全新的M系列芯片。这一里程碑式的事件在2020年11月10日得以实现,当时苹果正式发布了其首款自主研发的M1芯片。
这款芯片被广泛应用在多款苹果产品中,包括MacBook Air (2020 年末版)、Mac Mini(2020 年末版)、MacBook Pro(13 英寸,2020 年)、iMac、iPad Pro和iPad Air (第五代)。这次技术转变不仅标志着苹果从使用英特尔处理器转向使用自主研发的芯片,也预示着苹果在未来可能会继续推动技术创新,为消费者带来更加强大和高效的产品。
苹果宣称该芯片在所有低功耗中央处理器产品中性能最佳,同时具有最佳的性能功耗比。
苹果MacOS市场份额提升,有部分原因可能是M系列芯片高能低耗对于其mac产品销量的拉动。根据statcounter数据,2018年MacOS在PC操作系统的占比仅为12.84%,2023年提升至18.71%,而windows操作系统市场份额则从2018年的80.36%下降至2023年的68.28%,根据苹果公司公告数据,2020年四季度推出ARM架构的M芯片后,其mac产品线销售收入在1Q21环比上涨5%,同比上涨70%,增速显著高于全球PC销量的增速。
Rosetta 2确保苹果从x86架构转向ARM架构的过渡期平稳度过
苹果从Intel芯片转向自研ARM芯片,旨在实现硬件性能的个性化规划,以达成高效能与低能耗的完美融合。
苹果在x86至ARM架构的转型中,挑战重重:确保应用兼容性和性能的同时,还需巧妙平衡硬件设计、操作系统优化、用户体验、生态整合及市场竞争。
Rosetta 2使得macx86架构转向ARM架构平稳过渡。由于当时大量现有的Mac应用程序是为x86架构编写的,为了确保现有的x86应用能够在ARM架构的Mac上运行,苹果推出了Rosetta 2翻译层。Rosetta 2在运行时将x86指令翻译为ARM指令。这种翻译是动态进行的,意味着应用程序在启动和运行时,Rosetta 2会实时进行指令翻译,从而确保兼容性,对于用户而言,Rosetta 2的运行是透明的。
用户不需要进行任何额外的操作即可运行他们现有的x86应用程序,只需像往常一样打开应用程序即可。使用Rosetta 2翻译的应用程序与原生运行在x86设备上的体验几乎没有区别。这种无缝体验是苹果致力于确保过渡期间用户不会感受到明显差异的重要组成部分。
ARM架构完美契合苹果生态系统的一致性与连贯性需求。新ARM设备能无缝对接iPhone、iPad及其他Mac,实现高效协同。开发者更可在iOS和macOS平台间轻松移植应用,进一步巩固苹果生态的一体化与协同效应。
微软逐步完善ARM架构的生态系统
2021年微软推出了ARM64EC,可以将基于X86的应用程序代码转移到基于ARM的代码上,ARM64EC可以看作是连接 x86 和 ARM架构的重要桥梁,它通过提供兼容性和优化性能,促进了两种架构之间的互操作性和协同发展。
ARM64EC是一种应用二进制接口(ABI),旨在促进在ARM系统上运行x64应用程序的兼容性。这使得x64应用程序在WOA(Windows on ARM)设备上能够更高效地运行,实现原生执行ARM代码。为了使 ARM 设备能够运行 x86 应用程序,微软引入了 ARM64EC。
ARM64EC 允许开发者将现有的x64(即 x86-64)应用程序部分或全部移植到 ARM 平台上,而无需完全重写代码。通过支持 x86 应用程序,ARM64EC 使得 ARM 设备(如基于 ARM 的 Windows 笔记本电脑和平板电脑)能够运行更多的现有软件,从而扩大了这些设备的应用范围和吸引力。
ARM架构系列软件正逐步亮相。目前,Windows on ARM中已有87%应用为ARM原生应用,仅余13%需兼容层转译。
在2023年,高通骁龙X系列震撼登场后,高通与各大应用开发商紧密合作。2024年3月,谷歌也推出了Windows on ARM原生版完整Chrome浏览器,这款浏览器可在搭载高通骁龙的Windows PC上免费下载使用。
ARM架构市场份额有望逐年上涨,高通+微软联手发力WOA
Counterpoint Research预测,到2027年,基于ARM架构的笔记本电脑市场份额将增长至25%。这一数据展现了ARM架构在笔记本市场的潜力。
根据分析,当前市场上的ARM笔记本电脑主要来自苹果,搭载MacOS操作系统。然而,微软的Windows操作系统仍然是最受欢迎的选择。过去,ARM市场份额未能显著增长的主要原因是Windows应用程序与ARM架构的兼容性问题,但这一问题正在逐步得到解决。
高通+微软联手发力推动WOA,Copilot+PC的推出可能是WOA的重要转折点。
在Build 2024开发者大会前夕,5月20日微软发布了自家最新的“Copilot+PC”, 是专为 AI 设计的新型 Windows PC,有望开启Windows on ARM新时代。其他各大品牌同步推出Copilot+PC。微软不仅自己推出全新的Copilot+ PC,同时与各大 OEM 厂商(宏碁、华硕、戴尔、惠普、联想、三星)合作全新 Copilot+PC,于 6 月 18 日开始上市。
2、异构计算成为AIPC新品主流,引入NPU成为关键
引入NPU对于提升计算效率、降低能耗与成本具有重要意义。
NPU,神经网络计算的专家,高效处理并行任务,显著提升AI性能。如图像识别、自然语言处理及自动驾驶等领域,NPU能加速训练和推理,释放强大潜力。
2)能效与成本:在执行特定AI任务时,NPU的能效比显著高于通用处理器(如CPU、GPU)。这对于移动设备和嵌入式系统至关重要,因为这些设备对功耗和电池寿命有着严格的标准。
3)超强适应性与扩展性:现代NPU以可重构设计见长,能轻松应对各类AI模型和算法。其灵活性使其在各种应用场景中运行高效,满足多元计算需求。
AIPC处理器异构计算成为共性,增加NPU本质是为了进行低功耗计算
在硬件领域,英特尔、高通和AMD新一代AIPC处理器均采纳了"CPU+GPU+NPU"的异构架构。相较于传统的CPU+GPU,新增的NPU专注于人工神经网络计算。这种三芯片融合,旨在实现更迅速、更高效的边缘AI模型推理。
2023年12月英特尔推出首款面向AI PC的Meteor Lake酷睿Ultra处理器。酷睿Ultra处理器采用分离式模块架构,由四个独立的模块组成,并通过Foveros 3D封装技术连接。其计算模块首次采用Intel 4制程工艺打造,带有基于Redwood Cove架构的P-Core和基于Crestmont架构的E-Core;核显采用了全新的Alchemist Xe-LPG设计;SOC模块里面包含了2个全新的LP E-Core,用于新型低功耗负载,进一步优化节能与性能间的平衡。同时酷睿Ultra处理器还采用了英特尔首个用于客户端的片上AI加速器“神经网络处理单元(NPU)”,将高能效AI加速提升到了新的高度,带来2.5倍于上一代产品的能效表现。
根据公司官网信息,intel计划将在 2025 年之前在超过 1 亿台 PC 上实现人工智能 。
2024年6月,Intel正式发布下一代面向AIPC的移动处理器Lunar Lake,综合算力达到120TOPS,NPU算力达到48TOPS,同时能耗大幅降低。
Lunar Lake处理器AI总算力达到120TOPS,其中CPU可提供5 TOPS的算力,驱动轻度AI工作;GPU提供67 TOPS算力提供游戏与创作所需的AI性能;NPU提供48 TOPS算力能够提供AI辅助与创作等功能。经过重新设计,为 x86 的能效设定了新的标准,lunar lake再供电和电源管理方面大幅改进,采用更先进的工艺节点,相较上一代meteor lake能耗降低40%。目前Lunar Lake已有来自20家OEM厂商,超过80款设计,预计第三季度开始出货。
在AI应用方面,英特尔ultra处理器性能显著提升,较上一代性能提升70%,同时也领先AMD上一代产品。
根据英特尔公布的对比数据显示,与英特尔Core i7-1370P相比,Core Ultra 7 165H的Generative AI(生成式AI)性能提高了70%;与AMD Ryzen 7 7840U相比,英特尔Core Ultra 7 165H在GIMP Stable Diffusion性能方面提高了5.4倍,在Stable Difference A1111性能方面提高了3.2倍,在Adobe Premier Pro(ColorGrade+场景编辑+导出)方面提高了1.7倍,在Adobe Lightroom Classic(AI照片编辑)方面提高了1.5倍,DaVinci Resolve(渲染+AI遮罩+导出)的性能提高了1.2倍,Wondershare Filmora(A1FX+预览+导出)性能提高了1.1倍。
Ultra系列新一代产品,实现了显著的功耗降低。不仅性能大幅提升,功耗也同步优化。对比英特尔Core i7-1370P,Core Ultra 7 165H在Zoom视频会议中的功耗降低了38%。而在28W超薄设备上,与AMD Ryzen 7 7840U相比,空闲模式下的功耗更是低了79%。更为惊人的是,当功率突破20W后,其速度甚至超越了苹果M3。Ultra系列的功耗优化,不仅提升了性能,更为您的设备带来更长的使用寿命。
Ultra系列功耗降低的秘诀在于其独特的Tile分离模块设计,将中高、低、超低功耗以及GPU等负载场景和运算模块划分为不同Tile。在低功耗场景下,NPU或LPE独立承载,CPU和GPU降频或静置,从而实现显著的功耗削减。
英特尔酷睿Ultra引入全新3D高性能混合架构,由P-Core(性能核)、E-Core(能效核)和LP E-Core(低功耗能效核)组成。这一设计使处理器能够根据不同应用场景智能调整核心活动状态,实现性能与功耗的完美平衡。
AIPC处理器异构计算成为共性,增加NPU本质是为了进行低功耗计算
随着生成式AI在具有多样化需求和计算需求的垂直领域中的需求不断增加,对专为AI定制设计的全新计算架构的需求也随之增长。为此,我们首先需要一种全新的面向生成式AI的神经网络处理器(NPU),并借助异构处理器的组合,如中央处理器(CPU)和图形处理器(GPU)。通过将NPU与适当的处理器相结合,异构计算能够实现卓越的应用性能、能效和电池续航。
NPU专为实现以低功耗加速AI推理而全新打造,并随着新AI用例、模型和需求的发展不断演进。
根据高通《通过NPU和异构计算开启终端侧生成式AI》,在2015年,早期NPU面向音频和语音AI用例而设计,这些用例基于简单卷积神经网络并且主要需要标量和向量数学运算;2016年开始,拍照和视频AI用例大受欢迎,出现了基于transformer、循环神经网络、长短期记忆网络和更高维度的卷积神经网络等更复杂的全新模型,这些工作需要大量张量数学运算,因此NPU增加了张量加速器和卷积加速,大幅提升处理效率;2023年,LLM、LVM赋能的生成式AI使得典型模型的大小超过了一个数量级,因此还需要重点考虑内存和系统设计,通过减少内存数据传输以提高性能和能效。
3、大模型落地端侧提升设备对于内存的需求
内存,作为AI PC的核心元素,直接关联系统性能与AI任务的完成。随着AI模型的日益庞大和复杂,对内存的需求也相应提升。
在PC领域,微软的Copilot+ PC首发硬件需求为16GB DDR5/LPDDR5内存和256GB SSD/UFS或更大容量的存储。AI PC有望推动PC的平均存储容量提升。据集邦咨询预测,笔记本的DRAM平均搭载容量年增长率约为12.4%。随着AI PC的大规模生产,预计到2025年,这一增长趋势将更为显著。
随着手机代际AI的升级,DRAM需求有望迎来爆发式增长。尽管人工智能(AI)已在智能手机中应用多年,但高端设备所采用的大型语言模型(LLM)改进将推动DRAM需求飙升,同时加速最小NAND存储容量的淘汰。据YOLE预测,2023年,高端智能手机的平均DRAM容量将达到9GB。随着制造商逐步整合基于生成式AI的功能,预计到2024年,这一数字将逼近10GB。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-