AI PC处理器架-低功耗、NPU算力、大模型

news2024/11/15 11:15:36

 d5562459151980572285f430f6c247fa.jpeg

AI PC处理器架构变化:ARM低功耗、引入NPU算力、大模型落地端侧

   

d07bc4577dc4af27b115957497dcf2eb.jpeg


ARM架构以简洁的指令集设计,快速执行每条命令,实现低功耗下的高效性能。其核心理念是节能和效率,为电池驱动设备提供了理想选择。相较之下,x86架构虽指令复杂,却能在单条指令中完成更多任务,强调性能和灵活性,成为高计算需求设备的不二之选。

ARM架构在移动和嵌入式市场占据主导地位,其高能效与低功耗特性备受青睐。相较之下,x86架构则以其卓越性能和丰富的软件生态,主导着桌面和服务器市场。

1、ARM架构因其低功耗的特点份额有望逐步提升

ARM架构的低功耗优势,源于其精简的指令集、优化的硬件实现和流水线设计。通过低功耗模式、减少晶体管数量和使用专用处理单元,以及对嵌入式系统和移动设备的深度优化,ARM处理器在低功耗应用场景中展现出卓越性能。

在AIPC场景中,ARM架构展现出卓越的能效比和高效的计算能力,同时维持低能耗。其高度定制化特性使芯片设计者能针对AI计算需求优化硬件架构。这种灵活性使ARM架构能在各种AI应用场景中提供优化解决方案。

苹果由x86架构转向ARM架构收获成功,是其市场份额上升的关键因素之一

在2020年,苹果进行了一次重大的技术转变,从x86架构的CPU转向了ARM架构CPU,并推出了全新的M系列芯片。这一里程碑式的事件在2020年11月10日得以实现,当时苹果正式发布了其首款自主研发的M1芯片。

这款芯片被广泛应用在多款苹果产品中,包括MacBook Air (2020 年末版)、Mac Mini(2020 年末版)、MacBook Pro(13 英寸,2020 年)、iMac、iPad Pro和iPad Air (第五代)。这次技术转变不仅标志着苹果从使用英特尔处理器转向使用自主研发的芯片,也预示着苹果在未来可能会继续推动技术创新,为消费者带来更加强大和高效的产品。

苹果宣称该芯片在所有低功耗中央处理器产品中性能最佳,同时具有最佳的性能功耗比。

苹果MacOS市场份额提升,有部分原因可能是M系列芯片高能低耗对于其mac产品销量的拉动。根据statcounter数据,2018年MacOS在PC操作系统的占比仅为12.84%,2023年提升至18.71%,而windows操作系统市场份额则从2018年的80.36%下降至2023年的68.28%,根据苹果公司公告数据,2020年四季度推出ARM架构的M芯片后,其mac产品线销售收入在1Q21环比上涨5%,同比上涨70%,增速显著高于全球PC销量的增速。

Rosetta 2确保苹果从x86架构转向ARM架构的过渡期平稳度过

苹果从Intel芯片转向自研ARM芯片,旨在实现硬件性能的个性化规划,以达成高效能与低能耗的完美融合。

苹果在x86至ARM架构的转型中,挑战重重:确保应用兼容性和性能的同时,还需巧妙平衡硬件设计、操作系统优化、用户体验、生态整合及市场竞争。

Rosetta 2使得macx86架构转向ARM架构平稳过渡。由于当时大量现有的Mac应用程序是为x86架构编写的,为了确保现有的x86应用能够在ARM架构的Mac上运行,苹果推出了Rosetta 2翻译层。Rosetta 2在运行时将x86指令翻译为ARM指令。这种翻译是动态进行的,意味着应用程序在启动和运行时,Rosetta 2会实时进行指令翻译,从而确保兼容性,对于用户而言,Rosetta 2的运行是透明的。

用户不需要进行任何额外的操作即可运行他们现有的x86应用程序,只需像往常一样打开应用程序即可。使用Rosetta 2翻译的应用程序与原生运行在x86设备上的体验几乎没有区别。这种无缝体验是苹果致力于确保过渡期间用户不会感受到明显差异的重要组成部分。

ARM架构完美契合苹果生态系统的一致性与连贯性需求。新ARM设备能无缝对接iPhone、iPad及其他Mac,实现高效协同。开发者更可在iOS和macOS平台间轻松移植应用,进一步巩固苹果生态的一体化与协同效应。

微软逐步完善ARM架构的生态系统

2021年微软推出了ARM64EC,可以将基于X86的应用程序代码转移到基于ARM的代码上,ARM64EC可以看作是连接 x86 和 ARM架构的重要桥梁,它通过提供兼容性和优化性能,促进了两种架构之间的互操作性和协同发展。

ARM64EC是一种应用二进制接口(ABI),旨在促进在ARM系统上运行x64应用程序的兼容性。这使得x64应用程序在WOA(Windows on ARM)设备上能够更高效地运行,实现原生执行ARM代码。为了使 ARM 设备能够运行 x86 应用程序,微软引入了 ARM64EC。

ARM64EC 允许开发者将现有的x64(即 x86-64)应用程序部分或全部移植到 ARM 平台上,而无需完全重写代码。通过支持 x86 应用程序,ARM64EC 使得 ARM 设备(如基于 ARM 的 Windows 笔记本电脑和平板电脑)能够运行更多的现有软件,从而扩大了这些设备的应用范围和吸引力。

ARM架构系列软件正逐步亮相。目前,Windows on ARM中已有87%应用为ARM原生应用,仅余13%需兼容层转译。

在2023年,高通骁龙X系列震撼登场后,高通与各大应用开发商紧密合作。2024年3月,谷歌也推出了Windows on ARM原生版完整Chrome浏览器,这款浏览器可在搭载高通骁龙的Windows PC上免费下载使用。

ARM架构市场份额有望逐年上涨,高通+微软联手发力WOA

Counterpoint Research预测,到2027年,基于ARM架构的笔记本电脑市场份额将增长至25%。这一数据展现了ARM架构在笔记本市场的潜力。

根据分析,当前市场上的ARM笔记本电脑主要来自苹果,搭载MacOS操作系统。然而,微软的Windows操作系统仍然是最受欢迎的选择。过去,ARM市场份额未能显著增长的主要原因是Windows应用程序与ARM架构的兼容性问题,但这一问题正在逐步得到解决。

高通+微软联手发力推动WOA,Copilot+PC的推出可能是WOA的重要转折点。

在Build 2024开发者大会前夕,5月20日微软发布了自家最新的“Copilot+PC”, 是专为 AI 设计的新型 Windows PC,有望开启Windows on ARM新时代。其他各大品牌同步推出Copilot+PC。微软不仅自己推出全新的Copilot+ PC,同时与各大 OEM 厂商(宏碁、华硕、戴尔、惠普、联想、三星)合作全新 Copilot+PC,于 6 月 18 日开始上市。

2、异构计算成为AIPC新品主流,引入NPU成为关键

引入NPU对于提升计算效率、降低能耗与成本具有重要意义。

NPU,神经网络计算的专家,高效处理并行任务,显著提升AI性能。如图像识别、自然语言处理及自动驾驶等领域,NPU能加速训练和推理,释放强大潜力。

2)能效与成本:在执行特定AI任务时,NPU的能效比显著高于通用处理器(如CPU、GPU)。这对于移动设备和嵌入式系统至关重要,因为这些设备对功耗和电池寿命有着严格的标准。

3)超强适应性与扩展性:现代NPU以可重构设计见长,能轻松应对各类AI模型和算法。其灵活性使其在各种应用场景中运行高效,满足多元计算需求。

AIPC处理器异构计算成为共性,增加NPU本质是为了进行低功耗计算

在硬件领域,英特尔、高通和AMD新一代AIPC处理器均采纳了"CPU+GPU+NPU"的异构架构。相较于传统的CPU+GPU,新增的NPU专注于人工神经网络计算。这种三芯片融合,旨在实现更迅速、更高效的边缘AI模型推理。

2023年12月英特尔推出首款面向AI PC的Meteor Lake酷睿Ultra处理器。酷睿Ultra处理器采用分离式模块架构,由四个独立的模块组成,并通过Foveros 3D封装技术连接。其计算模块首次采用Intel 4制程工艺打造,带有基于Redwood Cove架构的P-Core和基于Crestmont架构的E-Core;核显采用了全新的Alchemist Xe-LPG设计;SOC模块里面包含了2个全新的LP E-Core,用于新型低功耗负载,进一步优化节能与性能间的平衡。同时酷睿Ultra处理器还采用了英特尔首个用于客户端的片上AI加速器“神经网络处理单元(NPU)”,将高能效AI加速提升到了新的高度,带来2.5倍于上一代产品的能效表现。

根据公司官网信息,intel计划将在 2025 年之前在超过 1 亿台 PC 上实现人工智能 。

2024年6月,Intel正式发布下一代面向AIPC的移动处理器Lunar Lake,综合算力达到120TOPS,NPU算力达到48TOPS,同时能耗大幅降低。

Lunar Lake处理器AI总算力达到120TOPS,其中CPU可提供5 TOPS的算力,驱动轻度AI工作;GPU提供67 TOPS算力提供游戏与创作所需的AI性能;NPU提供48 TOPS算力能够提供AI辅助与创作等功能。经过重新设计,为 x86 的能效设定了新的标准,lunar lake再供电和电源管理方面大幅改进,采用更先进的工艺节点,相较上一代meteor lake能耗降低40%。目前Lunar Lake已有来自20家OEM厂商,超过80款设计,预计第三季度开始出货。

在AI应用方面,英特尔ultra处理器性能显著提升,较上一代性能提升70%,同时也领先AMD上一代产品。

根据英特尔公布的对比数据显示,与英特尔Core i7-1370P相比,Core Ultra 7 165H的Generative AI(生成式AI)性能提高了70%;与AMD Ryzen 7 7840U相比,英特尔Core Ultra 7 165H在GIMP Stable Diffusion性能方面提高了5.4倍,在Stable Difference A1111性能方面提高了3.2倍,在Adobe Premier Pro(ColorGrade+场景编辑+导出)方面提高了1.7倍,在Adobe Lightroom Classic(AI照片编辑)方面提高了1.5倍,DaVinci Resolve(渲染+AI遮罩+导出)的性能提高了1.2倍,Wondershare Filmora(A1FX+预览+导出)性能提高了1.1倍。

Ultra系列新一代产品,实现了显著的功耗降低。不仅性能大幅提升,功耗也同步优化。对比英特尔Core i7-1370P,Core Ultra 7 165H在Zoom视频会议中的功耗降低了38%。而在28W超薄设备上,与AMD Ryzen 7 7840U相比,空闲模式下的功耗更是低了79%。更为惊人的是,当功率突破20W后,其速度甚至超越了苹果M3。Ultra系列的功耗优化,不仅提升了性能,更为您的设备带来更长的使用寿命。

Ultra系列功耗降低的秘诀在于其独特的Tile分离模块设计,将中高、低、超低功耗以及GPU等负载场景和运算模块划分为不同Tile。在低功耗场景下,NPU或LPE独立承载,CPU和GPU降频或静置,从而实现显著的功耗削减。

英特尔酷睿Ultra引入全新3D高性能混合架构,由P-Core(性能核)、E-Core(能效核)和LP E-Core(低功耗能效核)组成。这一设计使处理器能够根据不同应用场景智能调整核心活动状态,实现性能与功耗的完美平衡。

AIPC处理器异构计算成为共性,增加NPU本质是为了进行低功耗计算

随着生成式AI在具有多样化需求和计算需求的垂直领域中的需求不断增加,对专为AI定制设计的全新计算架构的需求也随之增长。为此,我们首先需要一种全新的面向生成式AI的神经网络处理器(NPU),并借助异构处理器的组合,如中央处理器(CPU)和图形处理器(GPU)。通过将NPU与适当的处理器相结合,异构计算能够实现卓越的应用性能、能效和电池续航。

NPU专为实现以低功耗加速AI推理而全新打造,并随着新AI用例、模型和需求的发展不断演进。

根据高通《通过NPU和异构计算开启终端侧生成式AI》,在2015年,早期NPU面向音频和语音AI用例而设计,这些用例基于简单卷积神经网络并且主要需要标量和向量数学运算;2016年开始,拍照和视频AI用例大受欢迎,出现了基于transformer、循环神经网络、长短期记忆网络和更高维度的卷积神经网络等更复杂的全新模型,这些工作需要大量张量数学运算,因此NPU增加了张量加速器和卷积加速,大幅提升处理效率;2023年,LLM、LVM赋能的生成式AI使得典型模型的大小超过了一个数量级,因此还需要重点考虑内存和系统设计,通过减少内存数据传输以提高性能和能效。

3、大模型落地端侧提升设备对于内存的需求

内存,作为AI PC的核心元素,直接关联系统性能与AI任务的完成。随着AI模型的日益庞大和复杂,对内存的需求也相应提升。

在PC领域,微软的Copilot+ PC首发硬件需求为16GB DDR5/LPDDR5内存和256GB SSD/UFS或更大容量的存储。AI PC有望推动PC的平均存储容量提升。据集邦咨询预测,笔记本的DRAM平均搭载容量年增长率约为12.4%。随着AI PC的大规模生产,预计到2025年,这一增长趋势将更为显著。

随着手机代际AI的升级,DRAM需求有望迎来爆发式增长。尽管人工智能(AI)已在智能手机中应用多年,但高端设备所采用的大型语言模型(LLM)改进将推动DRAM需求飙升,同时加速最小NAND存储容量的淘汰。据YOLE预测,2023年,高端智能手机的平均DRAM容量将达到9GB。随着制造商逐步整合基于生成式AI的功能,预计到2024年,这一数字将逼近10GB。


-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1976328.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux--shell脚本语言—/—<1>

一、shell简介 Shell是一种程序设计语言。作为命令语言,它交互式解释和执行用户输入的命令或者自动地解释和执行预先设定好的一连串的命令;作为程序设计语言,它定义了各种变量和参数,并提供了许多在高级语言中才具有的控制结构&am…

【practise】大数相加、大数相乘

通常,我们的int、long long类型都有最大的数字上限,也就是说再大了会有溢出问题,那么很大的数字是怎么进行运算的呢? 其中一种方法是把很大的数字转变成字符串存放到string中,然后用代码对字符串进行处理,…

PHP最新可用获取QQ昵称API接口源码_非第三方

PHP最新可用获取QQ昵称API接口源码,运行环境为php7-8都可以,内容为直接调用QQ空间接口 在需要展示QQ昵称处,直接调用以下函数就可以。 例如:get_qq_nick(123456)就会直接输出123456的qq号昵称。 API源码下载:QQ昵称AP…

【C语言】字符函数和字符串函数详解

🦄个人主页:小米里的大麦-CSDN博客 🎏所属专栏:https://blog.csdn.net/huangcancan666/category_12718530.html 🎁代码托管:黄灿灿 (huang-cancan-xbc) - Gitee.com ⚙️操作环境:Visual Studio 2022 目录 一、引言 内容一览 一、strlen …

一拖三无线充底座-带给你极致的便利生活

随着科技的不断进步,无线充电技术已经逐渐渗透到我们日常生活的方方面面,一拖三无线充底座作为其中的佼佼者,以其高效、便捷的特点受到广大用户的青睐。本文将从电磁感应原理、多线圈设计、频率匹配、电能传输、功率分配以及充电管理六个方面…

【Rust日报】终端表格查看工具

[new ver] Tabiew v0.6.1 Tabiew 是一个轻量级的、基于终端的应用程序,用于查看和查询分隔符分隔值格式的文档,例如 CSV 或 TSV 文件。 功能如下: 📊 表格视图: 通过易于导航的表格视图来探索数据。🔍 工作表视图: 深入…

深入剖析隐私安全测试:在数字化时代的守护者

大家好,我是一名_全栈_测试开发工程师,已经开源一套【自动化测试框架】和【测试管理平台】,欢迎大家关注我,和我一起【分享测试知识,交流测试技术,趣聊行业热点】。 一、引言 在日新月异的数字化浪潮中&…

FPGA开发——基于Quartus的工程建立以及下载仿真全过程

一、概述 在使用了这么久的FPGA之后,才发现前面光发了各个设计的设计文件和测试问价,还没有发过怎么利用我们编写的代码进行仿真和使用软件进行工程建立和下载验证的过程,今天就补发一篇Quartus的工程建立以及下载仿真全过程。 二、文件夹建…

程序执行的环境和预处理

目录: 思维导图 一 程序的翻译环境 二 程序的执行环境 三 C 语言程序的编译和链接 四 预定义符号 五 预处理指令 六 宏和函数对比 七 预处理操作符# 和 ## 八 命令定义 九 预处理指令#include 十 预处理指令#undef 十一 条件编译 WeChat_2024073122290…

JavaScript 打印 V 和倒 V 图案的程序(Program to print V and inverted-V pattern)

倒 V 型模式:给定 n 的值,打印倒 V 型模式。示例: 输入:n 5 输出 : E D D C C B B A A 输入:n 7 输出 : G F F E E D D C C B B A…

中药养发护发

按照中医理论,头发和肝肾有密切联系,肝主血,肾藏精, 其华在发,肝肾强健,上荣于头,则毛发乌黑浓密. 中药育发的应用 以当归,天麻,桑疹子养血润发,配合干姜祛风活血,能通畅经络, 加快循环,激活毛囊,能促进皮肤组织营养成分吸收和废弃物的排泄,改善 头发生态. 用苦参 皂角 清热化…

yum仓库的制作与使用

目录 前言: 1 查看系统内核 2 获取网络源 3 搭建yum网络仓库 4 rpm包的下载 4.1 将rpm包下载至本地 4.2 对下载的rpm包进行备份 5 制作本地yum源 5.1 软件仓库制作工具createrepo 5.2 使用createrepo创建本地yum仓库 6 搭建docker本地仓库 前言&#x…

【Dash】使用 HTML 和 CSS 创建图表

一、Styling Your App The examples in the previous section used Dash HTML Components to build a simple app layout, but you can style your app to look more professional. This section will give a brief overview of the multiple tools that you can use to enhan…

Scalable Diffusion Models with Transformers(DIT)代码笔记

完整代码来源:DiT DiT模型主要是在diffusion中,使用transformer模型替换了UNet模型,使用class来控制图像生成。 根据论文,模型越大,patch size 越小,FID越小。 模型越大,参数越多,pa…

3.罗马数字转数字

3.罗马数字转数字 题目题目分析 题目 题目分析 基础思路是先想到键值对,然后遍历字符串利用键值对匹配来计算值,要注意处理IV,IX之类需要将当前处理字符与前一个字符进行比较。 class Solution { public:int romanToInt(string s) {//这个函…

项目负责人视角:结构化思考在竞赛中的力量

项目负责人视角:结构化思考在竞赛中的力量 前言结构化思考的定义与重要性结构化思考的五个关键步骤1. 明确问题2. 问题分解3. 优先级排序4. 制定行动计划5. 执行与监控 结构化思考的实际应用案例结语 前言 在这个充满挑战和机遇的时代,项目管理已成为企业…

Nero Lens 智图 - 适用于 iOS 和 iPadOS 的专业图片处理 App

首先是手机端的无损放大 App:Nero Lens 智图,适用于 iOS 和 iPadOS,不仅可以放大,还有多种 AI 图片增强功能。 使用这款 App 可以通过 AI 模型智能放大可达 400%,还有老照片去划痕、上色,抠图移除背景、照…

数论第四节:不定方程(习题)

文章目录 例1例2例3例4例5 例1 解下列不定方程: ( a ) 15 x 25 y 100 (a)15x25y100 (a)15x25y100 ( b ) 306 x − 360 y 630 (b)306x-360y630 (b)306x−360y630 (a)解: (15,25)5,且5|100,所以方程有解。 方程两边同时除以(15,24)&…

53 SSLVPN IP 接入

(1) 配置接口IP地址 # 根据组网图中规划的信息,配置各接口的IP地址,具体配置步骤如下。 <Device> system-view [Device] interface gigabitethernet 1/2/5/1 [Device-GigabitEthernet1/2/5/1] ip address 1.1.1.2 255.255.255.0 [Device-GigabitEthernet1/2/…

Unity获取Animator动画播放完成事件

整理了一些在日常经验中处理动画播放完成事件的方法 方法: 1.Dotween配合异步实现 2.状态机计时方法实现 3.原生动画行为方法实现 方法一&#xff1a;Dotween异步方法 using UnityEngine; using System.Threading.Tasks; using DG.Tweening;public class PlayerAnimAsync : M…