NPU 与 GPU 相比,有什么差别?| 技术速览

news2025/1/12 15:52:34

编者按: 随着2024年被业界誉为“AI PC元年”,各大笔记本电脑厂商纷纷推出搭载NPU的全新AI PC,而在介绍产品性能时,“NPU”一词频频被提及。但NPU和我们所熟知的GPU之间的区别究竟是什么?

我们今天为大家分享的这篇文章将和大家一起初探NPU vs GPU。简而言之,NPU专为加速AI任务而设计,包括深度学习和推理,能够高效地处理大量数据,并利用专用存储器快速执行复杂的AI算法。与GPU相比,NPU体积更小、成本更低、能耗更小,且在特定AI任务中表现更优。

作者 | Pure Storage

编译 | 岳扬

如今,人工智能领域的软硬件很多都是专门为人工智能及神经网络操作的优化而定制的。这其中就包括神经网络处理单元(NPU),大家通常会将这种硬件与图形处理器(GPU)进行对比,因为两者都能加快人工智能任务的处理速度。NPU 这种硬件已经越来越常见了,它们专门为高效完成AI/ML任务而设计。但它们之间究竟有何不同呢?

接下来,我们将简要探讨 NPU 和 GPU 的区别,并考察、分析每种处理器的优势和不足。

01 NPU 是什么?

NPU 是神经网络处理单元(Neural Processing Unit)的缩写,这是一种用于提升人工智能和神经网络相关任务性能的专用硬件组件。

乍听之下,NPUs 可能会被误认为是仅限于科研实验室或军事基地的高科技产品,但实际上,虽然 NPUs 是一项较新的技术,但它们正变得越来越常见。不久之后,我们就能在台式机和笔记本电脑中见到 NPUs 的身影。目前,大多数现代智能手机,如近几年的 iPhone、Google Pixel 和三星 Galaxy,都已经在其主 CPU 中集成了 NPUs。

信不信由你,这张幻灯片是从 2013 年高通的 SoC(System-on-a-Chip)展示会上截取的。而“NPU”这一术语直到十年后才开始受到广泛关注。

NPU(神经网络处理单元)支持神经网络引擎和网络算法,正如其名称所示,这些算法不仅可用于已高度成熟的应用场景,比如自动驾驶(autonomous driving)和自然语言处理(NLP),也应用于人脸识别、语音识别和图像处理等日常生活场景。

02 GPU 是什么?

GPU 是图形处理单元(Graphics Processing Unit)的缩写。最初是为电子游戏和多媒体应用程序中的图形渲染场景而设计开发的,但现在 GPU 的用途已经被大大扩展,被广泛应用于各种需要并行处理复杂计算的应用场景。

GPU 的独特优势在于能够快速高效地并行处理数千个小任务,非常适合处理需要大量并行计算的复杂任务,比如图形渲染(rendering graphics)、物理模拟(simulating physics),甚至训练神经网络(training neural networks)。

03 NPU 与 GPU 的架构差异

从硬件架构上看,NPU 比 GPU 更适合进行并行计算。NPU 拥有更多的小型处理单元(smaller processing units),与 GPU 相比,还配备有专门的内存体系结构(memory hierarchies)和数据流优化策略(data flow optimizations),使得它们对深度学习任务的处理特别高效。相比之下,GPU 具有更多的多功能内核(versatile cores),这些内核通常可并行处理多种计算任务,但 NPU 对神经网络算法进行了针对性的优化设计。

NPU 特别擅长处理短期且重复性的任务。集成到现代计算机系统中后,NPU 可以减轻 GPU 处理神经网络时固有矩阵运算的负担,使 GPU 能够专注于图形渲染或通用计算任务。

与 GPU 相比,NPU 在密集型深度学习计算任务中表现更佳。自然语言处理(NLP)、语音识别和计算机视觉等应用场景均是 NPU 相对于 GPU 表现更佳的领域。GPU 的架构更为通用,但在处理大语言模型或边缘计算应用时可能难以与 NPU 相匹敌。

04 NPU 与 GPU 的性能差异

将它们直接进行比较时,NPU 与 GPU 最大的性能差异体现在功耗和移动设备的电池续航时间上。由于 NPU 是专门为神经网络操作而设计的,因此 NPU 能够以与 GPU 相近的处理速度完成同样的计算任务,但是消耗的电量要少得多。

NPU 和 GPU 在处理神经网络任务时表现出的不同性能,主要是因为神经网络本身的特点和应用需求,而不是简单地归因于这两种硬件架构上的不同。NPU 在硬件架构上针对 AI/ML 计算任务进行了优化,因此在处理最复杂的计算任务(如深度学习模型的推理和训练)时超越 GPU。

NPU内置的专门用于矩阵乘法(matrix multiplications)和激活函数(activation functions)的硬件,使得在实时语言翻译、自动驾驶汽车🚗图像识别以及医疗图像分析等任务中,NPU在性能和效率上均优于GPU。

05 如何集成?数据存储方面的需求如何?

在企业层面,NPU 可以融入现有的基础设施和数据处理流程。NPU 可与 CPU、GPU 及其他计算加速硬件共同部署于数据中心,共同为 AI 任务提供强大的算力。然而,当所有 AI/ML 计算任务都被整合到企业数据中心中时,可能会出现数据访问和数据存储等方面的问题。

经过全面优化的 NPU 和 GPU 在处理 AI/ML 计算任务时可以以极快的速度处理数据,以至于传统的存储系统可能难以跟上,从而导致数据检索和处理出现潜在瓶颈(potential bottlenecks)。

在实际应用中,NPU 并不需要特定的数据存储基础设施 —— 然而,要以峰值效率运行 NPU,则必须让它们能够极其快速地访问庞大的数据集。NPU在执行 AI/ML 任务时,需要大量数据来训练模型,并对新数据进行准确预测,同时要求快速的数据排序、分类、访问、修改和存储能力。企业级的解决方案通常是采用闪存存储(flash storage)和全托管的存储基础设施(holistically managed storage infrastructures)。

简而言之,NPU 是专门为执行神经网络操作而设计和构建的,因此在处理与 AI/ML 操作相关的小型重复性任务时特别有效。

乍一看,GPU 与 NPU 很相似:都是为同时执行小型操作而设计的硬件组件。然而,由于 NPU 对矩阵乘法和激活函数这样的任务进行了针对性的优化,因此在神经网络的计算任务方面具有明显优势。这使得 NPU 在处理深度学习计算任务方面优于 GPU,尤其是在功耗和处理速度方面。

原文链接:

https://www.techspot.com/news/103413-npu-vs-gpu-what-difference.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2131133.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RS485隔离方案对比

RS485总线作为一种通用串口通信总线,在工业智能仪表、通讯设备等领域中应用广泛,得益于其优秀的抗干扰能力、长距离传输能力以及高数据传输速率。然而,在实际应用中,RS485总线在面临复杂电磁环境和远距离通信时,可能会受到各种电气干扰,导致信号传输不稳定,甚至可能损坏…

STM32G474读写FLASH

STM32G474读写FLASH主要用来将FLASH的部分页用来存储用户数据,以及分析是如何将“主FLASH存储器”作为引导区。 1、FLASH说明 STM32片内的FLASH分成两部分:主存储块、信息块。 “主FLASH存储器”用来存放用户程序,也就是我们写的程序,都存放在这里。 “…

LabVIEW编程快速提升的技术

在LabVIEW程序员的成长过程中,很多技术和概念看似简单、常用,但真正掌握并能熟练运用,往往需要踏踏实实的实践与积累。没有什么是能够一蹴而就的,唯有通过不断的专注与深入,才能获得显著的提升。要想在LabVIEW开发上取…

Maven 常见问题以及常用命令

常见问题 : 1. 识别不了maven项目 mvn clean install -Dmaven.test.skiptrue //构建 2. 打jar包时报异常 指定下jdk版本 常用命令: mvn clean mvn package mvn install mvn deploy

电气负载模拟器

电气负载仿真的概念涉及控制电力电子转换器,使其行为类似于实际电气负载。例如,电压源逆变器 (VSI) 可以仿真感应电机。在不同情况下,负载仿真器的使用至关重要。它有助于分析在各种负载条件和环境下将多台机器连接到电网的可行性。的部分是&…

【数据结构初阶】栈接口实现及经典OJ题超详解

文章目录 1. 概念与结构1. 1 栈底层结构选型 2. 栈实现2. 1 栈的定义2. 2 栈的初始化2. 3 入栈2. 4 判空2. 5 出栈2. 6 取栈顶元素2. 7 栈大小2. 8 栈销毁2. 9 打印 3. 经典OJ题3. 1 有效的括号 1. 概念与结构 栈是一种特殊的线性表,其只允许在固定的一端进行插入和…

IMS 注册流程(详细)

目录 业务模型 图1 EPC 网络附着示意图 图2 IMS 网络注册示意图 注册信令流程 图3 基本注册流程(EPC网络-融合HLR/HSS) IMS 注册流程 01:UE->P-CSCF 02:P-CSCF->I-CSCF 03:I-CSCF 处理 04:…

组成原理:体系结构,CPU,存储器,Cache

1,系统架构 1.1,组成结构 【硬件】是指计算机的实体部分,它由看得见摸得着的各种电子元件,各类光、电、机设备的实物组成。所有硬件通过总线和接口连接在一起,构成一台完整的计算机。 (1)运算器…

Spark的介绍

一、分布式的思想 不管是数据也好,计算也好,都没有最大的电脑,而是多个小电脑组合而成。 存储:将3T的文件拆分成若干个小文件,例如每500M一个小文件,将这些小文件存储在不同的机器上 。 -- HDFS 计算&#…

LeetCode_sql_day21(1440.计算布尔表达式的值)

描述: 表 Variables: ------------------------ | Column Name | Type | ------------------------ | name | varchar | | value | int | ------------------------ 在 SQL 中,name 是该表主键. 该表包含了存储的变量及其对应…

2024年华为9月4日秋招笔试真题题解

2024年华为0904秋招笔试真题 二叉树消消乐好友推荐系统维修工力扣上类似的题--K站中转内最便宜的航班 二叉树消消乐 题目描述 给定原始二叉树和参照二叉树(输入的二叉树均为满二叉树,二叉树节点的值范围为[1,1000],二叉树的深度不超过1000)&#xff0c…

智汇云舟斩获创客北京2024鲲鹏应用创新大赛北京区总决赛一等奖

近日,创客北京2024鲲鹏应用创新大赛华鲲振宇北京赛区总决赛在北京鲲鹏联合创新中心圆满举办。智汇云舟团队的参赛作品“视频孪生,把数字孪生升级为虚实共生”斩获鲲鹏原生开发赛道(泛政府)一等奖。 面向全球开发者的顶级赛事&…

python去除非页眉页脚,非背景非正式的图片、文字水印代码

import fitz import os import shutildef remove_watermarks_by_sizes(pdf_path, output_path, watermark_sizes, watermark_rects, watermark_texts):"""从PDF中删除特定大小的图片(水印)和特定的文字。参数:pdf_path (str): 输入PDF文件…

现金检测系统源码分享

现金检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision …

草莓大模型(o1 )同步——实战2024国赛数学建模C题

模型介绍 这是一系列全新AI模型,能推理复杂的任务,解决比以前科学、编程、数学模型更难的问题。o1 模型(草莓)与 GPT-4o 的主要区别在于:它能够比前代更好地处理复杂的编程和数学问题,并能解释其推理过程.以往模型不同的是&#…

引用和指针的区别(面试概念性题型)

个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 概念概述 内存占用: 引用:引用一个变量时,实际上并不占用额外的内存空间,它就是原始变量的别名。指针&#xf…

裸金属 Ironic T和2024.1版本 功能比较

一、Train版 裸金属配置向导 1、系统环境 ansible 2.7.18 kolla-ansible 7.2.2.dev9[rootkolla-ansible-master ~]# python --version Python 2.7.5 [rootkolla-ansible-master ~]# cat /etc/centos-release CentOS Linux relea…

SAP B1 单据页面自定义 - 用户界面编辑字段

背景 接《SAP B1 基础实操 - 用户定义字段 (UDF)》,在设置完自定义字段后,如下图,通过打开【用户定义字段】可打开表单右侧的自定义字段页。然而再开打一页附加页面操作繁复,若是客户常用的定义字段,也可以把这些用户…

快充协议方案,Type-C接口受电端Sink取电快充协议芯片

快充协议芯片是确保充电器与设备之间兼容性的关键,它根据设备的需求提供合适的电压与电流,从 而实现更快速的充电体验。 快充协议芯片不仅仅是提升充电速度,更重要的是确保充电器与设备之间的兼容性,避免因协议不匹配导致的充电效…

从零开始打造一台简易计算机

从零开始打造一台可运行的简易计算机专题系列结合一个免费开源的 线上数字电路模拟器(仿真器), 从最基本的继电器(晶体管)功能讲起, 到最终完成一个可以批量执行指令的简易计算机. 跟随文中的步骤, 即可亲手在线上打造一台可运行的简易的计算机, 在此过程中, 将获得对计算机底…