为什么 FPGA 比 CPU 和 GPU 快?

news2024/11/18 15:31:59

FPGA、GPU 与 CPU——AI 应用的硬件选择

现场可编程门阵列 (FPGA) 为人工智能 (AI) 应用带来许多优势。图形处理单元 (GPU) 和传统中央处理单元 (CPU) 相比如何?

人工智能(AI)一词是指能够以类似于人类的方式做出决策的非人类机器智能。这包括判断能力、沉思能力、适应能力和意图能力。

研究公司Statista预测,到2025年,全球人工智能市场将达到1260亿美元。到2030年,人工智能将占中国GDP的26.1%、北美GDP的14.5%和阿联酋GDP的13.6%。

整个人工智能市场包括广泛的应用,包括自然语言处理(NLP)、机器人过程自动化、机器学习和机器视觉。人工智能正在许多垂直行业迅速得到采用,并正在创造下一个伟大的技术变革,就像个人电脑和智能手机的出现一样。
在这里插入图片描述

人工智能 (AI) 及其术语的起源可以归功于研究人员 Allen Newell、Cliff Shaw 和 Herbert Simon 在 1956 年创建的逻辑理论家程序。逻辑理论家程序旨在模拟人类解决问题的能力,由研究与开发(兰德)公司资助。逻辑理论家被认为是第一个人工智能项目,于 1956 年在新罕布什尔州达特茅斯学院的达特茅斯夏季人工智能研究项目 (DSRPAI) 上提出。

虽然人工智能主要依赖于模仿人类思维的编程算法,但硬件也是同样重要的一部分。用于人工智能操作的三种主要硬件解决方案是现场可编程门阵列(FPGA)、图形处理单元(GPU)和中央处理单元(CPU)。
每个选项都有自己的优势,但也有一些局限性,我们将进一步探讨。

FPGA

现场可编程门阵列 (FPGA) 是具有可编程硬件结构的集成电路类型。这与图形处理单元 (GPU) 和中央处理单元 (CPU) 的不同之处在于 FPGA 处理器内部的功能电路不是硬蚀刻的。这使得 FPGA 处理器能够根据需要进行编程和更新。这也使设计人员能够从头开始构建神经网络并构建 FPGA,以最好地满足他们的需求。

FPGA 的可重新编程、可重新配置架构为不断变化的人工智能领域提供了关键优势,使设计人员能够快速测试新的和更新的算法。无需开发和发布新硬件,这在加快上市时间和节省成本方面提供了强大的竞争优势。
FPGA 集速度、可编程性和灵活性于一身,可通过降低专用集成电路 (ASIC) 开发中固有的成本和复杂性来提高性能效率。

FPGA 提供的主要优势包括:
卓越的性能和减少延迟的优势:FPGA 提供低延迟和确定性延迟 (DL)。深度学习作为模型将从初始状态或给定的起始条件连续产生相同的输出。 DL 提供已知的响应时间,这对于许多具有硬期限的应用程序至关重要。这使得语音识别、视频流和动作识别等实时应用程序的执行速度更快。
成本效益:FPGA 在制造后可以针对不同的数据类型和功能进行重新编程,与用新硬件替换应用程序相比,它具有真正的价值。通过将图像处理管道等附加功能集成到同一芯片上,设计人员可以将 FPGA 不仅仅用于人工智能,从而降低成本并节省电路板空间。 FPGA 较长的产品生命周期可以为应用提供更高的实用性,可以在几年甚至几十年内测量。这一特性使其成为工业、航空航天、国防、医疗和运输市场的理想选择。
能源效率:FPGA 使设计人员能够微调硬件以满足应用需求。利用 INT8 量化等开发工具是优化 TensorFlow 和 PyTorch 等机器学习框架的成功方法。 INT8 量化还为 NVIDIA® TensorRT 和 Xilinx® DNNDK 等硬件工具链带来了良好的结果。这是因为 INT8 使用 8 位整数而不是浮点数,并且使用整数数学而不是浮点数学。正确利用 INT8 可以降低内存和计算需求,从而将内存和带宽使用量减少多达 75%。事实证明,这对于满足要求苛刻的应用中的能效要求至关重要。
FPGA 可以并行承载多种功能,甚至可以为特定功能分配芯片的各个部分,从而大大提高操作和能源效率。 FPGA 独特的架构将少量分布式内存放入结构中,使其更接近处理。与 GPU 设计相比,这可以减少延迟,更重要的是可以降低功耗。

GPU

图形处理单元 (GPU) 最初开发用于生成计算机图形、虚拟现实训练环境和视频,依赖于高级计算和浮点功能来绘制几何对象、照明和颜色深度。为了让人工智能取得成功,需要大量数据进行分析和学习。这需要强大的计算能力来执行人工智能算法并转移大量数据。 GPU 可以执行这些操作,因为它们是专门为快速处理渲染视频和图形时使用的大量数据而设计的。它们强大的计算能力使其在机器学习和人工智能应用中广受欢迎。

GPU 非常适合并行处理,即并行计算大量算术运算。这为具有快速连续重复执行的重复工作负载的应用程序提供了可观的加速。 GPU 的定价可以根据具有竞争力的解决方案进行定价,平均显卡的生命周期为五年。
GPU 上的人工智能确实有其局限性。 GPU 通常无法提供与 ASIC 设计一样多的性能,其中微芯片是专门为人工智能应用而设计的。 GPU 提供大量计算能力,但代价是能源效率和热量。热量可能会给应用程序带来耐久性问题,损害性能并限制操作环境的类型。更新AI算法和添加新功能的能力也不是FPGA处理器可比的。

中央处理器
中央处理器 (CPU) 是许多设备中使用的标准处理器。与 FPGA 和 GPU 相比,CPU 的架构具有有限数量的针对顺序串行处理进行优化的内核。 Arm® 处理器可能是一个例外,因为它们强大地实现了单指令多数据 (SIMD) 架构,允许在多个数据点上同时运行,但其性能仍然无法与 GPU 或 FPGA 相比。
有限的内核数量降低了 CPU 处理器并行处理正确运行 AI 算法所需的大量数据的效率。 FPGA 和 GPU 的架构设计具有快速同时处理多个任务所需的密集并行处理能力。 FPGA 和 GPU 处理器执行 AI 算法的速度比 CPU 快得多。这意味着人工智能应用程序或神经网络在 FPGA 或 GPU 上的学习和反应速度比 CPU 快几倍。
CPU 确实提供了一些初始定价优势。当使用有限的数据集训练小型神经网络时,可以使用 CPU,但代价是时间。基于 CPU 的系统比基于 FPGA 或 GPU 的系统运行速度慢得多。基于 CPU 的应用程序的另一个好处是功耗。与 GPU 配置相比,CPU 将提供更好的能效。

微型机器学习 (TinyML)

TinyML 被视为人工智能发展的下一个进化阶段,正在经历强劲的增长。在 FPGA、GPU 和 CPU 处理器上运行的人工智能应用程序非常强大,但它们不能用于手机、无人机和可穿戴应用程序等所有环境。
随着互联设备的广泛采用,需要进行本地数据分析,以减少对云的依赖以实现完整的功能。 TinyML 可在微控制器上运行的边缘设备上实现低延迟、低功耗和低带宽推理模型。
消费级 CPU 的平均功耗为 65 至 85 瓦,而 GPU 的平均功耗为 200 至 500 瓦。相比之下,典型的微控制器消耗的功率为毫瓦或微瓦数量级,这比功耗低一千倍。这种能源效率使 TinyML 设备能够依靠电池供电运行数周、数月甚至数年,同时在边缘运行 ML 应用程序。
TinyML 支持 TensorFlow Lite、uTensor 和 Arm 的 CMSIS-NN 等框架,将人工智能和小型互联设备结合在一起。

TinyML 的优势包括:
能源效率:微控制器消耗的电量非常少,这为远程安装和移动设备带来了好处。
低延迟:通过在边缘本地处理数据,数据不需要传输到云端进行推理。这大大减少了设备延迟。
隐私:数据可以存储在本地,而不是存储在云服务器上。
减少带宽:随着推理对云的依赖减少,带宽问题也被最小化。
使用 MCU 的 TinyML 的未来对于小型边缘设备和 FPGA、GPU 或 CPU 不可行的普通应用程序来说是有希望的。

要点

AI 的三种主要硬件选择是:FPGA、GPU 和 CPU。在速度和反应时间至关重要的人工智能应用中,FPGA 和 GPU 在学习和反应时间方面具有优势。虽然 GPU 能够处理人工智能和神经网络所需的大量数据,但其缺点包括能源效率、热考虑因素(热量)、耐用性以及使用新功能和人工智能算法更新应用程序的能力。 FPGA 在人工智能应用和神经网络中具有关键优势。其中包括能源效率、实用性、耐用性以及轻松更新人工智能算法的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1413519.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Excel 2019 for Mac/Win:商务数据分析与处理的终极工具

在当今快节奏的商业环境中,数据分析已经成为一项至关重要的技能。从市场趋势预测到财务报告,再到项目管理,数据无处不在。而作为数据分析的基石,Microsoft Excel 2019 for Mac/Win正是一个强大的工具,帮助用户高效地处…

77 C++对象模型探索。虚函数- 从静态联编,动态联编出发,分析 虚函数调用问题探究

什么叫做单纯的类: 比较简单的类,尤其不包括 虚函数 和虚基类。 什么叫不单纯的类: 从上一章的学习我们知道,在某些情况下,编译器会往类内部增加一些我们看不见但是真实存在的成员变量,例如vptr&#xff…

matlab appdesigner系列-图窗工具2-工具栏

工具栏,就是一般在任意软件界面上方的工具菜单栏 示例:工具菜单绘制正弦函数 操作步骤如下: 1)将坐标区和工具栏拖拽到画布上 2)点击工具栏的号,可以看到可以添加2种工具,按钮工具和切换工具&#xff0c…

【JavaScript权威指南第七版】读书笔记速度

JavaScript权威指南第七版 序正文前言:图中笔记重点知识第1章 JavaScript简介第一章总结 第2章 词法结构注释字面量标识符和保留字Unicode可选的分号第二章总结 第3章 类型、值和变量【重要】原始类型特殊类型第三章总结 第4章 表达式与操作符表达式操作符条件式调用…

【量化交易】股市舞者:小明的撮合交易之旅

马西森AES撮合交易系统 在繁华的都市中,小明,一个普通的青年,刚刚赚到了人生的第一桶金——20万。这笔意外的财富,点燃了他对股市的强烈兴趣。他开始如饥似渴地学习金融知识,钻研各种交易策略。 一天,小…

基于 java+springboot+mybatis电影售票网站管理系统前台+后台设计和实现

基于 javaspringbootmybatis电影售票网站管理系统前台后台设计和实现 🍅 作者主页 央顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 🍅 查看下方微信号获取联系方式 承…

微软 Power Apps Canvas App 画布应用将上传的附件转化为base64编码操作

微软 Power Apps Canvas App 画布应用将上传的附件结合Power Automate转化为base64编码操作 在使用canvas app的过程中,我们有时需要将上传的文件转换为base64存入数据库或者,调用外部接口传参,那么看下如何将文件转化为base64编码格式。 首先…

金智易表通构建学生缴费数据查询+帆软构建缴费大数据报表并整合到微服务

使用金智易表通挂接外部数据,快速建设查询类服务,本次构建学生欠费数据查询,共有3块设计,规划如下: 1、欠费明细查询:学校领导和财务处等部门可查询全校欠费学生明细数据;各二级学院教职工可查询本二级学院欠费学生明细数据。 2、大数据统计报表:从应收总额、欠费总额…

C语言编程中的陷阱与规避策略

一、引言 C语言作为一门历史悠久且广泛应用的编程语言,其强大的功能和灵活性深受开发者喜爱。然而,这种灵活性也带来了许多潜在的陷阱和难点,特别是对于新手来说,可能会在编程过程中遇到各种预料之外的问题。本文将深入探讨C语言…

自动验证码解析器:CapSolver的Chrome扩展程序自动解析器

自动验证码解析器:CapSolver的Chrome扩展程序自动解析器 验证码是网站实施的一种安全措施,通常对用户构成挑战。然而,随着技术的进步,验证码解析器已经出现,以简化这一过程。在本文中,我们将探讨专为Googl…

【华为 ICT HCIA eNSP 习题汇总】——题目集9

1、缺省情况下,广播网络上 OSPF 协议 Hello 报文发送的周期和无效周期分别为()。 A、10s,40s B、40s,10s C、30s,20s D、20s,30s 考点:①路由技术原理 ②OSPF 解析:&…

【Unity3D日常开发】Unity3D中UGUI的Text、Dropdown输入特殊符号

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址我的个人博客 大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有用记得一键三连哦。 一、前言 在开发中会遇到需要显示特殊符号的情况,比如上标、…

机房及设备安全智慧监管AI+视频方案的设计和应用

一、背景分析 随着互联网的迅猛发展,机房及其配套设施的数量持续攀升,它们的运行状况对于企业运营效率和服务质量的影响日益显著。作为企业信息化的基石,机房的安全监测与管理的重要性不容忽视。它不仅关乎企业的稳定运营,同时也…

[docker] Docker的私有仓库部署——Harbor

一、Docker原生私有仓库—— Registry 1.1 Registry的简单了解 关于Docker的仓库分为私有库和公有仓库,共有仓库只要在官方注册用户,登录即可使用。但对于仓库的使用,企业还是会有自己的专属镜像,所以私有库的搭建也是很有必要的…

Java复习系列之阶段三:框架原理

1. Spring 1.1 核心功能 1. IOC容器 IOC,全称为控制反转(Inversion of Control),是一种软件设计原则,用于减少计算机代码之间的耦合度。控制反转的核心思想是将传统程序中对象的创建和绑定由程序代码直接控制转移到…

Android SharedPreferences源码分析

文章目录 Android SharedPreferences源码分析概述基本使用源码分析获取SP对象初始化和读取数据写入数据MemoryCommitResultcommitToMemory()commit()apply()enqueueDiskWrite()writeToFile() 主动等待写回任务结束 总结 Android SharedPreferences源码分析 概述 SharedPrefer…

《Vue3 基础知识》 Vue2+ElementUI 自动转 Vue3+ElementPlus(GoGoCode)

前言 GoGoCode 一个基于 AST 的 JavaScript/Typescript/HTML 代码转换工具。 AST abstract syntax code 抽象语法树。 实现 第一步:安装 GoGoCode 插件 全局安装最新的 gogocode-cli 即可 npm i gogocode-cli -g查看版本 gogocode-cli -V相关插件说明 插件描述…

qt 坦克大战游戏 GUI绘制

关于本章节中使用的图形绘制类,如QGraphicsView、QGraphicsScene等的详细使用说明请参见我的另一篇文章: 《图形绘制QGraphicsView、QGraphicsScene、QGraphicsItem、Qt GUI-CSDN博客》 本文将模仿坦克大战游戏,目前只绘制出一辆坦克&#…

看懂linux内核详解实现分解

一、linux的内核管理:对内核的基本认识 我们所谈到的操作系统主要指内核 以上功能据没有涉及实现文本编辑、实现字处理,也没有服务等等。 故,操作系统是一种通用软件,是平台类软件,自己并不做任何工作,只…

[嵌入式软件][启蒙篇][仿真平台] STM32F103实现IIC控制OLED屏幕

上一篇:[嵌入式软件][启蒙篇][仿真平台] STM32F103实现LED、按键 [嵌入式软件][启蒙篇][仿真平台] STM32F103实现串口输出输入、ADC采集 [嵌入式软件][启蒙篇][仿真平台]STM32F103实现定时器 [嵌入式软件][启蒙篇][仿真平台] STM32F103实现IIC控制OLED屏幕 文章目…