极智芯 | GPU架构与计算能力

news2024/11/15 2:12:15

欢迎关注我的公众号 [极智视界],获取我的更多经验分享

大家好,我是极智视界,本文分享一下 GPU架构与计算能力。

邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接:https://t.zsxq.com/0aiNxERDq

每款发布的 NVIDIA GPU 产品 或者说 每代 GPU 架构都有自己的几个身份标识,比如架构 (GPU Architecture),比如计算能力 (Compute Capability),这里咱们就来讲讲这俩标识。

NVIDIA GPU 更新迭代比较快,现在一般就是两年更新一代的节奏,比如目前最新的 Hopper 架构是在 2022 年 3 月份的 NVIDIA GTC 2022 大会上发布的,按这个节奏,应该明年的 GTC 大会就会发布下一代了。在发布新一代 GPU 的时候一般就会给个代号,NVIDIA 习惯用伟大科学家的名字来作 GPU 架构的代号,比如特斯拉 Tesla、比如开普勒 Kepler、比如图灵 Turing。而计算能力不像架构这么 "张扬",计算能力会相对 "隐蔽" 一些,可能真正只有要用 GPU,要用 CUDA 去编程的人才会留意,因为可能在用 NVCC 编译的时候需要指定 GPU 的计算能力。而一般来说,GPU 架构和 计算能力 之间是会存在一定的对应关系的,一般的规律是 GPU 的架构越新,它的计算能力也会更加高,比如现在最新的 Hopper 架构也拥有着最高的计算能力。

下面我整理了 NVIDIA 目前所有 GPU 架构代号、对应的 GPU 计算能力、发布的时间与代表产品,如下,

其中的计算能力一栏有 X、X.Y 之分,意思是 X 代表主版本号,而 Y 代表次版本号,通常情况下主版本号 X 就代表一代 GPU 的架构。这样,可以看到表格里面有几个 "显眼包",解释一下,对于图灵架构,它的计算能力为 7.5,虽然主版本和 Volta 一样都是 7,但是因为 Turing 架构的影响太大、产品之多 (特别是 Tesla T4 计算卡,前几年一直都是 AI 计算推理卡的首选),一般咱们也会把它独立为一代。而对于 Ada 架构,目前也基本是把它看成独立的一代产品,它的主力产品 Tesla L4 是用来替代 Tesla T4 的存在,在未来的 AI 推理领域会很重要。

目前最新的就是 Hopper 架构,H100 是神仙一般的存在,而不久的 2024,NVIDIA 的新一代 GPU Blackwell 就将发布,预计会采用台积电 3nm 工艺,性能估计又会飙升,可怕 ...

前面说到,用 CUDA 去编程的人会留意 GPU 的计算能力,这是因为不同架构的 GPU 之间的硬件资源、GPU 指令集会有较大的差异,因此编译出的二进制可执行文件 (.cubin) 在不同的架构之间是不可以混用的,也就是说 GPU 不同架构之间的 cubin 兼容性存在很大的问题 (这也是为什么咱们在用 TensorRT 生成模型 Engine 的时候,在不同架构的 GPU 之间不通用的原因)。比如在 Turing 上编译的可执行程序,很可能在 Ampere 架构上是执行不了的,反之也一样。

而对于 Volta 和 Turing 这两代架构,它们的主版本是一致的,Turing 的次版本更高,对于这种情况,一般认为只是存在较少的配置差异,仅仅会导致在功能、性能上会有些差异,它们之间的差异还是比较小的。次版本高的 GPU 可以运行同一主版本号的、次版本号较低的 GPU 上编译的程序,这么说的话在 Turing GPU 上就可以运行 Volta GPU 编译出的可执行程序。

这里还有个误区,对于刚了解 GPU 的来说,可能会想当然地认为:GPU 计算能力越高,那么它的算力也越高、性能也越好,这个想法是非常危险的。罗列一组 GPU 参数性能数据对比进行说明,如下,

可以看到,计算能力更低的 Volta 架构的 Tesla V100、Pascal 架构的 Tesla P100,它们的算力都是要比计算能力更高的 Turing 架构的 RTX 2080Ti 反而更高,这么看之前 "想当然" 的认为就被推翻了。这里面其实又会涉及专业计算卡、消费级显卡、笔记本显卡锁算力之类的,这里就不多说了,反正就是不能想当然的认为 计算能力越高就是性能越强 就对了

好了,以上分享了 GPU架构与计算能力,希望我的分享能对你的学习有一点帮助。


【极智视界】

《极智芯 | GPU架构与计算能力》

畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球,星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。一定会对你学习有所帮助,也一定非常好玩,并持续更新更加有趣的项目。https://t.zsxq.com/0aiNxERDq

​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1202582.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黑客技术(网络安全)—高效自学

前言 前几天发布了一篇 网络安全(黑客)自学 没想到收到了许多人的私信想要学习网安黑客技术!却不知道从哪里开始学起!怎么学 今天给大家分享一下,很多人上来就说想学习黑客,但是连方向都没搞清楚就开始学习…

subprocess 模块用法

如果你只关心命令的标准输出,并且希望在命令执行失败时引发异常,可以使用 check_output。如果你需要更多的控制,例如与正在运行的进程进行交互,可以使用 Popen。如果你希望获取标准输出和命令的状态码,可以使用 getsta…

数据结构-数型查找

二叉排序树(BST) 二叉排序树,又称二叉查找树(BST,Binary Search Tree) 一颗二叉树或者是空二叉树,或者是具有如下性质的二叉树: 左子树上所有结点的关键字均小于根结点的关键字&…

LeetCode(9)跳跃游戏【数组/字符串】【中等】

目录 1.题目2.答案3.提交结果截图 链接: 55. 跳跃游戏 1.题目 给你一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标,如果可以,返回…

在Linux系统下微调Llama2(MetaAI)大模型教程—Qlora

Llama2是Meta最新开源的语言大模型,训练数据集2万亿token,上下文长度是由Llama的2048扩展到4096,可以理解和生成更长的文本,包括7B、13B和70B三个模型,在各种基准集的测试上表现突出,最重要的是&#xff0c…

《QT从基础到进阶·二十二》QGraphicsView显示大量图形项item导致界面卡顿的解决办法

有时候因业务需要,paint函数在界面上绘制了成百上千个图形项Items,导致操作界面的时候有明显的卡顿感,下文会提供一种比较好的解决办法,先来了解下QGraphicsItem的缓存方式。 (1)setCacheMode(QGraphicsIt…

0基础学习PyFlink——水位线(watermark)触发计算

在《0基础学习PyFlink——个数滚动窗口(Tumbling Count Windows)》和《0基础学习PyFlink——个数滑动窗口(Sliding Count Windows)》中,我们发现如果窗口中元素个数没有把窗口填满,则不会触发计算。 为了解决长期不计算的问题&a…

日志及其框架

日志技术的概述 日志 生活中的日志: 生活中的日志就好比日记,可以记录你生活的点点滴滴。 程序中的日志: 程序中的日志可以用来记录程序运行过程中的信息,并可以进行永久存储。 以前记录日志的方式(输出语句&#…

设置专属链接的这些作用你知道吗?

专属链接作为一种个性化的链接,用于为特定的客户或群体提供定制化的体验或服务。对于企业来说,每个渠道或者每个客户都能拥有一个专属链接是无比便利的事情。企业可以将这个链接嵌入到各种宣传物料中,让客户通过输入链接即可进入与客服的交流…

thinkphp5 连接多个服务器数据库

如果你的database.php 是这样, 这是默认的db连接配置 如果还想连接其他服务器,或数据库 在config.php中追加数据库配置, 在使用的地方调用: use think\Db;public function test(){$db3Db::connect(config(db3));$result $db3…

使用Python的requests库模拟爬取地图商铺信息

目录 引言 一、了解目标网站 二、安装requests库 三、发送GET请求 四、解析响应内容 五、处理异常和数据清洗 六、数据存储和分析 七、数据分析和可视化 八、注意事项和最佳实践 总结 引言 随着互联网的快速发展,网络爬虫技术已经成为获取数据的重要手段…

Leetcode-104 二叉树的最大深度

递归实现 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right) {* …

谈谈steam游戏搬砖的收益与风险,以及注意事项

11月CSGO市场行情分析,是否到了该抄底的时候了? 今天,要跟大家分享的Steam平台——全球最大的游戏平台,现在给大家介绍下steam搬砖项目,这个项目既小众又稳定。 先了解一下 steam这个平台是做什么的,steam…

navicat创建MySql定时任务

navicat创建MySql定时任务 前提 需要root用户权限 需要开启定时任务 1、开启定时任务 1.1 查看定时任务是否开启 mysql> show variables like event_scheduler;1.2 临时开启定时任务(下次重启后失效) set global event_scheduler on;1.3 设置永久开启定时任务 查看my…

c语言-数据结构-带头双向循环链表

目录 1、双向循环链表的结构 2、双向循环链表的结构体创建 3、双向循环链表的初始化 3.1 双向链表的打印 4、双向循环链表的头插 5、双向循环链表的尾插 6、双向循环链表的删除 6.1 尾删 6.2 头删 6.3 小节结论 7、查找 8、在pos位置前插入数据 9、删除pos位…

Scala---介绍及安装使用

一、Scala介绍 1. 为什么学习Scala语言 Scala是基于JVM的语言,与java语言类似,Java语言是基于JVM的面向对象的语言。Scala也是基于JVM,同时支持面向对象和面向函数的编程语言。这里学习Scala语言的原因是后期我们会学习一个优秀的计算框架S…

单链表(7)

插入函数——插入数据,在链表plist的pos位置插入val数据元素 由图知,poslength时,是可以插入的 在大多数情况下,说位置的时候,从0开始计数;说第几个数据的时候,从1开始计数 现在来测试一下 这就…

CSDN的规范、检测文章质量、博客等级好处等等(我也是意外发现的,我相信很多人还不知道,使用分享给大家!)

前言 都是整理官方的文档,方便自己查看和检查使用,以前我也不知道。后来巧合下发现的,所以分享给大家! 下面都有官方的链接,详情去看官方的文档。 大家严格按照官方的规范去记录自己工作生活中的文章,很快…

MacOS Ventura 13 优化配置(ARM架构新手向导)

一、系统配置 1、About My MacBook Pro 2、在当前标签打开新窗口 桌面上创建目录的文件夹,每次新打开一个目录,就会创建一个窗口,这就造成窗口太多,不太好查看和管理,我们可以改成在新标签处打开新目录。需要在&…

电动自动换刀高速电主轴的技术优势浅析

在制造业中,自动化技术的发展一直是一个重要的话题。其中,电动自动换刀被认为是一项高效、智能、先进的技术,在高速电主轴中使用电动自动换刀这一技术,不仅能够缩短换刀时间,还能减少换刀失误,本文将探讨Sy…