Nvidia计算卡扫盲

news2024/11/25 3:27:04

title: Nvidia计算卡扫盲
sidebarDepth: 4
layout: AtmLayout

GPU

请添加图片描述

  • 大的方面来讲, 由显存+计算单元组成;

显存

  • GPU板卡上的DRAM
  • 容量大,速度慢,CPU和GPU都可以访问

计算单元

  • Streaming Multiprocessor,执行计算,

  • 每个SM都有自己的控制单元,寄存器,缓存,指令流水线

  • 每个SM包含多个CUDA核心,又称为Streaming Processor,一个CUDA核心,相当于一个微型CPU;

英伟达显卡分类

  • 英伟达开发出了五大产品系列,分别是 GeForce, Quadro,Tesla,GRID, NVS,

GeForce,主流消费级显卡

  • 主要用于高性价比的家庭娱乐
  • 代号有GT,GTX,GTS,RTX;命名规则参考参考文档
  • 常见型号有: GTX1050,GTX1050ti,GTX1060,GTX1070,GTX1080,GTX1080ti,RTX2060,RTX2070,RTX2080,RTX2080ti,RTX3080,RTX3090,RTX4080,RTX4090

Quadro,专业级显卡

  • 主要针对设计,建模,视觉分析领域,高计算性能,低功耗,低延迟
  • 常见型号有:Quadro K620,Quadro K1200,Quadro K2200,Quadro K4000,Quadro K4200,Quadro K5000,Quadro K5200,Quadro P400,Quadro P600,Quadro P1000,Quadro P2000,Quadro P4000,Quadro P5000,Quadro P6000

Tesla, 深度学习卡

  • 主要用于深度学习
  • 常见型号有:Tesla K40, Tesla K80, Tesla P4, Tesla P40, Tesla P100, Tesla V100, Tesla T4, Tesla M40, Tesla M60, A40, A100, A800

NVS

  • 主要用于多屏显示
  • 常见型号有: NVS 310, NVS 315, NVS 510, NVS 810, NVS 510M, NVS 810M

GRID

  • 主要用于虚拟化技术
  • 常见型号有: GRID K1, GRID K2 , GRID M60-1Q, GRID M60-2Q

N卡性能指标

架构

  • 从推出时间来看,Tesla < Fermi < Kepler < Maxwell < Pascal < Volta < Turing < Ampere
  • Pascal系列的GPU代号为GP最后一位数字越小,意味着这颗核心的地位越高。*
    • GP100>GP102>GP104>GP106;GP100主要用于科学计算,GP102开始民用核心;
    • GP102的完整规格是6个GPC,可以理解为6核GPU,GP104是4核,GP106是双核
    • 同代号中,CUDA核心越高,则其性能越高;
  • 同一款GPU,可能有多种流处理器规格,也就是多种CUDA核心,老黄的刀法好是说他阉割GPU的技艺特别高超;

流处理器

  • Streaming Processor, N卡称为CUDA核心
  • 流处理器,代表了并行处理的能力。理论上来说,CUDA核心决定了计算速度的上限。(个人猜测
  • 以Tesla P40为例,其含有

计算性能

Fp64,双精度计算性能

  • 双精度主要用于HPC(High Performance Computing)领域
  • 深度学习使用FP32跟FP16就以足够;

FP32,单精度计算性能

  • 浮点数使用32位表示,具有较高的精度和动态范围
  • 通常训练神经网络模型的时候,默认使用的数据类型就是单精度FP32

FP16,半精度计算性能

  • 浮点数使用16位表示,减少存储空间和计算开销;
  • 按照理论来说,可以跑机器学习等任务;但是会出现精度溢出和舍入误差
  • FP16在图像处理有更大优势

INT8,整型算力

  • 使用固定的小数点位置表示数值,数据量相对较小,计算速度可以更快
  • 元宇宙(虚拟数字人),人脸识别等利用训练完毕的模型进行推理的业务适用于整型精度算力

Tesla性能指标整理

  • 整数运算单位:TOPS, 万亿次整数运算每秒;
  • 浮点数运算单位: TFLOPS,万亿次浮点数运算每秒;
  • 下表部分内容由chatgpt整理,不保证100%正确率,仅供参考;
显卡名称架构架构代号CUDA核心fp64fp32fp16int8单精度性能量表某宝价位
Tesla M40MaxwellGM20030720.27//0.58600左右
Tesla M4MaxwellGM2061024/2.2//0.18/
Tesla P100PascalGP10035844.79.318.7/0.771100左右
Tesla P40PascalGP10238400.3612/471900左右
Tesla P4PascalGP1042560/5.5/220.45400左右
Tesla V100VoltaGV1005120714112/1.169000左右
T4TuringTU1042560/8.165.7130.50.675400左右
Tesla A10AmpereGA1029216/31.262.52502.610500左右
Tesla A100AmpereGA100691219.515631213135000左右
RTX 2080 TiTuringTU10243520.413.4526.92271.122500左右

粗略衡量指标

  • 模型推理时,单精度情况下,上表中,除了A系架构,主流显卡均差距不大;

  • A系架构,只有A100有显著提升;其他有所提升,但还是在同一个数量级;

  • 与2080Ti的对比上,除了int8整型有较为明显的速度提升(4倍多),单精度与版精度相差不大;换言之,跑图适合换,但是大模型换的性价比较低;

  • 就训练而言,可选择的不多,P100,V100,A100,个人开发者几乎玩不了;

参考文档

nvidia gpu架构

AMD和Nvidia显卡系列相关对比

GPU架构解析 + CUDA编程基础

芯片算力和精度(int8、fp16、双精度、单精度等等)是怎样的关系?

如何快速判断一张显卡的性能-N卡篇

tesla显卡天梯图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1024244.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【FAQ】安防监控系统/视频云存储/监控平台EasyCVR服务器解释器出现变更该如何修改?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

开发高性能知识付费平台:关键技术策略

引言 在构建知识付费平台时&#xff0c;高性能是确保用户满意度和平台成功的关键因素之一。本文将探讨一些关键的技术策略&#xff0c;帮助开发者打造高性能的知识付费平台。 1. 前端性能优化 使用CDN加速资源加载 使用内容分发网络&#xff08;CDN&#xff09;来托管和加…

解决Office Word另存为PDF卡死的问题

今天突然间遇到这个问题&#xff0c;在网上找了好久都没有想要的答案。后来一步一步摸索终于找到了问题所在&#xff0c;希望这篇文章能帮助有同样问题的各位&#xff01; 1.问题 当word文件点击另存为PDF格式时&#xff0c;下一刻光标变为加载状态&#xff0c;并且一直在转圈…

数据结构----链式栈

目录 前言 链式栈 操作方式 1.存储结构 2.初始化 3.创建节点 4.判断是否满栈 5.判断是否空栈 6.入栈 7.出栈 8.获取栈顶元素 9.遍历栈 10.清空栈 完整代码 前言 前面我们学习过了数组栈的相关方法&#xff0c;&#xff08;链接&#xff1a;线性表-----栈&#xff08;栈…

【初阶数据结构】——堆的引入和实现二叉树

目录 前言 一、二叉树的顺序结构及实现 1.1二叉树的顺序结构 1.2堆的结构 二、堆的实现 2.1堆向上调整算法&#xff08;堆的插入&#xff09; 2.2堆向下调整算法&#xff08;堆的删除&#xff09; 2.3建堆的时间复杂度 2.4堆的创建 2.5堆的初始化和空间的销毁 2.6堆…

【数据结构】图的基本概念,图的存储结构(邻接矩阵;邻接表;十字链表;邻接多重表)

欢~迎~光~临~^_^ 目录 1、图的基本概念 2、图的存储结构 2.1邻接矩阵 2.2邻接表 2.3十字链表 2.4邻接多重表 2.5图的四种存储结构的对比 1、图的基本概念 图是由一组节点&#xff08;通常称为顶点&#xff09;和一组连接这些节点的边&#xff08;通常称为边&#xff0…

注册中心的学习

一、什么是注册中心&#xff1f; 注册中心主要有三种角色&#xff1a; 1.1、服务提供者&#xff08;RPC Server&#xff09;&#xff1a; 在启动时&#xff0c;向 Registry 注册自身服务&#xff0c;并向 Registry 定期发送心跳汇报存活状态。 1.2、服务消费者&#xff08;…

Qt5开发及实例V2.0-第七章-Qt图形视图框架

Qt5开发及实例V2.0-第七章-Qt图形视图框架 第7章 Qt 5图形视图框架7.1 图形视图体系结构7.1.1 Graphics View的特点7.1.2 Graphics View的三元素7.1.3 GraphicsView的坐标系统 7.2 【实例】&#xff1a;图形视图7.2.1 飞舞的蝴蝶7.2.2 地图浏览器7.2.3 图元创建7.2.4 图元的旋转…

大数据-kafka学习笔记

Kafka Kafka 是一个分布式的基于发布/订阅模式的消息队列&#xff08;Message Queue&#xff09;&#xff0c;主要应用于大数据实时处理领域。 Kafka可以用作Flink应用程序的数据源。Flink可以轻松地从一个或多个Kafka主题中消费数据流。这意味着您可以使用Kafka来捕获和传输…

Python 图形化界面基础篇:创建顶部菜单

Python 图形化界面基础篇&#xff1a;创建顶部菜单 引言 Tkinter 库简介步骤1&#xff1a;导入 Tkinter 模块步骤2&#xff1a;创建 Tkinter 窗口步骤3&#xff1a;创建顶部菜单栏步骤4&#xff1a;处理菜单项的点击事件步骤5&#xff1a;启动 Tkinter 主事件循环 完整示例代码…

Python 如何把 String 转换为 Json 对象

在我们对 JSON 进行处理的时候&#xff0c;大概率我们会需要把字符串转换为 JSON 对象后才能进行处理。 Python 贴心的使用 json.loads(employee_string)就可以了。 首先需要做的就是导入 JSON 库。 #include json library import json 对现代程序员来说&#xff0c;JSON …

CNC 3D浮雕 Aspire 11.55 Crack

Aspire 提供了功能强大且直观的软件解决方案&#xff0c;用于在 CNC 铣床上创建和切割零件。有用于 2D 设计和计算 2D 刀具路径的工具&#xff0c;例如仿形、型腔加工和钻孔以及 2.5D 刀具路径&#xff0c;包括&#xff1a;V 形雕刻、棱镜雕刻、成型刀具路径、凹槽、 倒角刀具路…

抖音seo矩阵系统开源代码定制部署

抖音SEO底层开发逻辑主要包括以下几个方面&#xff1a; 1. 关键词优化&#xff1a;抖音SEO需要优化关键词&#xff0c;将关键词嵌入短视频标题、描述、标签等地方&#xff0c;提升抖音短视频在搜索引擎中的排名。 2. 标题优化&#xff1a;抖音短视频的标题应简明扼要&#xff…

C/C++满足条件的数的累加 2023年5月电子学会青少年软件编程(C/C++)等级考试一级真题答案解析

目录 C/C满足条件的数的累加 一、题目要求 1、编程实现 2、输入输出 二、解题思路 1、案例分析 三、程序代码 四、程序说明 五、运行结果 六、考点分析 C/C满足条件的数的累加 2023年5月 C/C编程等级考试一级编程题 一、题目要求 1、编程实现 现有n个整数&#x…

【前端面试题】浏览器面试题

文章目录 前言一、浏览器面试问题1.cookie sessionStorage localStorage 区别2.如何写一个会过期的localStorage&#xff0c;说说想法2.如何定时删除localstorage数据2.localStorage 能跨域吗2.memory cache 如何开启2.localstorage的限制2.浏览器输入URL发生了什么2.浏览器如何…

IIC协议详解

目录 1.IIC协议概述 2.IIC总线传输 3.IIC-51单片机应用 1.起始信号 2.终止信号 3.应答信号 4.数据发送 4.IIC-32单片机应用 用到的库函数&#xff1a; 1.IIC协议概述 IIC全称Inter-Integrated Circuit (集成电路总线)是由PHILIPS公司在80年代开发的两线式串行总线&…

进程组.会话.终端

一.进程组.会话.终端概念 1.1进程组 在Linux操作系统中&#xff0c;进程组&#xff08;Process Group&#xff09;是一组进程的集合。进程组内的每个进程都有一个相同的进程组ID&#xff08;PGID&#xff09;。进程组可以用于进行作业控制、信号传递和进程状态管理等操作。 …

大模型+检索增强(RAG、Atlas 和 REPLUG)

https://zhuanlan.zhihu.com/p/651380539 https://github.com/ninehills/blog/issues/97 1. 检索增强生成 RAG 在问答和对话的场景下&#xff0c;通常可以通过检索和生成两种方式得到一个回复。检索式回复是在外部知识库中检索出满意的回复&#xff0c;较为可靠和可控&#…

如何使用 MATLAB 数学编程软件调用 Python 脚本详细教程(每周更新中)

MATLAB 读写操作 在 MATLAB 中&#xff0c;可以使用各种函数来读取和写入文件。其中&#xff0c;filename.txt 是要读取或写入的文件名&#xff0c;r 表示读取模式&#xff0c;w 表示写入模式。fscanf 和 fprintf 函数用于读取和写入文件内容&#xff0c;%c 和 %s 是格式说明符…

Python 通过 stomp 发送消息到 ActiveMQ 的代码

只需要下面简单的几行代码&#xff0c;我们就可以把我们本地数据发送到 ActiveMQ 上面去。 def send_mq(data):hosts [(AMQHOST, AMQPORT)]conn stomp.Connection(host_and_portshosts, auto_content_lengthFalse)conn.connect(usernameAMQUSER, passcodeAMQPASS, waitTrue)…