GPU(国内外发展,概念参数(CUDA,Tensor Core等),类别,如何选型,NPU,TPU)

news2024/7/6 19:44:41

目录

前言

1.国内外GPU发展简述

2.GPU概念参数和选择标准

2.1 CUDA

2.2 Tensor Core

2.3 显存容量和显存位宽

2.4 精度

2.5 如何选择GPU

3.常见GPU类别和价格

3.1 GPU类别

3.2 GPU价格(部分)

3.3 GPU云服务器收费标准(以阿里云为例)

3.4 国内外GPU对比

4.延深(NPU和TPU)

4.1 NPU

4.2 TPU

4.3 其他PU

参考文献


前言

      从目前的市场看,人工智能(大模型)发展的快慢主要取决于算力,其次是算法。而算力又受限于GPU。

1.国内外GPU发展简述

       预计到2030年,GPU市场将从现在的几百亿美元规模成长至数千亿美元规模。而当下GPU市场全面被国外垄断,其中桌面级GPU市场被英伟达、AMD和英特尔所垄断,移动级GPU市场被Arm、Imagination和高通所垄断。

       随着国际对抗加剧,美国亚脱钩政策频频,2022年8月,美国政府出台新政策,禁止美国公司向中国出高端GPU和其他制造设备。国内现在买不到如NVIDIA的A100 H100等高端GPU。英伟达针对禁令做了应对措施,推出了A100/H100的阉割版本,A800、H800 GPU,主要是在NVLink模式下的带宽从600GB/s下降到400GB/s,其他参数均保持致。我今年3月份问价A800服务器价格在110万/台,6月现货价格在135万/台,期货130万每台,还需要全款后2月内交付。三季度又放出A800停止发货消息,芯片之争愈演愈烈。

       在此背景下,国内也加快了国产替代进程,但目前相比主流产品,国产GPU还处于起步阶段。受限于工艺制程、EDA等技术封锁,国内厂商目前在自主研发领域的成果与国际一流水平还有着很大的差距。但随着国内自研GPU的领军企业景嘉微、壁仞科技、芯动科技等逐渐崭露头角,各厂家已发展出了一系列的产品线,并且均采用国内成熟制程工艺及自主架构。

      GPU的研发并不是立竿见影,我们要做好苦战的准备,也要避免好高骛远,夸大宣传。科工力量曾指出,为了在宣传中超越英伟达,国产GPU存在田忌赛马式比拼,如某款标榜超越国际旗舰级算力的GPU,却不支持双精度浮点运算,只能用于人工智能方向,短期选择局部突破或是无奈之举,长远而言,还是应该全面超越。。

      从短期来看,人工智能的快速发展离不开高端GPU算力的支持,美国的限制政策给予我国一定压力,但长远来看,只有攻克芯片行业,才能不受制于人,真正在人工智能的革命中站稳脚步、引领潮流。

2.GPU概念参数和选择标准

概念:GPU又叫做图形处理器,专门设计用于处理计算机图形和图像的处理器。它可以加速计算机图形渲染和处理操作,提高计算机图形和图像的性能和质量。此外,理解GPU指的是负责处理各种任务的那颗芯片,显卡指的是把GPU芯片、显存、接口等集合在一起的那张板卡。

GPU和CPU:GPU具有更多的处理单元和更高的并行处理能力,因此可以更快地处理大量的图形和图像数据。但GPU无法单独工作,需要依赖CPU控制调用。参考

2.1 CUDA

      2006年NVIDIA推出以CUDA为核心的GPU,拉开了一个时代的序幕。CUDA是一种通用并行计算架构,而深度学习,强化学习需要大量且复杂的计算,CUDA的架构大大提高了运算速率,而且CUDA核心数量越多并行计算的能力越大,简单理解,之前需要一年的计算量,CUDA推出之后仅需一天。

2.2 Tensor Core


      2017年引入Tensor Core,为大模型的出现奠定了坚实的基础,这也是专为深度学习所设计。深度学习所采用的核心计算主要由张量和矩阵组成,而Tensor Core为了他们专门设计了执行单元,Tensor Core在训练方面能够提供高达12倍的teraflops(兆亿浮点计算) 峰值,而在推理方面则可提供6倍的leraflops(兆亿浮点计算)峰值。每个Tensor Core在每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。Tensor Core使用的计算能力要比Cuda Core高得多。

            补充:FLOPS,即每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数,被用来评估电脑性能,尤其是在使用到大量浮点运算的科学计算领域中。

图1  CUDA和Tensor Core计算区别

2.3 显存容量和显存位宽

显存容量:其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数),是对深度学习研究人员来说很重要的指标

显存位宽:显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大,这是显存的重要参数之一。

2.4 精度

半精度:如果对运算的精度要求不高,那么就可以尝试使用半精度浮点数进行运算。这个时候,Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算,适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法,其中两个4*4 FP16矩阵相乘,然后将结果添加到4*4 FP16或FP32矩阵中,最终输出新的4*4FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。

单精度: Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。

双精度:双精度适合要求非常高的专业人士,例如医学图像,CAD。

2.5 如何选择GPU


卷积网络和Transformer:Tensor核心数>单精度浮点性能>显存位宽>半精度浮点性能
循环神经网络:显存位宽>半精度浮点性能>Tensor核心数>单精度浮点性能

其他配置选择参考(CPU,硬盘):地址

3.常见GPU类别和价格

3.1 GPU类别

      NVIDIA将其产品定位三类,GeFore用于家庭娱乐,Quadro用于工作站,而Tesla系列用 于服务器。Tesla的k型号卡为了高性能科学计算而设计。

Quadro: Quadro系列显卡一般用于特定行业,比如设计、建筑等,图像处理专业显卡,比如CAD、Maya等软件。

      Quadro常见系列

            NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000

            Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000

     

GeForce: 这个系列显卡官方定位是消费级,常用来打游戏。但是它在深度学习上的表现也非常不错,很多人用来做推理、训练,单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多,但是性价比却高很多。

      GeForce常见系列:

            Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti

            Geforce 16系列:GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti

            Geforce 20系列:RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti

            Geforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti

            暂未添加40系列。

       补充1GTX 到RTX:RTX20显卡采用的“图灵”架构引入了RT计算单元,使其光线追踪性能超越上一代显卡的六倍,拥有了即时处理游戏光追的条件,NVIDIA认为这是一个划时代的进化,于是把沿用多年的“GTX”改名为“RTX”。 

       补充2:GeForce的显卡型号是不同的硬件定制,越往后时钟频率越高显存越大,也就越能充分发挥其计算性能,其G/GS<GT<GTS<GTX<RTX。

Tesla: Tesla系列显卡定位并行计算,一般用于数据中心,具体点,比如用于深度学习,做训练、推理等。Tesla系列显卡针对GPU集群做了优化,像那种4卡、8卡、甚至16卡服务器,Tesla多块显卡合起来的性能不会受>很大影响,但是Geforce这种游戏卡性能损失严重,这也是Tesla主推并行计算的优势之一

      Tesla常见系列:

            A-Series系列: A10、A16、A30、A40、A100

            T-Series系列: T4

            V-Series系列: V100

            P-Series系列: P4、P6、P40、P100

            K-Series系列: K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80
       补充Geforce系列,也就是RTX序列目前并无Tensor Core,主流Tesla系列有Tensor Core

3.2 GPU价格(部分)

3.3 GPU云服务器收费标准(以阿里云为例)

      因为服务器和GPU价格不菲,在做一些小模型时,常考虑使用云服务器,国内大厂都有这项服务。本文以阿里云为例,价格如下所示,可月租也可时租。地址

3.4 国内外GPU对比

图片来源:地址

4.延深(NPU和TPU)

      简单理解CPU和GPU是通用芯片,其他PU是专用芯片。

4.1 NPU


       神经网络处理器,是一种专门用于进行深度学习计算的芯片。思路是,模仿人的大脑神经网络,使之具备智能,NPU工作原理是在电路层模拟人类神经元和突触,并且用深度学习指令集直接处理大规模的神经元和突触,一条指令完成一组神经元的处理。相比于CPU和GPU,NPU通过突触权重实现存储和计算一体化,从而提高运行效率。NPU处理器最明显的优势就是信息处理能力块采用“数据驱动并行计算”的架构(颠覆了冯诺依曼计算机架构),特别擅长处理视频、图像类的海量多媒体数据。

       NPU的典型代表有国内的寒武纪芯片和IBM的TrueNorth。

4.2 TPU


       全称是Tensor Processing Unit,即张量处理器。谷歌希望更好发挥它们的深度学习框TensorFlow的性能,所以希望找到更好的硬件,而GPU是一种通用芯片,于是针对谷歌的深度学习框架TensorFlow专门定制TPU芯片,TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。据称Google提供的服务,都使用了Google的TPU加速计算
 

4.3 其他PU

APU — Accelerated Processing Unit, 加速处理器,AMD公司推出加速图像处理芯片产品。

BPU — Brain Processing Unit, 地平线公司主导的嵌入式处理器架构。

CPU — Central Processing Unit 中央处理器, 目前PC core的主流产品。

DPU — Deep learning Processing Unit, 深度学习处理器,最早由国内深鉴科技提出;另说有Dataflow Processing Unit 数据流处理器, Wave Computing 公司提出的AI架构;Data storage Processing Unit,深圳大普微的智能固态硬盘处理器。

FPU — Floating Processing Unit 浮点计算单元,通用处理器中的浮点运算模块。

GPU — Graphics Processing Unit, 图形处理器,采用多线程SIMD架构,为图形处理而生。

HPU — Holographics Processing Unit 全息图像处理器, 微软出品的全息计算芯片与设备。

IPU — Intelligence Processing Unit, Deep Mind投资的Graphcore公司出品的AI处理器产品。

MPU/MCU — Microprocessor/Micro controller Unit, 微处理器/微控制器,一般用于低计算应用的RISC计算机体系架构产品,如ARM-M系列处理器。

NPU — Neural Network Processing Unit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称,如中科院计算所/寒武纪公司出品的diannao系列。

RPU — Radio Processing Unit, 无线电处理器, Imagination Technologies 公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

TPU — Tensor Processing Unit 张量处理器, Google 公司推出的加速人工智能算法的专用处理器。目前一代TPU面向Inference,二代面向训练。

VPU — Vector Processing Unit 矢量处理器,Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。

WPU — Wearable Processing Unit, 可穿戴处理器,Ineda Systems公司推出的可穿戴片上系统产品,包含GPU/MIPS CPU等IP。

XPU — 百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速,含256核。

ZPU — Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位开源处理器。

   

参考文献

1.GPU基本介绍与各GPU性能、价格比较_gpu型号-CSDN博客

2.免费GPU汇总及选购_colab gpu型号-CSDN博客

3.GPU型号那么多,该如何选择呢? - 知乎 

4.国产GPU的发展历程及芯片性能详解_Finovy Cloud 的博客-CSDN博客 

5.什么是GPU?GPU和显卡的关系?GPU国产化布局?_张巧龙的博客-CSDN博客 

6.国产高端GPU,国产替代加速(附国产厂家汇总)_gpu芯片_huzia的博客-CSDN博客 

7.阿里云GPU服务器收费标准、学生价格及一个小时费用大全-CSDN博客 

8.主流国产GPU产品及规格概述(2023)_架构师技术联盟(Hardy)的博客-CSDN博客 

9.CPU、GPU、TPU、NPU区别_tpu和npu区别_大囚长的博客-CSDN博客 

10(转)CPU/GPU/TPU/NPU傻傻分不清楚_npu原理_夜灼华的博客-CSDN博客 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1063499.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习基础之《回归与聚类算法(1)—线性回归》

一、线性回归的原理 1、线性回归应用场景 如何判定一个问题是回归问题的&#xff0c;目标值是连续型的数据的时候 房价预测 销售额度预测 贷款额度预测、利用线性回归以及系数分析因子 2、线性回归定义 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(…

【多线程进阶】synchronized 原理

文章目录 前言1. 基本锁策略2. 加锁工作过程2.1 偏向锁2.2 轻量级锁2.3 重量级锁 3. 其他的优化操作3.1 锁消除3.2 锁粗化 总结 前言 在前面章节中, 提到了多线程中的锁策略, 那么我们 Java 中的锁 synchronized 背后都采取了哪些锁策略呢? 又是如何进行工作的呢? 本节我们就…

第三课 哈希表、集合、映射

文章目录 第三课 哈希表、集合、映射lc1.两数之和--简单题目描述代码展示 lc30.串联所有单词的子串--困难题目描述代码展示 lc49.字母异位分组--中等题目描述代码展示 lc874.模拟行走机器人--中等题目描述代码展示 lc146.LRU缓存--中等题目描述相关补充思路讲解代码展示图示理解…

提升您的 Go 应用性能的 6 种方法

优化您的 Go 应用程序 1. 如果您的应用程序在 Kubernetes 中运行&#xff0c;请自动设置 GOMAXPROCS 以匹配 Linux 容器的 CPU 配额 Go 调度器 可以具有与运行设备的核心数量一样多的线程。由于我们的应用程序在 Kubernetes 环境中的节点上运行&#xff0c;当我们的 Go 应用程…

美国各流域边界下载,并利用arcgis提取与处理

一、边界数据的下载 一般使用最普遍的流域边界数据是从HydroSHEDS官网下载: HydroBASINS代表一系列矢量多边形图层&#xff0c;以全球尺度呈现次级流域边界。该产品的目标是提供一种无缝的全球覆盖&#xff0c;其中包含了不同尺度&#xff08;从数十到数百万平方千米&#xf…

Docker 配置基础优化

Author&#xff1a;rab 为什么要优化&#xff1f; 你有没有发现&#xff0c;Docker 作为线上环境使用时&#xff0c;Docker 日志驱动程序的日志、存储驱动数据都比较大&#xff08;尤其是在你容器需要增删比较频繁的时候&#xff09;&#xff0c;动不动就好几百 G 的大小&…

P3-Python学习当中的两大法宝函数

P3-Python学习当中的两大法宝函数 实战操作 打开pycharm&#xff0c;在命令行当中先检测是否是在envs当中的pytorch环境里面&#xff0c;或者导入torch包是否成功 dir(torch)//展示torch以下的分隔的工具包证明torch目录以下有cuda包 dir(torch.cuda.is_available())//可以展示…

Springboot学生成绩管理系统idea开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 springboot 学生成绩管理系统是一套完善的信息系统&#xff0c;结合springboot框架和bootstrap完成本系统&#xff0c;对理解JSP java编程开发语言有帮助系统采用springboot框架&#xff08;MVC模式开发&#xff09;&#xff0c;系统 具有完整的源代码和数据库&…

golang gin——controller 模型绑定与参数校验

controller 模型绑定与参数校验 gin框架提供了多种方法可以将请求体的内容绑定到对应struct上&#xff0c;并且提供了一些预置的参数校验 绑定方法 根据数据源和类型的不同&#xff0c;gin提供了不同的绑定方法 Bind, shouldBind: 从form表单中去绑定对象BindJSON, shouldB…

【MVC】C# MVC基础知识点、原理以及容器和管道

给自己一个目标&#xff0c;然后坚持一段时间&#xff0c;总会有收获和感悟&#xff01; 国庆假期马上结束&#xff0c;闲暇时间&#xff0c;重温一遍C#关于MVC的技术&#xff0c;控制器、视图、模型&#xff0c;知识点和原理&#xff0c;小伙伴们还记得吗 目录 一、MVC知识点1…

纸质书籍OCR方案大揭秘,快来看看有哪些神奇的黑科技

随着数字化时代的来临&#xff0c;纸质书籍逐渐被电子书所替代。在将纸质书籍转换为电子格式的过程中&#xff0c;扫描电子书目录并进行文字识别&#xff08;OCR&#xff0c;Optical Character Recognition&#xff09;成为了一项重要的工作。OCR技术能够将纸质书籍中的文字内容…

如何使用 Overleaf 编写 LaTeX 文档

如何使用 Overleaf 编写 LaTeX 文档 &#x1f607;博主简介&#xff1a;我是一名正在攻读研究生学位的人工智能专业学生&#xff0c;我可以为计算机、人工智能相关本科生和研究生提供排忧解惑的服务。如果您有任何问题或困惑&#xff0c;欢迎随时来交流哦&#xff01;&#x1f…

Firefly-LLaMA2-Chinese - 开源中文LLaMA2大模型

文章目录 关于模型列表 & 数据列表训练细节增量预训练 & 指令微调数据格式 & 数据处理逻辑增量预训练指令微调模型推理权重合并模型推理部署关于 github : https://github.com/yangjianxin1/Firefly-LLaMA2-Chinese本项目与Firefly一脉相承,专注于低资源增量预训练…

模糊搜索利器:Python的thefuzz模块详解

文章目录 thefuzz模块简介thefuzz模块的参数和方法使用thefuzz实现模糊搜索在Python中,thefuzz模块是一个用于实现模糊搜索的强大工具。它可以帮助我们在处理字符串时,快速找到相似的匹配项。本文将详细介绍thefuzz模块的功能和用法,并结合代码示例演示如何实现模糊搜索。 t…

有自动交易股票的软件么,怎么实现全自动交易?

随着技术的发展&#xff0c;我们经常会在看到一些关于自动交易股票软件的宣传。那么&#xff0c;这些软件是否真的存在&#xff1f;如何实现全自动交易呢&#xff1f; 股票量化程序化自动交易接口 一、自动交易股票软件存在吗&#xff1f; 答案是有&#xff0c;部分券商已经对…

Python数据容器——集合的相关操作

作者&#xff1a;Insist-- 个人主页&#xff1a;insist--个人主页 本文专栏&#xff1a;Python专栏 专栏介绍&#xff1a;本专栏为免费专栏&#xff0c;并且会持续更新python基础知识&#xff0c;欢迎各位订阅关注。 目录 一、理解集合 1. 集合是什么&#xff1f; 2. 为什么…

typora + picgo + 对象存储 OSS

文章目录 一、安装软件二、使用阿里云 oss 存储图片三、picgo 设置四、typora 设置自动上传 一、安装软件 Typora1.3.8 &#xff08;安装即破解&#xff09; picgo 2.3.0 安装 阿里云盘&#xff08;软件安装包&#xff09;&#xff1a; https://www.aliyundrive.com/s/saQoS…

Windows10实用的12个快捷组合键

Windows10实用的12个快捷组合键 1、网页多标签切换 CTRL TAB 2、恢复不小心关闭的标签页 CTRLSHIFT T 3、新建标签页 CTRL T 4、高亮选择地址栏 ALT D 5、打开设置 WIN I 6、打开任务管理器 CTRLSHIFT ESC 7、打开文件资源管理器 WIN E 8、黑屏或屏幕卡顿无响应&#x…

python实验(超详细)

目录 实验一 python编程基础实验二 python序列、字符串处理实验三 函数及python类的定义与使用实验四 python综合应用 实验一 python编程基础 在交互式环境中打印“Hello world”字符串。记录操作过程。 略 创建脚本helloworld.py&#xff0c;在命令符提示环境中执行程序&…

【Oracle】Oracle系列十八--Oracle RAC

文章目录 往期回顾前言1. Oracle RAC介绍1.1 基本概念1.2 Oracle RAC应用场景1.3 Oracle RAC的优缺点 2. Oracle RAC架构3. Oracle RAC 的安装 往期回顾 【Oracle】Oracle系列之一–Oracle数据类型 【Oracle】Oracle系列之二–Oracle数据字典 【Oracle】Oracle系列之三–Orac…