【智算中心】国产GPU横向对比

news2025/1/12 12:03:07

认证证书
近日,沐曦发布了一篇名为《沐曦与智谱AI完成兼容性测试 共建软硬件一体化解决方案》的公众号,表示曦云®C500千亿参数AI大模型训练及通用计算GPU与智谱AI开源的中英双语对话语言模型ChatGLM2-6B完成适配。测试结果显示,曦云®C500在智谱AI的升级版大模型上充分兼容、高效稳定运行。

据悉,在2023年算力大会期间算能科技、寒武纪等国产GPU厂商也获得了ChatGLM2-6B模型适配认证,下面我们就国产化GPU和高端GPU到底有多大差距和ChatGLM2-6B模型是什么模型,能决绝那些问题等方面展开聊一下。


文章目录

  • 什么是GPU?
  • 国产化GPU
    • 羲彩®G100(图形处理GPU)
    • 羲云®C500(通用计算GPU)
    • 曦思®N100(推理GPU)
    • 算能 SC5(AI加速卡)
    • 算能 SC7(AI加速卡)
  • 英伟达V100、A100、H100横向对比
  • 国产GPU横向对比


什么是GPU?

GPU,全称为图形处理器,是一种专门设计用于处理计算机图形和图像的处理器。它可以加速计算机图形渲染和处理操作,提高计算机图形和图像的性能和质量。GPU相对于CPU而言,具有更多的处理单元和更高的并行处理能力,因此可以更快地处理大量的图形和图像数据。

随着人工智能技术的飞速发展,GPU的应用场景不断细分,出现了 GPGPUNPUDCU 等新的概念。

  • GPU。是指图形处理器。 可以理解成显卡,一般用来显示工作的。
  • GPGPU。是通用目的GPU,现阶段主流显卡都是GPGPU。通常算力很强,可以适用于大多数目的,即通用目的。
  • NPU。神经网络处理器,是一种专门用于进行深度学习计算的芯片。
  • DCU。 深度计算器。是海光(HYGON)推出的一款专门用于AI人工智能和深度学习的加速卡。

国产化GPU

羲彩®G100(图形处理GPU)

曦彩®G100是一款面向数据中心和工作站应用的图形处理GPU。它内置工艺先进、算力强大的MXG100GPU处理器,具备超强的图形处理能力。曦彩®G100可广泛应用于云游戏、元宇宙、数字李生、云渲染、影视动画制作、专业制图等场景。

  • 算力。对标国际厂商主流架构旗舰GPU产品
  • 大容量显存。集成 32G显存 并支持显存扩展
  • 通信接口。PCle Gen5.0
  • 互联。桥接互联
  • 视频处理。支持多种视频格式的多路视频编解码

羲云®C500(通用计算GPU)

在这里插入图片描述
曦云®C500基于自主研发的高性能GPU IP,具有强大的多精度混合算力、 64GB 大容量高带宽内存、先进的多卡互联技术、全兼容主流GPU生态的MXMACA®软件栈,特别适合千亿参数AI大模型的训练和推理;全面 兼容CUDA生态,实现用户零成本迁移;通过自主知识产权的MetaXLink实现 单机8卡GPU全互联,提供构建高密度算力和云计算部署的优秀国产GPU解决方案;可广泛应用于千亿参数AI大模型训练与推理、AIGC内容生成、推荐系统、自动语音识别、语音合成、图像分割检测,以及科学计算、数据库加速等多种场景。

产品代号羲云®C500 PCIe羲云®C500 OAM
算力FP32(vector):15TFLOPS
FP32(matrix):30TFLOPS
TF32: 120 TFLOPS
FP16:240TFLOPS
BF16:240 TFLOPS
INT8:480 TOPS
FP32(vector):18TFLOPS
FP32(matrix):36TFLOPS
TF32: 140 TFLOPS
FP16:280TFLOPS
BF16:280 TFLOPS
INT8:560 TOPS
内容规格64GBHBM2e,带宽18TB/s64GBHBM2e,带宽18TB/s
视频/JPEG解码160路1080p@30FPS160路1080p@30FPS
视频/JPEG编码12路1080p@30FPS12路1080p@30FPS
互联MetaXLink 2卡4卡全互联MetaXLink 8卡全互联
虚拟化示例1/2/4/81/2/4/8
功耗350W450W

曦思®N100(推理GPU)

在这里插入图片描述
曦思®N100是一款人工智能推理GPU,拥有 160TOPS AI峰值算力,及128路编码和96路解码超高密度视频处理能力;高速互联和多卡扩展等功能使其具有高带宽、低延时的属性,可应用与智慧交通、智慧安防、智能转码等人工智能领域。

算能 SC5(AI加速卡)

在这里插入图片描述
Al加速卡SC5搭载算丰AI处理器BM1684.是面向 AI推理的算力卡。可集成于服务器、工控机中,高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用,为智慧城市、智慧交通、智慧能源、智慧金融智慧电信、智慧工业等领域进行AI赋能。

算力

  • 支持52.8T的INT8 峰值算力
  • 支持6.6T的FP32高精度算力

编解码和转码能力

  • 支持 114路1080P@25fps 高清视频硬件解码
  • 支持 6路1080P@25fps 高清视频硬件编码
  • 支持 54 路1080P至CIF 格式的视频流片上转码

算能 SC7(AI加速卡)

在这里插入图片描述
Al加速卡SC7是面向AI推理的算力卡可集成于服务器、工控机中,高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用,为智慧城市、智慧交通、智慧能源、智慧金融、智慧电信、智慧工业等领域进行AI赋能。

算力

  • 支持 256/96TOPS的INT8 峰值算力
  • 支持128/48FLOPS的FP16/BF16 峰值算力
  • 支持16/6TFLOPS的FP32高精度算力

编解码和转码能力

  • 支持 256/96路1080P@25fps高清视频硬件解码
  • 支持96/36路1080P@25fps 高清视频硬件编码

英伟达V100、A100、H100横向对比

产品代号V100(NVLink)A100(SXM)H100(SXM)A800(SXM)
FP647.8 TFLOPS9.7 TFLOPS34 TFLOPS9.7 TFLOPS
FP64 Tensor Core-19.5 TFLOPS67 TFLOPS19.5 TFLOPS
TF32-156 TFLOPS/312 TFLOPS989 TFLOPS156 TFLOPS/312 TFLOPS
FP16 Tensor Core-312 TFLOPS/624 TFLOPS1979 TFLOPS312 TFLOPS/624 TFLOPS
INT8 Tensor Core-624 TOPS/1248 TOPS3958 TOPS624 TOPS/1248 TOPS
显存32/16GB HBM280GB HBM280GB80GB HBM2
显存带宽900 GB/s1935 GB/s3.35TB/s2039 GB/s
功耗300W400W700W400W

近年,美国政府出台新政策,禁止美国公司向中国的超算公司和高性能计算机制造商出售高端图形处理器(也就是高端GPU)和其他制造设备。国内现在买不到如NVIDIA的A100 H100等高端GPU从短期来看,这个政策可能会对中国的算力行业带来一定的压力,目前中国仍然需要使用高端GPU进行生产但从长远来看,对于国产GPU行业发展而言是一个机遇。

禁令出现后英伟达也是做出了应对措施,推出了A100/H100的阉割版本,A800、H800 GPU,主要是在NVLink模式下的带宽从600GB/s下降到400GB/s,其他参数均保持致。即使是阉割版本国内也是一卡难求,我们在今年3月份询的A800服务器价格在110万/台,6月现货价格在135万/台,期货130万每台,还需要全款后2月内交付。第三季度又放出A800停止发货消息。

国产GPU横向对比

产品代号寒武纪思元370寒武纪思元290昇腾910燧原云燧T20/T21海光DCU羲云C500算能SC7
FP64----11.5 TFLOPS--
FP3224 TFLOPS--32 TFLOPS-18 TFLOPS/36 TFLOPS6 TFLOPS/16 TFLOPS
TF32---128 TFLOPS-140 TFLOPS-
FP1696 TFLOPS-320TFLOPS128 TFLOPS-280 TFLOPS48 TFLOPS/128 TFLOPS
BP1696 TFLOPS--128 TFLOPS-280 TFLOPS48 TFLOPS/128 TFLOPS
INT16128 TFLOPS256 TFLOPS-----
INT8256 TOPS512 TOPS640 TOPS256 TOPS-560 TOPS96 TOPS/256 TOPS
显存24GB LPDDR532 HBM2-32 HBM2E32 HBM2E64 HBM2E-
显存带宽307.2 GB/s1228 GB/s-1.6 TB/s1 TB/s1.8 TB/s-
功耗150W350W310W300W260-350W450W-

目前这些GPU多用在国产商用机、国内服务器、云端计算以及AI计算等方面。从上面的参数可以看出,昇腾910、羲云C500在AI加速卡中极具竞争力,海光DCU更适合超算领域。海外各种禁令虽然短期内会在相应领域上给我们带来不小的麻烦,但也会促进国内公司在相应的领域上发力,这对于这些公司而言未尝不是一个机会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/922911.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

V4L2+单色USB摄像头编程实践3:读取MJPG格式图像

查看摄像头支持的MJPG格式的分辨率和帧率: $ v4l2-ctl --list-formats-ext --device /dev/video0 ioctl: VIDIOC_ENUM_FMTType: Video Capture[0]: MJPG (Motion-JPEG, compressed)Size: Discrete 1280x720 Interval: Discrete 0.008s (120.000 fps)Interval:…

敏捷研发管理软件及敏捷管理流程

Scrum中非常强调公开、透明、直接有效的沟通,这也是“可视化的管理工具”在敏捷开发中如此重要的原因之一。通过“可视化的管理工具”让所有人直观的看到需求,故事,任务之间的流转状态,可以使团队成员更加快速适应敏捷开发流程。 …

Java cc链2 分析

环境 cc4 <!-- https://mvnrepository.com/artifact/org.apache.commons/commons-collections4 --> <dependency><groupId>org.apache.commons</groupId><artifactId>commons-collections4</artifactId><version>4.0</version&…

损失函数介绍

用softmax&#xff0c;就可以将一个输出值转换到概率取值的一个范围。 交叉熵损失CrossEntropyLoss 第一个参数weight&#xff0c; 各类别的loss设置权值&#xff0c; 如果类别不均衡的时候这个参数很有必要了&#xff0c;加了之后损失函数变成这样&#xff1a; 第二个参数ign…

8年测试经验之谈 —— 什么是全链路压测?

随着互联网技术的发展和普及&#xff0c;越来越多的互联网公司开始重视性能压测&#xff0c;并将其纳入软件开发和测试的流程中。 阿里巴巴在2014 年双11 大促活动保障背景下提出了全链路压测技术&#xff0c;能更好的保障系统可用性和稳定性。 什么是全链路压测&#xff1f; …

湘潭大学 湘大 XTU 1251 Colombian Number 题解(非常详细)

参考文章 1.XTUOJ-1251-Colombian Number 链接 1251 题面 题目描述 对于正整数n,不存在整数k,使得n等于k加上k的数码累加和&#xff0c;我们称这样的数是哥伦比亚数或者自我数。 比如 11就不是一个哥伦比亚数&#xff0c;因为10加上10的数码累加和1等于11;而20则是一个哥伦…

uniapp 开发微信小程序使用echart的dataZoom属性缩放功能不生效!bug记录!

在本项目中使用的是这个echart库 在项目中添加了dataZoom配置项但是不生效&#xff0c;突然想到微信小程序代码大小的限制&#xff0c;之前的echarts.js是定制的&#xff0c;有可能没有加dataZoom组件。故重新定制echarts.js。之前用的echarts版本是5.0.0&#xff0c;这次也是…

容灾设备系统组成,容灾备份系统组成包括哪些

随着信息技术的快速发展&#xff0c;企业对数据的需求越来越大&#xff0c;数据已经成为企业的核心财产。但是&#xff0c;数据安全性和完整性面临巨大挑战。在这种环境下&#xff0c;容灾备份系统应运而生&#xff0c;成为保证企业数据安全的关键因素。下面我们就详细介绍容灾…

IDEA启动Tomcat两个端口的方式 使用nginx进行反向代理 JMeter测试分布式情况下synchronized锁失效

目录 引出IDEA启动Tomcat两个端口的方式1.编辑配置2.添加新的端口-Dserver.port80833.service里面管理4.启动后进行测试 使用nginx进行反向代理反向代理多个端口运行日志查看启动关闭重启 分布式情况下synchronized失效synchronized锁代码启动tomcat两个端口nginx反向代理JMete…

慕课网 Go工程师 第三周 package和gomodules章节

Go包的引入&#xff1a; 包名前面加匿名&#xff0c;只引入但不使用&#xff0c;如果对应包有init函数&#xff0c;会执行init函数&#xff08;初始化操作&#xff09; 包名前面加. 把这个包的结构体和方法导入当前包&#xff0c;慎用&#xff0c;你不知道当前包和被引入的包用…

顺序表详解|顺序表常见错误并调试分析

前言&#xff1a; 今天我们开始学习基础的数据结构——顺序表&#xff0c;数据结构就是将数据在内存存储起来&#xff0c;在内存管理数据。 一、线性表 1、线性表&#xff08;Linear list&#xff09;是n个具有相同特性的数据元素的有限序列&#xff0c;线性表是一种在实际中广…

美国访问学者签证好办吗?

近年来&#xff0c;随着国际交流与合作的不断深入&#xff0c;许多人对于美国访问学者签证的办理情况产生了浓厚的兴趣。那么&#xff0c;美国访问学者签证到底好办吗&#xff1f;让知识人网小编带您一起了解一下。 首先&#xff0c;美国作为世界上的科研、教育和创新中心之一&…

springBoot的启动

自动配置注解的逻辑: 在启动类的基础上,导入了springboot的大量自动配置类,以至于自己不用关心配置实现过程(约定大于配置) 大量自动配置类是如何导入的? Spring提供了一个SpringFactories功能(SPI: service provider interface ),读取固定文件META-INF/spring.factories,按照…

keepalived双机热备,keepalived+lvs(DR)

本节主要学习了keepalivedlvs的作用和配置方法主要配置调度器和web节点&#xff0c;还有keepalived的双击热备&#xff0c;主要内容有概述&#xff0c;安装&#xff0c;功能模块&#xff0c;配置双击热备&#xff0c;验证方法&#xff0c;双击热备的脑裂现象和VIP无法通信。 目…

❤ windows 安装后台java开发环境JDK 、MySQL 、Redis

❤ windows 安装后台java开发环境 1、windows 安装 JDK. 下载地址&#xff1a; http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 1、下载安装 官网点击下载安装 网盘 jdk安装包 链接&#xff1a;https://pan.baidu.com/s/1sdxA6B…

Axure设计之日期选择器(年月选择)

在系统中&#xff0c;日期选择器经常会用到&#xff0c;包括日历日期的选择、日期时间的选择和日期范围的选择&#xff0c;一般是下拉列表的形式进行选择。Axure没有自带的日期选择器&#xff0c;下面教大家如何在Axure中制作真实日期选择&#xff08;年月选择&#xff09;效果…

首席执行官Adam Selipsky解读“亚马逊云科技的技术产品差异化”

迄今为止&#xff0c;亚马逊云科技已经参与了21世纪几乎所有的大型计算变革&#xff0c;亚马逊云科技是一个很传奇的故事&#xff0c;它始于大约20年前的一项实验&#xff0c;当时亚马逊试图出售其过剩的服务器。人们确实对此表示怀疑。为什么在线书店试图销售云服务&#xff1…

js逆向实战之某书protobuf反序列化

什么是Protobuf&#xff1f; \qquad Protobuf&#xff08;Protocol Buffer&#xff09;是 Google 开发的一套数据存储传输协议&#xff0c;作用就是将数据进行序列化后再传输&#xff0c;Protobuf 编码是二进制的&#xff0c;它不是可读的&#xff0c;也不容易手动修改&#xf…

抓包工具Charles的安装及代理设置(Windows浏览器代理、安卓代理)

1、下载Charles 官网地址&#xff1a;https://www.charlesproxy.com/download/&#xff0c;下载对应的安装包。安装完成后按照以下步骤进行代理配置。 2、配置Charles证书 按照以下截图步骤进行配置即可。 3、Charles代理设置 这里的端口号根据自己情况设置&#xff0c;这里…

17.4 【Linux】systemctl 针对 timer 的配置文件

有时候&#xff0c;某些服务你想要定期执行&#xff0c;或者是开机后执行&#xff0c;或者是什么服务启动多久后执行等等的。在过去&#xff0c;我们大概都是使用 crond 这个服务来定期处理&#xff0c; 不过&#xff0c;既然现在有一直常驻在内存当中的 systemd 这个好用的东西…