HuaWei、NVIDIA 数据中心 AI 算力对比

HuaWei、NVIDIA 数据中心 AI 算力对比

news2026/2/11 7:57:59

HuaWei Ascend 910B

Ascend 910B 是 HuaWei 于 2023 年推出的高性能 AI 处理器芯片，其对标产品为 Nvidia A100/A800，其算力表现如下：

峰值算力：Ascend 910B 的半精度（FP16）算力达到 256 TFLOPS（每秒 256 万亿次浮点运算）。
整数精度算力：Ascend 910B 的整数精度（INT8）算力达到 512 Tera-OPS。
单精度算力：Ascend 910B 的单精度（FP32）算力达到 128 TFLOPS。
能效比：Ascend 910B 的每瓦特性能达到 5.2 TFLOPS/W，相较于英伟达 A100 的每瓦特性能 4.7 TFLOPS/W，Ascend 910B 在能效上更优。
内存带宽：Ascend 910B 的内存带宽为 768 GB/s。
互连带宽：Ascend 910B 的芯片间互连带宽为 600GB/s，卡间互连带宽为 PCIe 4.0 x16，理论带宽 31.5GB/s。
功耗：Ascend 910B 的最大功耗为 350W。
AI 算力对比：科大讯飞与华为联合优化后，在他们的场景中 Ascend 910B 已经达到 NVIDIA A100 的性能。

NVIDIA A100

数据精度	A100 80GB PCIe	A100 80GB SXM
FP64	9.7 TFLOPS	9.7 TFLOPS
FP64 Tensor Core	19.5 TFLOPS	19.5 TFLOPS
FP32	19.5 TFLOPS	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS	312 TFLOPS
BFLOAT16 Tensor Core	312 TFLOPS	624 TFLOPS
FP16 Tensor Core	312 TFLOPS	624 TFLOPS
INT8 Tensor Core	624 TOPS	1248 TOPS
GPU Memory	80GB HBM2e	80GB HBM2e
GPU Memory Bandwidth	1935 GB/s	2039 GB/s
TDP 功耗	300W	400W
插槽类型	PCIe 4.0	SXM

NVIDIA H100

NVIDIA H100 Tensor Core GPU

数据精度	H100 SXM	H100 NVL
FP64	34 TFLOPS	30 TFLOPS
FP64 Tensor Core	67 TFLOPS	60 TFLOPS
FP32	67 TFLOPS	60 TFLOPS
TF32 Tensor Core	989 TFLOPS	835 TFLOPS
BFLOAT16 Tensor Core	1979 TFLOPS	1671 TFLOPS
FP16 Tensor Core	1979 TFLOPS	1671 TFLOPS
FP8 Tensor Core	3958 TFLOPS	3341 TFLOPS
INT8 Tensor Core	3958 TOPS	3341 TOPS
GPU Memory	80GB	94GB
GPU Memory Bandwidth	3.35TB/s	3.9TB/s
TDP 功耗	700 W	400 W
插槽类型	SXM	PCIe 5.0

基于 PCIe 的 NVIDIA H100 NVL（带有 NVLink 桥接）利用 Transformer Engine、NVLink 和 188GB HBM3 内存，在任何数据中心提供最佳性能和轻松扩展，使大型语言模型成为主流

NVIDIA H200

NVIDIA H200 Tensor Core GPU

数据精度	H200 SXM	H200 NVL
FP64	34 TFLOPS	30 TFLOPS
FP64 Tensor Core	67 TFLOPS	60 TFLOPS
FP32	67 TFLOPS	60 TFLOPS
TF32 Tensor Core	989 TFLOPS	835 TFLOPS
BFLOAT16 Tensor Core	1979 TFLOPS	1671 TFLOPS
FP16 Tensor Core	1979 TFLOPS	1671 TFLOPS
FP8 Tensor Core	3958 TFLOPS	3341 TFLOPS
INT8 Tensor Core	3958 TOPS	3341 TOPS
GPU Memory	141GB	141GB
GPU Memory Bandwidth	4.8TB/s	4.8TB/s
TDP 功耗	700 W	600 W
插槽类型	SXM	PCIe 5.0

基于 NVIDIA Hoppe 架构，NVIDIA H200 是首款提供 141GB（吉字节）HBM3e 内存、内存带宽达 4.8TB/s（太字节每秒）的 GPU

NVIDIA GB200 & GB200 NVL72

数据精度	GB200 NVL72	GB200
Configuration	36 Grace CPU : 72 Blackwell GPUs	1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core	1440 PFLOPS	40 PFLOPS
FP8/FP6 Tensor Core	720 PFLOPS	20 PFLOPS
INT8 Tensor Core	720 POPS	20 POPS
FP16/BF16 Tensor Core	360 PFLOPS	10 PFLOPS
TF32 Tensor Core	180 PFLOPS	5 PFLOPS
FP32	6480 TFLOPS	180 TFLOPS
FP64	3240 TFLOPS	90 TFLOPS
FP64 Tensor Core	3240 TFLOPS	90 TFLOPS
GPU Memory	Up to 13.5 TB HBM3e	Up to 384 GB HBM3e
GPU Bandwidth	576 TB/s	16 TB/s
NVLink Bandwidth	130TB/s	3.6TB/s
CPU Core Count	2592 Arm Neoverse V2 cores	72 Arm Neoverse V2 cores
CPU Memory	Up to 17 TB LPDDR5X	Up to 480GB LPDDR5X
CPU Bandwidth	Up to 18.4 TB/s	Up to 512 GB/s

GB200 NVL72 架构组成：

将 36 个 Grace Blackwell 超级芯片组合在一起，包含 72 个 Blackwell GPU 和 36 个 Grace CPU，通过第五代 NVLink 技术相互连接
每个 Grace Blackwell 超级芯片包含两个高性能的 NVIDIA Blackwell Tensor Core GPU 和一个 NVIDIA Grace CPU，使用 NVIDIA NVLink-C2C 连接

码字不易，若觉得本文对你有用，欢迎点赞 👍、分享 🚀 ，相关技术热点时时看🔥🔥🔥…

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2265853.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Elasticsearch：什么是提示工程 - prompt engineering？

Elasticsearch：什么是提示工程 - prompt engineering？

提示工程流程定义提示工程是一种工程技术，用于设计生成式 AI 工具（generative AI tools）的输入，以调整大型语言模型并优化输出。提示（prompts）被称为输入，而由生成性 AI 工具生成的答案是输…

阅读更多...

金融租赁系统的发展与全球化战略实施探讨

金融租赁系统的发展与全球化战略实施探讨

内容概要金融租赁系统的演变并非一帆风顺，像一场跌宕起伏的电影。首先，咱们得看看它的起源及现状。随着经济的快速发展，金融租赁逐渐作为一种灵活的融资手段崭露头角。在中国市场中，企业对设备和技术更新换代的需求日益迫切&…

阅读更多...

1.flask介绍、入门、基本用法

1.flask介绍、入门、基本用法

flask与djiango的区别 djiango是一个大而全的框架。 djiango内部为我们提供了非常多的组件: orm/session/cookie/admin/form/modelform/路由/视图/模板/中间件/分页/auth/contenttype/缓存/信号/多数据库连接 flask 是一个轻量级的框架，本身没有什么太多的功能&a…

阅读更多...

【vue2父组件调用子组件方法之slot的使用】

【vue2父组件调用子组件方法之slot的使用】

父组件调用子组件方法之slot的使用具体功能需求： 一个页面，点击按钮，打开一个弹窗。弹窗有自定义表单和公共表单，提交的时候要获取两个表单的数据以及复显表单数据为什么使用插槽了，因为我需要在弹窗中复用公共表单…

阅读更多...

认识计算机网络

认识计算机网络

单单看这一个词语，有熟悉又陌生，让我们来重新认识一下这位大角色——计算机网络。、一、是什么以及怎么来的计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备，通过通信线路和通信设备连接起来，在网络操…

阅读更多...

GitLab部署到阿里云服务器上

GitLab部署到阿里云服务器上

GitLab 是一个用于仓库管理系统的开源项目，使用Git作为代码管理工具，并在此基础上搭建起来的web服务。可通过Web界面进行访问公开的或者私人项目。它拥有与Github类似的功能，能够浏览源代码，管理缺陷和注释。一、安装 1.创建一…

阅读更多...

windows nacos安装配置

windows nacos安装配置

GitHub下载压缩包解压目录（注意不要用中文路径） 在mysql先创建数据库nacos，再执行sql脚本配置数据库 #*************** Config Module Related Configurations ***************# ### If use MySQL as datasource: ### Deprecated conf…

阅读更多...

ChildLife“童年时光杯”足球联赛启动共促青少年健康成长

ChildLife“童年时光杯”足球联赛启动共促青少年健康成长

2024年12月21日至22日，由美国知名婴幼儿营养品牌ChildLife童年时光赞助的“童年时光杯”青少年足球联赛将在上海拉开帷幕。本次赛事U7/U8组别共有16支足球队参赛，包括上海幸运星足球俱乐部旗下的明星球队，以及其他青少年俱乐部的优秀队伍&…

阅读更多...

动态规划＜四＞回文串问题(含对应LeetcodeOJ题)

动态规划＜四＞回文串问题(含对应LeetcodeOJ题)

目录引例其余经典OJ题 1.第一题 2.第二题 3.第三题 4.第四题 5.第五题引例 OJ 传送门Leetcode<647>回文子串画图分析： 使用动态规划解决原理：能够将所有子串是否是回文的信息保存在dp表中在使用暴力方法枚举出所有子串，是…

阅读更多...

Log4j1.27配置日志输出级别不起效

Log4j1.27配置日志输出级别不起效

起因：构建独立版本debezuim使用时，日志一直打印debug信息。原因：包冲突问题，进行排包操作。参考log4j日志级别配置完成后不生效系统一直打印debug日志_log4j不起作用-CSDN博客 1、application.properties logging.configc…

阅读更多...

探索Flink动态CEP：杭州银行的实战案例

探索Flink动态CEP：杭州银行的实战案例

摘要：本文撰写自杭州银行大数据工程师唐占峰、欧阳武林老师。将介绍 Flink 动态 CEP的定义与核心概念、应用场景、并深入探讨其技术实现并介绍使用方式。主要分为以下几个内容： Flink动态CEP简介 Flink动态CEP的应用场景 Flink动态CEP的技术实现 Flin…

阅读更多...

Git多人协作流程与git命令

Git多人协作流程与git命令

目录一、拉取：从仓库到本地1、第一次拉取2、后续的拉取二、上传：从本地到仓库三、git commit版本信息标注一、拉取：从仓库到本地 1、第一次拉取 # clone项目 git clone xxx2、后续的拉取第一次拉取是指本地为空，如果本地已…

阅读更多...

前端：改变鼠标点击物体的颜色

前端：改变鼠标点击物体的颜色

需求： 需要改变图片中某一物体的颜色，该物体是纯色； 鼠标点击哪个物体，哪个物体的颜色变为指定的颜色，利用canvas实现。演示案例代码Demo <!DOCTYPE html> <html lang"en"><head>&l…

阅读更多...

[Unity] ShaderGraph动态修改Keyword Enum，实现不同效果一键切换

[Unity] ShaderGraph动态修改Keyword Enum，实现不同效果一键切换

上次更新已然四个月前，零零散散的工作结束，终于有时间写点东西记录一下~ 实际使用中，经常会碰到同一个对象需要切换不同的材质，固然可以通过C#直接替换材质球。或者在ShaderGraph中使用Comparison配合Branch实现切换&#xff…

阅读更多...

电脑出现 0x0000007f 蓝屏问题怎么办，参考以下方法尝试解决

电脑出现 0x0000007f 蓝屏问题怎么办，参考以下方法尝试解决

电脑蓝屏是让许多用户头疼的问题，其中出现 “0x0000007f” 错误代码更是较为常见且棘手。了解其背后成因并掌握修复方法，能帮我们快速恢复电脑正常运行。一、可能的硬件原因内存问题内存条长时间使用可能出现物理损坏，如金手指氧化、芯片…

阅读更多...

深度学习中的并行策略概述：1 单GPU优化

深度学习中的并行策略概述：1 单GPU优化

深度学习中的并行策略概述：1 单GPU优化 1 Training Larger Models on a Single GPU 在讨论模型的“扩展”时，往往会想到在多个GPU或多台机器上进行模型训练。不过，即便是在单个GPU上，也存在多种方法来训练更大规模的模型并提升…

阅读更多...

数据结构（哈希表（中）纯概念版）

数据结构（哈希表（中）纯概念版）

前言哈希表（Hash Table）是计算机科学中的一个基础而重要的数据结构，它广泛评估各种算法和系统中，尤其是在需要快速查找、插入和删除操作的场景中。由于其O( 1)的平均时间复杂度，存储表在性能要求较高的应用中表现得非…

阅读更多...

centos7的磁盘扩容

centos7的磁盘扩容

1、首先，确认你的磁盘是否已经正确识别并添加了新的空间。你可以使用lsblk或fdisk -l命令来查看 lsblk fdisk /dev/vda 2、我的情况是这样的，误操作将盘扩展为物理卷轴了，所以说是这样呈现的，如果有我的那种情况请先删除物理卷轴…

阅读更多...

uniapp 微信小程序页面部分截图实现

uniapp 微信小程序页面部分截图实现

uniapp 微信小程序页面部分截图实现原理都是将页面元素画成canvas 然后将canvas转化为图片，问题是我页面里边本来就有一个canvas，ucharts图画的canvas我无法画出这块。想了一晚上，既然canvas最后能转化为图片，那我直接…

阅读更多...

ubuntu笔记

ubuntu笔记

1.系统下载与虚拟机设置系统下载https://cn.ubuntu.comhttps://releases.ubuntu.com 虚拟机设置: 桥接模式在桥接模式下, 虚拟出来的操作系统就像是局域网中的一台独立的主机, 它可以访问网内任何一台机器主机网卡和虚拟网卡的IP地址处于同一个网段, 子网掩码、网关、DNS等…

阅读更多...

推荐文章

最新文章