NVIDIA Blackwell Architecture

news2024/11/22 15:27:01

在这里插入图片描述

本文翻译自:NVIDIA Blackwell Architecture
https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/


文章目录

    • 了解技术突破
      • 1、新型人工智能超级芯片
      • 2、第二代 Transformer 引擎
      • 3、Secure AI
      • 4、NVLink 和 NVLink 交换机
      • 5、解压缩引擎
      • 6、可靠性、可用性和可服务性 (RAS) 引擎
    • GB200 NVL72


其他 资料

  • NVIDIA Blackwell Architecture
    Technical Brief
    https://resources.nvidia.com/en-us-blackwell-architecture

  • 16分钟带你看完英伟达GTC2024,Blackwell大芯片,机器人芯片等等
    https://www.bilibili.com/video/BV171421Q7da/
  • NVIDIA BlackWell 架构动画演示
    https://www.bilibili.com/video/BV1d1421D7Wx/

Blackwell 以几代NVIDIA 技术为基础,以无与伦比的性能、效率和规模开创了生成式 AI 的新篇章。


了解技术突破

NVIDIA Blackwell 架构集成 2080 亿个晶体管


1、新型人工智能超级芯片

Blackwell 架构 GPU 集成了 2080 亿个晶体管,采用定制的 TSMC 4NP 工艺制造。

所有 Blackwell 产品都采用两个光罩限制芯片,通过每秒 10 兆兆字节 (TB/s) 的芯片间互连连接,形成一个统一的 GPU。


2、第二代 Transformer 引擎

第二代 Transformer Engine 采用定制的Blackwell Tensor Core技术结合 NVIDIA® TensorRT™-LLM 和 NeMo™ Framework 创新,加速大型语言模型 (LLM) 和混合专家 (MoE) 模型的推理和训练。

为了增强 MoE 模型的推理能力,Blackwell Tensor Cores增加了新的精度,包括新的社区定义的微缩放格式,从而提供高精度,并易于替换更高的精度。

Blackwell Transformer Engine 利用称为微张量缩放的 细粒度缩放技术 来优化性能和精度,从而实现 4 位浮点 (FP4) AI。这使内存可以支持的下一代模型的性能和大小翻了一番,同时保持了高精度。

NVIDIA 生成式 AI 引擎


3、Secure AI

Blackwell 包含 NVIDIA Confidential Computing,它通过强大的硬件安全性 保护敏感数据和 AI 模型 免遭未经授权的访问。

Blackwell 是业内首款支持 TEE-I/O 的 GPU,同时通过支持 TEE-I/O 的主机 和 通过 NVIDIA® NVLink® 提供的内联保护 提供性能最高的机密计算解决方案。

与未加密模式相比,Blackwell 机密计算可提供几乎相同的吞吐量性能。企业现在可以以高性能的方式保护最大的模型,此外还可以保护 AI 知识产权 (IP) 并安全地实现机密 AI 训练、推理和联合学习。

了解有关 NVIDIA 机密计算:https://www.nvidia.com/en-us/data-center/solutions/confidential-computing/

 NVIDIA Confidential Computing


4、NVLink 和 NVLink 交换机

充分发挥百亿亿次计算和万亿参数 AI 模型的潜力 取决于服务器集群中每个 GPU 之间快速、无缝的通信需求。

第五代 NVIDIA® NVLink® 互连可扩展至 576 个 GPU,为万亿和数万亿参数 AI 模型释放加速性能。

NVIDIA NVLink 交换芯片在一个 72-GPU NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽,并通过 NVIDIA 可扩展分层聚合和缩减协议 (SHARP)™ FP8 支持提供 4 倍带宽效率。

NVIDIA NVLink 交换芯片以同样惊人的 1.8TB/s 互连速度支持超过单台服务器的集群。

具有 NVLink 的多服务器集群可以平衡 GPU 通信与增加的计算,因此 NVL72 可以支持比单个八 GPU 系统高 9 倍的 GPU 吞吐量。

了解有关 NVIDIA NVLink 和 NVLink Switch 的更多信息

NVLink 和 NVLink 交换机


5、解压缩引擎

数据分析和数据库工作流传统上依赖 CPU 进行计算。加速数据科学可以显著提高端到端分析的性能,加快价值生成速度并降低成本。

数据库(包括 Apache Spark)在处理、处理和分析大量数据分析数据方面发挥着关键作用。

Blackwell 的解压缩引擎以及通过高速链路(900 千兆字节每秒 (GB/s) 的双向带宽)访问NVIDIA Grace™ CPU中海量内存的能力,加速了整个数据库查询流程,以实现数据分析和数据科学的最高性能,同时支持最新的压缩格式,例如 LZ4、Snappy 和 Deflate。

NVIDIA 解压缩引擎


6、可靠性、可用性和可服务性 (RAS) 引擎

Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能弹性,可及早识别可能发生的潜在故障,从而最大限度地减少停机时间。

NVIDIA 的 AI 驱动预测管理功能可持续监控硬件和软件中的数千个数据点,以了解整体健康状况,从而预测和拦截停机和低效率的根源。这建立了智能弹性,从而节省了时间、能源和计算成本。

NVIDIA 的 RAS 引擎提供深入的诊断信息,可识别问题区域并制定维护计划。

RAS 引擎通过快速定位问题源来缩短周转时间,并通过促进有效的补救措施来最大限度地减少停机时间。

NVIDIA RAS 引擎


GB200 NVL72

使用 NVIDIA GB200 NVL72 解锁实时万亿参数模型

格雷斯·布莱克韦尔 NVL72

NVIDIA GB200 NVL72 采用机架级设计,连接 36 个 GB200 Grace Blackwell 超级芯片、36 个 Grace CPU 和 72 个 Blackwell GPU。

GB200 NVL72 是一种液冷解决方案,具有 72 个 GPU NVLink 域,可充当单个大型 GPU,为万亿参数大型语言模型提供 30 倍更快的实时推理速度。

了解有关 NVIDIA GB200 NVL72 的更多信息:https://www.nvidia.com/en-us/data-center/gb200-nvl72/


2024-05-27(一)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

景源畅信数字:抖音新手如何找好自己的发布领域?

在短视频的浪潮中,抖音以其独特的魅力吸引了众多用户。对于刚踏入这个平台的新手来说,找到适合自己的发布领域至关重要。那么,如何在这个充满竞争的平台上找到自己的定位呢?接下来,就让我们一起来探讨这个问题。 一、明确兴趣爱好…

Java18+ springboot+mysql +Thymeleaf 技术架构开发的全套同城服务家政上门系统源码(APP用户端+APP服务端+PC管理端)

Java springbootmysql Thymeleaf 技术架构开发的全套同城服务家政上门系统源码(APP用户端APP服务端PC管理端) 家政上门预约系统:该系统综合运用springboot、java1.8、vue移动支付、微信授权登录等技术,由用户小程序、站长小程序、…

AI网络爬虫:无限下拉滚动页面的另类爬取方法

现在很多网页都是无限下拉滚动的。可以拉动到底部,然后保存网页为mhtml格式文件。 接着,在ChatGPT中输入提示词: 你是一个Python编程高手,要完成一个关于爬取网页内容的Python脚本的任务,下面是具体步骤: …

利用依赖结构矩阵管理架构债务

本文讨论了如何利用依赖结构矩阵(DSM,Dependency Structure Matrix)管理和识别架构债务,并通过示例应用展示了这一过程。原文: Managing Architecture Debt with Dependency Structure Matrix Vlado Paunovic Unsplash 技术债务&a…

imx6ull - 制作烧录SD卡

1、参考NXP官方的手册《i.MX_Linux_Users_Guide.pdf》的这一章节: 1、SD卡分区 提示:我们常用的SD卡一个扇区的大小是512字节。 先说一下i.MX6ULL使用SD卡启动时的分区情况,NXP官方给的镜像布局结构如下所示: 可以看到&#xff0c…

simulink基础学习笔记

写在前面 这个笔记是看B站UP 快乐的宇航boy 所出的simulink基础教程系列视频过程中记下来的,写的很粗糙不完整,也不会补。视频教程很细跟着做就行。 lesson1-7节的笔记up有,可以加up的群,里面大佬挺活跃的。 lesson8 for循环 For …

【项目管理知识】项目质量管理措施

1、持续改进(PDCA) 戴明循环或称PDCA循环、PDSA循环。戴明循环的研究起源于20世纪20年代,先是有着“统计质量控制之父”之称的著名的统计学家沃特阿曼德休哈特(Walter A. Shewhart)在当时引入了“计划-执行-检查&…

统计各个商品今年销售额与去年销售额的增长率及排名变化

文章目录 测试数据需求说明需求实现分步解析 测试数据 -- 创建商品表 DROP TABLE IF EXISTS products; CREATE TABLE products (product_id INT,product_name STRING );INSERT INTO products VALUES (1, Product A), (2, Product B), (3, Product C), (4, Product D), (5, Pro…

服装连锁店收银系统需要具备的五大功能

当今服装连锁店在市场竞争中需要拥有高效的收银系统来提升业务效率和顾客满意度。以下是服装连锁店收银系统需要具备的五大功能: 首先,完善的商品管理功能是至关重要的。这包括商品信息的录入、管理、更新和查询。收银系统应该能够快速而准确地识别商品&…

深入理解linux文件系统与日志分析

深入理解linux文件系统与日志分析 linux文件系统: 文件是存储在硬盘上的,硬盘上的最小存储单位是扇区,每个扇区的大小是512字节。 inode:元信息(文件的属性 权限,创建者,创建日期等等) block…

【产品经理】电商支付模块

在电商类的产品中,支付功能是非常重要的模块。那么,这个模块包含哪些功能呢? 电商平台上的支付模块作为整个购物流程中至关重要的一环,远哥聊聊如何解决用户在购物过程中面临的种种挑战,包括支付方式的选择&#xff0c…

Java实现数据结构---数组

文章目录 概念存储原理数组的操作完整代码 概念 数组是(Array)是有限个相同类型的变量所组成的有序集合,数组中的每一个变量为称为元素。数组是最简单、最常用的数据结构。 数组下标从零开始。 存储原理 数组用一组连续的内存空间来存储一…

HTTP --tcp

TCP TCP连接 tcp/ip是全球计算机以及网络设备都在使用的一种常见的分组交换网络分层协议集,客户端可以打开一条tcp/ip连接,连接到可能运行在世界各地的服务器应用程序,一旦连接建立起来了,在客户端和服务器的计算机之间交换的报…

Token的使用(JWT)

客户端用户登录生成token,然后返回给客户端后被存储,然后需要使用时客户端会发送到服务器进行验证。 package com.example.springblog;import io.jsonwebtoken.Claims; import io.jsonwebtoken.JwtParser; import io.jsonwebtoken.Jwts; import io.jsonw…

软件测试可发现所有bug吗?有什么样的原则和目的?

在今天的高度数字化时代,软件测试的重要性不可忽视。这是一种系统性的过程,通过对软件系统进行评估和验证,以确定其是否满足预期要求。在软件开发的各个阶段,软件测试都扮演着至关重要的角色。它涉及到软件功能、性能、安全性等多…

HackTheBox-Machines--Cronos

文章目录 0x01 信息收集0x02 命令注入漏洞0x03 权限提升 Cronos 测试过程 0x01 信息收集 1.端口扫描 发现 SSH(22)、DNS(53)、HTTP(80)端口 nmap -sC -sV 10.129.227.2112.53端口开启,进行DNS…

Mysql基础教程(12):JOIN

MySQL JOIN 在 MySQL 中,JOIN 语句用于将数据库中的两个表或者多个表组合起来。 比如在一个学校系统中,有一个学生信息表和一个学生成绩表。这两个表通过学生 ID 字段关联起来。当我们要查询学生的成绩的时候,就需要连接两个表以查询学生信…

姚班带队OpenCSG,超越Devin,创造大模型编程领域新纪录

摘要 来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实独立编程评测)排行榜,取得了全球第二名的成绩,同时创造了非GPT-4o基模的最高纪录(SOTA)。 SWEBen…

案例|开发一个美业小程序,都有什么功能

随着移动互联网的迅猛发展,美业连锁机构纷纷寻求数字化转型,以小程序为载体,提升服务效率,增强客户体验。 线下店现在面临的困境: 客户到店排队时间过长,体验感受差 新客引流难,老用户回头客…

2024ciscn初赛——easycms

什么是CMS? CMS是“Content Management System”的缩写,意为“内容管理系统”。网站的开发者为了方便,制作了不同种类的CMS,可以加快网站开发的速度和减少开发的成本。 常见的CMS: php类cms系统:dedecms、…