Nvidia Blackwell架构深度剖析:深入了解RTX 50系列GPU的升级

news2025/1/21 18:38:36

在CES 2025上,英伟达推出了基于Blackwell架构的GeForce RTX 50系列显卡,包括RTX 5090、RTX 5080、RTX 5070 Ti和RTX 5070。一段时间以来,我们已经知晓了该架构的各种细节,其中许多此前还只是传闻。不过,英伟达近日在2025年国际消费电子展(CES)期间的媒体编辑日活动上,披露了更多关于核心功能的信息与细节。本文主要聚焦于Blackwell RTX 50系列GPU的架构变革。
在这里插入图片描述
英伟达并未对新架构的某些方面提供大量细节,但从宏观层面来看,与RTX 40系列Ada Lovelace架构相比,很多方面似乎变化不大。大多数升级和改进主要围绕AI和各种神经渲染技术——我们会在另一篇文章中对这些内容进行更深入的探讨。

下面这张PPT展示了Blackwell架构的目标:针对新的神经计算工作负载进行优化、减少内存占用、新增服务质量功能以及提升能源效率。这些听起来都很不错。不过,除了RTX 5090拥有显著更大的GPU核心(面积达744平方毫米,而RTX 4090为608平方毫米)之外,很多升级更像是渐进式的。
在这里插入图片描述
这并非意味着毫无变化。第四代光线追踪(RT)核心的光线与三角形相交速率是Ada架构的两倍,也是为Mega Geometry构建的。这有助于未来基于虚幻引擎5开发的游戏运行得更流畅。GPU着色器也针对神经着色器进行了增强,此外还有一些其他新特性。

Blackwell架构使英伟达GPU首次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限制。它们还将支持PCIe 5.0,成为首批实现这一转变的消费级GPU,不过我们还需观察这一支持是否覆盖所有Blackwell GPU,还是仅适用于RTX 5090。视频编码和解码功能也得到了增强,现在支持4:2:2视频流。

性能数据方面,若以“最高可达4000 AI TOPS(每秒数万亿次运算)”来计算,RTX 5090的实际运算能力为3400 TOPS(准确来说是3352)。进一步探究会发现,性能提升的很大一部分得益于原生FP4支持。因此,在同等条件下对比,RTX 5090的FP8运算能力为1676 TFLOPS,而RTX 4090为1321 TFLOPS FP8。这仅有27%的提升——增幅可观,但算不上巨大飞跃。
在这里插入图片描述
类似的性能提升比例在其他方面也有体现,比如FP32着色器计算。RTX 5090的FP32运算能力最高可达104.8 TFLOPS,而RTX 4090为82.6 TFLOPS。同样,这也是27%的性能提升。而RTX 4090相较于RTX 3090,GPU TFLOPS提升了惊人的132%。那才是令人兴奋的升级!

毫无疑问,RTX 5090会比RTX 4090更快、更出色,但它并不会完全超越上一代产品——至少在不考虑多帧生成(Multi Frame Generation)技术的情况下是这样。另外,RTX 5090的核心面积也大了22%,晶体管数量多了21%,它们都基于台积电4N工艺节点。

在架构方面,还有其他一些值得关注的变化。随着人工智能应用的增多以及此类工作负载对整数运算的需求,英伟达让Blackwell架构中的所有着色器核心都完全兼容FP32/INT32运算。在安培(Ampere,RTX 30系列)架构中,英伟达将FP32 CUDA核心数量翻倍,但其中一半仅支持FP32运算,另一半则可同时进行FP32和INT32运算——INT32常用于内存指针计算。Ada架构延续了这一设计,而现在Blackwell架构再次让所有CUDA核心保持一致,数量是图灵(Turing)架构的两倍。
在这里插入图片描述
英伟达还对着色器渲染管线进行了一些调整,以便更好地混合着色器和张量核心运算。英伟达将其归类为神经着色器,虽然其他RTX系列似乎仍能运行这些工作负载,但与Blackwell架构的GPU相比,速度会相对较慢。这部分得益于着色器执行重排序(SER,Shader Execution Reordering)技术的改进,在Blackwell架构上的运行速度是Ada架构的两倍。

Blackwell架构还带来了内存升级,从Ada架构的GDDR6和GDDR6X全面转向GDDR7。我们尚不清楚这是否适用于所有RTX 50系列GPU,但考虑到RTX 5070笔记本电脑GPU都配备了8GB GDDR7,我们推测这可能是全系列的配置。这是自2018年RTX 20系列首次引入GDDR6(时钟频率仅为14Gbps)以来,我们首次看到的图形内存全面升级。
在这里插入图片描述
大多数基于Blackwell架构的RTX 50系列GPU的GDDR7运行频率为28Gbps,是最初GDDR6芯片速度的两倍,但相比许多高端RTX 40系列GPU使用的21Gbps GDDR6X芯片,速度仅提升了33%。RTX 5080的GDDR7频率提升至30Gbps,几乎是RTX 2080 Super 15.5Gbps内存速度的两倍。

除了RTX 5090,其他型号的显存位宽没有变化。RTX 5090配备了512位的超大显存位宽和32GB GDDR7内存。未来的3GB GDDR6芯片为产品周期后期可能推出的48GB版本,或面向专业/数据中心、采用翻盖式设计且容量高达96GB的GPU留下了可能性,但英伟达短期内不会对此进行官方评论或发布相关消息。

RTX 5080仍然保持256位显存位宽和16GB显存容量,因此,尽管其带宽比RTX 4080 Super提升了30%,但显存容量保持不变。RTX 5070 Ti(与RTX 5070 Ti Super相比)和RTX 5070(与RTX 4070相比)也是如此,只是它们的带宽提升了33%——从21Gbps提升至28Gbps。

Blackwell架构的另一个新特性是AI管理处理器。(顺便提一下,英伟达完全没有提及光流加速器,即OFA,这是Ada架构引入的新特性,但现在可能已被停用,取而代之的是更强大的张量运算。)
在这里插入图片描述
随着人工智能工作负载日益复杂,以及更多人工智能模型可能同时运行的情况——想象一下,一款游戏同时进行图像放大、神经纹理处理、帧生成和AI非玩家角色运算——英伟达希望能更好地调度资源。AI管理处理器旨在实现这一目标,并且据说可以根据正在运行的工作负载类型以及需要优先完成的任务来进行调度。例如,为了先完成多帧生成(MFG,Multi Frame Generation),文本生成的大语言模型(LLM)运算可以稍微延迟。

Blackwell架构还改进了电源门控和能源管理,能够比前几代产品更快地进入和退出深度睡眠模式。

综上所述,英伟达的Blackwell架构虽没有带来翻天覆地的变革,但在诸多关键领域实现了稳步升级与创新。从硬件性能提升到功能特性优化,再到内存和架构设计的改进,Blackwell架构的RTX 50系列GPU为未来的图形处理和人工智能应用描绘了一幅充满潜力的蓝图。
在这里插入图片描述
值得关注的是,英伟达 RTX 5090 Founders Edition和 RTX 5080 Founders Edition将于 2025 年 1 月 30 日一同亮相,RTX 5070 Founders Edition以及 RTX 5070 Ti 也将于 2 月闪亮登场。各位小伙伴们,是不是已经迫不及待准备好钱包,坐等 RTX 50 系列显卡到手,开启全新的极致体验了呢?

想了解更多有关RTX 50系产品以及RTX 5090整机相关的信息,不管是技术问题还是应用规划,欢迎随时联系我们,期待能为您提供有价值的见解与支持。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2279962.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抽奖系统(4——活动模块)

1. 活动创建 需求回顾 创建的活动信息包含: 活动名称活动描述关联的一批奖品,关联时需要选择奖品等级(一等奖、二等奖、三等奖),及奖品库存圈选一批人员参与抽奖 tip:什么时候设置奖品数量和奖品等级&am…

Oracle 深入学习 Part 14:Managing Password Security and Resources(管理密码安全性和资源)

Profiles Profile 是一个以名称标识的集合,用于管理 密码 和 资源限制。 每个用户都对应一个profiles,可以通过 CREATE USER 或 ALTER USER 命令分配给用户。 Profiles 可以启用或禁用。 Profiles 可以关联到默认的 DEFAULT Profile。 密码管理&…

Qt 5.14.2 学习记录 —— 십칠 窗口和菜单

文章目录 1、Qt窗口2、菜单栏设置快捷键添加子菜单添加分割线和菜单图标 3、工具栏 QToolBar4、状态栏 QStatusBar5、浮动窗口 QDockWidget 1、Qt窗口 QWidget,即控件,是窗口的一部分。在界面中创建控件组成界面时,Qt自动生成了窗口&#xf…

计算机视觉模型的未来:视觉语言模型

一、视觉语言模型 人工智能已经从识别数据中的简单模式跃升为理解复杂的多模态数据。该领域的发展之一是视觉语言模型 (VLM) 的兴起。这类模型将视觉和文本之间联系起来,改变了我们理解视觉数据并与之交互的方式。随着 VLM 的不断发展,它们正在为计算机视觉设定一个新的水平…

从前端视角看设计模式之结构型模式篇

上篇我们介绍了 设计模式之创建型模式篇,接下来介绍设计模式之结构型模式篇 适配器模式 适配器模式旨在解决接口不兼容的问题,它通过创建一个适配器类,将源对象的接口转换成目标接口,从而使得不兼容的接口能够协同工作。简单来说…

计算机的错误计算(二百一十七)

摘要 大模型能确定 sin(2.6^100) 的符号吗?实验表明,无法确定。因为正弦的自变量值比较大,虽然大模型尝试了许多种方法。这个大模型特别认真负责。 例1. sin(2.6^100) 的符号? 下面是与一个大模型的对话。 点评: …

解决wordpress媒体文件无法被搜索的问题

最近,我在wordpress上遇到了一个令人困扰的问题:我再也无法在 WordPress 的媒体库中搜索媒体文件了。之前,搜索媒体非常方便,但现在无论是图片还是其他文件,似乎都无法通过名称搜索到。对于我这样需要频繁使用图片的博主来说,这简直是个大麻烦。 问题源头 一开始,我怀…

源代码保密技术的工作原理解析

SDC沙盒加密技术:深度解析与工作原理 在数据安全领域,加密技术是保护敏感信息免受泄露和未授权访问的关键手段。SDC沙盒采用了一系列先进的加密技术,确保数据在创建、存储、传输和使用过程中的全程加密,为企业提供了全方位的数据…

详解共享WiFi小程序怎么弄!

在数字化时代,共享WiFi项目​正逐渐成为公共场所的新标配,它不仅为用户提供了便捷的上网方式,还为商家带来了额外的收入来源。那么共享wifi怎么弄,如何搭建并运营一个成功的共享WiFi项目呢? 共享WiFi项目通过在公共场所…

C# 给定欧氏平面中的一组线可以形成的三角形的数量

给定欧氏平面中的一组线可以形成的三角形的数量(Number of Triangles that can be formed given a set of lines in Euclidean Plane) 给定欧氏平面上的 n 条不同直线的集合 L {l 1 , l 2 , ………, l n }。第i 条直线由形式为 a i x b i y c i的方程给出。求出可以使用集合…

KubeKey安装K8s和kubesphere

安装指南 在 Linux 上安装 Kubernetes 和 KubeSphere 卸载 Kubernetes 和 KubeSphere 前置工作-网络问题 yum -y install socat conntrack etables ipsetalias kkkubectl -n kubesphere-systemexport http_proxy10.10.x.x:7890 export https_proxy10.10.x.x:7890Docker设置网…

国内有哪些著名的CRM系统提供商?

嘿,你有没有想过,在这个信息爆炸的时代里,企业怎么才能更好地管理客户关系呢?答案就是使用高效的CRM系统。今天我就来给大家聊聊那些在国际上非常有名的CRM系统提供商吧。 悟空CRM 首先不得不提的就是悟空CRM了!这可…

聊一聊 vPC Peer-gateway 网关增强功能

默认情况下 vPC 对等设备收到目的 MAC 地址为交换机上配置的 HSRP/VRRP 的虚拟 MAC 的数据报文,该交换机将根据其本地路由表对数据包进行路由并会用新的源目 MAC

基于深度学习的微出血自动检测及解剖尺度定位|文献速递-视觉大模型医疗图像应用

Title 题目 Toward automated detection of microbleeds with anatomical scale localization using deep learning 基于深度学习的微出血自动检测及解剖尺度定位 01 文献速递介绍 基于深度学习的脑微出血(CMBs)检测与解剖定位 脑微出血&#xff…

金融项目实战 07|Python实现接口自动化——连接数据库和数据清洗、测试报告、持续集成

目录 一、投资模块(投资接口投资业务) 二、连接数据库封装 和 清洗数据 1、连接数据库 2、数据清洗 4、调用 三、批量执行测试用例 并 生成测试报告 四、持续集成 1、代码上传gitee 2、Jenkin持续集成 一、投资模块(投资接口投资业务…

Video-RAG:一种将视频RAG新框架

1. 摘要及主要贡献点 摘要: 检索增强生成(RAG)是一种强大的策略,通过检索与查询相关的外部知识并将其整合到生成过程中,以解决基础模型生成事实性错误输出的问题。然而,现有的RAG方法主要集中于文本信息&…

2024嵌入式系统的未来发展与技术洞察分享

时间如白驹过隙,不知不觉又是一年,这一年收获满满。接下来,将本年度对技术的感悟和洞察分析如下,希望对大家有所帮助。 在过去几十年里,嵌入式系统技术迅速发展,成为现代电子设备和智能硬件的核心组成部分。…

对人型机器人的研究和展望

目录 概述 1 核心软硬件部件 1.1 运动控制部分 1.1.1 减速机 1.1.2 编码器 1.1.3 直流无刷电机 1.2 智能仿生手 1.3 控制板卡 2 人型机器人的应用 3 未来展望 概述 如果现在有人问:当前那个行业最火?毫无疑问答案肯定是人型机器人了。当前各类机…

创建 pdf 合同模板

创建 pdf 合同模板 一、前言二、模板展示三、制作过程 一、前言 前段时间要求创建“pdf”模板,学会了后感觉虽然简单,但开始也折腾了好久,这里做个记录。 二、模板展示 要创建这样的模板 三、制作过程 新建一个“Word”,这里命…

欧拉(Euler 22.03)安装ProxySQL

下载离线安装包 proxysql-2.0.8-1-centos7.x86_64.rpm 链接: https://pan.baidu.com/s/1R-SJiVUEu24oNnPFlm9wRw 提取码: sa2w离线安装proxysql yum localinstall -y proxysql-2.0.8-1-centos7.x86_64.rpm 启动proxysql并检查状态 systemctl start proxysql 启动proxysql syste…