更多精彩内容在
美国加利福尼亚州圣何塞 —— 2024 年 3 月 18 日 —— NVIDIA 于今日宣布推出 NVIDIA Blackwell 平台以赋能计算新时代。该平台可使世界各地的机构都能够在万亿参数的大语言模型(LLM)上构建和运行实时生成式 AI,其成本和能耗较上一代产品降低多达 25 倍。
以下是关于Blackwell芯片的一些关键特性和信息:
-
全球最强大的芯片:Blackwell架构GPU由2080亿个晶体管组成,采用台积电4纳米工艺制造,通过10TB/s的片间互联,将GPU裸片连接成一块统一的GPU。
-
第二代Transformer引擎:结合了Blackwell Tensor Core技术和TensorRT-LLM以及NeMo Megatron框架中的英伟达先进动态范围管理算法,Blackwell将通过新的4位浮点AI支持双倍的计算和模型大小推理能力。
-
第五代NVLink:为提高数万亿参数和混合专家AI模型的性能,最新一代英伟达NVLink为每个GPU提供了突破性的1.8TB/s双向吞吐量,确保最复杂LLM之间多达576个GPU之间的无缝高速通信。
-
RAS引擎:Blackwell支持的GPU包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell架构还增加了芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题。
-
安全人工智能:先进的机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持新的本机接口加密协议。
-
解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。
Blackwell平台能够在万亿参数级的大型语言模型(LLM)上构建和运行实时生成式 AI,而成本和能耗比前代改善25倍。预计将在今年晚些时候发货
亚马逊、微软、谷歌和甲骨文都将采购Blackwell部署云服务
NVIDIA的Blackwell芯片即将成为全球顶级数据中心运营商,如亚马逊、微软和谷歌等公司新设备和技术部署的核心。基于Blackwell芯片的产品预计将在今年晚些时候推出市场。
NVIDIA宣布,亚马逊的AWS、谷歌云平台、微软的Azure云服务以及甲骨文的Oracle Cloud Infrastructure将成为首批推出支持Blackwell芯片的云服务实例的供应商。此外,英伟达的云合作伙伴计划中的成员,包括Applied Digital、CoreWeave、Crusoe、IBM Cloud和Lambda等,也将提供搭载Blackwell芯片的云服务实例。
同时,注重数据主权的Sovereign AI云服务也将提供基于Blackwell芯片的服务和基础设施,这些服务将覆盖Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle的欧盟、美国、英国和澳大利亚政府云服务、Scaleway、Singtel、Northern Data Group的Taiga Cloud、Yotta Data Services的Shakti Cloud以及YTL Power International等。
NVIDIA创始人黄仁勋强调,公司三十年来一直致力于推动加速计算技术,旨在实现深度学习和人工智能等领域的突破性进展。他认为生成式AI是定义我们这个时代的关键技术,而Blackwell芯片正是推动新一轮工业革命的动力。通过与全球最具活力的企业合作,NVIDIA致力于实现AI技术在各个行业的广泛应用。
在官方声明中,NVIDIA还提到了其他一些预计将采用Blackwell芯片的知名组织,如Meta、戴尔、OpenAI、甲骨文、特斯拉和xAI等,黄仁勋也提到了更多合作伙伴的名字。
GB200 NVL72推理性能较H100提升高达30倍
英伟达同时介绍超级芯片GB200 Grace Blackwell Superchip,它通过 900GB/s的超低功耗NVLink,将两个B200 Tensor Core GPU 连接到NVIDIA Grace CPU。
为了获得最高的 AI 性能,GB200 驱动的系统可以与周一同时宣布的英伟达Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台连接,这些平台可提供速度高达 800Gb/s 的高级网络。
NVIDIA的GB200 NVL72系统是一款高性能计算平台,它集成了36个Grace Blackwell超级芯片,这些芯片包含了72个通过第五代NVLink技术互联的Blackwell GPU和36个Grace CPU。这一配置使得GB200 NVL72能够应对最复杂的计算任务,特别是在AI和机器学习领域。系统还包括NVIDIA BlueField®-3数据处理单元,它为大规模AI云环境提供了网络加速、灵活的存储解决方案、严格的安全措施以及GPU计算的高效调度。
GB200 NVL72在执行大型语言模型(LLM)的推理任务时,相比前一代的H100 Tensor Core GPU,性能提升了高达30倍,并且在成本和能耗上实现了高达25倍的优化。该平台本身具备1.4 exaflops的AI计算能力和30TB的快速内存,成为了构建最新DGX SuperPOD的基础。
此外,NVIDIA还推出了HGX B200服务器主板,该主板能够通过NVLink技术连接多达八块B200 GPU,支持基于x86架构的生成式AI应用。HGX B200还兼容NVIDIA的Quantum-2 InfiniBand和Spectrum-X以太网网络平台,这些网络技术能够提供最高400Gb/s的数据传输速率,确保了数据中心内部的高速数据通信。