你的GPT跟ChatGPT可能只差了一个DPU

news2024/12/26 11:57:22

        “人类永远不会嫌网络太快,就像永远不会嫌高铁太快,你只会嫌它慢,希望它更快些。”

        一个月内,百度、阿里、腾讯、商汤、讯飞、360等国内大厂扎堆发布“中国版 GPT ”,这家的名字还没记清楚,另一家的又蹦了出来,一时间 AI 大模型“诸神混战”。可实话实说,和 ChatGPT 相比,国内的 GPT 还存在一定差距,但大家对于 AI 的狂热渴求已经被点燃,越来越多的企业意识到, AI 这班车,再不上,就来不及了。


01 | 大语言模型的成功与挑战

        以 GPT 系列模型为代表的大语言模型成为近来最受关注的技术之一。

图 | OpenAI-ChatGPT

ChatGPT 凭什么落别人那么远?

        模型越大, AI 回馈的效果越好。 OpenAI 的 GPT-1 模型有50亿个参数, GPT-3.5 有1750亿个参数,到现在的 GPT-4 预计将有超过一个T的参数。可以看出参数是成倍甚至成指数级增长。这种增长模型的变化,首先对内存性能有着极高要求,因为训练它需要海量数据,同时需要处理海量数据集;此外,是数据中心的计算能力,还有 GPU 与 CPU 之间的通信;更重要的是网络的带宽,这些因素将决定大语言模型的整体性能。

        整体性能决定了大模型运行、训练所需的时长,也决定了对大模型后续调优再训练的周期。比如你的大语言模型训练需要6个月,一年可能最多训练2次,而别人训练只需要2或3个月,一年就可以训练多次,那么最后 AI 的迭代效果是完全不一样的。

图 | NVIDIA

        如今,不只是提出大语言模型的公司,越来越多的企业已经意识到 AI 可能会优化工作流程或是给客户提供相应的服务,大家纷纷开始尝试做自己的产品。但一旦大家都在这个模型的基础上去做,就会遇到吞吐量和性能的瓶颈。要支撑这么一个大模型做训练,投入成本是非常高的。

图 | NVIDIA

        此外还有电力的限制,能做大模型训练的数据中心的功耗和电力需求是非常大的,且增长趋势明显。数据显示,数据中心一年消耗电力200 T瓦时,也就是2000亿度电,占全球电力使用量的2%。2000亿度电是什么概念?2021年我国三峡水电站发电量为1036亿度,也就是三峡水电站两年发的电量才够全球数据中心用一年。而随着 AI 数据中心的部署和持续增长,到2030年,全球电力使用的预测份额将达到5%,这将为全球能源、环保、碳排放等带来巨大挑战。


02 | 你跟ChatGPT可能只差了一个DPU

        在 AI 的竞赛中,有两种方式:第一种是用资源去堆,就像造车一样,后造车的永远要比先造车的人烧更多的钱去打市场;第二种是在同等资源下,比谁快,快就需要效率,而提高效率就需要 DPU 。

        微软此前发布的博客透露了 OpenAI 的 ChatGPT 采用的硬件是基于 NVIDIA 智能网卡和 InfiniBand 200G 网络所做的产品,未来也有意部署 DPU 。

图 | 微软官博

        而为了应对 AI 模型训练、推理带来的需求和挑战, NVIDIA 近日发布了其最新一代数据处理器 BlueField-3 DPU ,并宣布全面量产。

图 | NVIDIA

        NVIDIA 创始人兼首席执行官黄仁勋先生表示, AI 时代需要云数据中心基础设施来支持非凡的计算需求。“ NVIDIA BlueField-3 DPU 实现了这一进步,将传统的云计算环境转变为加速、节能和安全的基础设施,以处理生成 AI 的苛刻工作负载。”

        据 NVIDIA 介绍, BlueField-3 DPU 是一款专为数据中心设计的、软件定义、硬件加速的云服务计算平台。它集成了高达16个计算核心,可提供高达400Gbp/s的网络带宽,并且支持多种协议和功能,包括网络虚拟化、弹性负载均衡、数据中心互连等。 BlueField-3 DPU 还拥有世界领先的存储加速功能,可提供高达1.6Tbp/s的存储带宽,并支持 NVMe-over-Fabric 和 RDMA 等高性能存储协议。

        大语言模型背后的硬件构成是怎样的?各家都不同。以 NVIDA DGX 为参照,支持大语言模型的服务器由8颗 NVIDIA 高性能 GPU 、4个 NVIDIA NVSWITCHES 、2颗x86 ?CPU、9块 NVIDIA BlueField-3 DPU 、2T DDR5内存、PCIe Gen5.0,以及服务器间的 NVIDIA Quantum-2 InfiniBand 网络构成。

        其中 NVIDIA BlueField-3 DPU 发挥了怎样的作用?首先是加速性能:NVIDIA BlueField-3 DPU 具有丰富的硬件加速器,可以满足大语言模型严格的性能要求,并运行苛刻的工作负载;其次,云规模效率:NVIDIA BlueField-3 DPU 可以释放 CPU 核心,使大语言模型应用具有更好的性能和可扩展性,提升服务器的效率和能效,降本增效;第三是强大的零信任安全:安全的基础设施都可以运行在 NVIDIA BlueField-3 DPU 之上,并基于此构建零信任安全模型,在不影响性能的情况下,确保数据中心安全;第四是完全可编程的基础设施:NVIDIA DOCA 2.0 体现了 NVIDIA BlueField-3 DPU 的软件可编程性,借助 NVIDIA BlueField-3 DPU 可以获得完全可编程的加速数据中心平台。

图 | NVIDIA

        简单地说,NVIDIA BlueField-3 DPU 可以提升整个网络性能,配合高算力 GPU ,可以支撑更大规模的大语言模型训练,从而缩短训练时间。根据模型需求动态调整部署以共享算力资源,并应对不同规模的模型训练;提升服务器能效、释放算力资源,用更少的服务器完成更多的任务,从而帮助企业实现节能环保、降本增效。

        据 NVIDIA 介绍,大语言模型和生成式AI主要会构建在云基础设施之上,以云服务的方式服务于市场,因此,DPU 会主要应用于云服务提供商、AI 技术公司以及采用 AI 技术的企业。据悉,NVIDIA BlueField-3 DPU 已经在部分国内公有云服务提供商进行测试,后续会逐步开始采用。

        在不久前的 GTC 2023 大会上,NVIDIA 创始人兼首席执行官黄仁勋先生坚定表示“ AI 迎来了‘ iPhone 时刻’”,回想当年苹果手机刚问世,当时的用户还都想着手机不就是用来打电话、发短信的?而今天,我们几乎已经遗忘了当时的想法和其他手机。同样,你会发现生活将慢慢被 AI 改变。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/440483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python逝练系列(终章)

目录 1、(最大数的出现)编写程序读取整数,找出它们中的最大值,然后计算它的出现次数。假设输入以数字0结束。假设你输入的是“352555 0";程序找出的最大数是5,而5的出现次数是4。(提示:维护两个变量max和 count。变量max存储的是当前最大数&#xf…

TypeScript自学文档

目录 1.什么是Ts? 1.1 设计公司:微软 1.2 TS概述 1.3 TS是静态类型 JS是动态类型 1.4 TS是强类型语言 JS是弱类型语言 2.TypeScript编译器 2.1 安装 2.2 TS自动编译和编译选项设置 3.TS的数据类型 3.1 基础数据类型number、string、boolean 3.2 Arrays&a…

【svn】如何批量忽略文件和文件夹

目录 一、通过svn:ignore 1、文件夹空白处右键 TortoiseSVN → Properties 打开 2、New → Other 3、global-ignores属性的值,即需要要忽略的文件 点击OK 4、取消忽略的文件 选中 Rmove ,提交就可以看到idea文件了 二、svn:global-ignores 1、右键…

高通开发系列 - msm-4.9中usb初始化流程和adb功能问题

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 返回高通开发系列 - 总目录 目录 USB功能集android平台adb使能流程Linux系统使能流程USB时钟USB供电U盘不能正常使用分析adb设备无法识别问…

三、JS03 DOM 操作

三、DOM 操作 3.1 JavaScript DOM 操作 DOM (Document Object Model) 为文档对象模型,是 HTML 和 XML 文档的编程接口 DOM 提供了对整个文档的访问模型,将文档作为一个树形结构 树的每个节点表示了一个 HTML 标签或标签内的文本 3.1.1 DOM 操作分类 使…

SSM整合————单表操作基础版

一、创建数据库: 1. 创建一个 web 项目,并部署到 tomcat 服务器中测试项目 是否能够正常加载并访问首页。 2. 完善项目的结构并导入 SSM 相关的jar包 3.创建SSM框架对应的配置文件 springMVC配置文件:1.扫描controller;2.配置视图…

ERROR org.springframework.web.context.ContextLoader

项目启动时报错: ERROR org.springframework.web.context.ContextLoader - Context initialization failed java.lang.NoSuchMethodError: org.springframework.core.annotation.AnnotationUtils.clearCache() 原因分析 这个错误的原因可能是因为 Spring 的不同…

VGG网络简介

1. 背景 VGG是常见的用于大型图片识别的极深度卷积网络, 这里主要介绍VGG网络预测在ImageNet数据集上的训练及预测。 2. ImageNet图像数据集简介 ImageNet包含了145W张224*224像素的三通道彩色图像数据集,图像划分为1000个种类。其中训练集130W张&…

Contest3070 - 计科2101~2104算法设计与分析上机作业05

问题 A: 最小平均等待时间 题目描述 有n个顾客同时在等待一项服务,顾客i需要的服务时间为ti,1≤i≤n。要安排一个服务次序使得平均等待时间最小(平均等待时间是n个顾客等待服务时间的总和除以n)。请编写算法,计算最小…

大文件上传接口响应超时

背景 开发了一个内容管理发布系统,在后台发布内容信息时,上传了一个较大的视频(较大文件≥200M),以往未上传过如此大文件,然后出现报错 Status Code 413 问题&处理过程 1. status code:4…

如何在Linux使用 chattr 命令更改文件或目录的扩展属性?

在 Linux 操作系统中,chattr 命令用于更改文件或目录的扩展属性,包括可写性、可执行性和删除性等。本文将介绍 chattr 命令的使用方法以及常见的参数。 1. chattr 命令的基本语法 chattr 命令的基本语法如下: chattr [选项] [文件或目录]选…

论文阅读---《人类活动识别的准周期时间序列聚类》

论文地址:Quasi-Periodic Time Series Clustering for Human Activity Recognition | SpringerLink 相空间知识概念:相空间相关概念以及轨迹生成_末世灯光的博客-CSDN博客 摘要: 本文利用移动加速度计对时间序列中的周期信号进行分析&…

[python][学习]turtle.circle()函数

turtle.circle()函数 定义:turtle.circle(radius, extentNone) 作用:根据半径radius绘制extent角度的弧形 参数: radius :弧形半径 当radius值为正数时,圆心在…

斯坦福最新AI报告发布,12张图看懂AI现状

最近,斯坦福人工智能研究所(HAI)发布了2023年AI指数报告,提供了AI领域当前技术成就、政策趋势、经济影响等多方面的最新情况。 今天我们将报告最重要的12个结论精简出来,分享给大家。 ▍AI大模型不只是大这么简单 在…

JavaEE-轻松了解网络原理之TCP协议

目录 TCP协议TCP协议数据格式TCP原理确认应答超时重传连接管理三次握手四次挥手 滑动窗口流量控制拥塞控制延迟应答捎带应答面向字节流异常问题 TCP协议 TCP,即Transmission Control Protocol,传输控制协议. TCP协议数据格式 16位源端口号与16位目的端…

【工作小札】利用动态数据源实现Sass的一种思路(内含完整代码示例)

文章目录 1 楔子2 分析3 代码实现3.1 管理库关键库表设计3.2 租户库关键库表设计3.3 新建一个SpringBootWeb项目3.4 添加maven依赖3.5 创建初始化数据库工具类3.6 创建动态数据源配置类3.7 创建登录代码3.8 创建数据源元数据服务类3.9 创建saas服务基础父类 4 示例演示4.1 下载…

MultiHeadAttention多头注意力机制的原理

MultiHeadAttention多头注意力作为Transformer的核心组件,其主要由多组自注意力组合构成。 1. self-Attention自注意力机制 在NLP任务中,自注意力能够根据上下文词来重新构建目标词的表示,其之所以被称之为注意力,在于从上下文词…

【Spring6】| Spring6集成MyBatis3.5

目录 一:Spring6集成MyBatis3.5 第一步:准备数据库表 第二步:IDEA中创建一个模块,并引入依赖 第三步:基于三层架构实现,所以提前创建好所有的包 第四步:编写pojo 第五步:编写m…

【Redis数据库】异地公网远程登录连接Redis教程

文章目录 1. Linux(centos8)安装redis数据库2. 配置redis数据库3. 内网穿透3.1 安装cpolar内网穿透3.2 创建隧道映射本地端口 4. 配置固定TCP端口地址4.1 保留一个固定tcp地址4.2 配置固定TCP地址4.3 使用固定的tcp地址连接 转发自CSDN远程穿透的文章:公网远程连接R…

Java阶段二Day05

Java阶段二Day05 文章目录 Java阶段二Day05截至此版本可实现的流程图为V14UserControllerClientHandlerDispatcherServletHttpServletResponseHttpServletRequest V15DispatcherServletHttpServletResponseHttpServletRequest V16HttpServletRequestHttpServletResponse 反射JA…