【AI大模型新型智算中心技术建设白皮书 2024】

news2024/9/9 1:13:24

文末有福利!

一、新算效——重塑计算架构

1.1 下一代 AI 芯片设计思路

以 GPU 为 代 表 的 高 性 能 并 行 计 算 芯 片 架 构 和 以 针 对 AI 领 域 专 用 加 速(DSA, Domain Specific Architecture,DSA)为代表的芯片架构是目前两大主流 AI 芯片设计思路。GPU 设

计初衷是为了接替 CPU 进行图形渲染,图形处理涉及到相当多的重复计算量,因此 GPU 芯片上排布了数以千计的,专为同时处理多重任务而设计的小计算核心。随着 AI 深度学习算法的逐渐成熟,GPU 芯片开始引入 AI Core/Tensor Core 等电路来实现矩阵乘运算的加速。

因此,GPU 比 CPU 拥有更强的大规模并行计算和浮点运算能力。不同于 GPU,AI DSA 芯片是一种针对神经网络计算的专用处理器,主要功能是加速神经网络的数据处理、传递和反向传播等操作,因

1.2 存算一体构建新型计算范式

存算一体作为新型计算范式,基于在存储原位实现计算的本质,打破了冯诺依曼存算分离架构,避免了频繁的数据访问和搬运带来的功耗激增的问题,大大缓解了 AI 芯片性能提升的瓶颈。

同时,由于新型智算中心承载的 CNN、Transformer 等主流模型架构,矩阵乘加运算占据了大量算力(Transformer 中 45-60%,CNN 中 90% 以上的运算均为矩阵乘加),存算一体的架构成为高效完成矩阵乘加的重要选择。

存算一体可通过 RRAM、SRAM、MRAM、Nor Flash 等介质实现,多介质共存可以发挥不同介质在成熟度、读写次数等方面的优势 。

存算一体通过模拟计算或数字计算或二者相结合的方式提供存算能力,如图 3-13 所示:

a) 模拟存算一体


在这里插入图片描述

b) 数字存算一体

图 3-13 模拟和数字存算一体

存算一体在 NICC 的主要应用是大模型推理。考虑到不同的模型结构,存算一体充分利用非规则稀疏性,以达到与存算阵列的最佳适配,并实现能效最大化。以复旦大学 ISSCC 2023发布的论文为例 ,其应用了基于蝶形数据分配网络的稀疏前馈计算架构(如图 3-14),结合对应的存内阵列设计和电路实现,能够在 28nm 工艺下,达到现有 Transformer 加速器 3.2 倍至 9.7 倍的能效。

图 3-14 Transformer 加速器的存算一体实现示意

当前,面向智算中心多核、多芯片的存算一体架构方案将成为未来存算一体研究和商用落地的重点方向。在此场景下,有以下三点问题需重点解决:

  1. 如何与算法结构协同:通过改进的存算一体阵列架构更好的适配稀疏 Transformer,使用分块结构化稀疏、动态激活值稀疏以及特定 Transformer 稀疏等方式,选择参与计算的存算单元,并结合定制的加法树电路减小面积,提升计算能效,从而提升推理效率。

  2. 如何与精度需求协同:通过可变精度存算一体阵列架构更好适配大模型推理的精度需求,使用数字存内计算和模拟存内计算混合、双生多 bit 等方法,实现 INT8 和 BF16 等混合精度计算。

3)如何与封装能力协同:通过 Chiplet 技术同时满足存算一体专用高性能、通用可扩展要求,提升算力和 IO 带宽,减少访存瓶颈;通过 3D 堆叠等封装技术将存内计算(CIM)与近存(PNM)和存内处理(PIM)技术结合,为访存密集型应用提供大容量高带宽的计算能力。

现阶段的存算一体芯片在介质优化、集成规模、工具链支持、算法适配、产业生态等方面还面临诸多挑战,导致应用普及较慢,建议锚定智算核心应用,推出样板产品,突破上述关键挑战,在成熟工艺实现性能反超。

1.3 DPU 实现计算、存储和网络的深度协同

DPU 作为 CPU、GPU 之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等基础设施虚拟化能力的专用处理器。面对智算业务场景,中大规模模型训练和推理任务对网络和存储 I/O 的时延提出了更极致的性能需求,DPU 可在智算领域解决三大关键问题,与计算、网络、存储深度协同,助力算效提升。

  1. 统一云化管理:智算服务场景存在裸金属、容器、 虚机多种方式部署需求,如何实现 AI节点并池管理提高计算资源利用效率,成为关键的业务痛点,DPU 是最佳的解决方案。通过 DPU 可提供计算资源快速发放和回收等底层支撑能力,使弹性裸金属特性和虚机一致,支持云盘启动,完成灵活的存储分配,实现存储多租户隔离并缩短容灾时间,交付效率提高10 倍。

  2. 高性能存储卸载及加速:大模型训练推理业务的模型本身以及训推所需的数据需要 PB 级储存,本地存储性价比低,远端存储集群成为最优选择。分布式存储设备面对上千计算节点,需要满足多用户并行使用时产生的海量数据读取及加速数据收敛需求,单节点存储带宽叠加后对存储系统提出更高的性能要求。DPU 产品可以提供专用的高速存储单元来处理和管理大量的数据,提供高带宽和低延迟的存储访问,实现 NVMe-OF 存储加速,同时可配合训练框架进行文件系统卸载,实现训练数据格式统一化,实现不同来源的数据接入,进一步加速训练和推理过程。

图 3-15 智算中心引入 DPU 两种模式

面对 DPU 在智算场景的试验试点及规模应用,当前仍面临三大核心挑战:

在云平台侧,DPU 软硬融合层的标准化是制约 DPU 通用化的主要问题。DPU 本质是云化、虚拟化技术从软件实现向软硬结合发展的结果,技术架构与云计算关系密切,存在耦合,DPU 虚拟化技术栈在技术迭代中差异化发展,不同产品的同一技术的实现路径多样,软件实现方式差异大。亟需解决业界异厂家 DPU 与云平台软件定向开发适配成本高的问题。建议围绕管理、网络、存储、计算、安全五大软件系统,推动 DPU 软件功能要求和交互接口标准化,并分阶段推进。

在网络侧,网络技术创新需要与 DPU 深度协同。智算业务要求零丢包、低时延、高吞吐的网络能力,RDMA 网络是智算中心高性能网络的首选,头部企业纷纷布局自研 RDMA 协议栈及无损网络相关技术。DPU 作为服务器的 IO 出入口,是网络与存储必经之路,网络技术创新需要与 DPU 深度协同,实现算力无损,助力算效提升。

在硬件侧,亟需优先引导服务器整机层及 DPU 部件层标准化及通用化。重点围绕服务器结构及供电、散热、带外纳管方案、上下电策略四大方向进行统一,为 DPU 与上层软件的深度整合及生态繁荣提供底层支撑。

二、新存储——挖掘数据价值

2.1 计算与存储的交互过程

大模型训练是一项复杂而耗时的任务,类似 GPT-3 级别的模型训练数据集通常很大,无法完全加载到内存中,需要分批次的从外部分布式存储中读取数据并加载到 GPU 的 HBM 上。

如图 3-16 所示,从用户上传原始数据集到最终完成模型训练,并对用户提供已训练模型结果,整个过程存在着计算与存储系统密切的数据交互。

1)数据上传:大模型预训练阶段首先需要获取训练数据集,这些来自互联网、书籍、论文的数据需要进行预处理和清洗,包括分词、去除噪声和非常见词汇,以确保训练数据是高质量且可靠的。数据集准备好之后上传到存储系统中。由于对象存储具有普遍的 API 支持,可以提供灵活的数据访问方式,数据集通常会上传到对象存储中。大模型训练的数据集可达TB 量级,且主要以大文件大 IO 写入为主,存储系统需要保证足够和稳定的吞吐性能。

图 3-16 大模型训练计算与存储的交互过程

2)数据转移:由于文件存储具有更高的 IO 性能,对于小文件和随机 IO 有较好的支持,且与 TensorFlow、PyTorch 等训练框架的兼容性更好,适合在训练过程中进行高效的读取和写入操作,因此在模型训练开始之前,需要把数据集从对象存储复制到文件存储中,这个过程中,IO 类型以大文件大 IO 顺序读写为主。

3)数据读取:数据集放入文件存储后,还需要进行进一步预处理。CV 类数据集通常需要先对图片序列化并添加类别标签、图像尺寸等元数据,自然语音类数据集则需要对语音文件进行切分,转换为训练框架实现代码期望的采样率和格式,例如 16K 采样 wav 格式。数据集准备就绪后,模型将基于随机初始化的权重启动训练。整个数据集会被随机打散,称之为shuffle,然后数据被分成多个小的批次(batch),后续计算节点将以批次为单位从文件存储系统读取数据,并缓存到 GPU 的 HBM 中。

4)归档写回:由于 HBM 是易失性存储,一旦在训练过程中发生意外中断,训练数据将全部丢失,因此基于 Checkpoint 的“断点续训”机制非常关键,我们需要将模型训练过程中的数据周期性地保存到外部持久性存储中,一旦发生中断可以从最后一次保存的参数处重新开始训练,从而节省大量的时间和经济成本。此外,文件存储还用于跟踪记录模型训练过程中的各种指标,包括损失函数的变化、准确率的提升等,以便后续支持可视化的模型训练策略优化分析。保存 checkpoint 和过程文件等操作,主要负载是大文件大 IO 写操作,对文件存储压力不大。

5)模型复制:模型训练完成后,最终的模型权重会被写入到文件存储中保存,用于模型推理或者以 MaaS 的服务模式给外部用户使用。由于对象存储便于对外共享,模型需要从文件存储复制到对象存储上,这个环节 IO 类型以写入大文件为主。

6)模型下载:用户基于自身应用特点,从对象存储下载训练好的模型。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~ , 【保证100%免费

在这里插入图片描述

篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)

在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)

在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1917426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从头开始搭建一套Elasticsearch集群

前言 刚开始使用ES接触的就是rpm或者是云上提供的ES服务,基本上开箱即用。特别是云上的ES服务,开局就是集群版本,提供的是优化后的参数配置、开箱即匹配访问鉴权及常用插件,如无特殊需要基本上屏蔽了所有细节,直接可投…

视频压缩电脑软件,视频压缩电脑怎么操作

在数字媒体时代,视频文件的大小往往让人头疼。如何在不损失画质的情况下压缩视频,成为了许多创作者和普通用户的需求。本文将为你详细介绍电脑压缩软件,让你轻松应对视频压缩任务。 1.下载并安装视频压缩软件。 2.打开软件,选择视…

HTML集成优雅的实时输入清除功能

引言 你好呀,我是小邹。 点击访问 我的个人博客 在现代网页设计中,用户体验是至关重要的。一个流畅、直观且反应迅速的界面能够显著提升用户满意度。本文将介绍如何在网页表单中集成实时输入清除功能,即在输入框中显示一个“x”图标&#…

华为手机联系人不见了怎么恢复?3个解决方案

华为手机联系人列表就像是我们精心编织的社交网络之网。然而,有时,这张网可能会因为各种原因而意外破损,联系人信息消失得无影无踪,让我们陷入“人脉孤岛”的困境。华为手机联系人不见了怎么恢复?别担心,我…

3.js - 灯光与阴影 - 聚光灯

// ts-nocheckimport * as THREE from three // 导入轨道控制器 import { OrbitControls } from three/examples/jsm/controls/OrbitControls // 导入hdr加载器 import { RGBELoader } from three/examples/jsm/loaders/RGBELoader.js // 导入lil.gui import { GUI } from thre…

关于 Qt在国产麒麟系统上设置的setFixedSize、setMinimumFixed、setMaxmumFixed设置无效 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140242881 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

万物皆可嵌入--embedding在GPU中的实现

摘要 Embedding技术自从谷歌推出word2vec的工作后得到迅速的应用,典型应用之一是在广告推荐场景中,从word2vec演进到item2vec,embedding技术的出现也使深度学习进入广告推荐的场景成为可能。广告推荐模型动辄几十GB甚至TB的模型大小&#xf…

MVC 控制器 中Action 不能同名,参数不一样,路由器寻找不到对应的,要加特性

//1 方法不可能完全相同,参数不同//2 那还需要特性吗?需要的,因为MVC选择方法时,不是按参数选择:http请求发送很多数据,其实没法识别,//因为mvc找方法是通过反射来的,GetMethods(nam…

C#(asp.net)房屋租赁管理系统-计算机毕业设计源码64421

目 录 摘要 1 绪论 1.1 研究背景与意义 1.2开发现状 1.3论文结构与章节安排 2 房屋租赁管理系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 …

vue3+springboot+mybatis+mysql项目实践--简单登录注册功能实现

这里是一次对vue3springbootmybatismysql的项目实现,简单实现前后端分离的登录注册功能,主要工具:idea,navicat 目录 一、创建vue3项目并初始配置 创建vue3项目 2.修改项目结构 1)原始目录结构 2)修改后目录结构 …

5G RedCap调查报告

一、5G RedCap技术背景 5G RedCap(Reduced Capability缩写,轻量化5G),是3GPP标准化组织定义下的5G裁剪版本,是5G面向中高速率连接场景的物联网技术,它的能力介于5G NR(含eMBB和uRLLC)和LPWA(如LTE-M和NR-IoT)之间,如图1所示,是5G-A(5G Advanced)的关键技术之一。…

用网络编程完成windows和linux跨平台之间的通信(服务器)

服务器代码逻辑: 服务器功能 创建 Socket: 服务器首先创建一个 Socket 对象,用于进行网络通信。通常使用 socket() 函数创建。 绑定(Bind): 服务器将 Socket 绑定到一个特定的 IP 地址和端口号上。这是通过…

51单片机STC89C52RC——16.1 五线四相步进电机

目录 目的/效果 一,STC单片机模块 二,步进电机 2.2 什么是步进电机? 2.2.1 步进电机驱动板 静态参数 动态参数 2.2.2 五线四相 单相激励步进 双相激励步进 混合激励驱动 2.3 细分驱动 2.4 通过数字信号控制旋转位置和转速。 2…

JavaScript-map方法

map可以遍历数组处理数据,并返回新的数组 语法: ​const arr[元素1,元素2,元素3] const newarrarr.map(function(数组的元素,数组的索引)){return 新元素 } const arr[blue,red,green]const newarrarr.map(function(ele,index){co…

物业系统自主研发接口测试框架

1、自主研发框架整体设计 1.1、什么是测试框架? 在了解什么是自动化测试框架之前,先了解一下什么叫框架?框架是整个或部分系统的可重用设计,表现为一组抽象构件及构件实例间交互的方法;另一种定义认为,框架是可被应用开发者定制的应用骨架…

【小白也能看的懂】想要玩转AI大模型,这4招你得知道

前言 对于大部分人来说,能够灵活使用AI工具,并对自己每个常用的AI工具优劣势很清楚,就已经足够了。不过,毕竟AI发展实在太快,多了解一些相关的知识点,以全局的视角去看AI,可以避免管中窥豹&…

用SmartEDA点亮电路教学:传统课堂的革新之道

在数字化浪潮的推动下,教育领域也迎来了前所未有的变革。特别是在电路教学这一专业领域,传统的黑板加课本的教学模式已难以满足现代学生的需求。今天,我们就来探讨一下,如何利用SmartEDA电路仿真软件来补充传统教学,为…

Oracle 23ai 中的重要新特性 VECTOR 数据类型

Oracle 23ai 中的 VECTOR 数据类型是 Oracle 数据库在 AI 领域的一个重要新特性,它允许用户以向量的形式存储数据,并在这些向量的基础上进行高效的搜索和分析。以下是对 Oracle 23ai VECTOR 数据类型的详细解析: 参考官方文档地址 https://d…

Python机器学习推理工程化落地步骤指南

目录 一、引言 二、数据准备 2.1 数据收集 2.2 数据清洗 2.3 特征工程 2.4 数据分割 三、模型训练 3.1 选择算法 3.2 训练模型 3.3 模型评估 3.4 模型调优 四、模型部署 4.1 模型序列化 4.2 构建推理服务 4.3 部署与监控 五、总结 在当今科技飞速发展的时代…

【SVN的使用-通过xCode使用SVN-SVN的目录结构 Objective-C语言】

一、接下来,我们来通过xcode使用SVN啊 1.我先把小明这个目录下,wechat这个文件夹都删了, 我现在小明新入职了,但是呢,我现在不喜欢用命令行,我也不喜欢用Corner Stone,我要用xcode, 作为小明,我入职以后,第一件事儿,要把代码checkout下来, 那首先呢,打开你的xc…