大模型算力基础设施技术趋势、关键挑战与发展路径

news2024/9/23 17:18:33

文章目录

  • 前言
  • 一、大模型技术发展趋势
    • 1.1 大语言模型
    • 1.2 多模态模型
    • 1.3 长序列模型
    • 1.4 混合专家模型
  • 二、大模型算力基础设施发展问题与挑战
    • 2.1 可用算力规模亟需算力利用效率提升
    • 2.2 集群性能提升依赖跨尺度、多层次互联
  • 三、大模型算力基础设施高质量发展路径
  • 总结


前言

从大模型技术发展趋势出发,分析了多模态、长序列和混合专家模型的架构特征和算力需求特点。围绕大模型对巨量算力规模与复杂通信模式的需求,重点从算力利用效率、集群互联技术两方面量化分析了当前大模型算力基础设施存在的发展问题和面临的技术挑战,并提出了以应用为导向、以系统为核心、以效率为目标的高质量算力基础设施发展路径。

近年来,生成式人工智能技术,尤其是大语言模型(Large Language Model,LLM)的快速发展,标志着人工智能进入了一个前所未有的新时代。模型能力的提升和架构的演进催生了新的算力应用范式,对所需的算力基础设施提出了全新的挑战。

在这里插入图片描述


一、大模型技术发展趋势

1.1 大语言模型

最初的语言模型主要基于简单的统计方法,随着深度学习技术的进步,模型架构逐步从循环神经网络(Recurrent Neural Network,RNN)到长短期记忆(Long Short Term Memory,LSTM)再到Transformer演进,模型的复杂性和能力相继提升。2017年,Ashish Vaswani等首先提出了Transformer架构,这一架构很快成为了大语言模型开发的基石。2018年,BERT通过预训练加微调的方式,在多项自然语言处理任务上取得了前所未有的成效,极大地推动了下游任务的发展和应用。2018—2020年,OpenAI相继发布了GPT-1、GPT-2和GPT-3,模型的参数量从1 亿级别增长到1 000 亿级别,在多项自然语言处理任务上的性能呈现近似指数级的提升,论证了尺度定律(Scaling Law)在实际应用中的效果。2022年底,ChatGPT发布之后,引发了一轮LLM热潮,全球诸多企业、研究机构短时间内开发出LLaMA、文心一言、通义千问等上百种大语言模型。这一时期的模型大都基于Transformer基础架构,利用大量的文本数据进行训练,通过学习大规模数据集中的模式和关系,能够执行多种语言任务。但是,LLM的发展很快遇到了两个显著的问题,一是模型的能力局限于对文本信息的理解和生成,实际的落地应用场景受限;二是稠密模型架构特征将会使得模型能力提升必然伴随着算力需求的指数级增加,在算力资源受限的大背景下模型能力进化的速度受限。

1.2 多模态模型

为了进一步提升大模型的通用能力,研究者开始探索模型在非文本数据(如图像、视频、音频等领域)中的应用,进而发展出了多模态模型。这类模型能够处理和理解多种类型的输入数据,实现跨模态的信息理解和生成。例如,OpenAI的GPT-4V模型可以理解图片信息,而Google的BERT模型则被扩展到VideoBERT用于理解视频内容。多模态模型的出现大大扩展了人工智能的感知能力和应用范围,从简单的文本处理到复杂的视觉和声音处理。多模态模型在基础模型架构上跟LLM一样大都采用Transformer,但是通常需要设计特定的架构来处理不同类型的输入数据。例如,它们可能结合了专门处理图像数据的卷积神经网络(Convolutional Neural Networks,CNN)组件,需要使用跨模态的注意力机制、联合嵌入空间或特殊的融合层来实现对来自不同模态信息的有效融合。

1.3 长序列模型

研究者们发现通过扩展上下文窗口可以让大模型能够更好地捕捉全局信息,有助于更准确地保留原文的语义、降低幻觉的发生、提高新任务的泛化能力,这就是提升大模型能力的另外一条有效的路径——长序列(Long Sequence)。2023年以来,主流大模型都在不断提高长序列的处理能力(见图1),比如GPT-4 Turbo可以处理长达128 K的上下文,相比较GPT-3.5的4K处理能力已经增长了32倍,Anthropic的Claude2具备支持200 K上下文的潜力,Moonshot AI的Kimi Chat更是将中文文本处理能力提高到了2 000 K。从模型架构上来看,传统的LLM训练主要对Transformer中耗时最多的两个核心单元——多头注意力层(Multi-Head Attention,MHA)和前馈神经网络层(Feedforward Neural Network,FNN)进行张量并行,但保留了归一化层和丢弃层,这部分元素不需要大量的计算但随着序列的长度增加会产生大量的激活值内存。由于这部分非张量并行的操作沿着序列维度是相互独立的,可以通过沿序列维度切分实现激活值内存的减少。然而,序列并行(Sequence Parallelism,SP)的增加会引入额外的全聚集(All G

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1996639.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringCloud与SpringBoot之间的关系解析

Spring Cloud和Spring Boot是两个独立的项目,分别用于构建微服务架构和快速构建Java应用程序。它们之间有着密切的关系,可以相互配合使用。 Spring Boot简介 Spring Boot是一个用于快速构建Java应用程序的框架。它简化了Spring应用程序的开发过程&#x…

Redis,MongoDB,Memcached未授权访问漏洞(及其修复方法)

一. Redis Redis 默认情况下,会绑定在 0.0.0.0:6379 ,如果没有进⾏采⽤相关的策略,⽐如添加防 ⽕墙规则避免其他⾮信任来源 ip 访问等,这样将会将 Redis 服务暴露到公⽹上,如果在没有设 置密码认证(⼀般为空…

【haproxy】haproxy基本配置信息

一、负载均衡 LB: LoadBalancing(负载均衡)由多个主机组成,每个主机只承担一部分访问 负载均衡:Load Balance,简称LB,是一种服务或基于硬件设备等实现的高可用反向代理技术,负载均衡将特定的业务(web服务、…

新书速览|Python数据可视化:科技图表绘制(送书)

《Python数据可视化:科技图表绘制》 本书内容 《Python数据可视化:科技图表绘制》结合编者多年的数据分析与科研绘图经验,详细讲解Python语言及包括Matplotlib在内的多种可视化包在数据分析与科研图表制作中的使用方法与技巧。《Python数据可视化:科技图表绘制》分为…

WWDg 正点原子版

窗口看门狗 超时时间计算如下 f1系列,wwdg的时钟源频率是36mhz,时钟频率➗(4096*分频系数)就是得到实际的频率,也就是一秒钟能计数好多次,那么频率的倒数也就是计数一次需要的时间,所以频率的倒…

【Linux】阻塞信号|信号原理

常见的信号术语 信号递达(Delivery): 信号实际被执行处理的过程;(当一个信号被递达给进程时,该信号的处理动作已经开始执行实际执行信号的处理动作); 信号未决(Pending): 信号从产生…

快速上手Spring Boot

快速上手Spring Boot (qq.com)

凡图公益行:以爱之名,凡图家庭教育专家入户指导,引领残疾儿童勇敢启航 !

凡图公益行:以爱之名,凡图家庭教育专家入户指导,引领残疾儿童勇敢启航 ! 在社会的各个角落,有一群特殊的孩子。 他们因身体的局限承受着常人难以想象的挑战。 这些挑战不仅体现在日常生活的琐碎之中,更深…

react使用Lodash 库实现根据数组内对象的某属性排序

一、描述 根据数组内的对象的某个属性进行排序操作是很常见的方法,但是如果自己写一个方法,有可能出现错误的情况,且耗费时间,这里介绍一个第三方的工具“Lodash ”库,用这个来实现根据数组内对象的某属性排序特别方法…

LVS原理详解及部署

目录 一、LVS原理 1.LVS简介 2.LVS结构 3.IP负载均衡技术 4.LVS相关术语 二、LVS负载均衡四种工作模式 1.LVS-DR模式 2.LVS-NAT模式 3.LVS-TUN模式(了解) 4.FULL-NAT模式(了解) 三、LVS负载均衡十种调度算法 四、LVS部…

Open3D 使用Jet颜色映射渲染点云

目录 一、概述 1.1Jet颜色映射的定义 1.2Jet颜色映射的应用 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 3.1原始点云 3.2渲染后点云 Open3D点云算法汇总及实战案例汇总的目录地址: Open3D点云算法与点云深度学习案例汇总(长期更新&am…

书生大模型实战营闯关记录----第六关:大语言模型微调实战,LoRA和QLoRA微调,理论+Xtuner微调实操

文章目录 大语言模型微调基础1 基本概念1.1 Finetune简介1.1.1 Finetune的两种范式 1.2 微调技术1.2.1 LoRA简介1.2.2 QLoRA简介 1 微调前置基础2 准备工作2.2 创建虚拟环境2.3 安装 XTuner2.4 模型准备 3 快速开始3.1 微调前的模型对话3.2 指令跟随微调3.2.1 准数据文件3.2.2 …

ELK架构介绍

一、ELK简介 ELK 是由三个开源软件组成的,分别是:Elasticsearch、Logstash和Kibana,这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力;Logstash负责数据收集和处理,而K…

如何简单粗暴的下载m3u8视频并转换为mp4格式

m3u8文件介绍 M3U(Moving Picture Experts Group Audio Layer 3 Uniform Resource Locator)这种文件格式是音视频文件的列表文件,是纯文本文件。你下载下来打开它,播放软件并不是播放它,而是根据它的记录找到网络地址…

react+taro的文字粘贴识别功能

效果图 <View className"components-page"><Textareastyle"font-size:12PX"className"textareaStyle"placeholderClass"placeholderStyle"placeholder"例&#xff1a;公司&#xff1a;xxxx公司, 电话:13*********, 地址…

MybatisPlus——service批量新增

Service接口 批量新增 批量插入10万条用户数据&#xff0c;并作出对比&#xff1a; 普通for循环插入IService的批量插入 Test void testSaveOneByOne() {long b System.currentTimeMillis();for (int i 1; i < 100000; i) {userService.save(buildUser(i));}long e Sy…

leetcode递归(LCR 024. 反转链表)

前言 经过前期的基础训练以及部分实战练习&#xff0c;粗略掌握了各种题型的解题思路。现阶段开始专项练习。 描述 给定单链表的头节点 head &#xff0c;请反转链表&#xff0c;并返回反转后的链表的头节点。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&am…

2024年6月scratch图形化编程等级考试四级真题

202406 青少年软件编程等级考试Scratch四级真题 试卷总分数&#xff1a;100分 考试时长&#xff1a;60 分钟 第 1 题 运行下列程序&#xff0c;输入单词“PLAY”&#xff0c;最后角色说&#xff1f;&#xff08; &#xff09; A&#xff1a;LY4AP B&#xff1a;AP4LY C&am…

【Linux】【git】创建使用+分支管理+场景模拟

文章目录 引子1. 创建 提交 删除init - - 创建一个初始化的本地仓库config - - 对本地仓库的配置add - - 新增commit - - 提交rm - - 删除 2. 状态查看 和 版本回退log - - 日志status - - 查看diff - - 比较reset - - 版本回退场景模拟1_1 reflog - - 参考日志场景模拟1_2 3. …

K短路(A*算法)

K短路&#xff1a; 在图论中&#xff0c;K短路问题是指在一个图中找到从起点s到终点t的第K短的路径。其中&#xff0c;第1短路径即为最短路径。K短路算法在实际应用中有着广泛的用途&#xff0c;如在通信网络中找到替代的最短路径等。 基本概念 K短路&#xff1a;从起点s到终…