大型语言模型高效推理综述

news2024/11/20 12:36:51

图片

论文地址:2404.14294.pdf (arxiv.org)

大型语言模型(LLMs)由于在各种任务中的卓越表现而受到广泛关注。然而,LLM推理的大量计算和内存需求给资源受限的部署场景带来了挑战。该领域的努力已经朝着开发旨在提高LLM推理效率的技术方向发展。本文提供了对现有文献关于高效LLM推理的全面综述。我们首先分析了LLM推理效率低下的主要原因,即模型规模大、注意力操作的二次复杂度和自回归解码方法。接着,我们介绍了一个全面的分类法,将当前文献按数据级、模型级和系统级优化进行组织。此外,本文还包括了在关键子领域内代表性方法的比较实验,以提供定量洞见。最后,我们提供了一些知识总结并讨论未来的研究方向。

近年来,大型语言模型(LLMs)已经从学术界和工业界获得了大量关注。LLMs领域经历了显著的增长和重大成就。众多开源的LLMs已经出现,包括GPT系列(GPT-1 [1],GPT-2 [2],和GPT-3 [3]),OPT [4],LLaMA系列(LLaMA [5],LLaMA 2 [5],百川2 [6],Vicuna [7],长聊 [8]),BLOOM [9],FALCON [10],GLM [11],和Mistral [12],这些模型被用于学术研究和商业目的。LLMs的成功源于它们在处理各种任务(如神经语言理解(NLU),神经语言生成(NLG),推理 [13],[14] 和代码生成 [15])中的强大能力,从而使得如ChatGPT、Copilot和Bing等应用产生了重大影响。人们日益相信 [16],LLMs的崛起和成就标志着人类向人工通用智能(AGI)的重大步伐。然而,LLMs的部署并不总是顺利进行。如图1所示,LLMs在推理过程中通常需要更高的计算成本、内存访问成本和内存使用率(我们将在第2.3节分析根本原因),这降低了资源受限场景中的效率指标(例如,延迟、吞吐量、能耗和存储)。这为LLMs在边缘和云场景中的应用带来了挑战。例如,巨大的存储需求使得在个人笔记本电脑上部署一个700亿参数的模型用于开发辅助任务变得不切实际。此外,如果LLMs被用于每一个搜索引擎请求,低吞吐量将导致显著的成本,从而大幅降低搜索引擎的利润。

幸运的是,已经提出了大量技术以实现LLMs的高效推理。为了全面理解现有研究并激发进一步的研究,本综述采用了层次分类和系统总结的方法来描述高效LLM推理的当前景观。具体来说,我们将相关研究分为三个层次:数据级优化、模型级优化和系统级优化(详见第3节)。此外,我们对代表性方法进行了实验分析。目前,已经进行了几项综述 [17],[18],[19],[20],[21],[22],主要关注LLMs效率的不同方面,但仍提供了进一步改进的机会。朱等人 [17],朴等人 [18] 和王等人 [19] 关注于模型级优化中的模型压缩技术。丁等人 [20] 聚焦于考虑数据和模型架构的效率研究。苗等人 [21] 从机器学习系统(MLSys)研究的角度探讨高效LLM推理。与之相比,我们的综述提供了更全面的研究范围,涵盖了数据级、模型级和系统级的优化,并包括了最新的进展。尽管万等人 [22] 和徐等人 [23] 也提供了高效LLM研究的全面综述,我们的工作通过结合比较实验,并根据在几个关键子领域如模型量化和服务系统的实验分析提供实用的见解和建议,进一步扩展了这些工作。这些综述的比较总结在表1中。

本综述的其余部分安排如下:第2节介绍LLMs的基本概念和知识,并详细分析了LLMs推理过程中的效率瓶颈。第3节展示我们的分类法。第4节至第6节分别介绍和讨论在三个不同层次上的效率优化研究。第7节为几个关键应用场景提供更广泛的讨论。第8节总结了本综述提供的关键贡献。

图片

在上述讨论中,我们确定了三个关键因素(即计算成本、内存访问成本和内存使用),这些因素在LLM推理过程中显著影响效率,并进一步分析了三个根本原因(即模型大小、注意力操作和解码方法)。已经做出了许多努力,从不同的角度优化推理效率。通过仔细回顾和总结这些研究,我们将它们分类为三个层次,即数据级优化、模型级优化和系统级优化(如图4所示):

  • 数据级优化指的是通过优化输入提示(即输入压缩)或更好地组织输出内容(即输出组织)来提高效率。这种优化线通常不会改变原始模型,因此无需昂贵的模型训练成本(注意,辅助模型可能需要少量训练,但与原始LLMs的训练成本相比,这种成本可以忽略不计)。

  • 模型级优化指的是在推理过程中设计高效的模型结构(即高效结构设计)或压缩预训练模型(即模型压缩)以提高其效率。这种优化线(1)通常需要昂贵的预训练或较少量的微调成本以保持或恢复模型能力,并且(2)通常在模型性能上是有损的。

  • 系统级优化指的是优化推理引擎或服务系统。这种优化线(1)不涉及昂贵的模型训练,并且(2)通常在模型性能上是无损的。另外,我们在第6.3节简要介绍了硬件加速器设计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1629063.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

libVLC 制作一款精美的播放器

1.简介 本文将简单介绍使用libVLC制作一款精美的播放器。 开发环境:Visual Studio + Qt插件。 Qt版本:Qt5.9。 libVLC版本:3.0.20。 以下是运行界面效果图:截取其中几张。 右键菜单,功能还是比较齐全。 2.ui界面构成 接下来简单介绍一下ui界面构成。 主界面由播放树…

【Linux内核驱动基础】从零开始手搓一个从上层应用到底层驱动的IO口代码

【Linux内核驱动基础】从零开始手搓一个从上层应用到底层驱动的IO口控制代码 文章目录 【Linux内核驱动基础】从零开始手搓一个从上层应用到底层驱动的IO口控制代码一、驱动基础认知1.为什么要学会写驱动2.文件名与设备号3.open函数从上层打通到底层硬件的详细过程 二、基于内核…

22年全国职业技能大赛——Web Proxy配置(web 代理)

前言:原文在我的博客网站中,持续更新数通、系统方面的知识,欢迎来访! 系统服务(22年国赛)—— web Proxy服务(web代理)https://myweb.myskillstree.cn/114.html 目录 RouterSrv …

解决问题:pos_label=1 is not a valid label. It should be one of [‘0‘, ‘1‘]

文章目录 一、现象二、解决方案 一、现象 ...... model.fit(X_train, y_train) y_pred model.predict(X_test) recall recall_score(y_test, y_pred) precision precision_score(y_test, y_pred) ......执行语句到**“recall recall_score(y_test, y_pred)”**这里发现报错…

【SpringBoot整合系列】SpringBoot整合Redis[附redis工具类源码]

目录 SpringBoot整合Redis1.下载和安装Redis2.新建工程,导入依赖3.添加配置4.先来几个基本的示例测试代码输出结果用redis客户端查看一下存储内容 5.封装redis工具类RedisKeyUtilRedisStringUtilRedisHashUtilRedisListUtilRedisSetUtilRedisZsetUtil备注 6.测试通用…

Pytorch 之torch.nn初探 卷积--Convolution Layers

任务描述 本关任务: 本关提供了一个Variable 类型的变量input,按照要求创建一 Conv1d变量conv,对input应用卷积操作并赋值给变量 output,并输出output 的大小。 相关知识 卷积的本质就是用卷积核的参数来提取原始数据的特征&a…

成都金沙国际学校招生介绍

成都金沙国际学校于2017年9月正式开学,涵盖了初中、高中学段,致力于为川南地区培育更多更优秀的国际化人才,是一所真正意义上的外国语教育窗口学校。校园环境优美,教学设施全市一流,师资团队精良,游学、留学…

绘制签章 乱码问题 (踩坑日记)

签章汉字乱码问题 原因:我们在docker上因为没有汉字字体需要我们手动把文件打进去 注意点:如果开启了打包过滤加上字体不过滤 绘制签章转载

系统服务(22年国赛)—— 磁盘管理(压缩去重)

前言:原文在我的博客网站中,持续更新数通、系统方面的知识,欢迎来访! 系统服务(22年国赛)—— 磁盘管理(压缩&&去重)https://myweb.myskillstree.cn/90.html 目录 StorageSrv 安装并创建vdo 将…

3122.使矩阵满足条件的最少操作次数

周赛第三题,知道要用动态规划,但是不知道怎么回到子问题 显然根据题意我们需要让每一列都相同,但是相邻列不能选择同一种数字,观察到数据nums[i]介于0-9,我们就以此为突破口. 首先我们用count[n][10], count[i][j]记录第i1列值为j的元素个数,转移方程如下: dfs(i,pre) max(dfs…

Vue基于高德地图API封装一个地图组件

一、参考资料 高德开放平台 | 高德地图API (amap.com) 二、安装及配置 pnpm i vuemap/vue-amap --save man.ts 密钥及安全密钥需要自己到高德地图开放平台控制台获取. import { createApp } from vue import App from ./App.vue import router from ./router i…

Orange3数据可视化(组件概览)

概要 大家见过Orange3提供的丰富数据可视化组件吗? Orange3为您提供了一系列生动的图表工具,包括树图、箱线图、小提琴图、分布图、散点图、折线图、条形图、筛图、马赛克图、自由投影、线性投影、雷达图、热力图、韦恩图、轮廓图、毕达哥拉斯树、毕达哥…

Python | Leetcode Python题解之第48题旋转图像

题目: 题解: class Solution:def rotate(self, matrix: List[List[int]]) -> None:n len(matrix)# 水平翻转for i in range(n // 2):for j in range(n):matrix[i][j], matrix[n - i - 1][j] matrix[n - i - 1][j], matrix[i][j]# 主对角线翻转for …

鸿蒙内核源码分析(任务调度篇) | 任务是内核调度的单元

任务即线程 在鸿蒙内核中,广义上可理解为一个任务就是一个线程 官方是怎么描述线程的 基本概念 从系统的角度看,线程是竞争系统资源的最小运行单元。线程可以使用或等待CPU、使用内存空间等系统资源,并独立于其它线程运行。 鸿蒙内核每个…

OS对软件的管理,进程,PCB、子进程

进程 可执行程序加载到内存中,操作系统为内个程序都形成一个PCB对象(结构体对象),PCB里存放着这个程序的所有的属性。进程可执行程序PCB ,CPU执行程序也是先通过该程序的PCB找到相应的程序代码,然后一条一…

鸿蒙内核源码分析(时钟任务篇)

时钟概念 时间是非常重要的概念,我们整个学生阶段有个东西很重要,就是校园铃声. 它控制着上课,下课,吃饭,睡觉的节奏.没有它学校的管理就乱套了,老师拖课想拖多久就多久,那可不行,下课铃声一响就是在告诉老师时间到了,该停止了让学生HAPPY去了. 操作系统也一样&…

Flutter基础语法

Flutter概要 Flutter目录结构 文件夹 作用 android android 平台相关代码 ios ios平台相关代码 lib flutter相关代码,我们主要编写的代码就在这个文件夹中 test 用于存放测试的代码 pubspec.yaml 配置文件,一般存放一些第三方库的依赖 Flutt…

【研发管理】产品经理知识体系-产品设计与开发工具

导读:产品设计与开发工具的重要性体现在多个方面,它们对于产品的成功开发、质量提升以及市场竞争力都具有至关重要的影响。产品设计工具可以帮助设计师更高效地创建和优化产品原型。开发工具在产品开发过程中发挥着至关重要的作用。产品设计与开发工具还…

细致讲解——不同类型LSA是作用以及相互之间的联系

目录 一.常见的LSA类型 二.OSPF特殊区域 1.区域类型 2.stub区域和totally stub区域 (1)stub区域 (2)totally stub区域 3.nssa区域和totally nssa区域 (1)nssa区域 (2)totall…