LLM推理加速,如何解决资源限制与效率挑战

news2025/1/12 6:18:42

©作者|Zane

来源|神州问学

LLM加速推理,GPU资源破局之道。

引言

大型语言模型(LLM)已经在多种领域得到应用,其重要性不言而喻。然而,随着这些模型变得越来越普遍,对GPU资源的需求也随之激增,导致了资源的紧缺。这种紧缺主要源于以下几个方面的原因:

技术发展需求:随着人工智能技术的快速发展,特别是在深度学习和大型语言模型领域,对GPU的需求急剧增加。这些模型需要大量的计算资源进行训练和推理,而GPU因其并行处理能力成为首选硬件。

市场供应限制:GPU的市场供应受到多种因素的限制,包括生产能力、原材料成本、市场需求等。此外,加密货币挖矿的需求也对GPU的供应造成了压力。

研发成本回收:GPU作为高技术含量的产品,其研发和生产成本较高。为了回收成本并实现盈利,GPU的价格也随之上涨。

国际形势影响:国际贸易政策和政治形势的变化也可能影响GPU的供应链,进一步加剧资源紧缺的状况。

显存碎片化问题

显存碎片化指的是显存中存在许多零散的小块空闲空间,这些空间无法被利用来分配较大的连续内存块,从而降低了显存的使用效率。由于GPU资源受限,通过高效地使用显存可以相较而言,更好地提升大模型的推理和训练效果。

显存碎片化主要由动态内存分配、多任务运行和不同内存需求造成。在模型推理或训练过程中,程序会频繁申请和释放显存,导致显存中留下许多无法被重新利用的小块空间。在共享的GPU环境中,多个任务可能会同时运行,每个任务都有自己的显存需求,这可能导致显存分配不均,进一步产生碎片。此外,不同的模型或模型的不同部分可能需要不同大小的显存块,使得难以找到合适的连续空间来满足某些大块内存需求。

这种显存碎片化会降低显存的整体使用率,使得实际可用的显存可能不足以支持大模型的运行,从而会增加模型的推理或训练时间,并限制了可以加载到显存中的模型大小,因为大模型需要连续的大块显存空间。这些因素共同影响了大模型推理或训练的效率和可行性。

为了应对这些挑战,业界和学术界正在探索多种解决方案,包括优化模型结构以减少资源需求、改进显存管理策略、使用专用硬件和软件工具来提高GPU利用率等。通过这些努力来缓解GPU资源紧缺的压力,更有效地利用计算资源从而提升大型模型推理的效率和可行性。

vLLM加速推理框架简介

图片

vLLM是一种解决当前GPU资源限制的方案,它是一个快速且易于使用的 LLM 推理和服务库。它在服务吞吐量方面是最先进的框架,同时开创性的使用PagedAttention高效管理注意力键和值内存,并且支持多种量化模型等,不仅如此它还与Hugging Face模型无缝衔接,对分布式推理并行支持兼容OpenAI的API服务器,还支持了上百种开源模型。

vLLM 由加州大学伯克利分校开发,23年期间在Chatbot Arena 和 Vicuna Demo进行了部署。即使像 LMSYS 这样的小型研究团队计算资源有限,也能负担得起 LLM 服务的核心技术。随后Koala 和 LLaMA等越来越多受欢迎的模型都开始使用vLLM提供服务。

vLLM 采用了分页注意力算法(PagedAttention),这是一个新型注意力算法,可有效管理注意力键和值。配备分页注意力算法的 vLLM 重新定义了 LLM 服务的新技术水平:它的吞吐量比 HuggingFace Transformers 高出 24 倍,而且无需更改任何模型架构。

vLLM框架下的模型加速技术

图片

LLM的核心是一个自回归变化器模型。模型根据输入(提示)和它迄今为止生成的输出标记的前一序列,一次生成一个词(标记)。每次重新搜索时,都需要重复这个昂贵的过程,直到模型输出一个终止标记。这种顺序生成过程使得工作负载受到内存的限制,无法充分利用GPU的计算能力,限制了服务吞吐量。将多个请求分批处理可以提高吞吐量。但是要批量处理多个请求,就必须有效管理每个请求的内存空间,例如图1展示了在配备40G内存的英伟达A100GPU上处理13B参数的LLM的内存的分配情况。大约65%的内存分配给了权重模型,这些权重在服务过程中保持不变。近30%的内存用于存储请求的动态状态。对于Transformers而言,这些状态与注意力机制相关的键和值张量,通常称为KV缓存,他们代表了从早期标记到依次生成新输出标记的上下文。而这些KV 缓存又有以下特点:

●大:在 LLaMA-13B 中,单个序列最多需要 1.7GB。

●动态:其大小取决于序列长度,而序列长度是高度可变和不可预测的。因此,有效管理 KV 缓存是一项重大挑战。由于碎片化和过度保留,现有系统浪费了60% - 80%的内存。

其余的小内存的百分比用于其他数据,包括被激活的在评估LLM时创建的短暂张量。由于模型的权重是恒定的,而被激活的张量只占GPU内存的一小部分,因此KV缓存的管理方式对于确定最大批次大小至关重要,如果管理不善,KV缓存内存会极大的限制Batch Size,进而限制LLM的吞吐量。

图片

图片

之前的LLM服务系统无法高效的管理内存,主要是因为他们将请求KV缓存存储在连续的内存空间中,而大多数深度学习框架都要求将张量存储在连续的内存中。然而与传统深度学习工作负载中的张量不通,KV缓存具有独特的特性:它会随着模型生成新标记的时间动态增长和收缩,而且其生命周期和长度并不是事先已知的。这些特点使得现有的系统的方法在两个方面明显效率低下,首先现有系统存在内部和外部内存碎片问题。为了在连续内存空间中存储请求KV的缓存,他们预先分配了一块对于请求最大长度(如2048个token)连需的内存。这会导致严重的内部碎片,因为请求的实际长度可能比最大长度短很多,此外即使事现知道实际长度,预分配的效率仍然很低,由于整个分块在请求的生命周期内被保留,其他较短的请求就无法使用当前未使用的分块。此外由于每个请求预分配的大小都可能不同,外部内存碎片也可能非常严重。实际上根据图3的分析表明,在现有的系统中,只有20.4%-38.2%的KV缓存内存用于存储实际的标记状态。

其次现有系统无法利用内存共享,LLM服务通常使用先进的解码算法,如并行采样和波束搜索,每个请求可产生多个输出。在这样的情况下,请求由多个序列组成,这些序列可以部分共享其KV缓存。然而现有系统无法实现内存共享,因为序列的KV缓存存储在不同的连续空间中。

为了解决以上限制,vLLM提出了分页注意力算法(PagedAttention),这种注意力算法的灵感来自于操作系统(OS)对于内存碎片和共享的解决方案:分页虚拟内存。PagedAttention将请求的KV缓存划分为多个区域,每个区域可包含注意键和值。在PagedAttention中,每个KV缓存没有必要存储在连续的空间中,因此我们可以像操作系统的虚拟内存一样,以更灵活的方式管理KV缓存:可以把每个块看作一个页,tokens看成字节,请求看成进程。这种设计通过使用相对较小的块并按需分配,缓解了内部碎片问题,此外由于所有的块大小相同,它还消除了外部碎片。最后他还能在块的粒度、与同一请求相关的不同序列甚至不同请求之间共享内存。

图片

由于区块在内存中不需要连续,因此我们可以像操作系统的虚拟内存一样,以更灵活的方式管理键和值:我们可以把区块看作页,把标记看作字节,把序列看作进程。序列的连续逻辑块通过块表映射到非连续物理内存块。物理内存块在生成新标记时按需分配。

图片

在 PagedAttention 中,内存浪费只发生在序列的最后一个区块。在实践中,这使得内存使用率接近最优,浪费率仅为 4% 以下。事实证明,这种内存效率的提升非常有益:它允许系统将更多序列批量处理在一起,提高了 GPU 的利用率,从而显著提高了吞吐量,如上面的性能结果所示。

PagedAttention 还有另一个关键优势:高效的内存共享。例如,在并行采样中,会从同一提示生成多个输出序列。在这种情况下,提示符的计算和内存可以在输出序列之间共享。

图片

PagedAttention 通过其块表自然而然地实现了内存共享。与进程共享物理内存页的方式类似,PagedAttention 中的不同序列可以通过将其逻辑块映射到相同的物理块来共享块。为确保安全共享,PagedAttention 会跟踪物理块的引用计数,并实施写入时复制机制。

图片

PageAttention 的内存共享功能大大降低了并行采样和波束搜索等复杂采样算法的内存开销,内存使用量最多可减少 55%。这可将吞吐量提高 2.2 倍。这使得此类采样方法在 LLM 服务中非常实用。

vLLM推理框架下的实际应用与效果

2023年4 月,LMSYS开发了广受欢迎的 Vicuna 聊天机器人模型,并将其公开发布。从那时起,Vicuna 已在聊天机器人竞技场为数百万用户提供服务。最初,LMSYS FastChat 采用了基于高频变形金刚的服务后台来为聊天演示提供服务。随着演示越来越受欢迎,峰值流量飙升了数倍,使高频后端成为一个重要瓶颈。LMSYS 和 vLLM 团队通力合作,很快就开发出了 FastChat-vLLM 集成,将 vLLM用作新的后端,以支持不断增长的需求(多达 5 倍的流量)。在 LMSYS 的早期内部微基准测试中,vLLM 服务后端比最初的高频后端吞吐量高出 30 倍。

自23年4月中旬以来,Vicuna、Koala和LLaMA等最流行的模型都已成功使用FastChat-vLLM集成提供服务--有了FastChat作为多模型聊天服务前端和vLLM作为推理后端,LMSYS就能够利用数量有限的大学赞助的GPU,以高吞吐量和低延迟向数百万用户提供Vicuna服务。LMSYS 正在将 vLLM 的使用扩展到更广泛的模型,包括 Databricks Dolly、LAION 的 OpenAsssiant 和 Stability AI 的 stableLM。

图片

4 月至 5 月期间,聊天机器人竞技场中通过 FastChat-vLLM 集成提供的请求。事实上,超过一半的聊天机器人竞技场请求使用 vLLM 作为推理后端。

vLLM 的使用还大大降低了运营成本。使用 vLLM 后,LMSYS 能够将用于处理上述流量的 GPU 数量减少 50%。vLLM 平均每天处理 30K 个请求,峰值达 60K,这充分证明了 vLLM 的强大功能。

结论

VLLM推理框架通过采用多种技术有效解决了GPU资源紧缺和显存碎片化问题。首先,引入PagedAttention算法允许键值对的非连续存储,通过将键值对划分成多个块并映射到物理块中,实现了键值对的共享和灵活的内存管理,有效避免了显存碎片化。

此外,VLLM利用虚拟内存管理技术,将GPU显存划分为逻辑块,并使用页表技术将这些逻辑块映射到实际的物理块上。这种方法支持延迟分配、写时复制和块粒度的内存交换,根据实际需求动态分配显存资源,从而避免了内存碎片化并提高了显存利用率。VLLM通过模型并行和数据并行策略,将大型模型划分为多个子模型,分布在不同的GPU设备上进行并行推理,以及通过智能的数据分发策略进行计算,不仅进一步提高了显存利用率,还减少了GPU设备间的同步开销。这些策略综合提升了VLLM框架处理大规模模型时的效率和性能。

在官方的博客中比较了 vLLM 与HuggingFace Transformers (HF) 和HuggingFace Text Generation Inference (TGI) 的吞吐量,前者是最流行的 LLM 库,后者是目前最先进的 LLM 库。在两种环境下进行了评估:LLaMA-7B 在英伟达A10G GPU 上运行,LLaMA-13B 在英伟达A100 GPU(40GB)上运行。从 ShareGPT 数据集中对请求的输入/输出长度进行了采样。在实验中,vLLM 的吞吐量比 HF 高出24 倍,比 TGI 高出3.5 倍。

图片

单线程情况下vLLM 的吞吐量比 HF 高 14 - 24 倍,比 TGI 高 2.2 - 2.5 倍。

图片

3个线程的并发情况下,vLLM 的吞吐量比 HF 高 8.5-15 倍,比 TGI 高 3.3-3.5 倍。

同时vllm已经支持市面上的常用的大部分模型,这对于已经使用这些的模型的企业和组织则大大降低了引入vllm的难度。

附:vllm目前支持的模型:

图片

图片

参考文献

[1] Efficient Memory Management for Large Language Model Serving with PagedAttention

[2] vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1610421.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

问卷回收率太低?用这几个小技巧轻松提升!

在进行调查研究时,高回收率是保障数据质量和调研成果有效性的关键因素之一。然而,有时候我们面对的情况是调查问卷的回收率较低,这可能会影响到数据的客观性和准确性。在这种情况下,我们需要采取措施来提高调查问卷的回收率&#…

MapReduce 机理

1.hadoop 平台进程 Namenode进程: 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像文件(Namespace image)和操作日志文件(edit log)&#xff…

Python --- 在python中安装NumPy,SciPy,Matplotlib以及scikit-learn(Windows平台)

在python中安装NumPy,SciPy,Matplotlib以及scikit-learn(Windows平台) 本文是针对(像我一样的)python新用户所写的,刚刚在电脑上装好python之后,所需的一些常见/常用的python第三方库/软件包的快速安装指引。包括了这些常用安装包…

0-1背包问题:贪心算法与动态规划的比较

0-1背包问题:贪心算法与动态规划的比较 1. 问题描述2. 贪心算法2.1 贪心策略2.2 伪代码 3. 动态规划3.1 动态规划策略3.2 伪代码 4. C语言实现5. 算法分析6. 结论7. 参考文献 1. 问题描述 0-1背包问题是组合优化中的一个经典问题。假设有一个小偷在抢劫时发现了n个…

C语言--函数递归

目录 1、什么是递归? 1.1 递归的思想 1.2 递归的限制条件 2. 递归举例 2.1 举例1:求n的阶乘 2.2 举例2:顺序打印⼀个整数的每⼀位 3. 递归与迭代 扩展学习: 早上好,下午好,晚上好 1、什么是递归&…

【Web】DASCTF X CBCTF 2022九月挑战赛 题解

目录 dino3d Text Reverser cbshop zzz_again dino3d 进来是一个js小游戏 先随便玩一下,显示要玩够1000000分 直接console改分数会被检测 先是JSFinder扫一下,扫出了check.php 到js里关键词索引搜索check.php 搜索sn,发现传入的参数是…

上古掌控安全的神-零:Spring Security5.x到Spring Security6.x的迁移

1. 本文概述 之前有写过一篇关于Spring Security的文章,但那已经是相对比较旧的版本了,就目前Spring Security6.0来说,这其中出现了不少的变动和更新,很多API的使用也是有不小的变化,所以我觉得有必要再写几篇文章学习…

OpenCV4.10使用形态运算提取水平线和垂直线

返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV的查找命中或未命中 下一篇:OpenCV4.9图像金字塔-CSDN博客 目标 在本教程中,您将学习如何: 应用两个非常常见的形态运算符(即膨胀和…

java/C#语言开发的医疗信息系统10套源码

java/C#语言开发的医疗信息系统10套源码 云HIS系统源码,云LIS系统源码,PEIS体检系统,手麻系统 源 码,PACS系统源码,微源预约挂号源码,医院绩效考核源码,3D智能导诊系统源码,ADR药物…

数据分析场景,连号相关业务

连号相关业务 业务场景:现在需要从a列一堆编号中,将连号范围在10以内的数据分别分成一组。 先看实先效果 演示的为db2数据库,需要含有窗口函数,或者可以获取到当前数据偏移的上一位数据 第一步:将A列数据正序第二步…

【笔试强训_Day06】

文章目录 1.字符串相乘 1.字符串相乘 题目链接 解题思路: 高精度乘法,注意要学会下面这种列式相乘的形式🍎 注意细节❗: ① 🍎 首先把列式相乘的数据都存放到数组中去, 然后再对数组中的数据进行取余进…

Web开发:ASP.NET CORE的前端demo(纯前端)

目录 一、建立项目 二、删除无用文件 三、样式添加 四、写一个登录页面 五、登录主界面 一、建立项目 二、删除无用文件 三、样式添加 将你的图片资源添加在wwwroot下方,例如pics/logo.png 四、写一个登录页面 将Privacy.cshtml改为 Forget.cshtml &#xff0…

喜报 | 英码科技顺利通过2023年度广东省工程技术研究中心认定

近日,广东省科学技术厅公示了2023年度广东省工程技术研究中心的名单,英码科技设立的“广东省人工智能与边缘计算工程技术研究中心”顺利通过2023年度广东省工程技术研究中心的认定;英码科技在边缘计算领域的技术创新能力、科技成果转化再次获…

452. 用最少数量的箭引爆气球[排序+贪心]

https://leetcode.cn/problems/minimum-number-of-arrows-to-burst-balloons/description/?envTypestudy-plan-v2&envIdtop-interview-150 题目描述 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points ,其中points[i] [xst…

ZooKeeper写数据流程

ZooKeeper写数据流程 初始化连接: 客户端初始化与 ZooKeeper 集群的连接,连接可以是 TCP 连接或者基于 UDP 的通信。客户端可以连接到集群中的任何一个节点。 查找 Leader: 当客户端发送写请求时,如果连接的节点不是 Leader&…

最新版frp将家里的nas机器内网穿透(含域名配置)

大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂。 前言 最近,家里整了个nas,自此开始入坑nas,由于是黑群晖,所以没有带公网访问的功能,只能自己研究了。 好在之前用过frp,整过内网穿透&…

springboot+vue社区报修便民维修网站设计与实现

便民维修网站,主要的模块包括管理员;首页、个人中心、管理员管理、用户管理、维修人员管理、在线报修管理、联系客服管理、公司回访管理、基础数据管理、论坛管理、公告管理、轮播图信息,维修人员;首页、个人中心、维修人员评价管…

ViM-UNet:用于生物医学细分的 Vision Mamba

ViM-UNet:用于生物医学细分的 Vision Mamba 摘要IntroductionMethod and Experiments结果与讨论 ViM-UNet: Vision Mamba for Biomedical Segmentation 摘要 卷积神经网络(CNNs),尤其是UNet,是生物医学分割的默认架构…

springboot+java照相馆预约管理系统ssm

框架:ssm/springboot都有 jdk版本:1.8 及以上 ide工具:IDEA 或者eclipse 数据库: mysql 编程语言: java 前端:layuibootstrapjsp 详细技术:HTMLCSSJSjspspringmvcmybatisMYSQLMAVENtomcat 开发工具 IntelliJ IDEA: 一…

利用二维码定位技术实现桌面机器人简易定位方案(下篇)

目录 1、前言2、定位标签定义3、识别算法流程4、python编程4.1 查找三个回字定位点python4.2 根据三个定位点坐标位置关系,进行识别python4.3 根据实际坐标对当前图像进行矫正python4.4 计算物体的坐标值python 总结本篇对应python源码 1、前言 机械手臂尤其是工业…