(2024,LoRA压缩和多LoRA快速切换,联合对角化,重构误差)先压缩再提供服务:以极低的开销为数千个 LoRA提供服务

news2025/1/12 23:16:18

Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead

公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

1. 简介

3. 基于秩的 LoRA 压缩

3.1 期望特性(Desiderata)

3.2 通过 SVD 的独立压缩

3.3 联合对角化

4. 理论分析

5. 训练 LoRA 和评估任务性能

5.1 训练

6. 实验

7. 讨论


0. 摘要

微调大型语言模型(LLM)使用低秩适配器(low-rank adapters,LoRA)已成为常见做法,通常会产生多个仅在 LoRA 更新上有所不同的相同 LLM 副本。这种范式给需要实时响应 query 的系统带来了挑战,每个 query 涉及不同的 LoRA。先前的工作优化了此类系统的设计,但仍需持续加载和卸载 LoRA,因为在 GPU 内存中存储成千上万的 LoRA 是不可行的。为了解决这一问题,我们研究了在服务 LoRA 适配器时压缩的有效性。我们考虑通过 SVD 对适配器进行单独压缩,并提出了一种将 LoRA 联合压缩到匹配 LoRA 专属缩放矩阵的共享基底​(basis)的方法。我们对多达 500 个 LoRA 的实验表明,在实际服务场景中使用超过一千个 LoRA 时,压缩的 LoRA 在保持单个 LoRA 服务 75% 吞吐量的同时,保留了性能并提供了巨大的吞吐量提升。 

1. 简介

在这项工作中,我们考虑了压缩 LoRA 集合的问题。我们有两个主要目标:(1)保持原始 LoRA 的性能和(2)提高服务多个 LoRA 的吞吐量。我们将 LoRA 压缩表述为重构问题,目标是通过总大小较小的矩阵集合来近似原始适配器。我们研究了两种方法:通过 SVD 降低其秩来单独压缩每个 LoRA,以及通过找到共享基底和 LoRA 特定缩放矩阵来联合压缩 LoRA。前者受 [11] 启发,表明降低 LoRA 秩对多任务学习和模型合并是有益的。对于后者,我们提出了一种受联合对角化模型启发的联合压缩算法。

我们的单独和联合压缩方法呈现出有趣的权衡。例如,联合压缩可以通过使用可预加载到 GPU 的共享基底表示任何特定 LoRA,从而实现极端的参数数量减少。然而,共享基底通常会增加 LoRA 的秩。另一方面,单独压缩可以降低秩,但在压缩效率方面有限。我们研究了这些权衡在使用 vLLM [12](一种最先进的 LLM 服务系统)服务 1000 个 LoRA 时如何影响吞吐量。在图 1 中,我们展示了压缩的好处和这些权衡的影响。当服务超过 1000 个 LoRA 时,压缩使吞吐量增加了 2 倍以上,并保持了服务基础 LLM(或合并到 LLM 中的单个 LoRA)75% 的吞吐量。 

3. 基于秩的 LoRA 压缩

LoRA 更新由成对矩阵 A 和 B 参数化,其乘积 BA 更新了神经网络基础模型的固定权重矩阵 W_0 ∈ R^(d_B × d_A)。给定层的输入 x,LoRA 更新模型在该层的输出为 (W_0 + BA)·x。

在制定我们的压缩算法时,我们考虑一组给定的 LoRA 适配器 {(Ai, Bi)}^n_(i=1),我们希望提供服务。我们令 ri 表示 LoRA 适配器对 (A_i, B_i) 的秩,即 Bi ∈ R^(d_B × r_i),Ai ∈ R^(r_i × d_A)。在 §3.1 中列出设计压缩方案的基本考虑因素后,我们在 §3.2 中考虑了一种简单的基线参数减少方法,以及在 §3.3 中更激进的联合对角化方法。

3.1 期望特性(Desiderata)

虽然我们的压缩技术只能访问一组 {(Ai, Bi)}^n_(i=1) 对,但在实验中,我们将通过比较压缩矩阵在典型数据上的表现与未压缩 LoRA 的表现来评估压缩的有效性。基于此原因,尽管在本节中我们优化相对于乘积 Bi·Ai 的 Frobenius 范数重构误差,但实际上这是适配器中压缩误差对 transformer 性能的非线性和复杂影响的代理。我们的实验评估将重点关注压缩 LoRA 在实际数据上相对于未压缩版本的性能(见 §6)。

我们的压缩方法显著减少了参数的总数量。通过压缩减少参数理论上加速了 LoRA 集合的存储和服务过程。然而,这种减少改变了推理期间的计算动态,因此参数减少本身并不立即意味着更快的吞吐量。鉴于 GPU 优化的复杂性,我们将在 §6.3 中评估现实条件下的吞吐量。

3.2 通过 SVD 的独立压缩

最简单的方法是用一个秩为 r 的近似替换每个秩为 ri 的 LoRA 适配器 Bi·Ai

其中通常

由于 Eckart-Young 定理,这种策略找到了在 Frobenius 范数意义上最适合 Bi·Ai 的秩 r 近似。由于Σ_i V^T_i 可以保存为一个矩阵,这种方法将使用的参数数量从 ∑_i (d_A + d_B)·r_i 减少到 r·n·(d_A + d_B)。虽然这种近似方法有效,但随着 n 的增加,它在压缩能力上受到限制,因为它不会在 LoRA 之间共享信息。这一缺点激发了我们下一种方法的动机。

3.3 联合对角化

接下来,我们提出一种联合对角化(Joint Diagonalization,JD)方法,该方法优化一个共享基底,投射到这一基底上的一组 n 个 LoRA。这将允许共享结构,隐式地聚类 LoRA 集合。

在此模型中,每个 LoRA 产物 Bi·Ai 被分解为形式 U·Σ_i·V,其中 U 和 V 在所有 LoRA 之间共享,Σ_i 是每个 LoRA 特有的。在这种表述中,每个 Σ_i 共享相同的秩 r。这允许 U 和 V 预加载到 GPU 上,而在每 batch 需要时加载 Σ_i。矩阵 Σ_i 可以是对角矩阵或小方阵,与传统的多 LoRA 服务配置相比,加速了前向传播。

目标函数。受奇异值分解与最小化重构误差的 Frobenius 范数关系的启发,我们还建议最小化适配器矩阵近似误差的 Frobenius 范数。具体来说,我们使用以下目标函数:

使用 Frobenius 范数的额外好处是使目标函数在每个参数中单独是凸的,这表明可能存在高效的优化方法。然而,该目标函数是欠定的,因此我们考虑以下两种受约束的方案。

完整 Σ_i 近似。第一种方法我们称之为 JD − Full。在不失一般性的情况下,只要 Σi 仍然是一个无约束的完整矩阵,U 和 V 可以被约束为正交矩阵。JD − Full 采用这种限制以使优化更好地成立,但注意这并不限制目标函数(2)的表达能力。此设置产生以下优化问题:

解决此目标函数的有效替代算法可以在附录 B 中找到。

对角 Σi 近似。作为替代方案,我们可以将 U、V 设为无约束(除了具有 r 列之外),而将矩阵 Σi 约束为对角矩阵(但不一定为正)。这种表述产生以下优化问题: 

一个有效的替代的最小二乘算法可以在附录 B 中找到。这种对角版本相比 JD − Full 在每个 LoRA 的参数上有一些节省,因为对角矩阵 Σi 只需要 r 个参数而不是 r^2。

4. 理论分析

虽然基于 SVD 的方法相对容易理解,但在本节中,我们试图更好地理解 §3.3 中提出的联合对角化方法的作用。我们将重点关注具有正交 U 和 V 矩阵的完整 Σi 情况。注意,对于相同的秩 r,r−JD−Diag 的重构误差至少与 r−JD−Full 一样大,因为它对 Σi 施加了一个额外的约束。

首先,注意到只有当 r 足够大时才能实现完美重构:

命题1:假设对所有 i,rank(Bi·Ai) = ri,并且令

然后,使用 r = ~r 的 JD − Full (3) 可以实现无损压缩(完美重构),并且使用 r < ~r 将产生非零重构误差。

证明:当且仅当 r ≥ ~r 时,存在 U, V 使得所有 Bi, Ai 都分别在 U, V 的张成空间内。

由于训练噪声,~r 几乎总是等于 ∑^n_(i=1) r_i。这意味着在大多数现实情况下,联合对角化方法是有损重构。

这种重构损失可能是显著的,如以下定理所示(证明见附录 C):

定理 1:考虑 n 个 LoRA ({Ai, Bi}^n_{i=1}),其中 r, n ≤ d^2,并构造矩阵

令 σj 为 L 的奇异值,从大到小排序,令 ¯σj 为 ∑^n_(i=1) Bi·Ai 的奇异值。然后,使用 JD − Full (3) 方法,

这意味着重构的 LoRA 的 Frobenius 范数平方和满足

换句话说,如果 L 的奇异值没有集中在前 r^2 个条目中,则不可避免会产生显著的重构误差。

备注 1(下界与合并):通过将所有 Σi 设为相等,即,使用完全合并(merging)模型而不是仅合并子空间 U, V 并允许 Σi 随 i 变化,可以达到下界

备注 2(上界与聚类):当 LoRA 相对聚类时,即当 vec(Bi·Ai) 向量组相似时,上界最小。这种情况提高了 L 最大奇异值的幅度,从而提高了命题中的上界。由于 LoRA 是 d×d 矩阵,可以看作 d^2 维空间中的点,对于典型的 d 值高达数百,彼此无关的 LoRA 很可能不聚类,即它们之间的内积相对较低。

对于正交 LoRA 的情况,L 的奇异值就是 LoRA 的范数,我们立即得到以下推论:

推论 1:假设(例如由于归一化)联合对角化算法的输入都具有单位 Frobenius 范数,即 ||Bi·Ai||_Fro = 1。此外,假设 LoRA 都是正交的,即

那么,使用 JD − Full 方法(3),我们有

这意味着重构的 LoRA 的 Frobenius 范数平方和满足

这意味着,对于 r^2 ≪ n 的常见设置,重构的 LoRA 将比原始 LoRA 显著更小,并且必然会有显著的重构误差。

本节的结果展示了使用联合对角化的权衡。

  • 如果 LoRA 是相似或良好聚类的,重构误差将很低。
  • 如果 LoRA 是随机且正交的,重构误差将很高。

注意,由于 transformer 的损失空间非常复杂,增加权重的重构误差并不一定意味着降低逼近所需 LLM 输出的能力。有趣的是,在下面的图 3 中所示的实验中,我们确实看到虽然大的重构误差迅速降低了性能,但适度(但仍相对较大,约为 0.4)的重构误差并没有损害性能,甚至可能略微优于零重构误差设置。这一观察结果激发了我们对最小化权重重构误差的关注,同时也指出了我们的方法可能不仅仅是实现低损耗压缩的可能性。具体来说,

  • 当 r 较大时,基于 Frobenius 范数的联合对角化倾向于找到许多 LoRA 共享的子空间,
  • 当 r 较小时,将子空间合并到平均值附近。

当 r 远低于该问题的自然秩时,这种倾向于平均化所有或部分 LoRA 信号的倾向直接连接到合并 LoRA 的概念,其在 [23, 9] 等工作的经验成功可能解释了我们方法的成功,尽管基础 transformer 是非线性的。

附录 F.10 中的实验进一步探讨了这一想法,比较了真实世界 LoRA 的重构与随机采样 LoRA 的重构。重构误差通常很大,但显著低于随机噪声的重构误差,这表明 LoRA 之间存在一个主要的共享成分,并成功保留了这一成分。

5. 训练 LoRA 和评估任务性能

5.1 训练

我们使用 Mistral-7B-Instruct-v0.2 [10] 作为基础模型,在 500 个自然指令任务 [27] 上训练了 LoRA 适配器。所有 LoRA 适配器的配置秩为 16,即 ∀_i, r_i = 16。

我们手动选择了 10 个多样化的任务(附录 D 中的表 2)进行一致的实验评估,并随机抽取了另外 490 个任务,总共 500 个任务。这些任务完全使用英语(包括输入和输出),以确保更高的质量和全面的审查 [27]。每个任务数据集被分为训练集、验证集和测试集。

使用验证集调整了诸如早停之类的超参数。测试集上的评估显示,LoRA 在 Rouge 分数和损失指标方面均一致优于基础模型,如表 1 所示。详细信息见附录 D。

6. 实验

【注:文中并未说明圆的大小代表什么意思,但不影响对比。

图 2:要在性能与 memory(LoRA 压缩)之间做一个权衡。

图 3:LoRA 压缩越多,重建误差越大,性能越差。

图 4:JD-Full 是相对地最优方法。

】 

7. 讨论

本研究介绍了 LoRA 压缩的方法,解决了基础模型和大型语言模型面临的重要挑战。我们的贡献包括理论公式、经验验证和实践实现,这些都增强了对 LLM 在可扩展环境中的理解和应用。

我们的发现具有多方面的意义。我们对重构误差的理论保证不仅增加了对使用压缩模型的信心,还为未来在这一领域的探索奠定了基础。展示我们的压缩技术能够保持原始 LoRA 性能的高达 100%,突显了我们方法的有效性。此外,将 LoRA 压缩集成到最先进的 LLM 服务系统中,展示了资源优化的潜力,成千上万的 LoRA 的吞吐量接近单个 LoRA 的水平。

一个主要的限制涉及新 LoRA 的集成。我们的研究表明,尽管在原始空间中压缩新 LoRA 能改善基准性能,但相比未压缩的 LoRA,可能会降低性能(见附录 F.11)。因此,最佳策略取决于新 LoRA 的添加频率。较少添加的新 LoRA 可以通过重新压缩所有 LoRA 来证明其合理性,相对于推理成本影响最小。相反,在经常引入但很少服务的新 LoRA 的情况下,应该仅压缩经常服务的 LoRA,其他则使用原始 LoRA。

我们研究的有希望的结果提示了几个未来的研究方向。将我们的压缩技术扩展到更多的模型和任务中,可能会进一步证实和扩展我们发现的普遍性。这包括分布外评估,这可以突出显示与压缩相关的泛化改进。此外,更复杂的优化算法可以改善压缩与性能之间的平衡。

总之,我们的研究通过提供强大、可扩展且高效的压缩解决方案,显著推动了 LLM 的部署。压缩 LoRA 在保持高性能的同时实现了大量的资源节省,这为 LLM 在各个行业的更广泛应用和采纳开辟了新的途径。我们鼓励社区在我们的发现和共享 LoRA 的基础上,进一步探索和提升这些技术的实用性。

论文地址:https://www.arxiv.org/abs/2407.00066

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1959414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ubuntu安装tar安装 nginx最新版本

一、需要先安装依赖 apt install gcc libpcre3 libpcre3-dev zlib1g zlib1g-dev openssl libssl-dev 二、上传安装包 并解压 下载地址 nginx news tar xvf nginx-1.25.2.tar.gz 进入nginx cd nginx-1.25.2 三、编译 ./configure --prefix=/usr/local/nginx --with-htt…

数组模拟单调栈--C++

本题的计算量较大&#xff0c;用暴力算法会超时&#xff0c;的用别的方法&#xff0c;我们假设在左边找第一个比它小的数&#xff0c;那么在左边出现一次的数如果比右边大了&#xff0c;那么就不会在出现了&#xff0c;我们将它删除掉就可以了&#xff0c;用这个方法我们可以的…

算力QoS技术革新:OrionX引领AI行业资源管理新趋势

01 前言 在当今数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;已成为各行业发展的关键推动力。然而&#xff0c;随着AI技术的蓬勃发展&#xff0c;行业对计算资源的需求也日益增长&#xff0c;传统的资源分配方式已无法满足需求。 在这一背景下&#xff0c;算力Q…

基于vue-onlyoffice实现企业office web在线应用

目录 1.背景... 1 2.Onlyoffice介绍... 2 3.Onlyoffice核心api介绍... 2 3.1 ApiDocument 2 3.2 ApiParagraph. 2 3.3 ApiTable. 2 3.4. ApiRange. 3 4.Onlyoffice插件介绍... 3 4.1 插件定义... 3 4.2 插件对象... 3 4.3 插件结构... 4 4.4 插件内嵌使用方式... 4…

Echarts 柱状图实现同时显示百分比+原始值+汇总值

原始效果&#xff1a;柱状图 二开效果&#xff1a; 核心逻辑 同时显示百分比和原始值 label: {show: true,position: inside,formatter: (params) > {const rawValue rawData[params.seriesIndex][params.dataIndex];const percentage Math.round(params.value * 1000) / …

基于springboot+vue+uniapp的校园二手交易小程序

开发语言&#xff1a;Java框架&#xff1a;springbootuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#…

达梦数据库基础操作-查询

一、基础查询 1 &#xff09;单表查询 1. 查看表结构 使用两种方式可查看数据库的表结构&#xff1a; 查询后会显示该表的创建语句以及结构 2. 查询全表 使用 SELECT * 查询全表&#xff0c;此时数据库会返回表所有列 3. 行过滤 使用条件查询进行过滤&#xff0c;…

2024电赛H题参考方案(+视频演示+核心控制代码)——自动行使小车

目录 一、题目要求 二、参考资源获取 三、参考方案 1、环境搭建及工程移植 2、相关模块的移植 4、整体控制方案视频演示 5、视频演示部分核心代码 总结 一、题目要求 小编自认为&#xff1a;此次H题属于控制类题目&#xff0c;相较于往年较为简单&#xff0c;功能也算单一&…

Vue - CSS基础学习

一、元素及属性 CSS 是为 web 内容添加样式的代码。 style标签 1.语法 1.除了选择器部分&#xff0c;每个规则集都应该包含在成对的大括号里&#xff08;{}&#xff09;。 2.在每个声明里要用冒号&#xff08;:&#xff09;将属性与属性值分隔开。 3.在每个规则集里要用分号…

Windows执行jar包

配置环境变量&#xff1a; 命令行测试&#xff1a; java -version 将jar包上传至指定目录&#xff0c;在该目录下创建运行脚本&#xff1a; chcp 65001 java -Dfile.encodingutf-8 -jar jxpaddle-admin.jar chcp 65001&#xff1a;将当前cmd编码改为UTF-8&#xff0c;仅对当…

单片机芯片程序读取方法和工具

如何把单片机芯片程序读取出来 读取芯片中的程序可以通过多种方法实现&#xff0c;具体方法取决于芯片的类型和可用的工具。 一、使用‌Keil软件&#xff1a; 如果芯片是Flash类型的&#xff0c;可以使用Keil软件配合硬件调试工具进行读取。首先&#xff0c;需要配置Keil工程&…

【Unity源码】多人FPS游戏

项目概述 《多人FPS游戏》(Multiplayer-FPS) 是一个基于Unity3D引擎开发的多人第一人称射击游戏。该项目支持多种输入设备&#xff0c;包括Kinect、Xbox控制器、Leap Motion手势控制、VR眼镜等&#xff0c;提供了丰富的交互体验。 项目特点 多种输入设备支持&#xff1a;除了…

基于北京市空气质量影响因素研究系统【城市可换爬虫获取、LSTM、Flask、Echarts、MySQL、TensorFlow】

文章目录 有需要本项目的代码或文档以及全部资源&#xff0c;或者部署调试可以私信博主研究背景国内外研究现状研究目的研究意义关键技术理论介绍数据采集数据分析与大屏设计大屏相关性分析LSTM模型训练系统集成展示总结每文一语 有需要本项目的代码或文档以及全部资源&#xf…

springboot高校实验室安全管理系统-计算机毕业设计源码73839

目 录 摘要 1 绪论 1.1 研究背景 1.2 选题意义 1.3研究方案 1.4论文章节安排 2相关技术介绍 2.1 B/S结构 2.2 Spring Boot框架 2.3 Java语言 2.4 MySQL数据库 3系统分析 3.1 可行性分析 3.2 系统功能性分析 3.3.非功能性分析 3.4 系统用例分析 3.5系统流程分析…

双指针专题

前言(回顾一下)&#xff1a; Leetcode 283.移动零 思路&#xff1a; 使用双指针&#xff0c;左指针指向当前已经处理好的序列的尾部&#xff0c;右指针指向待处理序列的头部。右指针不断向右移动&#xff0c;每次右指针指向非零数&#xff0c;则将左右指针对应的数交换&#xf…

C语言 -- 动态内存管理

C语言 -- 动态内存管理 1. 为什么要有动态内存分配2. malloc 和 free2.1 malloc2.2 free 3. calloc 和 realloc3.1 calloc3.2 realloc 4. 常见的动态内存的错误4.1 对NULL指针的解引用操作4.2 对动态开辟空间的越界访问4.3 对非动态开辟内存使用free释放4.4 使用free释放一块动…

嵌入式学习——C语言指针(一)

一、地址和指针的概念 地址&#xff1a;内存单元的编号。 指针&#xff1a;一个变量的首地址就叫做该变量的指针。 1、内存中存取数据的方式 1&#xff09;直接存取 直接用变量名存取变量所占内存单元的内容 例&#xff1a; int y,x 3; y 3*x2; 2&#…

【日记】今天又是哪朵小云不开心了呀(1886 字)

正文 上午上班没多久&#xff0c;天就特别阴&#xff0c;感觉像是要下暴雨的样子。前台接了一个电话&#xff0c;家里人打来的&#xff0c;她妈妈叮嘱她&#xff0c;要注意一点。他们那边已经开始下了。她转过头对我笑笑说&#xff0c;原来下雨在一个城里也能不同步。 当时我笑…

AttributeError: ‘NoneType‘ object has no attribute ‘shape‘

AttributeError: ‘NoneType‘ object has no attribute ‘shape‘ 目录 AttributeError: ‘NoneType‘ object has no attribute ‘shape‘ 【常见模块错误】 【解决方案】 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页&#xff0c;我是博主英杰…

多家隧道代理价格:阿布云、快代理、小象代理、熊猫代理和亿牛云……

随着奥运的热度攀升&#xff0c;各大品牌也在抓紧时机赶上这波奥运热潮&#xff0c;随之而来的大量数据信息收集和分析工作也接踵而至&#xff0c;在这一数据采集过程中&#xff0c;HTTP代理的质量和价格对企业的效率和成本调控重要性不言而喻。我们大部分人在日常购买产品的时…