【自然语言处理】【大模型】VeRA:可调参数比LoRA小10倍的低秩微调方法

news2025/1/12 0:45:05
VeRA:可调参数比LoRA小10倍的低秩微调方法
《VeRA:Vector-based Random Matrix Adaptation》

论文地址:https://arxiv.org/pdf/2310.11454.pdf

相关博客
【自然语言处理】【大模型】VeRA:可调参数比LoRA小10倍的低秩微调方法
【自然语言处理】【大模型】MPT模型结构源码解析(单机版)
【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版)
【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版)
【自然语言处理】【大模型】极低资源微调大模型方法LoRA以及BLOOM-LORA实现代码
【自然语言处理】【大模型】DeepMind的大模型Gopher
【自然语言处理】【大模型】Chinchilla:训练计算利用率最优的大语言模型
【自然语言处理】【大模型】大语言模型BLOOM推理工具测试
【自然语言处理】【大模型】GLM-130B:一个开源双语预训练语言模型

一、简介

​ LoRA是降低微调LLM时降低可训练参数的一种方法,但是将其应用在更大的模型仍然面临着挑战。本文提出了了一种基于向量的随机矩阵适配(VeRA,Vector-based Random Matrix Adaptation)。与LoRA相比,其可以将训练参数的数量减少10倍,但保持相同的性能

二、相关工作

1. LoRA

​ LoRA为LLM微调带来的计算挑战提供了一种新颖的解决方案。该方法使用低秩矩阵来近似微调过程中的权重变化,从而有效地减低训练所需的参数量。其还可以使用量化模型权重来进一步降低要求。与基于adapter的微调方法相比,LoRA在部署时不会产生额外的推理时间成本,因此训练矩阵可以和权重合并。

​ AdaLoRA扩展了LoRA方法,在微调过程中引入了低秩矩阵的动态调整。核心思想是通过基于重要性度量来选择性的修剪矩阵中不太重要的分量,从而优化参数预算的分配。

2. 现有方法的参数效率

​ 虽然LoRA这样的方法在微调性能方法展现出了显著的改善,但是仍然需要大量的可训练参数。基于Aghajanyan等人的研究,内在维度的上限比这种方法中通常使用的秩要小的多。因此,参数量可以进一步减少。虽然AdaLoRA通过动态分配参数,从而进一步减少了可微调参数。但是,我们认为存在另一种可以显著减少可训练参数,且效果不会下降的方法。

3. 随机模型和投影

​ 使用随机矩阵和投影来提高模型效率的概念已经得到了多方面研究的支持。Frankle&Carbin发现随机初始化的神经网络中包含训练时能够达到高性能的子网络。此外,Ramanujan等人了存在的子网络即使没有训练也能够取得令人印象深刻的结果。Aghajanyan等人展示了仅训练少量参数,随机投影会完整空间,能够实现全参数模型效果的90%。其他的一些工作也表明,冻结的随机初始化模型加上小部分的微调,表现出奇的好。

三、方法

在这里插入图片描述

​ VeRA的核心创新是低秩矩阵的重参数化。具体来说,冻结一对随机初始化的矩阵,这些矩阵在所有适配层之间共享,然后引入可以逐层自适应的可训练缩放向量。如上图1所示,类似于LoRA,训练的缩放向量和低秩矩阵可以合并至原始权重中,从而消除额外的推理延迟。

1. 方法介绍

​ LoRA微调两个低秩矩阵的乘积来适应LLM。正式来说,对于预训练权重矩阵 W 0 ∈ R m × n W_0\in\mathbb{R}^{m\times n} W0Rm×n,权重更新矩阵被约束为低秩分解,即
h = W 0 x + Δ W x = W 0 x + B A ‾ X (1) h=W_0x+\Delta Wx=W_0x+\underline{BA}X\tag{1} h=W0x+ΔWx=W0x+BAX(1)
其中带有下划线的参数通过梯度更新。这种近似可以使得模型保持原始权重 W 0 W_0 W0冻结,同时仅优化低秩矩阵 A A A B B B。它们的尺寸要远比原始矩阵小。 A A A的形状是 m × r m\times r m×r B B B的形状是 r × n r\times n r×n,而 r ≪ min ⁡ ( m , n ) r\ll\min(m,n) rmin(m,n)。相比, VeRA \text{VeRA} VeRA
h = W 0 + Δ W x = W 0 x + Λ b ‾ B Λ d ‾ A x (2) h=W_0+\Delta Wx=W_0x+\underline{\Lambda_b}B\underline{\Lambda_d}Ax\tag{2} h=W0+ΔWx=W0x+ΛbBΛdAx(2)
在本方法中, B B B A A A是冻结、随机且跨层共享的,而缩放向量 b b b d d d是可训练的,形式上表达为对角矩阵 Λ b \Lambda_b Λb Λ d \Lambda_d Λd。在这种情况下, B ∈ R m × r B\in\mathbb{R}^{m\times r} BRm×r A ∈ R r × n A\in\mathbb{R}^{r\times n} ARr×n不需要是低秩的。这是因为这两个矩阵是静态的,并且不需要存在这些值。相反,由于 d ∈ R 1 × r d\in\mathbb{R}^{1\times r} dR1×r,改变 r r r仅会线性增加可训练参数的数量。

2. 参数计数

在这里插入图片描述

​ 使用 L t u n e d L_{tuned} Ltuned表示微调层的数量, d m o d e l d_{model} dmodel表示这些层的维度。VeRA的可训练参数数量为
∣ Θ ∣ = L t u n e d × ( d m o d e l + r ) (3) |\Theta|=L_{tuned}\times(d_{model}+r)\tag{3} ∣Θ∣=Ltuned×(dmodel+r)(3)
而LoRA的可微调参数为
∣ Θ ∣ = 2 × L t u n e d × d m o d e l × r (4) |\Theta|=2\times L_{tuned}\times d_{model}\times r\tag{4} ∣Θ∣=2×Ltuned×dmodel×r(4)
具体来说,对于最低的秩( r = 1 r=1 r=1),VeRA大约需要LoRA一半的可训练参数。此外,随着秩的增加,VeRA的可训练参数一次仅增加 L t u n e d L_{tuned} Ltuned,而LoRA则增加 2 L t u n e d d m o d e l 2L_{tuned}d_{model} 2Ltuneddmodel。对于极大的模型,这种参数效率则极为显著,例如GPT-3有96个注意力层且hidden size为12288。

​ VeRAA的主要优势是存储训练的权重占用非常小的存储空间。因此随机冻结矩阵可以从随机数生成器种子中重新生成,所以这些矩阵不需要存储。这大大减少了内存的需求,现有的内存需要仅限于训练向量 b b b d d d以及单个随机数种子所需要的字节。与LoRA相比的内存效率如表1所示。

3. 初始化策略

共享矩阵。利用Kaiming初始化方法来初始化冻结低秩矩阵 A A A B B B。通过基于矩阵维度的缩放至,其能确保 A A A B B B的矩阵乘积对所有秩保存一致的方差,从而消除对每个秩的学习率进行微调的需求。

缩放向量。缩放向量 b b b被初始化为0,这与LoRA中矩阵 B B B的初始化是一致的,能确保权重矩阵在第一次前向传播时不受影响。缩放向量 d d d的所有元素使用单个非零值进行初始化,从而引入了一个新的超参数。调整该超参数可以带来更好的效果。

​ 图1展示了VeRA中低秩矩阵和缩放向量的初始化示例。具体来说看,使用正态分布来初始化低秩矩阵,并使用1来初始化 d d d向量。

四、实验

​ baselines包括:全参微调、Bitfit(仅微调bias向量,其他参数保存固定)、Adapter tuning、LoRA。

1. GLUE Benchmark

在这里插入图片描述

2. E2E Benchmark

在这里插入图片描述

3. LLaMA-2-7B指令遵循

在这里插入图片描述

4. 可训练参数数量的影响

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1281987.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

猜数字赢金币

充值金币后开始游戏,猜中奖励10金币退出,不中扣除1金币继续。 (笔记模板由python脚本于2023年12月03日 21:52:23创建,本篇笔记适合熟悉程序函数式编程,熟练掌握基本数据类型的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&…

echarts笔记-GeoJSON河北数据下并裁剪为冀北地图并使用echarts加载

首先找个网站把河北的GeoJSON数据下载下来,我用的是这个,理论上任意一个都可以 DataV.GeoAtlas地理小工具系列 将json数据下载后,进行裁剪,仅保留冀北数据。 如下,我裁剪的数据: {"type": &qu…

中缀表达式构建后缀表达式

中缀表达式构建后缀表达式 文章目录 中缀表达式构建后缀表达式一、构造符号优先关系表二、构造后缀表达式 一、构造符号优先关系表 首先,我们需要知道什么是优先函数。优先函数是一种用于表示算符优先关系的函数,它有两种形式:f 和 g。f(a) …

Python练习题(四)

本文主要是【Python】——Python练习题的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是听风与他🥇 ☁️博客首页:CSDN主页听风与他 🌄每日一句:狠狠沉淀&a…

openmmlab环境搭建及模拟kitti数据集跑pointpillars模型

点云训练—openmmlab环境搭建及模拟kitti数据集跑pointpillars模型 1 环境搭建 在我的 linux 服务器上,基于ubuntu20.04 参见:开始你的第一步 — MMDetection3D 1.3.0 文档 1.1 本地环境已安装anaconda. anaconda的安装参见博文:DS6.1-Y…

NAND Flash和NOR Flash的异同

NAND Flash和NOR Flash是两种常见的闪存类型。 NOR Flash是Intel于1988年首先开发出来的存储技术,改变了原先由EPROM和EEPROM一统天下的局面。 NAND Flash是东芝公司于1989年发布的存储结构,强调降低每比特的成本,更高的性能,并…

自动配置原理

自动配置原理 变更自动配置 视频地址: https://www.bilibili.com/video/BV15b4y1a7yG/?p160&spm_id_frompageDriver&vd_sourcef6debc5a79e3f424f9dde2f13891b158

上海亚商投顾:沪指探底回升 AI应用方向集体爆发

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 三大指数早间震荡调整,深成指盘中跌超1%,午后探底回升全线翻红,北证50指数…

MySQL 预写日志

什么是预写日志机制? 一般情况下,大部分数据库都是将表和索引存储在磁盘文件中。当新增数据时,数据库系统会先写入内存,然后将其写入磁盘上的数据文件。 那为什么不直接写入磁盘嘞?主要是每次新增都直接写入磁盘性能很…

智慧能源:数字孪生压缩空气储能管控平台

压缩空气储能在解决可再生能源不稳定性和提供可靠能源供应方面具有重要的优势。压缩空气储能,是指在电网负荷低谷期将电能用于压缩空气,在电网负荷高峰期释放压缩空气推动汽轮机发电的储能方式。通过提高能量转换效率、增加储能密度、快速启动和调节能力…

PicoScope 7 软件报警功能可实现自动保存和循环捕捉

最近很多用户提到,怎么让虹科Pico示波器采集信号到缓冲区满了之后自动保存在电脑里,然后清出缓存空间继续采集,如此循环工作。这里不得不向大家介绍一下PicoScope软件的强大功能之一:报警功能! 报警在软件的工具菜单下…

专业爬虫框架 -- scrapy初识及基本应用

scrapy基本介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。 但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域…

HarmonyOS4.0之安装DevEco Studio开发工具

第一步 打开网址:https://developer.huawei.com/consumer/cn/ 点击后是这样的界面 第二步 鼠标移入到开发点击DevEco Studio 第三步 我们往下滑动找到以下界面 我们根据自己的需要点击下载图标 这里演示Window系统 下载好后解压文件 我们解压文件后 第四步…

VS2022配置WinPcap开发

winpcap 官网:http://www.winpcap.org/ 1.首先下载安装 winpcap.exe,http://www.winpcap.org/install/default.htm 目的是安装相关驱动和 dll,安装完成之后基于 winpcap 的应用程序才能够正常运行。 2.下载 winpcap 的开发包,头文…

34、AD/DA

AD/DA介绍 AD(Analog to Digital):模拟-数字转换,将模拟信号转换为计算机可操作的数字信号 DA(Digital to Analog):数字-模拟转换,将计算机输出的数字信号转换为模拟信号 AD/DA转换…

离线数仓构建案例一

数据采集 日志数据(文件)到Kafka 自己写个程序模拟一些用户的行为数据,这些数据存在一个文件夹中。 接着使用flume监控采集这些文件,然后发送给kafka中待消费。 1、flume采集配置文件 监控文件将数据发给kafka的flume配置文件…

python scipy.cluster.hierarchy.dendrogram学习详记——(待完善)

1.Python scipy.cluster.hierarchy.dendrogram用法及代码示例 2.python dendrogram_Python中的凝聚层次聚类示例

微信小程序在线客服 全端通吃版+PC官网客服+H5网站客服+微信公众号客服 附带完整的搭建教程

随着互联网的快速发展,在线客服系统已经成为企业与用户沟通的重要桥梁。然而,许多企业在构建自己的在线客服系统时,往往面临多种平台、多端口的困扰,如何实现全端通吃的客服系统成为一项迫切的需求。为此,我们推出了一…

android.view.WindowLeaked解决方法

问题 我在使用WindowManager添加一个button, windowManager.addView(button,layoutParams);然后关闭当前的这个Activity的时候遇到了WindowLeak这个问题,也就是所谓的窗体泄露。 原因 主要原因是因为android只允许在UI主线程操作,我在使用W…

geoserver维度time

postgis创建date类型的字段 写入测试数据,对应flag,flag有不同的样式,这样方便观测 geoserver发布图层的时候设置“维度”启用 测试,设置了根据flag展示不同的颜色