【论文代码阅读】LORA: LOW-RANK ADAPTATION OF LARGE LAN- GUAGE MODELS

news2025/1/6 19:57:28

最近很多工作好像都绕不开lora,无论是sd还是llm....

1. 背景

  • 问题:大模型重新训练所有模型参数的完全微调变得不太可行。
  • lora在做什么

我们提出了低秩自适应,即LoRA,它冻结预先训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层

  • 为什么work?

学习过的参数化模型实际上存在于较低的内在维度上,因此假设模型自适应过程中权重的变化也具有较低的“内在秩”。LoRA允许我们通过优化适应过程中密集层变化的秩分解矩阵来间接训练神经网络中的一些密集层,同时保持预先训练的权重冻结

该结论基于Measuring the Intrinsic Dimension of Objective Landscapes和Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

2.目前的解决办法

在大规模和延迟敏感的生产场景中有比较大的局限性

3.LORA

对于预训练的权重矩阵W0∈Rd×k,我们通过用低秩分解W0+∆W=W0+BA表示后者来约束其更新,其中B∈Rd×r,a∈Rr×k,秩r是d,k的较小值

 3.1 低秩分解

低秩分解是一种将一个矩阵分解为两个或多个较低秩矩阵的方法。具体来说,给定一个矩阵A,低秩分解将其分解为两个矩阵U和V的乘积,其中U和V的秩均比A的秩小,且乘积矩阵与原矩阵相等。

一个比较直观的例子就是SVD

3.2 应用到 transform 

在Transformer架构中,自注意模块中有四个权重矩阵(Wq、Wk、Wv、Wo),MLP模块中有两个。我们将Wq(或Wk,Wv)视为维度d_{model}×d_{model}的单个矩阵,即使输出维度通常被划分为注意力头部。

仅调整下游任务的注意力权重,并冻结MLP模块(因此它们不在下游任务中训练)

4.代码实现

【官方代码实现】lora

目前只支持了nn.Linear,nn.Embedding,nn.Conv2d的对应层和MergedLinear

4.1 lora父类:LoRALayer

class LoRALayer():
    def __init__(
        self, 
        r: int, 
        lora_alpha: int, 
        lora_dropout: float,
        merge_weights: bool,
    ):
        self.r = r
        self.lora_alpha = lora_alpha
        # Optional dropout
        if lora_dropout > 0.:
            self.lora_dropout = nn.Dropout(p=lora_dropout)
        else:
            self.lora_dropout = lambda x: x
        # Mark the weight as unmerged
        self.merged = False
        self.merge_weights = merge_weights

4.2 线性层Linear

通过线性层一窥lora实现

4.2.1 定义

        if r > 0:
            self.lora_A = nn.Parameter(self.weight.new_zeros((r, in_features)))
            self.lora_B = nn.Parameter(self.weight.new_zeros((out_features, r)))
            self.scaling = self.lora_alpha / self.r
            # Freezing the pre-trained weight matrix

4.2.2 前向传播

只是在非训练时加上lora参数:

        if self.r > 0 and not self.merged:
            result = F.linear(x, T(self.weight), bias=self.bias)
            if self.r > 0:
                result += (self.lora_dropout(x) @ self.lora_A.transpose(0, 1) @ self.lora_B.transpose(0, 1)) * self.scaling
            return result

4.3 conv2d

只是在权重上增加了lora项

        if self.r > 0 and not self.merged:
            return F.conv2d(
                x, 
                self.weight + (self.lora_B @ self.lora_A).view(self.weight.shape) * self.scaling,
                self.bias, self.stride, self.padding, self.dilation, self.groups
            )

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/478593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数字图像处理简答题】

目录 1.邻域和邻接有何区别? 2. m邻接的定义是什么?为何要引入m邻接? 3、下图的连通域个数?分别是什么(使用8连通) 4、像素间的距离测度有哪四种,写出其表达式并绘制几何示意图。 5、图像间…

算法套路十三——动态规划DP入门

算法套路十三——动态规划DP入门 动态规划和递归都是通过将大问题分解为较小的子问题来解决问题。它们都可以用来解决具有重叠子问题和最优子结构特性的问题。在很多情况下,动态规划算法的设计可以从递归算法开始,然后通过添加记忆化(Memoiz…

什么是SpringBoot自动配置

概述: 现在的Java面试基本都会问到你知道什么是Springboot的自动配置。为什么面试官要问这样的问题,主要是在于看你有没有对Springboot的原理有没有深入的了解,有没有看过Springboot的源码,这是区别普通程序员与高级程序员最好的…

【五一创作】网络协议与攻击模拟-01-wireshark使用-捕获过滤器

协议 TCP/IP协议簇 网络接口层(没有特定的协议)PPPOE 物理层 数据链路层 网络层:IP (v4/v6) ARP (地址解析协议) RARP ICMP (Internet控制报文协议) IGMP 传输层:TCP(传输控制协议) UDP(用户数据报协议) 应用层:都是基于传输层协议的端口,总共端口0~65535 0~1023 HTTP—t…

2023年第十五届华中杯数学建模赛题浅析

2023年五一假期期间,数学建模竞赛就有四场,各种比赛各种需求应接不暇。因此,对于本次浅析有不足的地方欢迎大家指出。为了更好的帮助大家华中杯选题,首先为大家带来ABC三个题目的浅析,帮助大家更快的选题,提…

DBeaver 没有菜单项 生成SQL Generate SQL

文章目录 Intro问题的根本有无该菜单项取决于你的查询SQL是单表还是多表?单表查询的结果集的菜单多表关联查询的结果集的菜单 测试版本 Intro DBeaver 是一款很棒的多平台、支持多数据源的GUI数据库客户端。 有一个我经常使用的功能就是: 当我查询到一个…

BUUCTF bjdctf_2020_babystack

小白做题笔记而已,不建议阅读 只有一个NX 64为程序用rdi传参 read函数存在栈溢出 shift f12 有system函数调用,并且存在/bin/sh 去找有没有pop rdi ret ROPgadget --binary bjdctf_2020_babystack --only "pop|ret" | grep rdi 0…

『Linux』第九讲:Linux多线程详解(二)_ 线程控制

「前言」文章是关于Linux多线程方面的知识,上一篇是 Linux多线程详解(一),今天这篇是 Linux多线程详解(二),讲解会比较细,下面开始! 「归属专栏」Linux系统编程 「笔者」…

「OceanBase 4.1 体验」|连续多年支撑双11的国产原生分布式数据库

目录 前言 正文 1. OceanBase 4.1发布 2.部署oceanbase 安装环境 2.1下载 all-in-one 安装包 2.2解压安装包 2.3执行安装脚本 2.4设置环境变量 2.5查看文件位置 2.6快速启动demo环境 2.7访问数据库 3.oceanbase的优点 4.oceanbase与 Oracle 兼容性 5.oceanbase与…

王学岗码牛jetpack系列之ViewModel

ViewModel的目的:存储数据,以注重生命周期的方式管理界面的相关数据 viewModel的特性:1,数据持久化,不依赖于Activity的生命周期,有自己独立的生命周期 2,异步回调不会造成内存泄漏 3,隔离Model层与View层 4&#xff0…

EXCEL美化画图,请不要嫌弃excel画图,那是简单上手的不二之选

一、美化折线图 这是测试数据 这是一般人用excel画的折线图 这是二般人用excel画的折线图 具体实施步骤 1.调整成黑色或者灰度 选择灰色图即可 2.修改数据标识符号,并取消网格 注意每根线条都要设置这个数据标记符号 取消网格线很简单,点击网格…

Qt第一天:创建Qt项目

方式一:使用向导创建 打开Qt Creator 界面选择 New Project或者选择菜单栏 【文件】-【新建文件或项目】菜单项 弹出New Project对话框,选择Qt Widgets Application 选择【Choose】按钮,弹出如下对话框 设置项目名称和路径,按照…

【Mysql】基础篇:DQL(data query language):查询数据库中表的记录——select

博主简介:努力学习的大一在校计算机专业学生,热爱学习和创作。目前在学习和分享:数据结构、Go,Java等相关知识。博主主页: 是瑶瑶子啦所属专栏: Mysql从入门到精通近期目标:写好专栏的每一篇文章 目录 一、…

【C++11】多线程+IO流

目录 一、C11线程库 1、每个线程都有独立的栈空间 2、加锁的位置 3、CSA操作 4、C的类模板atomic(原子操作) 5、lock_guard(RAII风格的锁)/unique_lock(可随时释放锁) 6、条件变量(用于互…

微信小程序学习实录1(wxml文档、引入weui、双向数据绑定)

微信小程序学习实录 一、wxml文档二、新建页面快捷方式三、微信小程序引入weui四、双向数据绑定1.wxml渲染层2.js逻辑层 五、微信小程序跳转到H5 一、wxml文档 <!-- index.wxml --> <view><!-- 数据绑定 --><view><text>{{name}}</text>&…

机器学习笔记 基于OpenCV的文本检测和识别模块

一、EAST文本检测器简述 east是一种高效准确的场景文本检测器,网络模型如下。该模型是一个适用于文本检测的全卷积神经网络,输出单词或文本行的密集每像素预测。这就省去了诸如候选建议、文本区域形成和单词分割等中间步骤。后处理步骤仅包括对预测的几何形状进行阈值处理和N…

【分布式】一致性哈希和哈希槽

当我们拥有了多台存储服务器之后&#xff0c;现在有多个key&#xff0c;希望可以将这些个key均匀的缓存到这些服务器上&#xff0c;可以使用哪些方案呢&#xff1f; 1. 普通哈希取模法 1.1 直接哈希取模 这是一种最容易想到的方法&#xff0c;使用取模算法hash&#xff08;k…

前端三剑客React框架第一课入门的学习

前端三大框架React框架第一课入门的学习 前端三大框架的介绍 React:由facebook贡献&#xff0c;是一个基于javascript的前端库。它主要关注ui组件的构建&#xff0c;通过virtual dom等技术手段实现高效的渲染优化&#xff0c;可以与各种其他库和框架搭配使用&#xff0c;也有…

作为一个C++新手,我感兴趣的C++开源项目

2023年4月30日&#xff0c;周日晚上。 昨天完成了一个C项目后&#xff0c;想再开始一个C项目&#xff0c;但不知道做什么&#xff0c;于是决定看看有什么好的C开源项目。 今晚在网上逛了一圈后&#xff0c;发现了好多有趣的C开源项目。 参考文章&#xff1a; GitHub Top 10 …

【MySQL】十二,索引的概念

为什么使用索引 提高数据查询的效率。 定义 MySQL官方对索引的定义为&#xff1a;索引&#xff08;Index&#xff09;是帮助MySQL高效获取的数据的数据结构。 使用索引的优点 提高数据检索的效率&#xff0c;降低数据库的IO成本。通过创建唯一索引&#xff0c;可以保证数据…