LoRA:大模型的低秩自适应微调模型

LoRA:大模型的低秩自适应微调模型

news2026/2/12 13:25:43

对于大型模型来说，重新训练所有模型参数的全微调变得不可行。比如GPT-3 175B，模型包含175B个参数吗，无论是微调训练和模型部署，都是不可能的事。所以Microsoft 提出了低秩自适应(Low-Rank Adaptation, LoRA)，它冻结了预先训练好的模型权重，并将可训练的秩的分解矩阵注入到Transformer体系结构的每一层，从而大大减少了下游任务的可训练参数数量。

LoRA

对于预训练的权重矩阵W0，可以让其更新受到用低秩分解表示后者的约束:

在训练过程中，W0被冻结，不接受梯度更新，而A和B包含可训练参数。当h=W0x时，修正后的正向传播变为:

对A使用随机高斯初始化，对B使用零初始化，因此ΔW=BA在训练开始时为零（这点需要注意）。

这种方法的一个优点是，当部署到生产环境中时，只需要计算和存储W=W0+BA，并像往常一样执行推理。与其他方法相比，没有额外的延迟，因为不需要附加更多的层。

在Transformer体系结构中，自关注模块中有四个权重矩阵(Wq、Wk、Wv、Wo)， MLP模块中有两个权重矩阵。LoRA只对下游任务调整关注权重，并冻结MLP模块。所以对于大型Transformer，使用LoRA可减少高达2/3的VRAM使用量。比如在GPT-3 175B上，使用LoRA可以将训练期间的VRAM消耗从1.2TB减少到350GB。

结果展示

采用HuggingFace Transformers库中的预训练RoBERTa base (125M)和RoBERTa large (355M)还有DeBERTa XXL (1.5B)进行了评估。它们通过不同的微调方法进行微调。

在大多数情况下，使用LoRA可以在GLUE上获得最佳性能。

GPT-3 175B在WikiSQL和mnli匹配的几种自适应方法的可训练参数数的比较

可以看到使用GPT-3, LoRA匹配或超过所有三个数据集的微调基线。

Stable Diffusion

Lora首先被应用在大语言模型上，但是可能被更多人知道的还是他在SD上的应用：

在Stable Diffusion微调的情况下，LoRA可以应用于将图像表示与描述它们的提示联系起来的交叉注意力层。下图的细节并不重要，只需知道黄色块是负责构建图像和文本表示之间关系的块。

所以可以看到这样训练出来的自定义Lora模型会非常的小。

我个人实验：Stable Diffusion进行全面的微调需要最少24G的显存。但是使用Lora，批处理大小为2的单进程训练可以在单个12GB GPU上完成(不使用xformer的10GB，使用xformer的6GB)。

所以Lora在图像生成领域也是非常好的一个微调模型的方式。如果你想了解更多，这里是论文地址：

https://avoid.overfit.cn/post/407a85d672384969848f8bc5cb9bc5fe

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/539853.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

企业级体验：未来体验管理的价值与趋势

企业级体验：未来体验管理的价值与趋势

我从事企业级体验相关领域的工作已十六载有余，曾经就职的企业既有阿里巴巴、腾讯这样的互联网“大厂”，也有顺丰、龙湖这样的线下“传统”企业。在这些企业中，我所工作的场景横跨了软件、电商、互联网、物流、零售、地产、金融等诸多业务领域…

阅读更多...

11.计算机基础-计算机网络面试题—基础知识

11.计算机基础-计算机网络面试题—基础知识

本文目录如下： 计算机基础-计算机网络面试题一、基础知识简述 TCP 和 UDP 的区别？http 与 https的区别?Session 和 Cookie 有什么区别？详细描述一下 HTTP 访问一个网站的过程？https 是如何实现加密的？URL是什么&…

阅读更多...

Linux下网络编程（3）——socket编程实战，如何构建一个服务器和客户端连接

Linux下网络编程（3）——socket编程实战，如何构建一个服务器和客户端连接

经过前几篇的介绍，本文我们将进行编程实战，实现一个简单地服务器和客户端应用程序。编写服务器程序编写服务器应用程序的流程如下： ①、调用 socket()函数打开套接字，得到套接字描述符； ②、调用 bind()函数将套接字…

阅读更多...

Deep Supervised Dual Cycle Adversarial Network for Cross-Modal Retrieval 论文阅读笔记

Deep Supervised Dual Cycle Adversarial Network for Cross-Modal Retrieval 论文阅读笔记

# 1. 论文信息论文名称Deep Supervised Dual Cycle Adversarial Network for Cross-Modal Retrieval作者Lei Liao 中山大学会议/出版社IEEE Transactions on Circuits and Systems for Video Technologypdf📄在线pdf代码💻无代码本文是基于公共空间…

阅读更多...

mov转换为mp4格式怎么转，多方法教程

mov转换为mp4格式怎么转，多方法教程

mov转换为mp4格式怎么转？如果你连mov都不了解，那就更别说将其进行转换了。其实使用过苹果手机的人应该接触的很多，但是我们时常不关注这个视频格式。MOV是一种音频和视频文件格式，它在苹果手机上使用。它不兼容安卓或Windows电脑&…

阅读更多...

cookie、session、JWT(Json Web Token) 的区别？

cookie、session、JWT(Json Web Token) 的区别？

cookie、session、JWT(Json Web Token) 的区别？ 答： 要从http的无状态说起，http是无状态的，也就是如果你第一次访问服务器，之后再次访问的时候，服务器是不会意识到你再次来进行访问的。不想让已经登录的用…

阅读更多...

敏捷ACP 常用关键词整理敏捷ACP 常用知识点整理

敏捷ACP 常用关键词整理敏捷ACP 常用知识点整理

敏捷ACP 常用关键词整理敏捷ACP 常用知识点整理一、MoSCoW 1、MoSCoW ： 读作"莫斯科"，适用于故事优先级的排序，首次出现在 3-13敏捷产品实践：产品待办事项列表的排序 ； 基于价值的分析的一种技术 &#…

阅读更多...

mac python3.9安装pyqt5、qt5、pyqt5-tools

mac python3.9安装pyqt5、qt5、pyqt5-tools

一 pip安装转义安装 # 一条代码就可以搞定没错，使用的是Rosetta2 x86_64模式安装的 arch -x86_64 python3 -m pip install PyQt5arch -x86_64 python3 -m pip install pyqt5-tools二 brew安装 arm版以下pip命令自行更具自己环境选择pip或pip3 在安装pyqt前必须先…

阅读更多...

【C++】set和map的底层AVL树的实现

【C++】set和map的底层AVL树的实现

AVL树文章目录前言一、AVL树的实现总结前言上一篇文章对 map/multimap/set/multiset 进行了简单的介绍，在其文档介绍中发现，这几个容器有个共同点是：其底层都是按照二叉搜索树来实现的 ，但是二叉搜索树有其自身的缺陷&#xf…

阅读更多...

OC消息机制

OC消息机制

目录 1 OC消息机制2 OC消息发送3 OC动态方法解析4 OC消息转发 1 OC消息机制 OC对象调用方法在编译阶段不知道具体的方法在哪里，是在运行的过程中，向对象发送消息，通过对象得到函数地址，调用函数，如果没有找到&#xf…

阅读更多...

计算机网络实验(ensp)-实验 9：配置 NAT 及了解 ping 命令

计算机网络实验(ensp)-实验 9：配置 NAT 及了解 ping 命令

目录实验报告： 实验操作 1.建立网络拓扑图并开启设备 2.配置路由器 1.输入命名：sys 从用户视图切换到系统视图 2.输入命名：sysname 姓名修改路由器名字 3.输入命名：interface g0/0/1 （简写&…

阅读更多...

Linux——进程和计划任务管理

Linux——进程和计划任务管理

个人简介：云计算网络运维专业人员，了解运维知识，掌握TCP/IP协议，每天分享网络运维知识与技能。座右铭：海不辞水，故能成其大；山不辞石，故能成其高。个人主页：小李会科技的…

阅读更多...

Uniapp申请APP版应用签名、打包、并在微信开放平台申请移动应用的全流程攻略

Uniapp申请APP版应用签名、打包、并在微信开放平台申请移动应用的全流程攻略

一.应用签名申请 1.1 安装jdk, jre, 并设置环境变量 Jdk下载链接 1.2 准备就绪后, 重新打开cmd窗口, 键入Java看是否已正确配置.** 1.3 如已正确配置,则执行以下命令,进行证书生成操作。生成好的证书保存在当前cmd的启动目录下** 证书别名和应用名称可替换成自己的软件名称.…

阅读更多...

【容斥+状压+树上异或】ABC152 F - Tree and Constraints

【容斥+状压+树上异或】ABC152 F - Tree and Constraints

思路真的和他很像，但是我不太会写容斥，只写过几道板子题而且有个地方不知道怎么处理，就是容斥原理的F函数里面怎么求多个路径的边的并集这里是用状压处理的该学学容斥的写法了QwQ F - Tree and Constraints (atcoder.jp) 题意&#x…

阅读更多...

Python 实验六函数的设计

Python 实验六函数的设计

1.编写两个函数分别按单利和复利计算利息，根据本金、年利率、存款年限得到本息和和利息。调用这两个函数计算1000元在银行存3年，在年利率是6%的情况下，单利和复利分别获得的本息和和利息。单利计算指只有本金计算利息。复利计算是指不仅本金计…

阅读更多...

【问题解决】Mybatis Plus Generator（新代码生成器）+达梦数据库，创建数据库连接失败

【问题解决】Mybatis Plus Generator（新代码生成器）+达梦数据库，创建数据库连接失败

前言使用Mybatis Plus Generator（新代码生成器）达梦数据库，执行生成方法失败无法创建数据库连接文章目录前言问题描述错误日志输出尝试解决最终解决方法问题描述创建数据源配置，连接配置参照官网 jdbc:dm://localhost:5236/…

阅读更多...

电脑照片怎么导入苹果手机？三个妙招帮你解决！

案例：电脑有很多照片，该如何导入苹果手机？ 【家人们，电脑里面的照片怎么样可以快速导入到苹果手机？求方法！】导入电脑照片到苹果手机是一个常见的需求，尤其是当您希望在手机上随时欣赏和分享这…

阅读更多...

从桌面端到移动端，.NET MAUI为什么对WPF开发人员更简单？

从桌面端到移动端，.NET MAUI为什么对WPF开发人员更简单？

.NET多平台应用程序UI（. NET MAUI）的市场吸引力与日俱增，这是微软最新的开发平台，允许开发者使用单个代码库创建跨平台应用程序。尽管很多WPF开发人员还没有跟上 .NET MAUI的潮流，但我们将在这篇文章中为大家展示他的潜…

阅读更多...

数字信号处理基础(一）

数字信号处理基础(一）

目录 1. 写在前面2. 连续信号和离散信号2.1连续信号2.2 离散信号 3. 常用信号的产生3.1 单位脉冲序列3.2 单位阶跃序列3.3 指数函数3.4 正弦信号和余弦信号3.5 sinc函数3.6 矩形脉冲信号 4. 信号卷积5. 完整代码 1. 写在前面为了更好的理解通信原理系列文章，在此补…

阅读更多...

说说什么是IO多路复用？以及其演进过程。

说说什么是IO多路复用？以及其演进过程。

文章目录 1.阻塞IO模型（BIO）和非塞IO模型（NIO）2.什么是IO多路复用？3.IO多路复用的演进？ 1.阻塞IO模型（BIO）和非塞IO模型（NIO） 阻塞IO模型（BIO&…

阅读更多...

推荐文章

最新文章