LORA_ LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

news2024/11/15 13:29:36

paper: https://arxiv.org/pdf/2106.09685.pdf
code: https://github.com/microsoft/LoRA

摘要

作者提出了低秩自适应,或称LoRA,它冻结了预先训练的模型权值,并将可训练的秩分解矩阵注入变压器架构的每一层,大大减少了下游任务的可训练参数的数量。
学习到的过度参数化模型实际上存在于一个较低的内在维度上。作者假设模型适应过程中权重的变化也具有较低的“内在秩”,这导致了作者提出的低秩适应(LoRA)方法。LoRA允许作者通过优化适应过程中密集层变化的秩分解矩阵来间接训练神经网络中的一些密集层,同时保持预先训练的权值冻结,如图1所示。
image.png

方法

一个神经网络包含许多密集的层,它们可以执行矩阵乘法。这些层中的权重矩阵通常具有全秩。Aghajanyan等人在2020年的一项研究发现,即预训练语言模型在面向特定任务时显示出一种特殊的属性:它们具有低“内在维度”。这意味着,尽管这些模型可能包含数百万到数十亿的参数,代表着极其高维的参数空间,但当它们适应或学习新的特定任务时,实际上只需要一个相对较小的参数子集。简单来说,模型能够在这样一个由较少参数构成的“更小的子空间”内有效地学习和适应。受此启发,作者假设权重的更新在适应过程中也有一个较低的“内在秩”。对于预先训练的权值矩阵 W 0 ∈ R d × k W_0∈R^{d×k} W0Rd×k,作者用低秩分解 W 0 + ∆ W = W 0 + B A W_0 +∆W=W_0+BA W0+W=W0+BA表示后者来约束其更新,其中 B ∈ R d × r B∈R^{d×r} BRd×r A ∈ R r × k A∈R^{r×k} ARr×k和秩 r ≪ m i n ( d , k ) r \ll min(d,k) rmin(d,k)。在训练过程中, W 0 W_0 W0被冻结,不接收梯度更新,而A和B包含可训练的参数。注意, W 0 W_0 W0 ∆ W = B A ∆W=BA W=BA都与相同的输入相乘,它们各自的输出向量按坐标求和。对于 h = W 0 x h = W_0x h=W0x,作者修改后的前向公式为: h = w 0 x + △ W x = w 0 x + B A x h=w_0x+\bigtriangleup Wx=w_0x+BAx h=w0x+Wx=w0x+BAx。如图1所示,首先初始化(对A使用高斯初始化,B初始化为0),所以 ∆ W = B A ∆W=BA W=BA在训练开始时为零。然后作者用 α r \frac{\alpha}{r} rα缩放 ∆ W x ∆Wx Wx(即相乘),其中α是r范围的一个常数,固定 α \alpha α一开始的 r r r,将 r r r作为超参数调整。当作者改变r时,这种缩放有助于减少重新调优超参数的需要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1518305.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

金山办公内推

作为金山办公刚刚校招等待入职的一员,我诚挚地邀请您加入我的内推计划,与我一起共同打造卓越的工作环境和未来。 我能帮你 (与直接填我的内推码不同,我直接通过内部问卷帮你投) 1,直接通过校招群里的连接…

提交数据加快百度搜索引擎收录

百度站长工具做了更新,百度收录的地址分享如下,新站点提交后,可以加快百度收录。 普通收录_加快网站内容抓取,快速提交数据工具_站长工具_网站支持_百度搜索资源平台普通收录工具可实时向百度推送数据,创建并提交site…

Android应用Java开发规范

常规编程 魔法值与魔法数字 1.【强制】不允许任何魔法值(即未经预先定义的常量)直接出现在代码中。 反例: // 开发者 A 定义了缓存的 key。 String key "Id#taobao_" tradeId; cache.put(key, value); // 开发者 B 使用缓…

香港优才计划子女读书内地高考政策解读,3个黄金年龄段不要错过!

香港优才计划子女读书内地高考政策解读,3个黄金年龄段不要错过! 孩子年龄多大,适合办理香港身份? 关注子女教育的家长们,应该对于“孩子有了香港身份,400分轻松上名校”的说法都有耳闻,但很少有…

altgraph的安装和用途说明

前言 altgraph 是 graphlib 的一个分支:一个图(网络)包,用于构建图、BFS 和 DFS 遍历、拓扑排序、最短路径等,带有 graphviz 输出。 安装 pip install altgraph 函数和用例 生物链 from altgraph import Graph# 定…

Python爬虫实战入门:豆瓣电影Top250(保你会,不会来打我)

文章目录 需求所需第三方库requests模块lxml模块了解 lxml模块和xpath语法xpath语法-基础节点选择语法 实战教程完整代码 需求 目标网站: https://movie.douban.com/top250 需求: 爬取电影中文名、英文名、电影详情页链接、导演、主演、上映年份、国籍、类型、评分、评分人数, …

伪装目标检测论文BGNet:Boundary-Guided Camouflaged Object Detection

论文地址:link 代码地址:link 这篇论文是22年的CVPR收录的一篇关于伪装目标检测的文章,作者主要是用了一些通道注意力和Atrous卷积来实现边缘引导的伪装目标检测,模型并不复杂,看了两天的论文和代码,为了加深印象在这里…

【鸿蒙 HarmonyOS 4.0】通知

一、介绍 通知旨在让用户以合适的方式及时获得有用的新消息,帮助用户高效地处理任务。应用可以通过通知接口发送通知消息,用户可以通过通知栏查看通知内容,也可以点击通知来打开应用,通知主要有以下使用场景: 显示接…

vscode 导入前端项目

vscode 导入前端项目 导入安装依赖 运行 参考vscode 下载 导入 安装依赖 运行 在前端项目的终端中输入npm run serve

洛谷 P5018 对称二叉树

题目背景 NOIP2018 普及组 T4 题目描述 一棵有点权的有根树如果满足以下条件,则被轩轩称为对称二叉树: 二叉树;将这棵树所有节点的左右子树交换,新树和原树对应位置的结构相同且点权相等。 下图中节点内的数字为权值&#xf…

ES6(一):let和const、模板字符串、函数默认值、剩余参数、扩展运算符、箭头函数

一、let和const声明变量 1.let没有变量提升&#xff0c;把let放下面打印不出来&#xff0c;放上面可以 <script>console.log(a);let a1;</script> 2.let是一个块级作用域,花括号里面声明的变量外面找不到 <script>console.log(b);if(true){let b1;}//und…

Ubuntu系统的安装及基础操作

目录 一、VMware虚拟机安装Ubuntu20.04过程 1、安装前的准备工作 2、VMware虚拟机创建Ubuntu操作系统 步骤一&#xff1a;以管理员的身份运行VMware虚拟机 步骤二&#xff1a;新建虚拟机 步骤三&#xff1a;选择类型配置 步骤四&#xff1a;选择安装客户机操作系统 步骤…

一文解答:wifi贴码推广什么时候开始的?

随着互联网的快速发展和智能手机的普及&#xff0c;人们的生活方式也在发生着翻天覆地的变化&#xff0c;对于网络连接的需求也变得越来越迫切。在这样的背景下&#xff0c;WiFi贴码推广作为一种便捷的网络连接方式逐渐流行起来。那么&#xff0c;WiFi贴码推广究竟是什么时候开…

PostgreSQL - 查看表膨胀空间

目录 使用pgstattuple插件查看表膨胀空间 死元组&膨胀系数清理 查看表占用磁盘空间大小是如何组成的 什么是fms和vm&#xff1f; 什么是TOAST&#xff1f; 查看表和其关联的TOAST表的oid的关系 方法一 方法二 参考文档 使用pgstattuple插件查看表膨胀空间 select…

Clickhouse 单机部署安装

前言 在大数据的时代背景下&#xff0c;数据的处理和分析能力成为企业竞争力的关键。ClickHouse&#xff0c;作为一款由俄国Yandex公司开发的分布式数据分析型数据库&#xff0c;凭借其卓越的性能和稳定性&#xff0c;赢得了业界的广泛关注。本文将介绍ClickHouse的基本概念、…

中科数安|公司办公终端、电脑文件数据 \ 资料防泄密系统

#中科数安# 中科数安是一家专注于信息安全技术与产品研发的高新技术企业&#xff0c;其提供的公司办公终端、电脑文件数据及资料防泄密系统&#xff08;也称为终端数据防泄漏系统或简称DLP系统&#xff09;主要服务于企业对内部敏感信息的安全管理需求。 www.weaem.com 该系统…

在webapp中手动发布一个应用

部署应用前&#xff0c;我们需要下载Tomcat。 下载官网: Apache Tomcat - Welcome! 1、下载 第一步 : 找到Download目录下的Tomcat8 第二步:选择下载第一个zip链接 2、下载完成后&#xff0c;解压并打开Tomcat文件 3、找到并点击webapp文件 创建一个文件夹 在创建的文件中…

蓝桥杯第十一届电子类单片机组程序设计

目录 前言 单片机资源数据包_2023&#xff08;点击下载&#xff09; 一、第十一届比赛原题 1.比赛题目 2.赛题解读 1&#xff09;计数功能 2&#xff09;连续按下无效按键 二、部分功能实现 1.计数功能的实现 2.连续按下无效按键的处理 3.其他处理 1&#xff09;对于…

【危化品泄漏源定位】基于改进哈里斯鹰优化算法的危化品泄漏源定位算法 溯源定位算法【Matlab代码#63】

文章目录 【获取资源请见文章第7节&#xff1a;资源获取】1. 算法概述2. 原始哈里斯鹰算法&#xff08;HHO&#xff09;3. 改进哈里斯鹰算法&#xff08;IHHO&#xff09;3.1 动态自适应逃逸能量3.2 动态扰动策略 4. 构建源强和位置反算模型5. 部分代码展示6. 仿真结果展示7. 资…

BigDecimal类 --java学习笔记

BigDecimal 用于解决浮点型运算时&#xff0c;出现结果失真的问题 BigDecimal常用构造器和方法&#xff1a; HALF_UP 四舍五入