人工智能-大语言模型-微调技术-LoRA及背后原理简介

news2025/1/23 2:10:29

1. 《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》

LORA: 大型语言模型的低秩适应

摘要:
随着大规模预训练模型的发展,全参数微调变得越来越不可行。本文提出了一种名为LoRA(低秩适应)的方法,通过在Transformer架构的每一层注入可训练的低秩分解矩阵,大幅减少了下游任务的可训练参数数量。与使用Adam微调GPT-3 175B相比,LoRA可以将可训练参数数量减少10000倍,GPU内存需求减少3倍。
在这里插入图片描述

创新点:

  • 提出了LoRA方法,通过在预训练模型中注入低秩矩阵来适应下游任务。
  • 与全参数微调相比,LoRA在保持模型质量的同时,大幅减少了参数数量和计算资源需求。

算法模型:

  • 在预训练的权重矩阵中注入低秩分解矩阵,通过优化这些低秩矩阵来适应新任务。
  • 保持预训练权重不变,只训练注入的低秩矩阵。

数学模型 :
h = W 0 x + Δ W x = W 0 x + B A x h = W_{0}x + \Delta W x = W_{0}x + BAx h=W0x+ΔWx=W0x+BAx

这里 W 0 , Δ W W_{0}, \Delta W W0,ΔW是同纬度的超大矩阵,通常10B以上的模型参数量,但是 B , A B, A B,A都是低秩,维度远远小于原始模型参数矩阵。

实验效果:

  • 在RoBERTa、DeBERTa、GPT-2和GPT-3等模型上进行实验,LoRA在参数数量大幅减少的情况下,性能与全参数微调相当或更好。
  • 在GPT-3 175B上,LoRA在WikiSQL、MNLI和SAMSum等任务上的表现优于或接近全参数微调。

推荐阅读指数
★★★★★

推荐理由:
这篇文章提出了一种高效的大型语言模型适应方法,对于需要在资源有限的情况下部署大型模型的应用场景具有重要意义。LoRA方法的提出,为大型模型的实用化和优化提供了新的思路和工具。

2. 《MEASURING THE INTRINSIC DIMENSION OF OBJECTIVE LANDSCAPES》

测量目标景观的内在维度

摘要
本文探讨了神经网络参数数量与问题难度之间的关系。作者通过在随机子空间中训练网络,逐渐增加子空间的维度,来测量目标景观的内在维度。研究表明,许多问题的内在维度比预期的要小,且对于给定数据集,不同模型尺寸的内在维度变化不大。这表明一旦参数空间足够大以解决问题,额外的参数直接增加了解的流形的维度。此外,文章还提出了一种简单的技术来获得解决方案的最小描述长度的上界,并提供了一种压缩网络的方法。

创新点

  • 提出了内在维度的概念,用于量化问题难度。
  • 开发了一种在随机子空间中训练网络的方法来测量内在维度。
  • 展示了即使是大型网络,也只需相对较少的参数即可达到接近最优的性能。

算法模型

  • 网络不是在其原始参数空间中训练,而是在一个较小的、随机定向的子空间中训练。
  • 通过逐渐增加子空间的维度,记录解决方案首次出现的维度,定义为目标景观的内在维度。

实验效果

  • 在MNIST、CIFAR-10、ImageNet等数据集上的实验表明,许多问题的内在维度远小于参数总数。
  • 例如,在MNIST数据集上,即使是一个全连接网络,也只需要大约750个参数即可达到接近最优模型90%的性能。

推荐阅读指数
★★★★☆

推荐理由
这篇文章为理解神经网络的优化问题提供了新的视角,特别是在参数数量与模型性能之间的关系方面。它的方法论和实验结果对于神经网络的设计和训练具有重要的指导意义。

3.《INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING》

内在维度性解释了语言模型微调的有效性

摘要
尽管预训练的语言模型可以通过微调来达到各种语言理解任务的最新结果,但这一过程的动态,特别是在数据量较少的情况下,尚不清楚。本文通过内在维度的视角分析微调过程,提供了理论和实证直觉来解释这一现象。研究表明,常见的预训练模型具有非常低的内在维度,即存在一个低维重参数化,其微调效果与完整参数空间一样有效。

创新点

  • 将内在维度的概念应用于语言模型的微调过程。
  • 通过实证研究,展示了预训练模型在微调时所需的参数数量远少于模型总参数数。

算法模型

  • 使用随机投影将模型参数映射到低维空间,并在该空间中进行优化。
  • 通过调整低维空间中的参数,间接优化高维空间中的模型参数。

实验效果

  • 在MRPC数据集上,仅通过优化200个可训练参数,即可使RoBERTa模型达到接近完整参数性能的90%。
  • 预训练过程隐式地降低了后续微调任务的内在维度。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由
这篇文章为理解大型预训练语言模型的微调过程提供了新的理论支持,特别是在参数效率和模型泛化能力方面。其研究结果对于优化语言模型的训练和应用具有重要的实际意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2148487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

K8S容器实例Pod安装curl-vim-telnet工具

在没有域名的情况下,有时候需要调试接口等需要此工具 安装curl、telnet、vim等 直接使用 apk add curlapk add vimapk add tennet

Angular: ‘ng’ is not recognized as an internal or external command

背景 运行新项目的前端angular2项目时,需要全局安装angular-cli,然后使用ng serve --open命令启动项目。我安装好angular-cli后,在cmd里输入ng命令,死活无法识别。 解决过程 我按照网上的说法,去配置npm环境变量&am…

软考高级:数据库规范化: 1NF、2NF、3NF和 BCNF AI 解读

数据库的规范化是数据库设计中的一个重要过程,旨在减少数据冗余和提高数据一致性。它通过一系列规则(称为范式)来优化数据库表的结构。 常见的范式有1NF、2NF、3NF和BCNF。让我们分别来解释这些范式。 生活化例子 想象你在整理一个家庭成…

吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界

刚刚,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上发表主题演讲—— “ 过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超…

【论文阅读】Slim Fly: A Cost Effective Low-Diameter Network Topology 一种经济高效的小直径网络拓扑

文章目录 Slim Fly: A Cost Effective Low-Diameter Network Topology文章总结1. 摘要2. indroduction3. 主要工作 主要思想references Slim Fly: A Cost Effective Low-Diameter Network Topology Slim Fly:一种经济高效的小直径网络拓扑 SC’14 Maciej Besta 苏…

毕业设计选题:基于ssm+vue+uniapp的农产品自主供销小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

实战OpenCV之图像阈值处理

基础入门 图像阈值处理是一种二值化技术,它基于预设的阈值,可以将图像中的像素分为两大类:一大类是背景,另一大类是前景或目标对象。这个过程涉及将图像中的每个像素值与阈值进行比较,并根据比较结果决定保留原始值还是…

已解决 Termius双击左键复制时,会自动输入Ctrl+C ^C

已解决 Termius双击左键复制时,会自动输入CtrlC ^C 一、问题现象 使用Termius双击左键复制时,会自动输入CtrlC,如图 二、解决办法 查阅了资料,又说是某翻译软件鼠标取词的问题,有说是输入法问题,众说纷纭…

AI免费UI页面生成

https://v0.dev/chat v0 - UI设计 cursor - 编写代码 参考:https://www.youtube.com/watch?vIyIVvAu1KZ4 界面和claude类似,右侧展示效果和代码 https://pagen.so/

【Python常用模块】_cx_Oracle模块详解

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)教程合集 👈👈…

【代码随想录训练营第42期 Day61打卡 - 图论Part11 - Floyd 算法与A * 算法

目录 一、Floyd算法与A * 算法 1、Floyd算法 思想 伪代码 2、 A * 算法 思想 伪代码 二、经典题目 题目一:卡码网 97. 小明逛公园 题目链接 题解:Floyd 算法 题目二:卡码网 127. 骑士的攻击 题目链接 题解:A * 算法&a…

基于java的工费医疗报销管理系统设计与实现

博主介绍:专注于Java vue .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的…

单细胞BisqueRNA和BayesPrism去卷积分析工具简单比较

曾老师发来了一个工具,BisqueRNA,这个工具也可以用于单细胞/bulk数据的反卷积~ 因此本次就对这两个工具简单测评一下 ~ 生信菜鸟团:https://mp.weixin.qq.com/s/3dZQxDdY6M1WwMMcus5Gkg 笔者也曾经写过一个推文简单的介绍过,有…

C++的初阶模板和STL

C的初阶模板和STL 回顾之前的内存管理,我们还要补充一个概念:内存池 也就是定位new会用到的场景,内存池只会去开辟空间。 申请内存也就是去找堆,一个程序中会有很多地方要去找堆,这样子效率会很低下,为了…

必知的PDF转换软件:看2024大学生如何选择

你翻翻你文件的下载记录,是不是PDF文件占了大多数?很多是为了保证页面版式直接收到打印手填再扫描或者直接提交。但是如果能够直接在电脑上编辑之后直接转发或者打印是不是方便了很多?这次我就介绍几款可以进行PDF转换操作的工具,…

高效开发,从暗藏玄机的文件系统开始

4G-Cat.1模组的文件系统关乎数据传输速度、存储效率,以及数据安全性等等诸多因素,在应用开发中极为重要。 本期,我们来学习合宙Air201的实用示例——文件系统的使用 Air201文件系统的使用 合宙Air201资产定位模组——是一个集成超低功耗4G通…

AntFlow系列教程之流程拒绝

这是开源项目AntFlow的一个系统入门使用教程.AntFlow是一款开源免费的企业级低代码工作流引擎.仿照钉钉设计,极大降低流程设计、开发和维护成本。详细介绍请查看历史文章:AntFlow开源仿钉钉低代码工作流平台集成RuoYi版本来啦 流程拒绝和流程同意提交的参数是一样的…

Ubuntu20.04 搜索不到任何蓝牙设备

电脑信息 联想扬天YangTianT4900k 问题描述 打开蓝牙之后,一直转圈,搜索不到任何蓝牙设备 排查 dmesg | grep -i blue 有如下错误: Bluetooth: hci0: RTL: unknown IC info, lmp subver 8852, hci rev 000b, hci ver 000b lsusb 芯片型号如…

MySQL数据库的使用

MySQL数据库的启停 先用管理员身份进入系统终端,然后再在终端中输入命令 启动 net start mysql84(你所安装的MySQL版本名称) 停止 net stop mysql84 不知道所安装的MySQL是什么版本?👇 首先打开cmd命令窗口&…

sqli-labs靶场搭建

下载了一个phpstudy进行搭靶场搭建 然后打开phpstudy安装好php,mysql等环境 正式sqli-labs靶场搭建 第一步:下载源码:https://codeload.github.com/Audi-1/sqli-labs/zip/master 解压后放进网站根目录,进到 sqli-labs的文件夹下&#xff0…