LLM大模型中LoRA是什么?面试经验回答汇总(2024.7月最新)

news2024/11/19 18:36:37

目录

1 什么是 LoRA?

2 LoRA 的思路是什么?

3 LoRA 的特点是什么?

4 简单描述一下 LoRA?

5 QLoRA 的思路是怎么样的?

6 QLoRA 的特点是什么?

7 AdaLoRA 的思路是怎么样的?

8 LoRA权重是否可以合入原模型?

9 ChatGLM-6B LoRA后的权重多大?

10 LoRA 微调优点是什么?

11 LoRA微调方法为啥能加速训练?

12 如何在已有LoRA模型上继续训练?

13 LoRA 缺点是什么?

14 LoRA这种微调方法和全参数比起来有什么劣势吗?

15 LoRA 微调参数量怎么确定?

16 Rank 如何选取?

17 alpha参数 如何选取?

18 LoRA 高效微调 如何避免过拟合?

19 微调大模型时, 优化器如何?

20 哪些因素会影响内存使用?

21 LoRA权重是否可以合并?

22 是否可以逐层调整LoRA的最优rank?

23 Lora的矩阵怎么初始化?为什么要初始化为全0?


1 什么是 LoRA?

介绍:通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练。

2 LoRA 的思路是什么?

1. 在原模型旁边增加一个旁路,通过低秩分解(先降维再升维)来模拟参数的更新量;

2. 训练时,原模型固定,只训练降维矩阵A和升维矩阵B;

3. 推理时,可将BA加到原参数上,不引入额外的推理延迟;

4. 初始化,A采用高斯分布初始化,B初始化为全0,保证训练开始时旁路为0矩阵;

5. 可插拔式的切换任务,当前任务W0+B1A1,将lora部分减掉,换成B2A2,即可实现任务切换;

3 LoRA 的特点是什么?

1. 将BA加到W上可以消除推理延迟;

2. 可以通过可插拔的形式切换到不同的任务;

3. 设计的比较好,简单且效果好;

4 简单描述一下 LoRA?

LoRA的实现思想很简单,就是冻结一个预训练模型的矩阵参数,并选择用A和B矩阵来替代,在下游任 务时只更新A和B。

5 QLoRA 的思路是怎么样的?

1. 使用一种新颖的高精度技术将预训练模型量化为 4 bit;

2. 然后添加一小组可学习的低秩适配器权重,这些权重通过量化权重的反向传播梯度进行微调。

6 QLoRA 的特点是什么?

使用 QLoRA 微调模型,可以显著降低对于显存的要求。同时,模型训练的速度会慢于LoRA。

7 AdaLoRA 的思路是怎么样的?

        对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵,将关键的增量矩阵分配高秩以捕 捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低,以防止过拟合并节省计算预算。

8 LoRA权重是否可以合入原模型?

可以,将训练好的低秩矩阵(B*A)+原模型权重合并(相加),计算出新的权重。

9 ChatGLM-6B LoRA后的权重多大?

rank 8 target_module query_key_value条件下,大约15M。

10 LoRA 微调优点是什么?

1. 一个中心模型服务多个下游任务,节省参数存储量

2. 推理阶段不引入额外计算量

3. 与其它参数高效微调方法正交,可有效组合

4. 训练任务比较稳定,效果比较好

5. LoRA 几乎不添加任何推理延迟,因为适配器权重可以与基本模型合并

11 LoRA微调方法为啥能加速训练?

1. 只更新了部分参数:比如LoRA原论文就选择只更新Self Attention的参数,实际使用时我们还可以 选择只更新部分层的参数;

2. 减少了通信时间:由于更新的参数量变少了,所以(尤其是多卡训练时)要传输的数据量也变少 了,从而减少了传输时间;

3. 采用了各种低精度加速技术,如FP16、FP8或者INT8量化等。

        这三部分原因确实能加快训练速度,然而它们并不是LoRA所独有的,事实上几乎都有参数高效方法都具 有这些特点。LoRA的优点是它的低秩分解很直观,在不少场景下跟全量微调的效果一致,以及在预测阶 段不增加推理成本。

12 如何在已有LoRA模型上继续训练?

        理解此问题的情形是:已有的lora模型只训练了一部分数据,要训练另一部分数据的话,是在这个lora 上继续训练呢,还是跟base 模型合并后再套一层lora,或者从头开始训练一个lora?

        我认为把之前的LoRA跟base model 合并后,继续训练就可以,为了保留之前的知识和能力,训练新的 LoRA时,加入一些之前的训练数据是需要的。另外,每次都重头来成本高。

13 LoRA 缺点是什么?

        缺点很明显,参与训练的模型参数量不多,也就百万到千万级别的参数量,所以效果比全量微调差很 多。可能在扩散模型上感知没那么强,但在LLM上,个人感觉表现还是差距挺大的。

14 LoRA这种微调方法和全参数比起来有什么劣势吗?

        如果有足够计算资源以及有10k以上数据,我还是建议全参数微调,lora的一个初衷就是为了解决不够计 算资源的情况下微调,只引入了少量参数,就可以在消费级gpu上训练,但lora的问题在于它不能节省训 练时间,相比于全量微调,他要训练更久,同时因为可训练参数量很小,在同样大量数据训练下,比不 过全量微调。

15 LoRA 微调参数量怎么确定?

LoRA 模型中可训练参数的结果数量取决于低秩更新矩阵的大小,其主要由秩 r 和原始权重矩阵的形状确 定。实际使用过程中,通过选择不同的 lora_target 决定训练的参数量。

16 Rank 如何选取?

Rank的取值作者对比了1-64,效果上Rank在4-8之间最好,再高并没有效果提升。不过论文的实验是面 向下游单一监督任务的,因此在指令微调上根据指令分布的广度,Rank选择还是需要在8以上的取值进 行测试。

17 alpha参数 如何选取?

alpha其实是个缩放参数,本质和learning rate相同,所以为了简化我默认让alpha=rank,只调整lr,这 样可以简化超参。

18 LoRA 高效微调 如何避免过拟合?

减小r或增加数据集大小可以帮助减少过拟合。还可以尝试增加优化器的权重衰减率或LoRA层的dropout 值。

19 微调大模型时, 优化器如何?

除了Adam和AdamW,其他优化器如Sophia也值得研究,它使用梯度曲率而非方差进行归一化,可能提 高训练效率和模型性能。

20 哪些因素会影响内存使用?

内存使用受到模型大小、批量大小、LoRA参数数量以及数据集特性的影响。例如,使用较短的训练序列 可以节省内存。

21 LoRA权重是否可以合并?

可以将多套LoRA权重合并。训练中保持LoRA权重独立,并在前向传播时添加,训练后可以合并权重以 简化操作。

22 是否可以逐层调整LoRA的最优rank?

理论上,可以为不同层选择不同的LoRA rank,类似于为不同层设定不同学习率,但由于增加了调优复 杂性,实际中很少执行。

23 Lora的矩阵怎么初始化?为什么要初始化为全0?

矩阵B被初始化为0,而矩阵A正常高斯初始化 如果B,A全都初始化为0,那么缺点与深度网络全0初始化一样,很容易导致梯度消失(因为此时初始所 有神经元的功能都是等价的)。 如果B,A全部高斯初始化,那么在网络训练刚开始就会有概率为得到一个过大的偏移值Δ W 从而引入太 多噪声,导致难以收敛。 因此,一部分初始为0,一部分正常初始化是为了在训练开始时维持网络的原有输出(初始偏移为0),但 同时也保证在真正开始学习后能够更好的收敛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1890445.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

乘用车副水箱浮球式液位计传感器

浮球式液位计概述 浮球式液位计是一种利用浮球在液体中浮动的原理来测量液位的设备,广泛应用于各种工业自动化控制系统中,如石油化工、水处理、食品饮料等行业。它通过浮球的上下运动来测量液位的高低,具有结构简单、安装方便、测量范围广、…

02:vim的使用和权限管控

vim的使用 1、vim基础使用1.1、vim pathname 2、vim高级用法2.1、查找2.2、设置显示行号2.3、快速切换行2.4、 行删除2.5、行复制粘贴 3、权限管理3.1、普通用户和特权用户3.2、文件权限表示 vim是Linux中的一种编辑器,类似于window中的记事本,可以对创建…

[工业网络] 模型建立

普渡大学ICS参考模型 普渡企业参考架构(PERA)是由西奥多J威廉姆斯(Theodore J. Williams)和普渡大学计算机集成制造工业大学联盟的成员在1990年代开发的企业架构参考模型。该模型被ISA-99(现为ISA/IEC 62443&#xff…

开发者聊科学作息时间表

非常有幸对科学作息时间表app的开发者做一次采访。 问:你对科学作息时间表app满意么? 答:非常不满意,我们的设想是让他更智能,更多的提醒方式,更好的交互体验。如果作为一个闹钟他是非常不合格的&#xff0…

自然语言处理学习(2)基本知识 文本预处理+文本数据分析+文本增强

conda activate DL conda deactivate课程链接 一 一些包的安装 1 stanfordcorenlp 在anoconda prompt 里面:进入自己的conda环境,pip install stanfordcorenlp 进入方式 相关包下载,Jar包我没有下载下来,太慢了,这个…

昇思25天学习打卡营第6天|数据变换 Transforms

学习目标:熟练掌握数据变换操作 熟悉mindspore.dataset.transforms接口 实践掌握常用变换 昇思大模型平台学习心得记录: 一、关于mindspore.dataset.transforms 1.1 变换 mindspore.dataset.transforms.Compose将多个数据增强操作组合使用。 mindspo…

AIGC之后,AI Agent又要颠覆设计?

随着AIGC(AI Generated Content)技术的兴起,我们已经见证了内容创作领域的巨大变革。AI能够高效地生成文字、图像、视频等多种形式的内容,极大地提高了内容生产的效率和多样性。然而,当我们认为这已经足够令人惊叹时&a…

01 数据采集层 流量分发第一步规范采集海量数据

《易经》:“初九:潜龙勿用”。潜龙的意思是隐藏,阳气潜藏,阳爻位于最下方称为“初九”,龙潜于渊,是学而未成的阶段,此时需要打好基础。 而模块一我们就是讲解推荐系统有关的概念、基础数据体系…

论文学习_UVSCAN: Detecting Third-Party Component Usage Violations in IoT Firmware

论文名称发表时间发表期刊期刊等级研究单位 Understanding the Security Risks Introduced by Third-Party Components in IoT Firmware 2024年IEEE TDSCCCF A佐治亚理工学院 1. 引言 研究背景:物联网(IoT)已经无处不在,为我们…

【深度学习】Transformer

李宏毅深度学习笔记 https://blog.csdn.net/Tink1995/article/details/105080033 https://blog.csdn.net/leonardotu/article/details/135726696 https://blog.csdn.net/u012856866/article/details/129790077 Transformer 是一个基于自注意力的序列到序列模型,与基…

信息安全体系架构设计

对信息系统的安全需求是任何单一安全技术都无法解决的,要设计一个信息安全体系架构,应当选择合适的安全体系结构模型。信息系统安全设计重点考虑两个方面;其一是系统安全保障体系;其二是信息安全体系架构。 1.系统安全保障体系 安…

51单片机项目-点亮第一个LED灯(涉及:进制转换表、创建项目、生成HEX文件、下载程序到单片机、二极管区分正负极)

目录 新建项目选择型号添加新文件到该项目设置字体和utf-8编码二极管如何区分正负极原理:CPU通过寄存器来控制硬件电路 用P2寄存器的值控制第一个灯亮进制转换编译查看P2寄存器的地址生成HEX文件把代码下载到单片机中下载程序到单片机 新建项目 选择型号 stc是中国…

web前端开发(概述篇)

一、概念 Web是Internet上的一种多媒体信息服务系统,整个系统由Web服务器、浏览器和通信协议组成。 通信协议HTTP能够传输任意类型的数据对象,满足Web服务器与客户之间的多媒体通信的需求。 一般来说,Web开发分为前端(Front-en…

干货:科技论文写作保姆级攻略

前言:Hello大家好,我是小哥谈。科技论文是报道自然科学研究或技术开发工作成果的论说文章。通常基于概念、判断、推理、证明或反驳等逻辑思维体系,使用实验调研或理论计算等研究手段,按照特定格式撰写完成。 科技论文可以粗略分为…

产业链协同,共谋产业新高度

国际数字影像产业园始终秉承“产业协同,共谋发展”的核心理念,致力于通过深化产业链上下游的紧密合作,推动数字影像产业的持续繁荣。 一、产业协同的具体实践 1、产业链整合:园区积极整合数字影像产业的上下游资源,形…

《昇思25天学习打卡营第7天|函数式自动微分》

文章目录 今日所学:一、函数与计算图二、微分函数与梯度计算三、Stop Gradient四、Auxiliary data五、神经网络梯度计算总结 今日所学: 今天我学习了神经网络训练的核心原理,主要是反向传播算法。这个过程包括将模型预测值(logit…

CX1概念车空气动力学设计,打造典型“美式肌肉车”风格

Altair CX1概念车的设计 CX1是Altair公司为了满足汽车行业的设计和虚拟仿真需求而开发的一款概念车型。该车总长接近5米,外观具有典型的美式肌肉车的风格,具有视觉冲击力。 车辆的外形设计过程就是风险管理,设计师想要一个大胆而富有表现力的…

Continual Test-Time Domain Adaptation--论文笔记

论文笔记 资料 1.代码地址 https://github.com/qinenergy/cotta 2.论文地址 https://arxiv.org/abs/2203.13591 3.数据集地址 论文摘要的翻译 TTA的目的是在不使用任何源数据的情况下,将源预先训练的模型适应到目标域。现有的工作主要考虑目标域是静态的情况…

拉曼光谱入门:1.光谱的分类与散射光谱发展史

一、光谱是什么? 在一个宁静的午后,年轻的艾萨克牛顿坐在他母亲花园里的一棵苹果树下,手握一块精致的三棱镜。他沉思着光的奥秘,意识到光并非单一的白色,而是一种由多彩色组成的复杂结构。 他决心进行一次实验&#xf…

静态时序分析:ideal_clock、propagated_clock以及generated_clock的关系及其延迟计算规则(二)

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 生成时钟 上一节中,我们讨论了理想时钟和传播时钟的创建和使用,本节将讨论生成时钟及其与理想时钟和传播时钟的关系。 图1所示的是一个简…