LoRA 及其衍生技术总览:An Overview of the LoRA Family

news2024/12/1 10:30:12

编者按: 对于大语言模型的微调训练来说,传统的全参数微调方法需要处理数百万甚至数十亿级别的参数,计算量和显存占用都非常大。而 LoRA 这种技术方案,通过引入少量的可训练矩阵来调整预训练模型的行为,极大降低了训练所需的计算资源,是近年来大语言模型微调的一个重大突破。

我们今天为大家带来的文章,介绍了众多具有代表性的 LoRA 改进方法:LoRA+ 通过为两个矩阵引入不同的学习率提高训练效率;VeRA 和 LoRA-FA 通过训练更少的参数降低计算量;LoRA-drop 和 AdaLoRA 通过动态选择需要训练的层提高效率;DoRA通过将权重分解为权重方向和权重绝对值这两个独立的部分提高模型性能;Delta-LoRA则引入额外的梯度训练预训练矩阵,在几乎不增加计算开销的情况下引入更多可训练参数。

当然,这些技术只是其中的一部分,远不能算是一篇完整的综述。我们希望今天分享的这篇文章能够给大家带来新的启发。

作者 | Dorian Drost

编译 | 岳扬

🚢🚢🚢欢迎小伙伴们加入AI技术软件及技术交流群,追踪前沿热点,共探技术难题~

LoRA 形形色色,种类繁多。图片由 Lucas George Wendt 在 Unsplash 上提供。

低秩自适应(Low-Rank Adaptation,LoRA)可以被视为在针对特定任务高效训练大语言模型方面的重大突破。近年来,这项技术在诸多应用领域获得了广泛认可,并促进了学术界对如何优化其核心技术路线的持续探索,以期进一步提升模型性能或加快模型训练速度。

在本文中,我打算概要介绍一些 LoRA 的不同形式,它们有望以不同的方式增强 LoRA 的能力。我将首先介绍原始 LoRA 技术的基本概念,然后介绍 LoRA+、VeRA、LoRA-FA、LoRA-drop、AdaLoRA、DoRA 和 Delta-LoRA。我将介绍每种方法的基本概念和主要思想,并展示这些方法与原始 LoRA 技术的不同之处。除非对于讲解某项技术的基本概念来说比较重要,否则我会避免涉及技术细节,并且也不会详细讨论这些技术的相关评估问题。对此感兴趣的读者,可通过阅读文末提供的参考文献深入了解。

01 LoRA

LoRA 的主要思想是在预训练的权重矩阵 W 旁边添加两个较小的可调整矩阵 A 和 B,而不更改 W 的参数。图片来自 [1]。

低秩自适应(Low-Rank Adaptation,LoRA)[1]是目前广泛用于大语言模型(LLMs)训练的一种技术。大语言模型具备根据自然语言输入预测后续 tokens 的能力。这是一种令人惊讶的能力,但对于解决许多实际问题来说,这还远远不够。在大多数情况下,我们需要根据特定的下游任务对大语言模型(LLM)进行微调训练,例如对句子进行分类或为给定问题生成答案。最直接的做法是微调(fine-tuning),即使用所需任务的数据来训练语言模型的某些层。然而,这意味着在微调过程中,需要处理数百万到数十亿的参数量。

但 LoRA 提供了一种能够使参数数量大幅减少的替代方法,因此训练起来更快、更容易。除了已经预训练过的语言模型层的参数权重之外,LoRA 还引入了两个被称为 adapters 的矩阵 A 和 B,这些矩阵要小得多。如果原始参数矩阵 W 的大小为 d x d,则矩阵 A 和 B 的大小分别为 d x r 和 r x d,其中 r 要小得多(通常低于 100)。参数 r 称为秩。也就是说,如果使用秩为 r=16 的 LoRA,则这些矩阵的大小为 16 x d。这种方法可能可以提升模型性能,但另一方面会需要更多的计算时间。

现在有了新矩阵 A 和 B,它们会发挥什么作用呢?输入给 W 的内容同时也会输入给 BA,而 BA 的输出则会添加到原始矩阵 W 的输出中。换句话说,您会在原有的预训练模型基础上,额外进行一些操作,并将它们的输出添加到 original prediction (译者注:指的是在没有添加额外参数的情况下,使用原始预训练模型(即仅使用权重矩阵 W)得到的预测结果。)中,从而影响模型的行为。不再对 W 进行训练,这就是为什么有时我们会说 W 被冻结了。 重要的是,将矩阵 A 和矩阵 B 的输出添加到原始预训练模型输出的这个过程不仅仅在最后一步进行(这样只会在原有模型结构的顶部添加一个新的层),而且可以应用到神经网络深处的层中。

这就是 LoRA 的主要理念,它的最大优势在于,与全参数微调相比,需要训练的参数更少,但仍能获得相当的性能。 这里我还想提一个技术细节:最初,矩阵 A 被初始化为均值为 0 但具有适当方差的随机值,而矩阵 B 则被初始化为全 0 矩阵。这样可以确保 LoRA 矩阵不会从一开始就以随机方式改变原始 W 的输出。一旦 A 和 B 的参数朝着所需的方向调整,它们对 W 的输出的更新应该是对原始输出的一种增量。不过,我们稍后会看到,有些方法由于不同的原因偏离了这一思路。

前文介绍的 LoRA 技术目前已在大语言模型中广泛应用。然而,为了提升训练效率、模型性能或两者兼顾,研究人员提出了多种 LoRA 的变体,通过不同方式对原始LoRA方法进行改进。接下来,我将向大家概述其中一些经过修改的 LoRA 技术。

02 LoRA+

LoRA+ 为两个矩阵 A 和 B 引入了不同的学习率(learning rates),这里用参数 λ 表示。 图片来自 [2]。

LoRA+ [2] 为矩阵 A 和矩阵 B 引入了不同的学习率,从而引入了一种更有效的 LoRA adapters 训练方法。大多数情况下,在训练神经网络时,所有权重矩阵都采用相同的学习率。然而,对于 LoRA 中使用的 adapters 矩阵,LoRA+ 的作者可以证明,单一学习率并不是最优的。将矩阵 B 的学习率设置得比矩阵 A 的学习率高得多,训练就能变得更加高效。

这种方法有其理论依据,主要是为了应对层数非常多的神经网络或宽度较大的神经网络在初始化过程中可能遇到的数值不稳定性或梯度消失等数值计算问题。然而,证明这一点所需的数学计算相当复杂(如果你真的对此感兴趣,可以查看原论文 [2])。直觉上,你可能会认为,初始化为零的矩阵 B 可以使用比随机初始化的矩阵 A 更大的更新步长(update steps)。此外,也有经验证明这种方法确实能带来较大地改进。通过将矩阵 B 的学习率(learning rate)设定为矩阵 A 的 16 倍,能够小幅提高模型的准确率(约 2%),同时将 RoBERTa 或 Llama-7b 等模型的训练速度加快 2 倍。

03 VeRA

VeRA 不训练矩阵 A 和 B,而是将输入数据映射到一个较低维度的空间(random projection),并训练额外的向量 d 和 b。图片来自 [3]。

通过使用 VeRA(Vector-based Random Matrix Adaptation)[3],引入了一种能够明显减少 LoRA adapters 参数数量的方法。与 LoRA 直接训练矩阵 A 和 B 不同(这也是 LoRA 的核心理念),LoRA+ 将这些矩阵初始化为共享的随机权重(即所有层中的矩阵 A 和 B 具有相同的权重值),并引入了两个新的可训练向量 d 和 b 。在训练过程,LoRA+ 仅优化向量 d 和 b 的参数值。

你可能会问,这怎么可能行得通呢?A 和 B 是随机权重矩阵。如果不对它们进行训练,它们怎么会对模型的性能有任何贡献呢?这种方法基于一种有趣的技术,即所谓的 random projections(译者注:一种较为常用的数据降维方法)。有诸多研究表明,在大型神经网络中,只有一小部分权重对引导模型行为和达到所需任务性能起关键作用。由于采用了随机初始化,从一开始模型的某些子网络对所需行为的贡献就更大一些。在训练过程中,虽然会优化所有参数,但现在无从得知哪些子网络更为重要。这导致训练开销非常大,因为绝大部分参数的更新对模型预测能力的提升并无实质性贡献。

基于这一思路,一些方法试图只训练这些相关的子网络。与直接训练子网络不同,它们在矩阵之后引入了projection vectors(译者注:用于将神经网络中的某些权重或特征从一个空间投影到另一个空间的向量),通过将矩阵与这些向量相乘,可以获得等效于在矩阵中调整某些稀疏参数(sparse parameters)。这是 VeRA 作者提出的思路,他们引入了可训练的向量 d 和 b ,同时冻结了矩阵 A 和 B 。另外,与原始 LoRA 技术不同,VeRA 中矩阵 B 的初始化也采用了随机值,而非全零矩阵。通过这种方式,VeRA 期望以更小的计算开销达到类似的效果。

这种方法使得所需参数数量远少于完整的矩阵 A 和 B 。 举个例子,在 GPT-3 中引入秩为 16 的 LoRA 层需要 75.5M 参数,而使用 VeRA 只需 2.8M 参数,参数量减少了 97 %。尽管参数大幅减少,VeRA作者在一些常见的大模型基准测试(如GLUE或E2E)以及基于 RoBERTa 和 GPT2 Medium 的模型上进行了评估,结果表明 VeRA 模型的性能只比全参数微调或原始 LoRA 技术的模型稍差一些。

04 LoRA-FA

LoRA-FA 冻结矩阵 A,只训练矩阵 B。图片来自 [4]。

另一种方法是 LoRA-FA [4],即 LoRA with Frozen-A,其思路与方向与 VeRA 类似。在 LoRA-FA 中,矩阵 A 在初始化后被冻结,因此可用作 random projection 。矩阵 B 在初始化为零(就像原始 LoRA 技术一样)后进行训练,而不是添加新向量。这样,参数数量减少了一半,而性能却与使用普通 LoRA 技术相当。

05 LoRa-drop

LoRA-drop 使用 B*A 的输出来决定哪些 LoRA 层值得训练。图片来自 [5]。

文章一开始,我就解释过,我们可以在神经网络的任何一层添加 Lora 矩阵。LoRA-drop [5] 引入了一种算法来决定哪些层值得通过 LoRA 进行增强,哪些层不值得这样做。即使训练 LoRA adapters 比微调整个模型要便宜得多,但添加的 LoRA adapters 越多,训练成本就越高。

LoRA-drop 技术包括两个步骤。第一步,从整个数据集中随机选择一个子集,并对 LoRA adapters 进行多次迭代训练。然后,以 BAx 计算每个 LoRA adapter 的重要性,其中 A 和 B 是 LoRA 矩阵,x 是输入。这只是简单地将 LoRA adapter 的输出与冻结层(frozen layer)的输出相加。如果通过计算得到的输出值较大,则表示冻结层的行为发生了很大变化。如果很小,这意味着 LoRA adapter 对冻结层的影响很小,可以被省略。

基于之前计算得到的结果,选择哪些 LoRA 层对模型的性能影响最大,有多种不同的方法。可以将重要性值相加,直到达到一个由超参数控制的阈值,或者只选择重要性最高的前 n 个LoRA层。不管采用哪种方式,在接下来的训练步骤中,都会在整个数据集上进行全面训练(之前使用的是数据子集),但只会优化那些已选择的 LoRA 层的参数,而其他层的参数将被冻结为一组共享的值,在训练过程中保持不变。

因此,LoRA-drop 算法允许只使用 LoRA 层的子集来训练模型。作者提出的实证证据表明,与训练所有 LoRA 层相比,通过 LoRA-drop 训练的模型的准确率(accuracy)仅有微小变化,但由于需要训练的参数数量减少,计算时间也有所缩短。

06 AdaLoRA

AdaLoRA 允许动态调整 LoRA 矩阵的秩**。照片由 Hasmik Ghazaryan Olson 发布于 Unsplash。

那么如何判断哪些 LoRA 参数比其他参数更重要呢?在本节将介绍 AdaLoRA [6] 这项技术,即Adaptive LoRa。AdaLoRA 中自适应(adaptive)的是 LoRA 矩阵的秩。与前一节的问题类似,可能没有必要将同样大小的 LoRA 矩阵 A 和 B 添加到每一层,因为对于某些更为重要的模型层(那些可能导致模型行为发生较大变化的层),使用 LoRA 进行训练可能效果更好。为了确定哪些模型层更为重要, AdaLoRA 的作者提出考虑 LoRA 矩阵的奇异值(singular values)作为判断模型层重要性的指标。

这是什么意思呢?首先,我们必须明白,矩阵乘法也可以看作是将函数应用于向量。在处理神经网络时,这一点是非常明显的:大多数情况下,神经网络都是作为函数来使用的,即给出一个输入(例如像素值矩阵),然后得到一个结果(例如将图像归类到预定义的类别或标签中的某一类)。在背后,这个函数应用是由一系列的矩阵乘法驱动的。现在,假设你想减少矩阵中的参数数量。这样会改变函数的行为,但你希望它的变化越小越好。一种方法是计算矩阵的特征值(eigenvalues),它可以帮助我们了解矩阵中每一行的方差。然后可以将矩阵中方差很小的行的值设为零,这些被设置为零的行在数据中仅提供很少的信息,对于模型的训练或结果并没有太大的影响,因此可以被视为不重要的部分而被忽略。这就是 AdaLoRA 的主要思想,因为前述的奇异值正是特征值的平方根。也就是说,根据奇异值,AdaLoRA 可以决定哪些 LoRA 矩阵的哪些行更重要,哪些可以省略。这就有效地缩小了一些矩阵的秩,因为这些矩阵有很多行并没有太大的贡献。但是,请注意这种技术与上一节的 LoRA-drop 有一个重要的区别:在 LoRA-drop 中,LoRA 层的 adapters 要么被选择完全训练,要么完全不训练。AdaLoRA 可以决定保留某些层的 adapters  ,但其秩较低。这意味着,最终,不同的 adapters 可以具有不同的秩(而在最初的 LoRA 方法中,所有的adapters 都具有相同的秩)

这是对 AdaLoRA 方法的简要概述,但有一些细节我为了简洁起见省略了。不过,我想提及其中的两个细节首先,AdaLoRA 方法并不总是直接去计算奇异值(因为这样做成本很高),而是使用奇异值分解(singular value decomposition,SVD)来分解权重矩阵。尽管奇异值分解(SVD)技术将原始矩阵分解为多个矩阵,但这些分解后的矩阵组合包含了与原始矩阵相同的信息。与直接计算奇异值相比,使用 SVD 分解的好处在于可以更有效地获取奇异值,而不需要进行更多复杂和昂贵的计算。其次,AdaLoRA 不仅仅根据奇异值来做出决定,还考虑了 loss 值对某些参数的敏感程度。如果将某个参数设置为零对 loss 值会产生很大影响,则该参数被认为具有较高的敏感性。在确定应该降低哪些秩的过程中,不仅关注奇异值较小的行,同时也要分析这些行元素对模型预测结果的敏感程度。

通过将 AdaLoRA 与相同 rank budget (译者注:可用于分配给 adapters 矩阵的资源数量)的原始 LoRA 技术进行比较,可以获得该方法的 empirical evidence (译者注:基于观察、实验或实际经验所得到的证据或数据)。也就是说,两种方法在总参数数量上是相同的,但参数分配方式不同而已。在 LoRA 中,所有矩阵都具有相同的秩,而在 AdaLoRA 中,有一些重要层的矩阵秩较高,另一些不太重要的模型层的矩阵秩较低。尽管如此,最终 LoRA 和 AdaLoRA 的参数总数量还是相同的。在许多场景下,AdaLoRA 相比标准 LoRA 方法表现更加出色,这验证了 AdaLoRA 可以更好地将可训练参数分配到对特定任务至关重要的模型部分上。下图举例说明了 AdaLoRA 为给定模型分配秩的方式。正如我们所见,它给了模型末尾的层更高的秩,表明调整这些层对目标任务性能的提升更为重要。

在神经网络的不同层上,LoRA 矩阵被赋予不同的秩。通常来说,较后的层的秩更高。图片来自 [6]。

07 DoRA

在 DoRA 中,权重矩阵 W 被分解为权重绝对值(magnitude) m 和权重方向(direction) V,它们可以独立调整。图片来自 [7]。

对 LoRA 进行修改以获得更好性能的另一种方法是权重分解的低秩自适应(Weight-Decomposed Low-Rank Adaption),或称为 DoRA [7]。DoRA 的出发点是,每个矩阵都可以分解为权重绝对值和权重方向的乘积。 对于二维空间中的向量,可以很容易地将其可视化出来:一个向量不过就是一个从零点开始、指向向量空间某个点的箭头。通过向量的各个分量的数值,可以唯一确定空间中的一个点的位置,比如说如果某个空间有两个维度 x 和 y,可以通过 x=1 和 y=1 来表示。或者,可以用长度和角度(即方向)来描述同一个点,比如 m=√2 和 a=45°。也就是说,从零点开始,沿着 45°的方向移动,移动距离为 √2,最终到达相同的点(x=1,y=1)。

将矩阵分解为长度和方向的方法同样适用于高阶矩阵。DoRA 的作者将其应用于权重矩阵,研究了使用普通微调方法训练的模型和使用 LoRA adapters 训练的模型在训练步骤中的权重矩阵更新情况。这两种技术的比较见下图:

普通微调和 LoRA 的不同之处在于权重绝对值和权重方向变化之间的关系。图片来自 [7]。

可以看到两幅图表,一幅是通过普通方法微调的模型(左侧),另一幅是使用 LoRA adapters 训练的模型(右侧)。在 x 轴上,我们可以看到权重方向的变化,而在 y 轴上,我们看到权重绝对值的变化,图表中的每个散点都属于模型的一层。这两种训练方法有一个重要区别。在左图中,权重方向更新和权重绝对值更新之间只存在微弱的负相关性,而在右图中,存在一种更强的正相关性。哪种更好?或者有无任何意义?请记住,LoRA 的主要理念是用更少的参数实现与普通微调相同的性能。这意味着,在不增加成本的前提下,我们希望 LoRA 的训练与普通微调方法有尽可能多的相同特性。 如果微调中权重方向和权重绝对值之间的相关性稍微为负,那么这也可能是 LoRA 所希望拥有的特性。换句话说,如果 LoRA 中权重方向和权重绝对值之间的关系与全参数微调相比不同,那么这可能是 LoRA 有时表现不及普通微调方法的原因之一。

DoRA 的作者介绍了一种方法,通过将预训练矩阵 W 分解为大小为 1 x d 的权重绝对值向量 m 和权重方向矩阵 V,来独立训练权重绝对值和权重方向。然后通过 B*A 来增强权重方向矩阵 V,而 m 则保持不变,这种方法是可行的,因为 m 只有一个维度。虽然 LoRA 倾向于同时改变权重绝对值和方向(这两者之间的正相关性较高就表明了这一点),但 DoRA 更容易调整其中一个而不影响另外一个,或者通过负改变来补偿另一个的改变。我们可以看到权重方向和权重绝对值之间的关系更像是普通微调方法中的关系:

对于 DoRA,权重绝对值和方向之间的关系更类似于普通微调方法中的关系。图片来自 [7]。

在多个基准测试中,DoRA 的准确率都优于 LoRA。将权重矩阵的更新分解为 magnitude 和 direction 可能使 DoRA 这种训练方法更接近微调,同时还能使用 LoRA 引入的更小的参数空间。

08 Delta-LoRA

Delta-LoRA 不会冻结矩阵 W,而是根据从 B*A 中获得的梯度进行更新。图片来自 [8]。

Delta-LoRA [8] 引入了另一种改进 LoRA 的思路。这一次,预训练矩阵 W 将再次发挥作用。请记住,LoRA 的主要思想是不要(!)调整预训练矩阵 W,因为这样做消耗的成本太高(属于普通的微调方法)。这也是 LoRA 引入较小矩阵 A 和 B 的原因。然而,这些较小矩阵学习下游任务的能力较弱,这也就是为什么使用 LoRA 技术训练的模型,其性能通常低于使用普通微调方法训练的模型的原因。在训练过程中对 W 进行调整固然很好,但需要耗费的资源确实太多了。

Delta-LoRA 的作者建议通过使用 AB 的梯度(即 AB 在两个连续 time steps 中的差值)来更新矩阵 W。 这个梯度会乘以一些超参数 λ 进行缩放,以控制新的训练方法对预训练权重的影响程度,然后加到 W 上(其中 α 和 r(秩)是原始 LoRA 配置中的超参数):

W 是根据连续两个 time steps 中 A*B 之间的差值进行更新。图片来源于[8]。

这就在几乎没有计算开销的情况下,引入了更多需要训练的参数。 我们不必像普通微调方法那样计算整个矩阵 W 的梯度,而是使用在 LoRA 训练中已经得到的梯度来更新它。作者使用 RoBERTA 和 GPT-2 等模型在多个基准测试上评估了这种方法,发现与原始 LoRA 方法相比,这种方法的性能有所提升。

09 Summary

恭喜!你已经快阅读完本文了,终点就在眼前!照片由 Unsplash 的 David Griffiths 提供。

前文介绍了多种不同的方法,它们都期望改变 LoRA 的核心思想,进一步减少计算时间或提高性能(或两者兼有之)。最后,我将对这些方法进行简要总结:

  • LoRA 引入了经过训练的低秩矩阵 A 和 B,同时冻结了预训练的权重矩阵 W。
  • LoRA+ 建议为 B 设置比 A 更高的学习率。
  • VeRA 不训练低秩矩阵 A 和 B,而是随机初始化它们,并在其上训练新的向量 d 和 b。
  • LoRA-FA 只训练低秩矩阵 B。
  • LoRA-drop 使用 B*A 的输出来确定哪些模型层值得进行训练。
  • AdaLoRA 动态调整不同层中 A 和 B 的秩,允许在一些重要的模型层中使用更高的秩,这些层对模型性能的贡献更大。
  • DoRA 将 LoRA adapter 分为 magnitude 和 direction 两个部分,使它们的训练更加独立。
  • Delta-LoRA 通过 A*B 的梯度来改变 W 的权重。

LoRA 及其相关方法的研究非常丰富、异常活跃,几乎每天都有新的研究成果涌现。我想通过本文介绍一些 LoRA 方法的核心思想。当然,本文介绍的这些 LoRA 技术只是其中的一小部分,远不能算是一篇完整的综述。

LoRA 及其相关方法的研究潜力巨大,我们希望这篇文章能够给大家带来新的启发。我想,在提高大语言模型的训练性能或进一步减少计算时间这些领域,很快就会有新的突破性进展出现。

10 参考文献和可供深入学习的文献资料

下列是本文所介绍技术的相关论文:

[1] LoRA: Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.

[2] LoRA+: Hayou, S., Ghosh, N., & Yu, B. (2024). LoRA+: Efficient Low Rank Adaptation of Large Models. arXiv preprint arXiv:2402.12354.

[3] VeRA: Kopiczko, D. J., Blankevoort, T., & Asano, Y. M. (2023). Vera: Vector-based random matrix adaptation. arXiv preprint arXiv:2310.11454.

[4]: LoRA-FA: Zhang, L., Zhang, L., Shi, S., Chu, X., & Li, B. (2023). Lora-fa: Memory-efficient low-rank adaptation for large language models fine-tuning. arXiv preprint arXiv:2308.03303.

[5] LoRA-drop: Zhou, H., Lu, X., Xu, W., Zhu, C., & Zhao, T. (2024). LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation. arXiv preprint arXiv:2402.07721.

[6] AdaLoRA: Zhang, Q., Chen, M., Bukharin, A., He, P., Cheng, Y., Chen, W., & Zhao, T. (2023). Adaptive budget allocation for parameter-efficient fine-tuning. arXiv preprint arXiv:2303.10512.

[7] DoRA: Liu, S. Y., Wang, C. Y., Yin, H., Molchanov, P., Wang, Y. C. F., Cheng, K. T., & Chen, M. H. (2024). DoRA: Weight-Decomposed Low-Rank Adaptation. arXiv preprint arXiv:2402.09353.

[8]: Delta-LoRA: Zi, B., Qi, X., Wang, L., Wang, J., Wong, K. F., & Zhang, L. (2023). Delta-lora: Fine-tuning high-rank parameters with the delta of low-rank matrices. arXiv preprint arXiv:2309.02411.

如果想进一步了解 random projection 相关技术,可以阅读下列文献:

Frankle, J., & Carbin, M. (2018). The lottery ticket hypothesis: Finding sparse, trainable neural networks. arXiv preprint arXiv:1803.03635.

想获得对 LoRA 和 DoRA 更详细的了解,我推荐阅读这篇文章:

https://magazine.sebastianraschka.com/p/lora-and-dora-from-scratch

Thanks for reading!

END

本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。

原文链接:

https://towardsdatascience.com/an-overview-of-the-lora-family-515d81134725

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1555572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EasyRecovery2024中文版数据恢复软件功能全面介绍

EasyRecovery2024是世界著名数据恢复公司 Ontrack 的技术杰作,它是一个威力非常强大的硬盘数据恢复工具。能够帮你恢复丢失的数据以及重建文件系统。 EasyRecovery不会向你的原始驱动器写入任何东东,它主要是在内存中重建文件分区表使数据能够安全地传输…

基于DCT(离散余弦变换)的图像水印算法,Matlab实现

博主简介: 专注、专一于Matlab图像处理学习、交流,matlab图像代码代做/项目合作可以联系(QQ:3249726188) 个人主页:Matlab_ImagePro-CSDN博客 原则:代码均由本人编写完成,非中介,提供…

【LeetCode: 面试题 16.05. 阶乘尾数 + 阶乘】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

Android 12.0 mtp模式下连接pc后显示的文件夹禁止删除copy重命名功能实现

1.前言 在12.0的系统rom定制化开发中,usb连接pc端的时候有好几种模式,在做otg连接pc端的时候,改成mtp模式的时候,在pc端可以看到产品设备 的显示的文件夹的内容,对于产品设备里面的文件在pc端禁止做删除重命名拷贝等操作功能的实现 2.mtp模式下连接pc后显示的文件夹禁止删…

深入探讨多线程编程:从0-1为您解释多线程(下)

文章目录 6. 死锁6.1 死锁原因 6.2 避免死锁的方法加锁顺序一致性。超时机制。死锁检测和解除机制。 6. 死锁 6.1 死锁 原因 系统资源的竞争:(产生环路)当系统中供多个进程共享的资源数量不足以满足进程的需要时,会引起进程对2…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于纳什谈判的电氢能源系统多时间尺度协同运行优化》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

harbor api v2.0

harbor api v2.0 v2.0 v2.0 “harbor api v2.0”与原来区别较大,此处harbor也做了https。另外,通过接口拿到的数据也是只能默认1页10个,所以脚本根据实际情况一页页的抓取数据 脚本主要用于统计repo、image,以及所有镜像的tag数&…

ubuntu18.04 pycharm

一、下载pycharm (1)进入官网下载Download PyCharm: The Python IDE for data science and web development by JetBrains 选择专业版(professional)直接点击下载(download),我下载的是2023.3…

PCA+DBO+DBSCN聚类,蜣螂优化算法DBO优化DBSCN聚类,适合学习,也适合发paper!

PCADBODBSCN聚类,蜣螂优化算法DBO优化DBSCN聚类,适合学习,也适合发paper! 一、蜣螂优化算法 摘要:受蜣螂滚球、跳舞、觅食、偷窃和繁殖等行为的启发,提出了一种新的基于种群的优化算法(Dung Beetle Optim…

Rust使用原始字符串字面量实现Regex双引号嵌套双引号正则匹配

rust使用Regex实现正则匹配的时候,如果想实现匹配双引号,就需要使用原始字符串字面量,不然无法使用双引号嵌套的。r#"..."# 就表示原始字符串字面量。 比如使用双引号匹配: use regex::Regex;fn main() {println!(&qu…

PCB行业企业运营管理应如何优化进阶?

随着印制电路板产业的快速繁荣发展,下游企业对其生产制造、质量、工艺等方面也提出了更高的要求,印制电路板产业不再野蛮生长,企业逐步进入从规模到质量、从制造到智造的数字化转型升级新阶段。 每家PCB企业的业务流程、客户要求、企业文化、…

(day 23)JavaScript学习笔记(内置对象2之JSON、Set、Map)

概述 这是我的学习笔记,记录了JavaScript的学习过程。在写博客的时候我会尽量详尽的记录每个知识点。如果你完全没接触过JavaScript,那么这一系列的学习笔记可能会对你有所帮助。 今天继续学习JavaScript内置的对象,主要是Json、Set、Map。 …

02正式学习第一天

1、windows上加载socket库 链接输入ws2_32.lib 代码code&#xff1a; #ifdef _WIN32 #include<windows.h> #else #include <sys/socket.h> #include<sys/types.h> #include<unistd.h> #include<cstring> #include<arpa/inet.h> #include…

在jupyter notebook中使用conda环境

在jupyter notebook中使用conda环境 1. 环境配置 conda activate my-conda-env # this is the environment for your project and code conda install ipykernel conda deactivateconda activate base # could be also some other environment conda install nb_cond…

Java集成E签宝实现签署

完整代码&#xff1a;java-boot-highpin-background: 背调服务 (gitee.com) 【暂不开源】 1.在application.yml中配置appid、密钥信息&#xff0c;包含沙箱环境javaesign:host: https://smlopenapi.esign.cnappId: your appIdappSecret: your secret 2.实现电子签的主要流程在…

主干网络篇 | YOLOv8更换主干网络之EfficientNet

前言:Hello大家好,我是小哥谈。EfficientNet是一种高效的卷积神经网络架构,由Mingxing Tan和Quoc V. Le在2019年提出,其设计思想是在不增加计算复杂度的情况下提高模型的准确性。它引入了一个称为"复合系数"的概念,该系数用于同时缩放网络的深度、宽度和分辨率。…

C++类继承基础2——虚函数和纯虚函数

虚函数 如前所述&#xff0c;在C语言中&#xff0c;当我们使用基类的引用或指针调用一个虚成员函数时会执行动态绑定。 因为我们直到运行时才能知道到底调用了哪个版本的虚函数&#xff0c;所以所有虚函数都必须有定义。 通常情况下&#xff0c;如果我们不使用某个函数&…

C++:继承的介绍和深度解析

一、继承的概念和定义 1.什么是继承&#xff1f; 继承&#xff0c;顾名思义&#xff1a;就和现实生活中&#xff0c;孩子继承父母的东西有点类似。比如&#xff0c;你父亲的财产&#xff0c;你可以继承下来&#xff0c;你就可以使用父亲的钱。 官方一点的介绍&#xff1a; 继承…

代码随想录阅读笔记-二叉树【对称二叉树】

题目 给定一个二叉树&#xff0c;检查它是否是镜像对称的。 思路 首先想清楚&#xff0c;判断对称二叉树要比较的是哪两个节点&#xff0c;要比较的可不是左右节点&#xff01; 对于二叉树是否对称&#xff0c;要比较的是根节点的左子树与右子树是不是相互翻转的&#xff0…

2024 ccfcsp认证打卡 2021 12 01 序列查询

2021 12-1 序列查询 题解1题解2区别第一种算法&#xff1a;第二种算法&#xff1a; 题解1 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);// 输入n表示商品数目&#xff0c;N表示总数int n sc.n…