(2024,频域 LoRA,DFT,DCT,自适应门控,基于适配器组合的图像编辑)FouRA:傅里叶 LoRA

news2025/2/24 12:12:47

FouRA: Fourier Low Rank Adaptation

公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

2. 相关工作

3. 提出的方法

3.1 低秩适应的公式

3.2 频域中的低秩适应

3.3 频率变换

3.4 自适应秩门控方法

3.5 组合多个适配器

4. 理论分析

4.1 频域微调

4.2 门控频域微调

4.3 子空间学习

5. 实验


0. 摘要

虽然低秩适应(Low-Rank Adaptation,LoRA)在高效微调大型模型方面已被证明是有益的,但 LoRA 微调的文本到图像扩散模型在生成的图像中缺乏多样性,因为模型倾向于复制观察到的训练样本的数据。这种效应在适配器强度(adapter strength)更高时,以及在更小的数据集上微调的高秩适配器中更加明显。为了解决这些问题,我们提出了 FouRA,这是一种新的低秩方法,它在傅里叶域中学习投影,同时学习灵活的输入依赖的适配器秩选择策略。通过广泛的实验和分析,我们表明 FouRA 成功解决了与数据复制和分布崩溃相关的问题,同时显著提高了生成图像的质量。我们证明了 FouRA 通过其自适应秩选择增强了微调模型的泛化能力。我们进一步展示了在频率域中学习的投影是去相关的,并在合并多个适配器时证明了其有效性。虽然 FouRA 的动机来自于视觉任务,我们也展示了它在 GLUE 基准上的语言任务中的优点。 

论文地址:https://arxiv.org/abs/2406.08798

2. 相关工作

生成式文献中的傅里叶变换

  • 最近的工作 [15] 表明,基于充分数据训练的去噪模型的潜变量位于具有振荡模式的自适应基上。其他研究表明,我们可以使用傅里叶算子进行非参数回归任务,并将自注意力视为一个核回归(kernel regression)问题。
  • [23] 表明,它在输入上提供了更平滑的表示,并且更好地捕捉了查询(query)和键(key)之间的相关性。
  • [18] 表明傅里叶频谱滤波器在连续域中操作,并且在将图像表示为连续函数时效果良好。此外,空间域中的卷积可以表示为傅里叶空间中的乘法,因此频谱滤波器可以作为全局卷积算子。

尽我们所知,将这些变换应用于低秩空间之前尚未被探索过。

许多研究分析了信号转换到谐波基时的特征扩散。[1] 分析了将这些变换应用于从马尔可夫过程采样的信号的效果,表明傅里叶变换在最小均方设置中对这种信号进行去相关处理。

(2021|ICLR,LoRA,秩分解矩阵,更少的可训练参数)LoRA:大语言模型的低秩自适应

(2024,LoRA,全量微调,低秩,强正则化,缓解遗忘,多样性)LoRA 学习更少,遗忘更少

低秩适应

  • LoRA [14] 在生成图像的保真度和多样性之间存在权衡。[3] 试图通过稀疏正则化来缓解这个问题。
  • SVDiff [12] 显式地只更新奇异值,同时保留子空间。在高秩设置中,这种方法是可以接受的。然而,在 FouRA 中,我们是在低秩子空间中学习。
  • 其他工作如应用于语言模型的 AdaLORA [43]、[41] ,进一步使用 SVD 对权重矩阵进行参数化,并通过重要性评分度量联合优化特征向量和奇异值。
  • O-lora [37] 计算不同任务之间的正交梯度空间,使模型能够顺序适应新任务而不会灾难性遗忘。
  • [3] 在损失函数中应用近端梯度门控(proximal gradient gating)来学习重要子空间并掩蔽(mask)剩余部分。

虽然所有这些论文都通过限制权重矩阵的子空间直接操作,但我们在本文中表明,傅里叶域在无任何优化约束的情况下隐式地强化了这些属性。我们表明,在频率域中应用门控提供了更紧凑的表示,并具有稳定的泛化误差界。此外,结果表明每层的有效秩较低。我们还表明,不同适配器之间学习的空间也具有去相关的基。

MoLE [40]、ZipLoRA [32] 和 Mix of Show [10, 45] 探索了合并 LoRA (merge LoRA)的各种策略。这是通过监督或自监督目标共同训练对应于两个适配器的权重来完成的。随着适配器数量的增加,我们认为合并适配器的两阶段方法不灵活且相当繁琐。而 FouRA 则不需要任何微调,是一种真正的训练自由的方法来合并多个适配器。

用于编辑的解耦空间

  • [38]、[11] 探索了用于解耦可解释潜变量表示的扩散模型。
  • 虽然 LoRA 被提出用于个性化,[8] 提出了一种在保持原始图像特征的同时进行细粒度图像编辑的方法。他们识别出语义方向并在潜变量空间上沿这些方向进行移动。概念滑块(Concept sliders)已应用于实际应用中,例如修复扩散生成图像中的失真。

我们在工作中表明,我们的方法识别出了比 LoRA 更紧凑的解耦表示,从而在细粒度编辑上提供了更多性能改进。

3. 提出的方法

3.1 低秩适应的公式

我们在图 2 中展示了基本的 LoRA 模块。考虑原始的预训练权重集 W_0 ∈ R^(k1×k2),其中 k1 和 k2 分别表示输入和输出嵌入的维度。LoRA 模块由降层(down layer) A ∈ R^(k1×r) 和升层 B ∈ R^(r×k2) 组成,将输入特征投影到秩为 r 的低秩子空间并从中投影出来。考虑一个输入特征 z_in∈R^(d×k1),其中 d 是输入标记(token)的数量,低秩适应后的输出 z_out ∈ R^(d×k2) 表示为:

其中,z_og 和 z_lora 分别是原始分支和低秩分支的输出,α 是混合两个分支的标量。如 [14] 中所述,我们将学习的适配器矩阵表示为

3.2 频域中的低秩适应

投影到低秩子空间并从中投影回来容易导致信息丢失。为了解决这个问题,我们提出将输入转换到包含固有紧凑表示的域,即频域。我们的动机是将输入转换到频域可以保留有价值的信息,因为频域具有固有的解相关能力 [9, 13]。我们通过分析频率变换对模型权重的影响在第 4.1 节进一步验证这一点。

给定预训练权重矩阵 W0,我们在频域中应用低秩变换 B 和 A。受 [33] 的启发,我们将混合参数 α 内嵌在低秩子空间中,有效地作为频域中的缩放因子。我们按如下方式应用频率变换。

其中,F(⋅) 和 F^(−1) (⋅) 分别是归一化的正向和逆向频率变换。

3.3 频率变换

我们研究了离散傅里叶变换(DFT)和离散余弦变换(DCT)在低秩空间中的性质。在子空间分解之前,我们对嵌入维度 k1 ∈ (0,K) 应用一维 DFT。对于适配器分支的输入 z_in ∈ R^(d×k1),我们将方程 (5) 中的 F 展开为:

其中,f_r 是由 DFT 表示的基频。由于我们不进行任何填充(padding),变换后的维度保持与 z_in 相同。在我们的实验中,我们对每个标记在自注意力层和交叉注意力层的嵌入维度 k1 应用一维变换。

为了激发跨任务推广 FouRA 的思想,例如需要解耦潜在空间以控制生成图像的目标编辑 [8],我们进一步探索了具有紧凑子空间(特征扩展)的离散余弦变换(DCT),这导致过拟合更少。我们在附录 B.1 和图 4 中显示了 FouRA 的子空间彼此更加不相关。我们观察到,对于某些任务,DCT 提供了更平滑的表示,因为隐式窗(implicit window)是 DFT 信号的两倍。对于给定的有限长度信号 z_in ∈ R^(d×k1),我们按如下方式计算 DCT。我们首先构造一个双倍长度的偶数信号:

然后 DCT 计算为 ˜z_in 的 DFT。

3.4 自适应秩门控方法

LoRA 方法为所有层预定义秩。最近的方法 [3] 在训练过程中具有自适应秩,但在推理时固定,因此缺乏灵活性。在我们的方法中,我们提出了一种学习的自适应门控机制,可以在训练和推理过程中根据输入的不同改变每层的秩。我们在频域的低秩子空间内引入了可学习的门控机制 𝓖(·)。考虑表示为

的低秩表示,我们的门控操作定义如下:

其中,H(⋅) 和 S(⋅) 分别表示熵函数和 Sigmoid 函数,G 表示可学习的多层感知器(MLP)的权重,𝓖 是在低秩子空间中学习每个奇异值权重的函数。

图 3 中展示了 FouRA 的输出,公式如下:

学习到的 FouRA 适配器权重表示为:

如第 3.1 节中的符号所示。

我们在第 4.2 节中进一步分析了我们提出的门控函数,分析其在扩散时间步长和各种分辨率下的行为。此外,我们展示了其在固定 LoRA 和最近的固定推理自适应秩选择方法(SoRA [3])上的效率。

3.5 组合多个适配器

合并 LoRA 适配器有多个实际用途 [29]。我们根据任务的不同使用不同的方法来合并两个适配器。

文本到图像的风格迁移:按照标准方法,我们在推理过程中使用适配器 ΔW1⋅z_in 和 ΔW2⋅z_in ​的线性组合来合并两个基于 FouRA 风格的适配器。

使用概念滑块(Concept Sliders)进行图像编辑:类似于 [8],我们在第 5.3 节中使用 FouRA 进行基于文本的编辑概念滑块评估。给定 n 个概念滑块,我们定义第 n 个滑块的概念 c_(n,j)(例如 “非常老”)和负概念 ~c_(n,i) 例如 “非常年轻”)。我们在 ϵ 空间中组合适配器,组合评分函数

如下:

在不同强度 α 下合并两种风格以及两个概念适配器时,我们注意到 FouRA 适配器的特征空间相比 LoRA 更少缠结。进一步的分析在附录 B.4 和 B.2 中。

4. 理论分析

4.1 频域微调

频域变换能够解相关输入表示,最小化频谱冗余 [42],并且在压缩中有效,因为它们将大部分能量集中在少数系数上 [13]。在频谱域中学习被证明能够实现更快的收敛和更稀疏的权重矩阵 [9]。受这些优势的启发,我们提出在频域中微调适配器。

奇异值分布分析:考虑一个权重矩阵 W。这个矩阵的奇异值分解表示为 U·D·V^T,其中 U∈R^(k1×k),V∈R^(k2×k2) 是正交矩阵,D∈R^(k1×k2) 是包含 W 的奇异值的矩阵,σi ∀ i∈{ℕ^(min⁡(k1,k2))}。考虑 W 的一个秩为 r 的近似,我们将奇异值表示为 {σ1,σ2,...σr},按降序排列,对应的对角矩阵为 Dr。因此, W 的 r 秩近似计算为:

引理 4.1:考虑两个适配器 ΔW1 和 ΔW2 及其对应的一组奇异值 {σ_(1,i)} 和 {σ_(2,i)}。如果对于所有 i ≥ r,有 σ_(1,i) < σ_(2,i),则相较于 ΔW2,适配器 ΔW1 是误差较低的 r 秩近似。

我们在附录 B.1 中提供了上述引理的证明。我们通过经验分析了我们训练的 UNet 模型最后一层的 ΔW_lora 和 ΔW_foura 的 r 秩近似的奇异值分布,结果如图 4 所示。与 LoRA 相比,FouRA 具有更紧凑的奇异值分布。因此,利用引理 4.1,我们可以说,具有相同秩的 LoRA 适配器的累积误差将大于 FouRA 适配器的累积误差

4.2 门控频域微调

受到 [3, 19] 中观察结果的启发,我们提出的秩门控机制旨在改变网络中每个低秩适配器的有效秩。我们将每层的有效秩描述为未被学习门控函数掩蔽(mask)的奇异值的数量。基于 [6, 19] 的观察结果,我们提出以下引理:

引理 4.2: 考虑一个适配器 ΔW 的秩高于拟合训练数据分布所需的秩。当适配器的有效秩减少时,其微调的泛化误差 R 的上界会减少。将有效秩减少到某个值后,随着秩的进一步减少,泛化误差的上界将增加。

推论 4.2.1: 此外,当适配器权重 ΔW 的奇异值分布更紧凑时,泛化边界更稳定。

我们在附录 B.2 中提供了证明。使用引理 4.2 可以证明可变秩选择的有效性。随着 LoRA 秩的减少,模型倾向于欠拟合。然而,将秩增加到拟合训练分布所需的秩以上会导致过拟合,从而降低模型性能。在每层中动态确定有效秩产生了有前途的结果,因为它提供了可学习的泛化和过拟合之间的权衡。

在图 5 中,我们绘制了 FouRA 在反向扩散过程中 20 次迭代的去噪 UNet 的平均有效秩。我们的分析显示,高分辨率层学习到的有效秩高于低分辨率层。此外,随着去噪过程的继续,有效秩减少。这本质上意味着有噪输入需要更多的奇异值来更新。我们在图 9 中进一步观察到,我们提出的自适应掩码(在推理时变化)显著优于 SoRA 等方法(训练后冻结掩码)。

此外,根据推论 4.2.1 和图 4 中观察到的性质的结果,由于 FouRA 获得了紧凑的奇异值分布,我们可以确定,在频域中,低有效秩的泛化边界比特征空间更稳定。我们在图 9 中验证了这一点,FouRA 在我们的自适应掩码下优于 SoRA 和 LoRA。图 1 中 LoRA 模型观察到的数据复制伪影(data copying artifacts)是过拟合的结果。这一现象在最近针对数字伪造的研究中得到了观察 [34, 35]。由于 FouRA 显著减少了泛化误差,它可以生成一组多样化的图像。此外,我们在附录E.2.1 中还观察到,与 LoRA 相比,FouRA 在未见过的概念上能够更好地泛化。

4.3 子空间学习

在附录 B 中,我们提供了一个子空间视角,以经验和理论上验证 FouRA 比 LoRA 在基模型权重中学习到的子空间去相关性更强。更注重所学习的子空间集使 FouRA 能够学习新任务而不会发生灾难性遗忘。此外,我们将不同 FouRA 适配器强大的合并能力归因于各自 FouRA 所学习的解耦和去相关的子空间。

5. 实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1866297.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三十九篇:UML与SysML:掌握现代软件和系统架构的关键

UML与SysML&#xff1a;掌握现代软件和系统架构的关键 1. 引言 1.1 为什么系统设计如此关键 在当今快速发展的技术环境中&#xff0c;系统设计的重要性不言而喻。无论是软件开发还是复杂的系统工程&#xff0c;良好的设计是确保项目成功的基石。系统设计不仅关系到功能的实现…

搜维尔科技:【研究】触觉手套比控制器更能带来身临其境、更安全、更高效的虚拟体验

自然交互可提高VR模拟的有效性。研究表明&#xff0c;触觉手套比控制器更能带来身临其境、更安全、更高效的虚拟体验。 以下是验证 医疗培训中的触觉技术 “ 95.5%的参与者表示触摸是 XR 教育的重要组成部分&#xff0c;90.9% 的参与者表示 XR 触觉将提供一个安全的学习场所。…

Hadoop 2.0 大家族(一)

目录 一、Hadoop 2.0大家族概述&#xff08;一&#xff09;分布式组件&#xff08;二&#xff09;部署概述 二、ZooKeeper&#xff08;一&#xff09;ZooKeeper简介&#xff08;二&#xff09;ZooKeeper 入门 一、Hadoop 2.0大家族概述 &#xff08;一&#xff09;分布式组件 …

Mybatis 系列全解(2)——全网免费最细最全,手把手教,学完就可做项目!

Mybatis 系列全解&#xff08;2&#xff09; 1. ResultMap结果集映射2. 日志2.1 日志工厂2.2 log4j 3. 分页3.1 实现SQL分页3.2 RowBounds 分页3.3 分页插件 4. 使用注解开发4.1 面向接口编程4.2 使用注解4.3 Mybatis 详细执行过程4.4 CRUD 增删改查 5. Lombok 1. ResultMap结果…

Android Studio中HAXM安装失败的解决方案(HAXM installation failed)

文章目录 错误示例Hyper-VWindows SandboxWindows Hypervisor Platform&#xff08;Windows 虚拟化监控程序平台&#xff09; 出现原因解决方法虚拟机平台方案一方案二方案三 错误示例 表明HAXM (Hardware Accelerated Execution Manager)安装失败了。HAXM是一个硬件辅助虚拟化…

查询DBA_TEMP_FILES报错,删除临时表空间报错ORA-60100

SYMPTOMS 查询DBA_TEMP_FILES报错如下图 ORA-01157: cannotidentify/ock data fle 201 -see DBWR trace fle ORA-01110: data fle 20 1: D:APPADMINISTRATORIORADATA MARTIDATAFILE 01157,00000-"cannotidentify/ock data fle %s -see DBWR trace fle"*Cause: The b…

番外篇 | YOLOv8改进之利用轻量化卷积PConv引入全新的结构CSPPC来替换Neck网络中的C2f | 模型轻量化

前言:Hello大家好,我是小哥谈。本文使用轻量化卷积PConv替换Neck中C2f模块中Bottleneck里的传统卷积核得到CSPPC模块,使得模型更加轻量化。🌈 目录 🚀1.基础概念 🚀2.网络结构 🚀3.添加步骤 🚀4.改进方法 🍀🍀步骤1:block.py文件修改 🍀🍀步…

【MySQL】数据库事务详解

文章目录 前言1. 事务的定义2. 事务的四个特性2.1 原子性2.2 一致性2.3 隔离性2.4 持久性 3. 事务的并发问题3.1 脏读3.2 不可重复读3.3 幻读3.4 更新丢失 4. 事务的隔离级别5. 事务的使用结语 前言 假设我们现在需要操作数据库进行转账&#xff0c;A 给 B 转账 100 块钱&…

【Text2SQL 论文】MCS-SQL:利用多样 prompts + 多项选择来做 Text2SQL

论文&#xff1a;MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation ⭐⭐⭐ arXiv:2405.07467 一、论文速读 已有研究指出&#xff0c;在使用 LLM 使用 ICL 时&#xff0c;ICL 的 few-shot exemplars 的内容、呈现顺序都会敏感…

Apple - View Programming Guide

本文翻译整理自&#xff1a;View Programming Guide&#xff08;更新&#xff1a;2013-08-08 https://developer.apple.com/library/archive/documentation/Cocoa/Conceptual/CocoaViewsGuide/Introduction/Introduction.html#//apple_ref/doc/uid/TP40002978-CH1-SW1 文章目录…

Java学习笔记(多线程):CompetableFuture

本文是自己的学习笔记&#xff0c;主要参考资料如下 https://www.cnblogs.com/dolphin0520/p/3920407.html JavaSE文档 https://blog.csdn.net/ThinkWon/article/details/102508721 1、Overview2、重要参数3、主要方法3.1、创建实例&#xff0c;获取返回值3.2、线程执行顺序相关…

基于Springboot+Vue的校友社交系统(带1w+文档)

基于SpringbootVue的校友社交系统(带1w文档) 校友社交系统作为一种典型的管理系统也迅速的发展并深入人们的日常生活中&#xff0c;它使用户足不出户就可以管理自己的校友社交信息等&#xff0c;最大化减缩了用户的管理时间&#xff0c;提高了管理效率。 项目简介 基于SSMVUE的…

【TB作品】MSP430G2553,单片机,口袋板, 烘箱温度控制器

题3 烘箱温度控制器 设计一个基于MSP430的温度控制器&#xff0c;满足如下技术指标&#xff1a; &#xff08;1&#xff09;1KW 电炉加热&#xff0c;最度温度为110℃ &#xff08;2&#xff09;恒温箱温度可设定&#xff0c;温度控制误差≦2℃ &#xff08;3&#xff09;实时显…

llm-universe | 四. 构建RAG应用

构建RAG应用 一.将LLM 接入 LangChain二.构建检索问答链1.加载向量数据库2.创建一个 LLM3.构建检索问答链4.检索问答链效果测试5.添加历史对话的记忆功能5.1 记忆&#xff08;Memory&#xff09;5.2 对话检索链&#xff08;ConversationalRetrievalChain&#xff09; 三. 部署知…

【论文阅读】-- Temporal Summary Images:通过交互式注释生成和放置实现叙事可视化的方法

Temporal Summary Images: An Approach to Narrative Visualization via Interactive Annotation Generation and Placement 摘要1 引言2 背景及相关工作2.1 叙事可视化和讲故事2.2 显示面向时间的数据2.3 小倍数和漫画2.4 注释可视化 3 设计要求和工作流程3.1 工作流程3.2 TSI…

input()函数——输入

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 语法参考 input()函数可以提示并接收用户的输入&#xff0c;将所有的输入按照字符串进行处理&#xff0c;并返回一个字符串&#xff0c;input()函数的…

C3P0数据库连接池

目录 一&#xff1a;连接池介绍 1.1连接池解决的问题 2.常用的数据库连接池 二&#xff1a;c3p0介绍 2.1C3P0介绍&#xff1a; 2.2C3P0快速入门 1.常用参数说明 2.API介绍 3.使用步骤 1.导入jar包c3p0-0.9.1.2.jar 2.编写c3p0-config.xml配置文件&#xff0c;配置对…

统信UOS上鼠标右键菜单中添加自定义内容

原文链接&#xff1a;统信UOS上鼠标右键菜单中添加自定义内容 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇关于在统信UOS桌面操作系统上鼠标右键菜单中添加自定义内容的文章。通过自定义鼠标右键菜单&#xff0c;可以大大提升日常操作的效率和便捷性。本文将详细…

KVM网络模式设置

一、KVM网络模式介绍 1、NAT ( 默认上网 ) 虚拟机利用host机器的ip进行上网,对外显示一个ip;virbr0是KVM 默认创建的一个 Bridge,其作用是为连接其上的虚机网卡提供NAT访问外网的功能,默认ip为192.168.122.1 2、自带的Bridge 将虚拟机桥接到host机器的网卡上,vm和ho…

SOA和ESB介绍

SOA&#xff08;面向服务的架构&#xff09; 面向服务的架构&#xff08;Service-Oriented Architecture&#xff0c;SOA&#xff09;是一种设计理念&#xff0c;用于构建松耦合的、可互操作的、模块化的服务。在SOA架构中&#xff0c;应用程序被划分为一系列的服务&#xff0c…