【多条件控制生成模型综述】

news2025/7/3 18:55:33

多条件控制生成

1 分类
2 联合训练
- 2.1 Composer
- 2.2 Cocktail
- 2.3 SVDiff
3 持续学习
- 3.1 CLoRA
- 3.2 L2DM
- 3.3 STAMINA
4 权重融合
- 4.1 Cones
- 4.2 Custom Diffusion/Mix-of-Show
- 4.3 ZipLoRA
- 4.4 style LoRAs
5 基于注意力的集成方法
- 5.1 Cones2
- 5.2 Mix-of-Show
6 指导组合
- 6.1 Decompose and Realign
- 6.2 Face-diffuser
- 6.3 GCFG

1 分类

1.联合训练、
3.权重融合、
4.基于注意力的集成、
5.引导融合、
2.持续学习

2 联合训练

设计一个多条件框架并联合训练他们，这种方法侧重于多条件编码器和训练策略。

2.1 Composer

将所有条件（文本标题、深度图、草图）投影到与使用堆叠卷积层将空间大小与噪声潜伏期相同的均匀维嵌入。
利用联合训练策略从一组表示中生成图像，其中每个条件使用0.5的独立dropout概率，丢弃所有条件的概率为0.1，保留所有条件的概率为0.1。

2.2 Cocktail

提出可控归一化方法（ControlNorm），具有一个额外的层来生成以所有模态为条件的两组可学习参数。这两组参数用于融合外部条件信号和原始信号。

2.3 SVDiff

利用切割混合机制进行多主体生成。它通过类似CutMix的数据增强来增强多概念数据，并重写相应的文本提示。它还利用交叉注意力图上的非混合正则化，确保文本嵌入仅在对应区域有效。这种注意力图约束机制也被应用于 FastComposer [83]。

3 持续学习

持续学习方法通常被提出用于解决基于训练的条件分数预测工作中的知识“灾难性遗忘”。

3.1 CLoRA

由交叉注意力层中的连续自注意力 LoRA 组成。它利用过去的 LoRA 权重增量通过引导哪些参数可用于更新以进行连续概念学习来调节新的 LoRA 权重增量。

3.2 L2DM

设计了一个任务感知记忆增强模块和一个弹性概念蒸馏模块，该模块可以分别保护先前概念和每个过去个性化概念的知识。它利用彩虹记忆库策略来管理长期和短期记忆，并提供正则化样本来保护个性化过程中的知识。在训练期间，作者进一步提出了一个概念注意力艺术家模块和正交注意力艺术家模块来更新噪声潜在以获得更好的性能。

3.3 STAMINA

在持续学习中引入了遗忘正则化和稀疏性正则化，避免了遗忘学习的概念，确保了存储或推理的成本。

4 权重融合

在通过微调将 T2I 扩散模型适应新条件的领域，权重融合本身就呈现作为合并多种条件的直观方法。这些方法专注于实现权重的内聚混合，该混合包含每个条件，同时确保保留各个条件的可控性。目标是将各种条件方面无缝集成到一个统一的模型中，从而增强其在不同场景的多功能性和适用性。这需要在保持每个条件影响的完整性并实现有效的整体合成之间做出微妙的平衡。
由于个性化条件通常代表UNet的权重或文本嵌入，权重融合是在多个个性化条件下生成图像的一种直观有效的方法。