多条件控制生成
- 1 分类
- 2 联合训练
- 2.1 Composer
- 2.2 Cocktail
- 2.3 SVDiff
- 3 持续学习
- 3.1 CLoRA
- 3.2 L2DM
- 3.3 STAMINA
- 4 权重融合
- 4.1 Cones
- 4.2 Custom Diffusion/Mix-of-Show
- 4.3 ZipLoRA
- 4.4 style LoRAs
- 5 基于注意力的集成方法
- 5.1 Cones2
- 5.2 Mix-of-Show
- 6 指导组合
- 6.1 Decompose and Realign
- 6.2 Face-diffuser
- 6.3 GCFG
1 分类
1.联合训练、
3.权重融合、
4.基于注意力的集成、
5.引导融合、
2.持续学习
2 联合训练
设计一个多条件框架并联合训练他们,这种方法侧重于多条件编码器和训练策略。
2.1 Composer
将所有条件(文本标题、深度图、草图)投影到与使用堆叠卷积层将空间大小与噪声潜伏期相同的均匀维嵌入。
利用联合训练策略从一组表示中生成图像,其中每个条件使用0.5的独立dropout概率,丢弃所有条件的概率为0.1,保留所有条件的概率为0.1。
2.2 Cocktail
提出可控归一化方法(ControlNorm),具有一个额外的层来生成以所有模态为条件的两组可学习参数。这两组参数用于融合外部条件信号和原始信号。
2.3 SVDiff
利用切割混合机制进行多主体生成。它通过类似CutMix的数据增强来增强多概念数据,并重写相应的文本提示。它还利用交叉注意力图上的非混合正则化,确保文本嵌入仅在对应区域有效。这种注意力图约束机制也被应用于 FastComposer [83]。
3 持续学习
持续学习方法通常被提出用于解决基于训练的条件分数预测工作中的知识“灾难性遗忘”。
3.1 CLoRA
由交叉注意力层中的连续自注意力 LoRA 组成。它利用过去的 LoRA 权重增量通过引导哪些参数可用于更新以进行连续概念学习来调节新的 LoRA 权重增量。
3.2 L2DM
设计了一个任务感知记忆增强模块和一个弹性概念蒸馏模块,该模块可以分别保护先前概念和每个过去个性化概念的知识。它利用彩虹记忆库策略来管理长期和短期记忆,并提供正则化样本来保护个性化过程中的知识。在训练期间,作者进一步提出了一个概念注意力艺术家模块和正交注意力艺术家模块来更新噪声潜在以获得更好的性能。
3.3 STAMINA
在持续学习中引入了遗忘正则化和稀疏性正则化,避免了遗忘学习的概念,确保了存储或推理的成本。
4 权重融合
在通过微调将 T2I 扩散模型适应新条件的领域,权重融合本身就呈现作为合并多种条件的直观方法。这些方法专注于实现权重的内聚混合,该混合包含每个条件,同时确保保留各个条件的可控性。目标是将各种条件方面无缝集成到一个统一的模型中,从而增强其在不同场景的多功能性和适用性。这需要在保持每个条件影响的完整性并实现有效的整体合成之间做出微妙的平衡。
由于个性化条件通常代表UNet的权重或文本嵌入,权重融合是在多个个性化条件下生成图像的一种直观有效的方法。
4.1 Cones
在个性化后进一步微调概念神经元,以获得更好的生成质量和多主体生成能力。
4.2 Custom Diffusion/Mix-of-Show
引入了一种约束优化方法来合并微调键和值矩阵
4.3 ZipLoRA
通过最小化混合 LoRA 模型和原始 LoRA 模型生成的主题/样式图像之间的差异以及内容列之间的余弦相似度来合并 LoRA 样式权重
4.4 style LoRAs
提出正交适应来替换微调中的 LoRA,鼓励定制模型具有正交残差权重以实现高效融合。
5 基于注意力的集成方法
基于注意力的集成方法调节注意力图以在合成图像中战略性地定位主题,从而可以精确控制每个条件在最终组合中表示的位置和方式。
5.1 Cones2
通过 EditedCA ← sof tmax(CA ⊕ {η(t) · Msi |i = 1, · · · , N } 编辑交叉注意力图,其中 ⊕ 表示添加交叉注意力图 CA 和预定义布局 M 的相应维度的操作,η(t) 是控制不同时间步 t 编辑强度的凹函数。
5.2 Mix-of-Show
采用区域可控的采样方法,将全局提示和多区域提示与交叉注意中的预定义掩码相结合。
6 指导组合
指导组合是一种在多个条件下合成图像的集成机制,集成了每种条件的独立去噪结果。这个过程在数学上表示为:
其中 ε(zt, ci) 表示每种条件的指导,而wi 和 Mi 是用于整合这些结果的相应权重和空间掩码。
6.1 Decompose and Realign
通过它们的交叉注意力图获得相应的 Mi。
6.2 Face-diffuser
提出了一种显著性自适应噪声融合方法,将文本驱动扩散模型和提出的主题增强扩散模型的结果结合起来。
6.3 GCFG
提出了用于以概念为中心的个性化的广义无分类器引导(GCFG),并通过手动设置强度wi来整合概念引导和控制指导。