当前的可控生成方法如ControlNet、Adapaters和ReferenceNet等通常需要大量额外的计算资源,尤其是对于视频生成,并且在训练中面临挑战或表现出较弱的控制力。
对此,港中文提出了一种轻量级可控模块:ControlNeXt,这是一种强大而有效的可控图像和视频生成方法。它被设计成一个更直接、更高效的架构,与基础模型相比,以最小的额外成本替换了繁重的额外分支。ControlNeXt方法还可以与其他 LoRA 权重无缝集成,从而无需额外训练即可实现风格转换。
ControlNeXt可以针对各种基础模型如SD1.5,SDXL,SD3,SVD和任务如具有各种条件的图像/视频生成。
亮点直击
-
文本介绍了ControlNeXt,这是一种强大而有效的图像和视频生成方法,可显著减少延迟开销和参数。
-
引入了交叉归一化来微调预训练大模型,促进高效稳定的训练收敛。
-
ControlNeXt可以用作轻量级即插即用模块。可以与其他LoRA权重集成以改变生成样式,而无需额外的训练。
相关链接
项目:github.com/dvlab-research/ControlNeXt
论文:arxiv.org/abs/2408.06070
论文阅读
ControlNeXt: 强大而高效的图像和视频生成控制
摘要
扩散模型在图像和视频生成方面都表现出了卓越而强大的能力。为了更好地控制生成结果,研究人员引入了额外的架构如ControlNet、Adapters和ReferenceNet,以集成条件控制。然而,当前的可控生成方法通常需要大量额外的计算资源,尤其是对于视频生成,并且在训练中面临挑战或表现出较弱的控制力。
在本文中,我们提出了 ControlNeXt:一种强大而有效的可控图像和视频生成方法。我们首先设计了一个更直接、更高效的架构,与基础模型相比,以最小的额外成本替换了繁重的额外分支。这种简洁的结构还使我们的方法可以与其他 LoRA 权重无缝集成,从而无需额外训练即可实现风格改变。至于训练,与其他方法相比,我们减少了高达 90% 的可学习参数。此外,我们提出了另一种称为交叉归一化 (CN) 的方法,以替代“零卷积”,以实现快速稳定的训练收敛。在图像和视频中使用不同的基础模型进行了各种实验,证明了我们方法的稳健性。
方法
ControlNeXt的训练流程。本文探索了一个比直接采用可训练的更显着的参数效率框架。
架构剪枝
ControlNet的关键创新是增加了一个控制分支,该分支提取控制条件并将其注入到主网络中。该分支共享去噪Unet的半个分支的可训练参数,并且执行并行操作,使用零卷积作为集成条件控制的桥梁。这种额外分支的设计引入了巨大的推理成本,额外分支最多增加了50%的延迟。
ControlNeXt删除了控制分支,并将其替换为仅由多个ResNet块组成的轻量级卷积模块。该模块比预训练模型小得多,旨在从条件控制中提取引导信息,并将其与去噪特征对齐。
ControlNeXt实现了显著更快的训练收敛和数据拟合。它可以学习适应条件控制较少的训练步骤,也显著缓解了突然收敛问题。
交叉归一化
作者发现训练崩溃的关键原因是引入的模块和预训练模型之间的数据分布不对齐和不兼容。经过大规模数据训练后,预训练生成模型通常具有稳定的特征和数据分布,其特征是均值和标准差一致。ControlNeXt引入了交叉归一化代替零卷积,保证了训练的稳定和高效。降低了对网络权值初始化的敏感性。
ControlNeXt的参数效率。本文提出 具有各种基本模型的可学习参数的数量。
ControlNeXt还支持各种条件控件类型。选择“mask”,“depth”,“canny”和“pose” 如条件控件,分别从上到下显示。
给出了稳定视频扩散的详细生成结果。我们利用姿势序列作为角色的指导动画。
效果
上图给出了SDXL的详细生成结果。我们从输入的自然图像中提取Canny边缘使用我们的SDXL模型实现样式转换。
我们的方法可以作为一个即插即用模块 适应各种生成模型和LoRA权重,使 不需要训练就可以改变生成风格。
ControlNeXt作为插件单元,以确保稳定 以最小的成本生成。
更多结果
结论
本文介绍了 ControlNeXt,一种先进而高效的可控图像和视频生成方法。 ControlNeXt 采用精简简洁的架构,消除了繁重的辅助组件,以最大限度地减少延迟开销并减少可训练参数。这种轻量级设计使其能够充当具有强大鲁棒性和兼容性的即插即用模块,进一步允许与其他 LoRA 权重集成以改变生成风格而无需额外训练。我们提出了交叉归一化,用于使用新引入的参数对预训练的大型模型进行微调,从而促进更快、更稳定的训练收敛。在各种图像和视频生成主干上进行的大量实验证明了我们方法的有效性和鲁棒性。