Diffusion Models专栏文章汇总:入门与实战
DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control
本文提出了一个名为DisenStudio的框架,用于定制化多主题文本到视频的生成。该框架旨在解决现有文本到视频生成模型在处理多主题视频时遇到的主体缺失和属性绑定问题,以及动作绑定问题,即现有模型难以将期望的动作准确分配给相应的主题。DisenStudio通过引入空间解耦的交叉注意力机制来增强预训练的扩散模型,以关联每个主题与期望的动作,并采用运动保持解耦微调策略来定制多主题。