无需训练！多提示视频生成最新SOTA！港中文腾讯等发布DiTCtrl：基于MM-DiT架构

文章链接：https://arxiv.org/pdf/2412.18597
项目链接：https://github.com/TencentARC/DiTCtrl

亮点直击

DiTCtrl，这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略，使得不同提示之间能够无缝过渡，且无需额外的训练。

首度分析了MM-DiT的注意力机制，发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力块具有相似的行为，从而实现了基于mask的精确语义控制，使得不同提示之间的生成更加一致。

推出了MPVBench，这是一个专为多提示视频生成设计的新基准，具有多种过渡类型和专门的评估指标，用于多提示视频的评估。 -大量实验表明，本文的方法在多提示视频生成任务上实现了业界领先的性能，同时保持了计算效率。

总结速览

解决的问题
当前的视频生成模型，尤其是基于单一提示（single-prompt）的模型，如Sora，主要聚焦于生成单一提示下的视频内容。它们在生成多个顺序提示（multi-prompt）的连贯场景时存在显著挑战，尤其是在动态场景中需要反映多个动作时，面临的问题包括：

训练数据要求严格；
提示跟随能力较弱；
转场不自然，缺乏平滑过渡。

提出的方案 本文提出了DiTCtrl方法。这是基于MM-DiT架构的、训练无关的多提示视频生成方法，首次能够在没有额外训练的情况下生成多提示的视频，且能够保证多个提示之间的视频内容平滑过渡。

应用的技术

MM-DiT架构：多模态扩散Transformer（Multi-Modal Diffusion Transformer）架构被用于视频生成任务，能够有效处理文本、图像和视频的联合表示。
3D全注意力机制：分析了MM-DiT的注意力机制，发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力模块相似，能够在多个提示之间共享注意力，从而实现语义一致性。
KV共享和隐混合策略：为实现视频之间的平滑过渡，提出了键值共享（KV-sharing）机制和隐空间混合（latent blending）策略，以连接不同提示生成的视频片段。

达到的效果

平滑过渡与一致性：通过DiTCtrl方法，生成的视频在多个提示之间能够实现平滑的过渡和一致的物体运动，而不需要额外的训练。
高效性能：在MPVBench基准测试上，DiTCtrl在保持计算效率的同时，取得了最先进的性能。
新基准MPVBench：为了促进多提示视频生成的研究，文章还提出了MPVBench基准，专门用于评估多提示视频生成的过渡效果和性能。

方法

本文解决了zero-shot、多提示长视频生成的挑战，无需模型训练或优化。这使我们能够生成高质量的视频，具有平滑和精确的提示间过渡，涵盖各种过渡类型（例如，风格、镜头运动和位置变化）。形式上，给定一个预训练的单提示文本到视频扩散模型和一个包含个提示的序列，所提出的DiTCtrl能够生成一个连贯的长视频，该视频能够随时间忠实地跟随这些提示，可以表示为：

MM-DiT 注意力机制分析

MM-DiT 是当前文本到图像/视频模型的基础架构，与之前的 UNet 架构有根本的不同，因为它将文本和视频映射到一个统一的序列中进行注意力计算。尽管该架构已被广泛使用，但其内部注意力机制的特性尚未得到充分探索，这限制了其在我们多提示长视频生成任务中的应用。因此，本文首次对基于最先进的视频模型（即 CogVideoX）的 3D 全注意力图中的区域注意力模式进行了全面分析。

如下图 2 所示，由于视觉和文本提示的连接，每个注意力矩阵可以分解为四个不同的区域，分别对应不同的注意力操作：视频到视频的注意力、文本到文本的注意力、文本到视频的注意力和视频到文本的注意力。以下是每个区域的详细介绍，灵感来源于先前的 UNet-like 结构中的独立注意力。

文本到视频和视频到文本的注意力
之前的 UNet-like 架构通过交叉注意力实现视频与文本的对齐。在 MM-DiT 中，文本到视频和视频到文本的注意力发挥了类似的作用。计算了所有层和注意力头的平均注意力值，然后通过选择特定的列或行来提取文本到视频和视频到文本区域的注意力值，这些列或行对应文本到视频和视频到文本区域中的token索引。接着，这些注意力值被重塑为格式，从而能够可视化每一帧的语义激活图。如上图 2 所示，这些可视化结果显示了token级语义定位的显著精度，能够有效捕捉文本描述和视觉元素之间的细粒度关系。这一发现为精确的语义控制和定位提供了强有力的基础，为借用已有的图像/视频编辑技术以增强多提示视频生成的一致性和质量提供了支持。

文本到文本和视频到视频的注意力
文本到文本和视频到视频的区域注意力在某种程度上是新的，与相应的 UNet 结构不同。如下图 3 所示，本文的分析揭示了这两个组件中相似的模式。在文本到文本的注意力组件（图 3(a)(b)，其中 (a) 表示较短提示的注意力模式，(b) 表示较长提示的模式）中，观察到一个显著的对角线模式，表明每个文本token主要关注其邻近的token。

值得注意的是，随着文本序列长度的增加，存在明显的垂直线，这些垂直线向后移动，表明所有token对文本序列末尾的特殊token保持显著关注。对于视频到视频的注意力组件，由于 MM-DiT 扁平化了空间和时间token以进行 3D 注意力计算，在单帧级别的分析揭示了空间注意力中的明显对角线模式（上图 3(c)）。更重要的是，当检查来自不同帧中相同空间位置的token构建的注意力图时，还观察到显著的对角线模式（图 3(d)）。这一特征与最近的基于 UNet 的视频模型中的空间注意力和时间注意力（如 VideoCrafter 和 Lavie）中的发现相似，符合 [25] 中的报告结果。

由于之前的工作仅训练扩散模型的特定部分以进行更高级的控制和生成，本文的发现为从 MM-DiT 角度看待这些方法提供了有力的证据。这些在 MM-DiT 架构中出现的一致对角线模式表明了帧间强相关性，这对于维持空间-时间一致性和保留视频序列中的运动忠实度至关重要。

随时间一致的视频生成

MM-DiT 中的注意力机制与 UNet-like 视频扩散模型中的行为类似。因此，提出了基于mask引导的 KV 共享策略，用于多提示视频生成任务中的一致视频生成。

如下图 4 所示，为了在提示和提示之间生成一致的视频，利用 MM-DiT 中第和第个提示的中间注意力来分别生成特定一致对象的注意力mask。这是通过对 3D 全注意力中的所有文本到视频/视频到文本部分进行平均，并使用给定的特定主题token来实现的。通过这些mask，接着执行mask引导的注意力融合，生成提示的新注意力特征。受到 MasaCtrl 的启发，直接利用提示中的键和值来引导提示的生成，从而实现随时间变化的一致外观生成。

形式上，在第步，分别使用固定的 MM-DiT 骨干网络与提示和下一个提示进行前向传递，生成中间区域的交叉注意力图。然后，对所有头和层中的注意力图进行平均，得到相同空间分辨率和时间帧的平均值。得到的交叉注意力图记作，其中是文本token的数量。接下来，获得与前景对象相关的token的平均交叉注意力图。分别将和作为从和中提取的前景对象masks。利用这些masks，可以限制在中的对象仅查询来自中对象区域的信息：

其中，是最终的注意力输出。然后，将当前步骤的特征图替换为，以便进一步计算。

用于过渡的隐混合策略

尽管之前的方法保证了片段之间的语义一致性，但要实现不同语义片段之间的平滑过渡，仍需要精心设计。因此，提出了一种隐混合策略，旨在确保不同语义片段之间的时间一致性，灵感来源于最近在单提示长视频生成中的工作 [33, 46]。

如下图 5 所示，本文的方法在相邻语义视频片段（视频和视频）之间引入重叠区域。对于重叠区域中的每个帧位置，应用一个位置相关的权重函数，该函数遵循对称分布——越靠近各自片段的帧得到更高的权重，而边界处的帧则得到较低的权重。这个加权方案确保了不同语义上下文之间的平滑过渡。

形式上，给定由提示和分别生成的两个相邻视频片段和，提出如下隐混合策略。设表示片段之间的重叠帧数。对于重叠区域中的帧位置，计算其混合隐特征：

其中，和分别是来自和的隐特征，是一个位置相关的三角形权重函数，定义为：

本文的方法的关键优势在于，它不需要额外的训练，同时能够有效地处理不同语义上下文之间的过渡。在每个去噪步骤中，首先独立处理每个片段，然后逐步使用位置相关的权重在重叠区域中融合隐特征。这一策略在保持时间一致性的同时，平滑地过渡于不同的语义上下文之间，使其特别适用于多提示视频生成任务。

实验

基于 CogVideoX-2B 实现了 DiTCtrl，CogVideoX-2B 是一种基于 MM-DiT 的先进开源文本到视频扩散模型。在实验中，生成了多提示条件的视频，每个视频片段由 49 帧组成，分辨率为 480×720。此外，还使用了 ChatGPT 来生成不同类型的多个过渡。在实验中将隐采样帧数和重叠大小设置为 13 和 6。实验在单个 NVIDIA A100 GPU 上进行。

质量结果

与当前最先进的多提示视频生成方法[33, 38, 40] 和领先的商业解决方案进行了全面的定性比较。为了确保公平比较，还在 CogVideoX 主干上实现了 FreeNoise，作为增强的基准。

如下图 6 所示，本文提出的方法在三个关键方面展示了优越的性能：文本到视频对齐、时间一致性和运动质量。尽管 Kling 在高质量视频生成方面展现了令人印象深刻的能力，但它仅限于同时的多语义混合，而不是顺序的语义过渡，这突出了在多提示视频生成任务中实现时间演变内容的重要性。

本文的比较分析揭示了现有方法的 distinct 特征和局限性。Gen-L-Video 存在严重的时间抖动和偶尔的物体消失，影响了整体视频质量。Video-Infinity 和 FreeNoise 都在场景级语义变化方面取得了成功，但缺乏物理上合理的运动——例如，在上图 6 中，车辆看似在运动，但空间位置固定，这是它们基于 UNet 的能力的限制。相比之下，FreeNoise+DiT 利用了 DiT 架构的能力实现了更真实的物体运动，但在语义过渡上存在困难，导致片段之间出现明显的中断。DiTCtrl 方法保留了预训练 DiT 模型的固有能力，同时解决了这些局限性，能够平滑地实现语义过渡，并在整个视频序列中保持运动一致性。

定量结果

首先详细介绍我们提出的用于评估多提示视频生成的新基准 MPVBench，然后讨论定量结果。

MPVBench
MPVBench 包含一个多样化的提示数据集和一个专门为多提示生成定制的新度量标准。具体来说，通过利用 GPT-4，生成了 130 个长格式的提示，涵盖 10 种不同的过渡模式。然后，对于多提示视频生成，观察到 CLIP 特征在单一提示和多提示场景之间的分布有所不同。如下图 7 所示，自然视频的特征点沿着一条连续曲线分布，而两个拼接的孤立视频的特征点则沿着两条连续曲线分布，并且在中间有一个断点。

由于常见的 CLIP 相似度计算的是邻近相似度的平均值，自然视频和孤立视频之间的差异仅在断点处发生，并且在按帧数划分后，差异会变得非常小。为了解决这一限制，提出了 CSCV（Clip Similarity Coefficient of Variation），这一度量标准专门用于评估多提示过渡的平滑度：

其中，表示帧特征，和分别是标准差和平均值。变异系数（CV）= 描述了均匀度的程度，可以大大惩罚孤立情况。函数将分数映射到范围内，分数越大越好。

自动评估
使用 MPVBench 进行自动评估。从下表 1 中可以看出，本文的方法获得了最高的 CSCV 分数，证明了在过渡处理和生成模式的整体稳定性方面具有优势。虽然 FreeNoise 排名第二，稳定性相对较强，但其他方法在这一方面显著落后，这与上图 7 中 CLIP 嵌入的 T-SNE 可视化结果一致。在运动平滑性方面，本文的方法在运动质量和一致性方面表现优越。在文本-图像相似度指标方面，尽管 FreeNoise 和 Video-Infinity 获得了更高的分数，但这可以归因于我们方法的 KV-sharing 机制，在该机制下，后续视频片段本质上从前面的语义内容中学习。

如前面图6所示，本文的设计选择允许路面逐渐过渡到雪地条件，同时保留之前场景的特征。尽管可能会导致较低的文本-图像对齐得分，但它确保了序列中的语义连续性。在实际应用中，这种权衡并不会对多提示场景中的视觉质量产生负面影响，如下面我们展示的用户研究结果所示。

人类评估
邀请了28名用户评估五个模型：Gen-L-Video、Video-Infinity、FreeNoise、FreeNoise+DiT 和本文的方法。使用5点Likert量表（1代表低质量，5代表高质量）。参与者根据16个不同场景生成的视频，考虑整体偏好、运动模式、时间一致性和文本对齐情况对每种方法进行评分。正如下表2所示，本文的方法在所有四个标准上显著超越了其他现有方法，展示了在生成具有自然语义过渡的视频方面的卓越能力，能够更好地与人类对视觉连贯性和连续性的偏好相符。

消融研究

进行消融研究，以验证DiTCtrl关键组件的有效性：隐融合策略、KV-sharing机制和掩模引导生成，如下图8所示。第一行显示了直接使用文本-视频模型的结果，导致场景变化突兀，运动模式断裂，无法保持从冲浪到滑雪过程中运动的一致性。第二行表明，未使用隐融合策略的DiTCtrl能够实现基本的视频编辑功能，但场景之间缺乏平滑过渡。没有KV-sharing（第三行）的DiTCtrl表现出不稳定的环境过渡和显著的运动伪影，角色缩放不一致，动作变形。此外，没有掩模引导（第四行）的DiTCtrl提高了运动一致性和过渡效果，但在不同提示和环境之间的对象属性混乱方面存在问题。另一方面，完整的DiTCtrl实现提供了对生成内容的最精确控制，展示了卓越的对象一致性和更平滑的提示过渡，同时保持所需的运动模式。这些结果验证了对MM-DiT注意力机制的分析及其在实现准确语义控制中的作用。

结论

本文介绍了DiTCtrl，一种基于MM-DiT架构的多提示视频生成的创新方法，且无需额外的训练。对MM-DiT的注意力机制进行了开创性的分析，揭示了其与UNet-like扩散模型中的交叉/自注意力模块的相似性，这使得在提示之间能够实现mask引导的语义控制。通过引入KV共享机制和隐融合策略，DiTCtrl确保了语义段之间的平滑过渡和一致的对象运动，无需额外的训练。此外，还提出了MPVBench，这是首个针对多提示视频生成的广泛评估框架，旨在推动该领域未来的研究。

局限性与未来工作 尽管本文的方法展示了最先进的性能，但仍然存在两个主要局限性。首先，与图像生成模型相比，当前开源的视频生成模型在概念组合能力上较弱，偶尔会导致不同语义段之间的属性绑定错误。其次，基于DiT架构的计算开销对推理速度提出了挑战。这些局限性为未来研究提供了有前景的方向，特别是在增强语义理解和架构效率方面。