超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！

论文链接：https://arxiv.org/pdf/2407.21475
github链接： https://densechen.github.io/zss/

亮点直击

本文提出了一种新颖的zero-shot视频采样算法，该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。

本文提出了一个依赖噪声模型和时间动量注意力机制，首次能够灵活地控制生成视频中的时间变化。

通过广泛的应用展示了本文方法的有效性，包括条件和专门的视频生成，以及由文本指令指导的视频编辑。

将时间维度引入预训练的图像扩散模型中用于视频生成是一种常见的方法。然而，这种方法计算量大，并且需要大规模的视频数据集。更为关键的是，图像和视频数据集之间的异质性常常导致图像专业知识的灾难性遗忘。最近，直接从图像扩散模型中提取视频片段的尝试在一定程度上缓解了这些问题。然而，这些方法只能生成带有简单运动的短视频片段，无法捕捉细粒度的运动或非网格变形。

本文提出了一种新颖的zero-shot视频采样算法，称为，能够直接从现有的图像生成方法（如Stable Diffusion）中采样高质量的视频片段，而无需任何训练或优化。具体来说，利用依赖噪声模型和时间动量注意力机制，分别确保内容一致性和动画连贯性。这一能力使其在相关任务中表现出色，例如条件和上下文专门化的视频生成以及指导性的视频编辑。实验结果表明，在zero-shot视频生成方面达到了最先进的性能，有时甚至超越了最近的监督方法。

依赖噪声模型

图像扩散模型经过训练，可以从扰动图像中消除独立噪声。去噪目标中的噪声向量采样自独立同分布的高斯分布。然而，在训练图像扩散模型并将其应用于逐帧将真实视频帧反向映射到噪声空间后，不同帧对应的噪声图显示出高度相关性。

在这项研究中，目标是探索噪声先验的设计空间，并提出一种最适合视频采样任务的模型，从而显著提高性能。本文将对应于单个视频帧的噪声表示为，其中对应于噪声张量的第个元素。PYoCo开发了两种直观的噪声模型，即混合噪声模型和渐进噪声模型，以在之间引入相关性。

混合噪声模型，也称为残差噪声模型或个体噪声模型，已在[21]中用于加速视频扩散模型的收敛。在混合噪声模型中，本文生成两个噪声向量：。是跨所有视频帧共享的通用噪声向量，而是每帧的个体噪声。最终噪声是这两个向量的线性组合：。

渐进噪声模型，也称为线性噪声模型，以自回归方式为每一帧生成噪声，其中是通过扰动生成的。设表示为第一帧和第帧生成的独立噪声。然后，渐进噪声可以表示为：。

在这两种模型中，参数的范围从0到1，控制跨不同视频帧共享的噪声程度。较大的表示不同帧对应的噪声图之间的相关性更强。当接近1时，所有帧都被赋予相同的噪声，从而创建一个静态视频。相反，表示独立同分布（i.i.d.）噪声。

在训练视频扩散模型时使用混合和渐进噪声模型已证明是有效的，如[11]所示。这种方法使得在训练过程中能够有效地学习帧之间的动画过渡。

依赖噪声模型

为了生成更具结构化的噪声序列，以更有效地封装动画，本文提出了一种新颖的依赖噪声模型。该模型采用KL散度作为调节机制来控制两个连续帧之间的相关性。具体来说，该模型规定，对于所有，和之间的KL散度应近似为。这一要求需要最小化以下目标函数：

对于。这里，作为两个连续帧之间KL散度的控制参数。通过调整，本文可以更有效地调节帧间内容变化的速率。当时，所有帧都包含相同的噪声，导致生成静态视频，这种情况类似于。相反，当时，对应于独立同分布（i.i.d.）噪声。

回到公式1，给定，可以通过以下公式计算：

这一推导源于KL散度的定义。然而，这种解析解并不一定始终符合约束，即。事实上，随着视频序列的延长，这种解析解往往会显著偏离正态分布，导致采样的噪声无法通过扩散模型生成有效内容。

如下面算法1所示，本文提出了一种两阶段噪声搜索算法，这与传统的解析解方法有所不同。

在第一阶段，即随机搜索阶段，本文通过从正态分布中采样生成一组独立噪声。选择与进行比较时KL散度最接近的噪声作为的初始值，记为。

在随后的阶段中，本文旨在找到一个系数，使得

从而最小化公式1。

时间动量注意力

为了利用跨帧注意力的潜力，并使用预训练的图像扩散模型而无需重新训练，FateZero将每个自注意力层替换为跨帧注意力。在这种设置中，每一帧的注意力主要集中在初始帧。类似的结构也在 [19] 中采用。

更详细地说，在原始的UNet架构中，每个自注意力层接收一个特征图，然后将其线性投影成查询、键和值特征。该层的输出使用以下公式计算（为简化起见，这里仅描述一个注意力头）：

在视频采样的上下文中，每个注意力层接收个输入：。因此，线性投影层生成个查询、键和值。因此，本文将每个自注意力层替换为跨帧注意力，其中每一帧的注意力集中在初始帧，如下所示：

跨帧注意力的应用有助于将外观、结构以及物体和背景的身份从第一帧传递到后续帧。然而，这种方法缺乏相邻帧之间的连接，这可能导致生成的视频序列中出现显著的变化，如下图3所示。

时间动量注意力

本文的观察表明，自注意力由于缺乏帧间上下文，会导致采样特征的多样性更高。另一方面，跨帧注意力仅依赖于初始帧的信息。这虽然保证了采样结果的一致性，但也导致了多样性的减少。

为了在自注意力和跨帧注意力的不同效果之间取得平衡，本文引入了时间动量注意力（Temporal Momentum Attention, TMA）。TMA的数学表示如下：

这适用于，其中

并且。同样的定义也适用于。

显然，当所有的值都设置为 1 时，TMA 等效于跨帧注意力。相反，当所有的值都设置为 0 时，TMA 等效于自注意力。如下图 4 所示，通过适当地控制的值，本文可以生成更优的视频序列。

高效计算。一种直接的方法是使用 for 循环逐个计算的值。然而，为了充分利用 GPU 的计算能力，本文建议使用矩阵运算来同时计算所有的值。这种方法特别需要构造一个上三角系数矩阵。的向量通过如下矩阵乘法操作获得：

其中

一般来说，当的指数相对较大时，接近 0。这些元素可以忽略，以进一步减少计算开销。

Zero-Shot 视频采样算法

通过结合依赖噪声模型和时间动量注意力，本文成功地利用现有的 DDIM 算法从图像扩散模型中采样出高质量的视频。这个过程在上面的算法 1 中进行了概述。

有趣的是，当视频采样单个图像时，即，依赖噪声模型简化为随机噪声模型，时间动量注意力简化为自注意力。这表明，无论赋予和什么值，采样算法将始终生成与原始 DDIM 算法相同的结果。这个特性确保了算法与各种采样算法和编码框架的高度兼容性，消除了额外项目维护的需求。

与相关工作的比较。 Text2Video-Zero 和是同时代的工作，均旨在开发创新的zero-shot视频生成采样方法。然而，Text2Video-Zero 为了实现令人满意的采样结果，在潜在代码中引入了运动动态，需要额外的 DDIM 向后和 DDPM 向前计算。为了进一步确保视频背景的连续性，它还采用了一种显著性检测方法进行背景平滑。这不仅增加了计算开销，还使算法实现复杂化，从而限制了其灵活性和适用性。相比之下，在这些方面提供了显著的优势。此外，本文的实验结果表明，采样的视频片段明显优于 Text2Video-Zero 生成的片段。

实验

文本与视频任务的综合比较

在本研究中，本文从定量和定性两个方面对本文的方法和另一个zero-shot视频合成方法 Text2Video-Zero 进行了广泛的比较。

从定量角度来看， 本文使用CLIP评分，一种用于视频-文本对齐的度量标准进行评估。本文随机选择由DDIM和Text2Video-Zero生成的100个视频，使用五种不同的扩散模型，总共500个视频。然后，本文使用相同的提示按照本文的方法合成相应的视频，其中DDIM采样个独立图像。CLIP评分如下表1所示。两种方法都改变了扩散模型的推理和采样过程，这可能在训练期间引入未知的噪声分布，从而影响采样质量。然而，正如CLIP评分所示，本文的方法产生的结果与DDIM更为一致，从而展示了本文方法的优越性和通用性。有趣的是，对于某些扩散模型，本文甚至在CLIP评分上超过了DDIM。本文将此归因于在采样过程中有效利用时间信息，从而提高了单帧采样的质量。

从定性角度来看， 本文在上图3中提供了一些生成视频片段的可视化。本文方法生成的视频片段明显表现出更优越的连续性，显著减少了突兀的帧。与[19]中的简单上下物体运动相比，本文的依赖噪声模型采样的噪声可以扩散出更具体、复杂的运动，并在不同的扩散模型中很好地泛化，如下图2所示。结合时间动量注意力，本文的方法可以为更具挑战性的对象生成更复杂的运动，例如流体的非刚性变形、复杂的烟雾扩散效果，甚至是微妙的面部微表情，如下图1所示。

与监督视频扩散模型的定性比较 在下图6中，本文展示了由和各种监督视频扩散模型生成的短视频的比较。显然，本文的方法采样的视频帧通常显示出更优的图像质量，而视频扩散模型采样的视频帧则明显模糊。这种差异主要源于训练过程中缺乏大量的视频片段（数量级为百万），相比之下，图像数据集的数量级为数百亿。这种固有的数据不足导致了视频扩散模型输出的质量不佳。因此，通常采用视频与图像结合训练的方法，或者基于预训练的图像扩散模型进行训练。然而，这种方法未能充分利用图像的先验知识，导致随着训练的进行，图像专家的显著遗忘。

通过结合时空超分辨率模型进行后处理，本文可以将采样的视频片段转换为高分辨率且更流畅的视频片段，如下图5所示。本文的方法首先通过zero-shot采样视频片段，然后应用时空超分辨率模型进行后处理，有效地绕过了图像专家的遗忘问题，并为视频生成提供了一种新颖的解决方案。

扩展

算法在各种任务中表现出卓越的适应性。为了说明这一点，本文基于ControlNet进行了条件生成，基于DreamBooth进行了专门生成，并基于Instruct Pix2Pix实现了Video Instruct-Pix2Pix任务。本文在补充材料和本文的主页上展示了相应的结果。从这些图中可以明显看出，本文的算法在各种任务上下文中都能取得令人满意的结果。

结论

总之，本文提出了，这是一种开创性的zero-shot视频采样算法，专门设计用于高质量、时间一致性的视频生成。本文的方法无需优化或微调，可以轻松地与各种图像采样技术结合，从而使文本到视频的生成及其相关应用更加普及。本文的方法在多种应用中得到了验证，如条件生成、专门生成和指令引导的视频编辑。本文认为，可以激发出更优方法的发展，从图像扩散模型中采样高质量视频片段。这种改进仅需调整现有的采样算法，无需任何额外的训练或计算开销。