长视频生成研究的挑战、方法与前景

人工智能咨询培训老师叶梓转载标明出处

长视频生成面临的主要挑战包括如何在有限的计算资源下生成长时间、高一致性、内容丰富且多样化的视频序列。另外现有研究中对于“长视频”的定义并不统一，这给研究的标准化和比较带来了困难。来自西安电子科技大学、上海交通大学、悉尼大学等机构的研究者提出，将视频长度超过10秒或包含超过100帧的视频定义为“长视频”，为后续研究提供了一个清晰的基准，图 1 “研究中长视频长度定义概览” 汇集了51项研究对长视频长度的定义，展示了不同的标准。其中，有29项研究提供了具体的长度标准：7项以视频持续时间来定义，22项以帧数来定义。剩余的研究则没有明确指出视频的具体长度。本文还系统地回顾了长视频生成领域的最新研究进展，并提出了未来可能的发展方向。

图 2 为长视频生成技术的发展提供了一个时间线，长视频生成技术随时间的演进，包括不同的生成模型如扩散模型、空间自回归模型、生成对抗网络（GAN）和掩模建模，以及两种主要的长视频生成范式：分而治之和时序自回归。

长视频生成基础技术

扩散模型 采用迭代细化过程，从一系列随机噪声开始，逐步去噪以生成连贯的视频序列。每一步都由学习到的梯度引导，这些梯度基于单帧的空间内容和连续帧之间的时间关系进行预测性去噪。这种方法允许生成的视频不仅在视觉上与前一帧保持一致，还有助于整个序列的流畅性。

空间自回归模型 通过基于补丁的方法合成内容，每个补丁的创建都依赖于与之前生成的补丁的空间关系。这个过程类似于递归算法，一次生成一个补丁，从而逐帧构建视频，直到完成。在此框架内，补丁之间的空间关系至关重要，因为每个后续补丁都必须与相邻补丁无缝对齐，以确保整个帧的视觉连贯性。

生成对抗网络（GAN） 在视频生成中，从生成器开始，将简单的噪声模式转化为视频帧序列。这种噪声本质上是随机的，作为视频制作初始的空白状态。通过神经网络层，生成器逐渐将这种噪声塑造成看起来像视频帧的图像，确保每一帧都逻辑上跟随前一帧，从而创造出平滑的动作和可信的叙事。从噪声到视频的演变通过来自鉴别器的反馈进行优化，鉴别器是一个判断生成视频看起来真实或虚假的组件。生成器从这一判断中学习，随着时间的推移提高其产生更逼真视频的能力。

掩码建模 利用选择性遮盖视频帧某些部分的概念来增强模型的学习过程。这种技术首先在视频中应用掩码，有效地在训练期间隐藏模型的某些部分。然后，模型学会基于可见的上下文和视频的时间流动预测这些被掩码的部分。这个过程不仅迫使模型理解视频内容的基本结构和动态，还提高了其生成连贯和持续视频序列的能力。

长视频生成过程中控制信号通常用于控制视频内容和风格。文本提示通过文本描述指定主题、情节和角色行为等方面，引导模型生成相关视频内容。图像提示影响生成视频中的视觉风格、场景或对象。通过引用输入图像，模型可以产生视觉上连贯且与提示相关的内容。视频提示则能够维持输入视频的风格、动作导向和情感连续性。

长视频生成范式

分而治之范式通过将复杂的长视频生成任务分解为更易于管理的小任务，使得模型能够专注于视频创作中的关键帧生成和帧填充两个不同方面。这种方法的核心在于：

层次化架构：首先生成概述视频故事线的关键帧，然后填充中间帧以完成叙述。全局模型擅长制作故事线关键帧，而局部模型填补叙述中的空白。例如，Yin et al. (2023) 提出了一种基于3D-UNet的扩散模型架构，专门用于这种分段方法。Ge et al. (2022) 引入了一种层次化变换器架构，旨在增强长视频叙述中的时间敏感性和插值。

阶段性模型架构：为了适应长视频的灵活性，Brooks et al. (2022) 提出了分而治之策略的新应用。他们专注于最初生成低分辨率序列，然后通过低分辨率GAN进行粗略场景设置和超分辨率StyleGAN3进行细节细化，从而增强到高分辨率。这种方法有效地捕捉了在延长时间内运动和叙事发展的本质，实现了高分辨率长视频生成的目标。

通过掩码建模简化模型架构：在长视频生成的背景下，通过掩码建模简化模型架构已证明有效，将关键帧的创建和填充帧的过程合并为一个统一且更简化的流程。例如，Hong et al. (2022) 通过掩码不同条件作为关键帧和填充帧生成的输入，简化了全局和局部扩散模型为单一模型。Huang et al. (2023) 专注于通过掩码布局整合简化详细场景和叙事元素的生成，确保关键叙事点在整个长视频中得到有效强调和交织。

时间自回归范式采用顺序方法，基于先前条件生成短视频片段。这种范式的目标是确保片段之间的流畅过渡，从而实现连续的长视频叙事。与分而治之范式不同，时间自回归范式不采用层次化结构，而是专注于直接生成由前面帧信息指导的详细片段。

扩散模型与自回归结合：在自回归范式中，长视频生成过程被简化为顺序创建视频片段，从而降低生成长视频的复杂性。通过利用潜在空间数据表示来有效管理这些先前条件，然后通过改进模型架构来增强未来预测的一致性。例如，Zeng et al. (2023) 和 Gu et al. (2023) 提出了将视频数据压缩到统一的3D潜在空间中的技术，而 Yu et al. (2023) 则采用了将时间和空间信息分离到不同的2D空间中的创新方法。

空间自回归模型与时间自回归结合：将空间自回归模型，特别是变换器架构，适应于时间自回归范式下生成长视频。这些模型特别擅长处理标记化的序列样式输入，使得视频样本可以分割成小块进行更有效的处理和建模。

图3 展示了这两种范式的概览。它展示了使用分而治之范式生成长视频的层次化生成过程（由Yin et al. (2023) 演示），以及使用时间自回归范式生成长视频的过程，后者为了简化理解，用相同的视频帧来演示。

自回归扩散模型利用潜在空间数据表示来有效管理先前条件，并通过改进模型架构来增强未来预测的一致性。这种自回归范式与扩散模型设计的结合，使得能够生产出无缝且时间上连贯的长视频叙事。

为了有效处理视频内容的复杂数据属性并优化计算和存储资源，Yu et al. (2023) 提出了将时间和空间信息分离到不同的2D空间中的创新压缩方法。另外为了提高视频片段生成的质量，Blattmann et al. (2023) 和 Gu et al. (2023) 通过将时间层（如注意力层和卷积层）整合到扩散模型中，使模型能够把握视频时间性的复杂性。

空间自回归模型，特别是变换器架构，特别擅长处理标记化的序列样式输入，使得视频样本可以分割成小块进行更有效的处理和建模。为了增强模型捕获长视频本质的能力，研究集中在增强模型的可扩展性和建模能力。

Liang et al. (2022) 将视频帧转换为可变大小的补丁，并结合位置数据进行空间上下文的处理。为了节约计算资源，自回归变换器模型和扩散模型都将视频数据压缩到潜在空间中。Nash et al. (2022) 通过交叉注意力机制整合了时间和空间注释，增强了模型对顺序视频帧的预测准确性。Ren and Wang (2022) 利用自注意力将相机运动轨迹与帧数据结合起来，使自回归变换器能够准确预测新的相机位置及其相关图像。

GAN模型以其生成器鉴别器架构而闻名，通过创新性地将先前条件分解为两个基本元素：上下文和运动，从而在长视频生成中采用更精细的时空建模方法。这种动态-静态分离技术有助于区分视频中的移动元素和静态背景。

动态-静态分离：通过将视频样本分为上下文和运动方面，GAN能够更准确地再现视频中不断演变的动作和不变的场景（Yang and Bors, 2023）。
生成器设计创新：常见的卷积网络与策略性噪声引入相结合，构成了在潜在空间中新帧生成的基础（Skorokhodov et al., 2022; Yu et al., 2022）。Yang and Bors (2023) 提出了一种回忆机制，确保视频剪辑之间时间上的无缝连接，以半帧重叠为特征，实现运动流的不间断。
鉴别器设计的进步：Skorokhodov et al. (2022) 开发了一种基于超网络的方法，将图像和视频判别统一到一个过程中，简化了视频内容的评估。同时，Yu et al. (2022) 通过帧对之间的关系分析，改进了评估技术，这不仅允许对长视频序列进行更细致的判别，还有助于资源效率。

掩码建模显著提高了模型在训练过程中学习样本分布的适应性，并简化了生成阶段模型的重用。

训练中的掩码建模：引入了基于伯努利分布或预定模式的概率掩码，选择性地遮盖输入帧的部分，这种方法使模型能够通过比较未遮盖和遮盖数据之间的损失函数来学习潜在的数据分布（Chen et al., 2023b; Blattmann et al., 2023; Villegas et al., 2022; Yoo et al., 2023）。
生成中的掩码建模：在生成阶段，掩码建模在确定接下来要生成的帧中起着至关重要的作用。通过使用视频和文本提示作为初始条件，该方法通过遮盖时间上遥远的帧并专注于序列中较近的帧来动态更新这些提示。这种方法允许上下文的持续刷新，使自回归模型能够产生具有增强连贯性和相关性的扩展序列（Villegas et al., 2022; Yoo et al., 2023）。

照片级真实感的长视频生成

尽管现有模型能够在资源限制下逐步生成长视频，但仍然面临着帧跳跃、运动不一致性和场景转换突兀等挑战。为了生成高质量的长视频，实现时间-空间一致性至关重要。这种一致性确保了视频在视觉上和时间上的连贯性，和谐地融合了各种空间元素和时间序列。研究主要分为两个方面：

模型结构增强：通过向模型添加层来增强时间-空间特征的建模。例如，Harvey et al. (2022) 提出了在空间注意力层之后添加时间注意力层的组合方法，使得模型能在每个帧内以及不同时间帧的相同空间位置上进行空间和时间的注意力集中。Voleti et al. (2022) 引入了在U-Net的残差块内加入SPATIN模块，通过上采样和下采样模块传递时间-空间动态，从而促进新帧的生成。
先前条件建模：先前条件包含了丰富的输入信息，决定了生成的结果。隐式和显式方法的应用在加强视频片段的时间-空间一致性方面发挥了重要作用。Yu et al. (2023) 通过考虑共享背景和运动内容对视频进行解耦编码，得到三个类似图像的2D潜在表示。Blattmann et al. (2023) 引入了一个在自编码器的解码器部分构建的具有3D卷积的时间鉴别器，用于微调生成的视频数据。

确保内容的连续性对于保持长视频动作和叙事的连贯性至关重要。这需要视频片段和帧的无缝融合，支撑视频故事线的流畅和自然发展。

模型结构增强：Luo et al. (2023) 将视频帧和噪声分解为一个沿时间轴变化的共享组件和残差组件，更好地捕捉变化特征，减少对无关特征的关注，避免生成冗余内容。
训练和生成策略：Voleti et al. (2022) 采用直接在长视频上训练的简单方法，以消除预测和真实长视频之间的差距，实现连续性和一致性的目标。

长视频生成中的多样性是一个关键的探索领域。为了提升长视频中的创造力和创新性，现有研究已经进入了几个关键领域，包括改变尺寸、提高分辨率、引入内容元素、丰富动作多样性和纳入视角变化。

分辨率改进和可变尺寸：Blattmann et al. (2023) 通过在训练期间使用具有不同时间分辨率的视频数据集，并引入掩码建模来掩盖填充帧，实现了高帧率长视频的生成。
视角变化：Nash et al. (2022) 和 Tseng et al. (2023) 专注于在长视频中生成新视角，通过将不同视角的视觉条件作为输入的一部分，并使用模型通过添加诸如极点注意力层等层来增强视角的结构建模。