寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

论文链接：https://arxiv.org/pdf/2407.21705
项目链接：https://ali-videoai.github.io/tora_video/

亮点直击

本文引入了Tora，这是第一个轨迹导向的DiT用于视频生成。如下图2所示，Tora无缝整合了广泛的视觉和轨迹指令，从而能够熟练地创建可操控运动的视频。

为了与DiT的可扩展性保持一致，本文设计了一种新颖的轨迹提取器和运动引导融合机制，以获取时空运动块，随后将这些块注入DiT块中。本文对几种架构选择进行了消融实验，并为未来基于DiT的运动控制研究提供了实证基线。

实验表明，Tora能够生成具有不同纵横比的720p分辨率视频，最长可达204帧，所有这些都由指定的轨迹引导。此外，它在模拟物理世界中的运动方面表现出色。

最近在 Diffusion Transformer (DiT) 方面的进展展示了其在生成高质量视频内容方面的卓越能力。然而，基于transformer的扩散模型在有效生成具有可控运动的视频方面的潜力仍然是一个探索有限的领域。本文介绍了Tora，这是第一个轨迹导向的DiT框架，它同时整合了文本、视觉和轨迹条件用于视频生成。具体来说，Tora由轨迹提取器 (TE)、时空DiT和运动引导融合器 (MGF) 组成。TE通过3D视频压缩网络将任意轨迹编码为分层时空运动块。MGF将运动块整合到DiT块中，以生成遵循轨迹的一致视频。本文的设计与DiT的可扩展性无缝对接，允许对视频内容的动态进行精确控制，支持多种时长、纵横比和分辨率。大量实验表明，Tora在实现高运动保真度方面表现出色，同时还精细地模拟了物理世界的运动。

方法

Preliminary

潜在视频扩散模型（Latent Video Diffusion Model, LVDM）。LVDM通过集成3D U-Net增强了Stable Diffusion模型，从而提升了视频数据处理的效率。这个3D U-Net设计在每个空间卷积中增加了一个额外的时间卷积，并在每个空间注意力块之后跟随相应的时间注意力块。它通过噪声预测目标函数进行优化：

这里，表示3D U-Net的噪声预测函数。条件使用交叉注意力引导到U-Net中进行调整。同时，表示噪声隐藏状态，像马尔可夫链一样演变，逐步向初始潜在状态添加高斯噪声：

其中，，是控制步骤中噪声强度的系数。

Diffusion Transformer（DiT）。DiT是一种开创性的架构创新，协同结合了扩散模型和transformer架构的优势。此集成旨在超越传统基于U-Net的潜在扩散模型（LDM）的局限性，提升其性能、多功能性和可扩展性。在保持与既定LDM框架一致的总体公式的同时，范式转变在于用transformer架构替代U-Net进行去噪函数的学习，从而标志着生成建模领域的一个关键进展。

Tora

Tora 采用 OpenSora 作为其 DiT 架构的基础模型。为了在不同持续时间内实现精确且用户友好的运动控制，Tora 引入了两个新的运动处理组件：轨迹提取器（Trajectory Extractor, TE）和运动引导融合器（Motion-guidance Fuser, MGF）。这些模块用于将提供的轨迹编码为多层次时空运动补丁，并将这些补丁精细地集成到 DiT 块的堆叠结构中。Tora 的工作流程概述如下图 3 所示。

时空 DiT（ST-DiT） ST-DiT 架构包含两种不同类型的块：空间 DiT 块（S-DiT-B）和时间 DiT 块（T-DiT-B），它们以交替顺序排列。S-DiT-B 包含两个注意力层，每个注意力层依次执行空间自注意（Spatial Self-Attention, SSA）和交叉注意（Cross-Attention），然后是一个逐点前馈层，用于连接相邻的 T-DiT-B 块。值得注意的是，T-DiT-B 仅通过用时间自注意（Temporal Self-Attention, TSA）替换 SSA 来修改此架构，从而保持架构的一致性。在每个块内，输入在归一化后，通过跳跃连接（skip-connections）连接回块的输出。通过利用处理可变长度序列的能力，去噪 ST-DiT 可以处理不同持续时间的视频。

在处理过程中，首先使用视频自动编码器来减少视频的空间和时间维度。具体来说，它将输入视频编码为视频潜在表示，其中表示视频长度，，，。接下来，被“补丁化”，生成输入标记序列。这里，，表示补丁大小。然后将转发到 ST-DiT，它对这些压缩表示进行建模。在 SSA 和 TSA 中，标准注意力使用查询（Query, Q）、键（Key, K）和值（Value, V）矩阵进行计算。

在这里，代表归一化的，，，是可学习的投影矩阵。文本提示首先通过 T5 文本编码器进行embedding。在embedding的提示与来自 SSA 或 TSA 的中间特征之间使用了交叉注意机制。

轨迹提取器。 轨迹已被证明是一种更用户友好的控制生成视频运动的方法。具体来说，给定一个轨迹，其中表示轨迹在第帧经过的空间位置。先前的研究主要将水平偏移和垂直偏移编码为的运动条件：

然而，DiT 模型使用视频自动编码器和分块处理过程将视频转换为视频块。在这里，每个块是跨多个帧派生的，因此直接使用帧对帧的偏移是不合适的。为了解决这个问题，本文的 TE 将轨迹转换为运动块，这些运动块与视频块处于相同的潜在空间。特别地，本文首先将轨迹转换为轨迹图，并使用高斯滤波器增强以减轻散射。值得注意的是，第一帧使用完全零的图。随后，轨迹图被转换为 RGB 颜色空间，通过流可视化技术生成。本文使用 3D VAE 压缩轨迹图，实现 8 倍的空间和 4 倍的时间压缩，与 OpenSora 框架对齐。本文的 3D VAE 基于 Magvit-v2 架构，空间压缩初始化使用 SDXL的 VAE 以加速收敛。本文仅使用重建损失训练模型，以从中获得紧凑的运动潜在表示。

为了匹配视频块的大小，本文在运动引导图（gm）上使用相同的块大小，并通过一系列卷积层对其进行编码，最终得到时空运动块。其中，是运动块的维度。每个卷积层的输出通过跳跃连接（skip connection）传递给下一个卷积层的输入，以提取多层次的运动特征：

其中，是第个 ST-DiT 块的运动条件。

运动引导融合器。 为了将基于 DiT 的视频生成与轨迹相结合，本文探索了三种将运动块注入每个 ST-DiT 块的融合架构变体。这些设计如下图 4 所示。

额外的通道连接。记为第个 ST-DiT 块的结果输出。遵循在基于 GAN 的 LVDM 中广泛使用的连接方法，运动块简单地与前一个隐藏状态在通道维度上连接。然后添加一个额外的卷积层以保持相同的潜在大小：
自适应归一化层。受 GAN 中自适应归一化层的启发，本文首先通过在 ST-DiT 块中添加两个零初始化的卷积层，将转换为缩放因子和偏移量。随后，通过一个简单的线性投影将和整合到中：

Cross-Attention 层。ST-DiT 块已被修改，以在 SSA 或 TSA 之后增加一个 Cross-Attention 层，其中运动块作为键和值与隐藏状态进行融合：

本文实验了三种类型的融合架构，发现自适应归一化表现出最佳的生成性能和计算效率。在本文的其余部分，MGF 使用自适应归一化层，除非另有说明。

训练策略和数据处理

为了在使用任意轨迹生成视频时实现细粒度控制，以及文本、图像或它们的组合，本文为不同的条件注入引入了几种训练策略。

运动条件训练，受到 DragNUWA 和 MotionCtrl 的启发，本文采用两阶段的训练方法来进行轨迹学习。在第一阶段，本文从训练视频中提取稠密光流作为轨迹，提供更丰富的信息以加速运动学习。在第二阶段，为了使模型从完整的光流适应到更用户友好的轨迹，本文根据运动分割结果和光流得分随机选择 1 到个对象轨迹样本。从稀疏轨迹中解决分散问题，本文应用高斯滤波进行细化。完成两阶段训练后，Tora 能够使用任意轨迹实现灵活的运动控制。

图像条件训练，本文遵循 OpenSora 使用的mask策略来支持视觉条件。具体来说，本文在训练期间随机解除帧的mask，未mask帧的视频块不受任何噪声影响。这使得本文的 Tora 模型能够无缝地将文本、图像和轨迹整合到一个统一的模型中。

数据处理，对于 Tora 来说，训练数据集中的视频片段必须带有字幕和运动轨迹（光流）的注释。为了满足这一要求，本文采用了结构化的数据处理方法。首先，根据场景检测将原始视频分割成较短的片段。随后，这些片段根据美学评分进行评估。根据本文的标准，通过仅保留光流得分超过 3 的视频来排除静态视频。为了更好地获取对象轨迹，本文使用运动分割和相机检测的结果来移除主要包含相机轨迹的动态场景。此外，一些视频中的剧烈相机或对象运动可能导致显著的光流偏差，干扰轨迹训练。因此，本文以的概率保留这些视频。对于符合条件的视频，本文使用 PLLaVA 模型生成字幕。为了平衡速度和性能，本文使用 13B 版本。

实验

定量和定性结果

本文将本文的方法与流行的运动引导视频生成方法进行了比较。评估在三种设置下进行：16帧、64帧和128帧，所有帧的分辨率均为，以确保公平比较。提供的轨迹被剪裁以适应不同评估的视频长度。对于大多数基于U-Net的方法，本文采用序列推理，其中上一批生成的最后一帧作为当前批次的视觉条件，以符合其推理设置。如下表1所示，在基于U-Net的方法常用的16帧设置下，MotionCtrl和DragNUWA与提供的轨迹对齐较好，但仍不及本文提出的Tora。当帧数增加时，基于U-Net的方法在某些帧中表现出显著的偏差，错位误差传播并导致后续序列中的变形、运动模糊或对象消失。相比之下，Tora由于整合了transformer的缩放能力，对不同帧数表现出高度的鲁棒性。Tora生成的运动更加平滑，并且更符合物理世界。当在128帧测试设置下进行评估时，Tora的轨迹准确性超过其他方法3到5倍，展示了其卓越的运动控制能力。在下图5中，本文提供了不同分辨率和时长下的轨迹误差分析。与基于U-Net的模型不同，后者随时间推移表现出显著的轨迹误差，Tora的轨迹误差仅随时长增加而逐渐增加。这种误差的逐渐增加与DiT模型在时长延长时观察到的视频质量下降相一致。结果清楚地表明，本文的方法在较长时长内保持了有效的轨迹控制。

下图6展示了本文提出的方法与主流运动控制技术的对比分析。在第一个场景中，涉及两个人的共同运动，所有方法都能够生成相对准确的运动轨迹。然而，本文的方法在视觉质量上表现出色。这一优势主要归功于使用了更长的序列帧，从而实现了更平滑的运动轨迹和更逼真的背景渲染。例如，在本文生成的自行车场景中，人类的腿部表现出真实的踩踏动作，而DragNUWA的输出中腿部几乎水平漂浮，违反了物理现实。此外，DragNUWA和MotionCtrl在视频结尾处都出现了显著的运动模糊。更进一步，尽管没有摄像机运动条件，MotionCtrl在骑行序列中引入了意外的摄像机移动。在另一个案例中，随着提供的轨迹不断上升和下降，DragNUWA显示了灯笼的严重变形。尽管MotionCtrl的轨迹相对准确，但生成的视频未能匹配预期的两个灯笼的描绘。总体而言，本文的方法不仅紧密遵循提供的轨迹，还最大限度地减少了物体变形，从而确保了更高保真度的运动表现。

消融实验

本文进行了若干消融研究以分析设计选择的影响。所有模型均在480p分辨率、16:9宽高比和204帧的条件下进行评估。

轨迹压缩。 为了将轨迹向量整合到与视频片段相同的潜在空间中，本文研究了三种不同的轨迹压缩方法，如下表2所总结的。第一种方法在连续的4帧区间内采样中帧作为关键帧，并采用Patch-Unshuffle进行空间压缩。尽管其简单，但由于在遇到快速运动或遮挡时可能产生潜在的流估计误差，这种方法在运动控制方面表现不佳。此外，所选帧间隔引起的片段间相似性放大，增加了学习难度。第二种方法使用平均池化来汇总连续帧。虽然这捕捉到了一般的运动感，但通过均质化轨迹的方向和幅度，它无意中牺牲了精度，从而稀释了关键的运动细节。为了尽可能保留连续帧之间的轨迹信息，本文进一步使用3D VAE提取连续轨迹区间的全局上下文。轨迹数据被视觉化为RGB图像格式，以利用现有的3D VAE权重。在大量轨迹视频上进行广泛训练的这种设置下，产生了最有利的结果，强调了本文定制的3D VAE方法在轨迹压缩中的有效性。

设计块和MGF的集成位置,本文按照之前描述的方法训练了三种不同的MFG块，结果如下表3所示。值得注意的是，自适应归一化块在FVD和轨迹误差方面都比交叉注意力和额外通道条件方法更低，同时还表现出最高的计算效率。这种优势归因于其在不同条件下无需严格对齐的情况下进行动态特征适应的能力，这是交叉注意力常遇到的限制。此外，通过随时间调节条件信息，它确保了时间一致性，这对于注入运动提示至关重要。相比之下，通道连接可能会导致信息拥塞，使运动信号的效果减弱。在训练过程中，本文观察到将归一化层初始化为恒等函数对于实现最佳性能非常重要。

此外，本文评估了MGF模块在Spatial DiT和Temporal DiT块中的集成位置。本文的研究结果表明，将MGFembeddingTemporal DiT块中显著增强了轨迹运动控制，轨迹误差从下降到。这种方法提高了MGF与时间动态交互的效率，从而显著改善了运动合成的保真度。

训练策略。 本文评估了两阶段训练方法的有效性，结果总结在下表4中。仅使用密集光流进行训练效果不佳，因为它无法准确捕捉提供的稀疏轨迹中的复杂细节。另一方面，仅使用稀疏轨迹进行训练提供的信息有限，使得学习过程更加困难。通过首先使用密集光流进行训练，然后使用稀疏轨迹进行微调，本文的模型展示了对各种类型轨迹数据的更高适应性。这种方法不仅增强了整体性能，还提高了模型处理多样化运动模式的能力。

结论

本文介绍了Tora，这是第一个面向轨迹的扩散Transformer框架，用于视频生成，集成了文本、图像和轨迹条件。Tora有效地将任意轨迹编码为时空运动块，这与DiT的缩放特性相一致，从而实现了更逼真的物理世界运动模拟。通过采用两阶段训练过程，Tora在各种持续时间、纵横比和分辨率下实现了运动可控的视频生成。值得注意的是，它可以生成符合指定轨迹的高质量视频，最高可达204帧，分辨率为720p。这一能力突显了Tora在处理多样化运动模式时的多功能性和鲁棒性，同时保持高视觉保真度。本文希望本文的工作为未来的运动引导扩散Transformer方法研究提供一个强有力的基线。