无需标注数据：引领视频编辑模型达到新高度

人工智能咨询培训老师叶梓转载标明出处

由于标注视频编辑数据的稀缺，开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法，但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法，无需任何标注的视频编辑数据，就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例，如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。

方法

这种方法的核心在于将视频编辑任务分解为两个主要的能力：一是精确编辑图像，二是确保生成帧之间的时间连续性。

研究者们构建了一个包含图像编辑适配器和视频生成适配器的架构，这两个适配器共同堆叠在同一个文本到图像的backbone模型之上。他们选用了Emu模型作为backbone，这是一个潜在的扩散模型，其权重用θ表示。通过这种方式，研究者们能够开发并结合不同的组件以实现视频编辑。

对于视频生成适配器，研究者们利用了Emu Video，这是一个文本到视频（T2V）的模型，它在冻结的Emu模型之上包含了训练有素的时间层。这些时间层被视为视频适配器。具体而言文本到视频模型的输出表示为，其中是文本到图像和视频适配器的权重，xs是噪声视频样本，s是时间步长，cout是输出视频标题。

为了创建图像编辑适配器，研究者们训练了一个ControlNet适配器，其参数为，在训练Emu Edit的数据集上进行训练。在训练过程中，研究者们遵循ControlNet训练的标准实践，并将适配器初始化为文本到图像模型的下层和中层块的副本。在训练期间，研究者们将文本到图像模型的条件设置为输出图像标题，同时使用输入图像和编辑指令作为ControlNet图像编辑适配器的输入。因此，图像编辑模型的输出可以表示为，其中是文本到图像和图像编辑适配器的权重，xs是噪声图像样本，s是时间步长，cout是输出图像标题，cinstruct是文本编辑指令，cimg是研究者们希望编辑的输入图像。

为了使模型具备视频编辑的能力，研究者们将这两个适配器同时附加到文本到图像的backbone上。他们的目标是使用输入视频cvid、编辑指令cinstruct和输出视频标题cout来去噪一个噪声编辑视频。值得注意的是，仅附加图像编辑适配器时，得到的函数将独立处理每一帧。因此，预测视频中的每一帧应该精确且忠实于输入帧和编辑指令，但与其余编辑帧相比可能缺乏一致性。同样，仅附加视频生成适配器时，得到的函数将生成一个与输出标题忠实但不一定忠实于输入视频的时间一致视频。当结合使用这两个适配器和共享的文本到图像backbone时，得到的功能是，其中。这种公式应该能够编辑一个既时间一致又忠实于输入的视频。在实践中，研究者们观察到，尽管这种“即插即用”的方法能够实现视频编辑能力，但它仍然包含了显著的伪影。

由于适配器中已经存在必要的知识，研究者们预计一个小的对齐就足够了。因此，他们保持适配器冻结，并在文本到图像的backbone上使用低秩适配（LoRA）权重。他们的最终架构变为。

图2为模型架构和对齐过程。研究者们在共享的文本到图像骨干上训练图像编辑适配器（蓝色）和视频生成适配器（橙色），然后创建一个学生网络，通过堆叠两个适配器在共享骨干上（绿色），并使用学生网络进行训练，同时使用来自每个冻结教师适配器的得分蒸馏和对抗性损失。

为了在没有监督视频编辑数据的情况下训练并对适配器进行对齐，研究者们提出了一种新的无监督蒸馏过程，即分解扩散蒸馏（FDD）。在此过程中，他们冻结了两个适配器，并将其知识联合蒸馏到视频编辑学生模型中。由于他们的方法不能假设有监督数据，他们只收集了输入数据集。数据集中的每个数据点由组成，其中cout是输出视频标题，cinstruct是编辑指令，cvid是输入视频。

在FDD的每次迭代中，研究者们首先使用学生模型利用数据点y进行k次扩散步骤生成编辑后的视频x'0（详细信息，见下面）。他们稍后将通过所有这些扩散步骤反向传播损失。然后，他们使用每个教师应用得分蒸馏采样（SDS）损失。他们采样噪声ϵ和时间步t，并使用它们将x'0噪声化为x't。然后，他们要求每位教师独立预测x't中的噪声。对于教师，SDS损失是ϵ和教师预测之间的差异：其中c(t)是权重函数，sg表示教师保持冻结。该指标是通过对学生生成的x'0、采样的时间步t和噪声ϵ取平均得到的。代入编辑和视频教师，损失变为

每个教师为不同的标准提供反馈：图像编辑适配器负责忠实和精确地编辑，视频生成适配器负责时间一致性。类似于以前的使用蒸馏方法的工作，研究者们观察到模糊的结果，因此对每个教师使用了一个额外的对抗性目标，类似于对抗性扩散蒸馏（ADD）。具体来说，他们训练了两个鉴别器。第一个，De，接收输入帧、指令和输出帧，并尝试确定编辑是由图像编辑教师还是视频编辑学生执行的。第二个，Dv，接收视频和标题，并尝试确定视频是由视频生成教师还是视频编辑学生生成的。他们进一步遵循ADD并采用铰链损失目标进行对抗性训练。因此，鉴别器最小化以下目标：而学生最小化以下目标：其中x'ψ和x'ϕ是通过应用图像编辑和视频生成教师相应地进行多次前向扩散步骤使用DDIM采样从随机噪声生成的样本。训练学生模型的组合损失是：，鉴别器用以下方式训练：。在实践中，他们将α和β都设置为0.5。他们将λ设置为2.5。

如前所述，学生模型使用k次扩散步骤生成编辑后的视频，研究者们通过所有这些步骤反向传播损失。在训练期间，他们将k设置为3，这是适合内存的最大扩散步数。值得注意的是，如果在训练期间使用相同的k时间步，并在推理时设置更大的k，可能会导致训练-测试不一致。为了避免这种训练-测试不一致，他们将T个扩散步骤分成k个大小相等的箱子，每个箱子包含T/k个步骤。然后，在每次训练生成迭代中，他们从相应的箱子中随机选择一个步骤。

鉴别器的基础架构中，研究者使用DINO作为冻结的特征网络，并添加了可训练的头部。为了对De的输入图像进行条件化，他们除了文本和噪声图像投影外，还使用了图像投影，并用额外的注意力层组合条件。为了支持Dv的视频条件化，他们在DINO的投影特征上添加了单时间注意力层，每个像素应用。

实验

研究者们使用主观和客观的成功指标进行评估。客观指标包括TGVE竞赛中使用的指标：(i) CLIPFrame（帧一致性）——测量所有视频帧之间CLIP图像嵌入的平均余弦相似度，以及(ii) PickScore——测量所有视频帧的平均预测人类偏好。这两个指标的固有局限性在于它们没有考虑时间一致性。例如，CLIPFrame对图像之间的相似度分数应用简单平均，因此它偏向于静态视频，这些视频的运动有限或没有运动。为了解决这个问题，研究者们引入了额外的指标，这些指标利用了ViCLIP，这是一个在处理视频时考虑时间信息的视频CLIP模型。他们增加了以下指标：(i) ViCLIP文本-视频方向相似度（ViCLIPdir，灵感来自CLIPdir）——测量标题变化和视频变化之间的一致性，以及(ii) ViCLIP输出相似度（ViCLIPout）——测量编辑后的图像与输出标题的相似度。

研究者们遵循TGVE基准，并依赖人类评分员进行主观评估。他们向评分员展示了输入视频、描述输出视频的标题以及两个编辑后的视频。然后，他们要求评分员回答以下问题：(i) 文本对齐：哪个视频更好地匹配标题，(ii) 结构：哪个视频更好地保留了输入视频的结构，以及(iii) 质量：从美学角度来看，哪个视频更好。他们通过平均所有三个问题的首选分数来报告整体人类评估分数。

FDD方法需要一个包含学生和教师输入的数据集。在视频编辑的情况下，每个数据点包含y = (cout, cinstruct, cvid)，其中cout是输出视频标题，cinstruct是编辑指令，cvid是输入视频。为了创建这个数据集，他们利用了Emu Video的高质量数据集，该数据集包含1600个视频。对于每个视频，他们使用Llama-2生成七个编辑指令，每个指令对应Emu Edit中的一个任务：添加、移除、背景、纹理、局部、风格、全局。

研究者们使用相同的冻结Emu backbone训练两个适配器，并在训练期间强制执行零终端信噪比。他们总共训练模型1500次迭代，批量大小为64，固定学习率为1e-5，没有预热。在前1000次迭代中，他们仅使用SDS损失进行训练，在随后的500次迭代中，他们添加了对抗性损失。他们在分辨率为512×512的8帧视频剪辑上进行训练。在整篇论文中，他们使用去噪扩散隐式模型(DDIM)算法生成示例。他们对编辑适配器进行任务标签的条件化，对视频适配器进行第一帧的条件化。具体而言他们使用编辑适配器编辑第一帧。为了生成超过8帧的视频，他们对输入视频应用滑动窗口。

目前，TGVE基准是评估基于文本的视频编辑方法的既定标准。基准包含76个视频，每个视频有四个编辑提示。所有视频要么是32帧，要么是128帧，分辨率为480×480。基准包括四种类型的编辑任务：(i)局部对象修改，(ii)风格变化，(iii)背景变化，以及(iv)同时执行多个编辑任务。由于TGVE专注于较窄范围的编辑任务，他们选择通过添加三个新的编辑任务来增加其多样性：(i)对象移除（移除），(ii)对象添加（添加），以及(iii)纹理更改（纹理）。对于TGVE中的每个视频以及每个新的编辑操作，他们指派众包工作人员编写编辑指令和描述期望输出视频的输出标题。

他们将他们的模型与TGVE基准中的领先者InsV2V进行了比较。为了完整性，他们还与空间时间扩散特征(STDF)、Tune-A-Video (TAV)（在TGVE竞赛中作为基线）、SDEdit（一种流行的扩散编辑基线）和Fairy进行了比较。对于SDEdit，他们在比较了多个噪声水平并选择了与自动指标相关的最好水平后，使用了0.75的噪声水平。与官方TGVE竞赛将所有参与方法与TAV进行比较不同，他们直接将他们的模型与不同的基线进行了比较。表1显示了他们的结果与基线的比较。可以看出，人类评分员明显更倾向于EVE而不是所有基线。当考虑自动指标时，EVE在除CLIPFrame之外的所有客观指标上都呈现出最新水平的结果。尽管STDF和Fairy在CLIPFrame指标上取得了最高分，但人类评分员分别有72.4%和71.7%的时间更倾向于我们的模型。除了数字结果，图3还提供了EVE和表现最好的基线的输出之间的视觉比较。

研究者们在表2中提供了人类评分的消融研究，以评估他们对TGVE+基准的不同贡献的有效性。他们首先消融了将预训练适配器添加到学生模型而不是在对齐过程中联合学习它们的决定。在这个实验（Random Init）中，他们用文本到图像编码器的权重初始化ControlNet编辑适配器，并将时间层初始化为身份。然后他们对整个结果模型进行微调。他们的观察表明，这种变体在获取视频编辑任务的熟练度方面是不成功的，这意味着FDD更擅长对齐预训练适配器，而不是从头开始训练它们。

他们继续消融对齐过程的设计本身，检查了三种结合适配器的方法：(i) 没有任何对齐（w/o alignment），(ii) 仅使用对抗性损失并排除SDS（w/o SDS），以及(iii) 包含SDS但排除对抗性损失（w/o Discriminators）。正如预期的那样，不使用任何对齐会导致结构保留和质量方面的结果较差。这表明FDD在结合分别训练用于不同任务的适配器时是必不可少的。在评估EVE中每个术语的贡献时，即SDS和对抗性损失，SDS项对对齐过程有更大的影响。仅使用对抗性项就足以实现一定程度的对齐。然而，使用这两个术语对于成功的对齐至关重要。

消融实验最后研究者们验证了使用K-Bin扩散采样的贡献。他们在整个训练过程中均匀地采样k步，而不是从k个桶中随机采样。正如结果所显示的，从k个桶中采样步骤的过程进一步提高了FDD的性能。

研究者们探索了FDD对齐其他适配器的能力。他们在文本到图像的backbone上训练了四个不同的LoRA适配器；两个用于主题驱动的生成，两个用于风格驱动的生成。然后他们将每个适配器与他们的图像编辑适配器对齐，以促进个性化和风格化图像编辑能力。为了创建风格化编辑的无监督数据集，他们利用了Emu Edit的数据集中的1000个（输入标题、指令、输出标题）三元组。对于个性化编辑，他们使用1000个输入标题，并使用Llama-2生成添加主题或用主题替换图像中的项目的指令。值得注意的是，他们在训练期间不使用图像，而是使用LoRA适配器生成输入图像。虽然每个LoRA适配器需要不同的对齐，但他们指出可以使用主题条件适配器，如ReferenceNet，并对所有主题和风格执行一次对齐。

在图5中，他们展示了他们的方法在这些组合上的应用的定性示例。对于每个输入图像和指令，他们展示了使用：(i) 纯Emu Edit，(ii) 附加两个适配器而不进行对齐，以及 (iii) 对齐后获得的样本。正如预期的那样，Emu Edit无法进行个性化编辑，因为它缺乏对期望主题的认识。同样，对于风格化编辑，它在保持输入风格方面存在困难。当使用“即插即用”方法时，模型要么无法保持风格或主题身份，要么产生带有显著伪影的不满意生成。然而，在对齐之后，编辑变得更加符合参考风格和主题。

Meta AI的研究团队通过Emu Video Edit (EVE)模型，展示了一种无需标注视频编辑数据就能训练出高性能视频编辑模型的新方法。该方法不仅在视频编辑领域达到了最新技术水平，还展示了通过无监督学习对其他适配器组合进行对齐，从而解锁新能力的潜力。

论文链接：https://arxiv.org/abs/2403.09334