视频编辑最新SOTA!港中文Adobe等发布统一视频生成传播框架——GenProp

news2025/1/12 21:17:09

文章链接:https://arxiv.org/pdf/2412.19761
项目链接:https://genprop.github.io

亮点直击

  • 定义了一个新的生成视频传播问题,目标是利用 I2V 模型的生成能力,将视频第一帧的各种变化传播到整个视频中。

  • 精心设计了模型 GenProp,包含选择性内容编码器(Selective Content Encoder, SCE)、专用损失函数以及mask预测头,并提出了一个用于训练模型的合成数据生成pipeline。

  • 本文的模型支持多种下游应用,如移除、插入、替换、编辑和跟踪。实验还表明,即使没有特定任务的数据进行训练,模型也能支持视频扩展(outpainting)。

  • 实验结果显示,本文的模型在视频编辑和对象移除任务中优于 SOTA 方法,同时扩展了包括跟踪在内的现有任务范围。

总结速览

解决的问题
当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。

提出的方案

  • 框架设计:提出了一个统一的视频生成传播框架——GenProp。
    • 使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。

    • 使用图像到视频生成模型(Image-to-Video, I2V)将第一帧的编辑传播至整段视频。

  • 损失函数设计:引入区域感知损失(region-aware loss),确保SCE只编码未编辑区域的内容,同时优化I2V模型在修改区域的生成能力。

  • 数据生成方案:利用实例级视频分割数据集生成合成数据,覆盖多种视频任务。

应用的技术

  • 生成模型:通过 I2V 生成模型进行内容传播,无需依赖光流或运动预测。

  • 辅助训练模块:加入辅助解码器预测修改区域,以提高编辑区域的生成质量。

  • 选择性编码:通过区域感知机制,减少对已修改区域的编码干扰,增强未编辑内容的保真度。

达到的效果

  • 编辑:支持对对象形状进行显著修改。

  • 插入:插入的对象能够独立运动。

  • 移除:可有效移除阴影、反射等对象效果。

  • 跟踪:能够精确跟踪对象及其相关效果。

  • 统一性:无需密集标注或任务特定的重新训练,简化了编辑流程。

方法

生成视频传播面临以下关键挑战:

  • 真实性 – 第一帧中的变化应自然传播到后续帧中。

  • 一致性 – 所有其他区域应与原始视频保持一致。

  • 通用性 – 模型应具有足够的通用性,适用于多种视频任务。

在 GenProp 中,通过 I2V 生成模型解决 真实性(1);引入选择性内容编码器和掩膜预测解码器,并使用区域感知损失进行训练以解决 一致性(2);通过数据生成方案和通用 I2V 模型,满足 通用性(3)。

问题定义

给定一个输入视频 (包含 帧),设 为修改后的第一帧,目标是传播该修改,生成修改后的视频 ,其中每帧 ()保持对关键帧 的修改,同时在整个序列中保持外观和运动的一致性。

采用潜在扩散模型(latent diffusion model)在潜在空间中编码像素信息。为了简化表示,继续用 表示该潜在表示形式。形式化地,在推理过程中,GenProp 生成每帧 的公式为:

其中, 是由选择性内容编码器 引导的 I2V 生成模型。

在训练过程中,使用从现有视频实例分割数据集中构造的合成数据来创建配对样本。定义一个数据生成操作符 ,用于从原始视频序列 构造训练数据对 。令 表示应用于原始视频序列的合成数据生成操作符,其中:

然后, 是合成视频序列。
GenProp 被训练以满足以下目标,在所有帧 中:

其中, 是一个区域感知损失,用于解耦修改区域和未修改区域,保证未修改区域的稳定性,同时允许在编辑区域进行准确的传播。为了确保最终输出符合真实视频数据的分布,合成数据仅输入到内容编码器。I2V 生成模型则使用原始视频,防止模型无意中学习到合成伪影。

模型设计

为了保持原始视频的未修改部分,并仅传播修改区域,我们将两个额外的组件集成到基本的 I2V 模型中:选择性内容编码器(Selective Content Encoder,SCE)和mask预测解码器(Mask Prediction Decoder,MPD),如下图 4 所示。

选择性内容编码器 (SCE)
SCE 架构是主生成模型初始 个块的复制版本,类似于 ControlNet 。在每个编码器块后,提取的特征将添加到 I2V 模型中的相应特征中,从而实现内容信息的平滑和层次化流动。注入层是一个具有零初始化的多层感知机(MLP),该层也会进行训练。此外,为了实现双向信息交换,I2V 模型的特征在第一个块之前与 SCE 的输入进行融合。这使得 SCE 能够识别修改区域,从而能够选择性地编码未修改区域的信息。

Mask预测解码器 (MPD)
Mask预测解码器(MPD)用于估计需要编辑的空间区域,帮助编码器将修改内容与未修改内容区分开。SCE 使用 I2V 模型的前 个块,而 MPD 通过使用最终块及一个多层感知机(MLP)作为最终层来镜像这一结构。它从倒数第二个块获取潜在表示,该表示包含丰富的空间和时间信息,并通过 MLP 层处理。这恢复了时间维度,并与视频帧的数量匹配。最终输出通过均方误差(MSE)损失 训练,以匹配视频的实例掩码。这引导模型关注编辑区域,并显著提高注意力图的准确性。

区域感知损失 (Region-Aware Loss)

在训练过程中,使用实例分割数据来确保编辑和未编辑区域都能得到适当的监督。本文设计了区域感知损失(RA Loss),如下图 5 所示,旨在平衡两个区域的损失,即使编辑区域相对较小。

对于输入视频 和实例级别的mask ,其中 表示帧 中的编辑区域,在空间维度上应用高斯下采样,并在时间维度上重复,以获得与视频潜在表示形状对齐的掩码 。损失分别计算mask区域和非mask区域,得到

其中, 表示扩散均方误差损失(MSE loss),用于衡量生成帧 与真实帧 之间的像素级误差。

为了进一步减少 SCE 在mask区域的影响,添加了一个梯度损失 ,它最小化编码器输入中mask区域的影响。不直接计算二阶梯度,而是通过有限差分法进行近似计算。

其中, 表示编码器的特征, 是一个小的扰动。梯度损失定义为:

RA损失是三个项的加权和,以确保对mask区域和非mask区域都有足够的监督。

合成数据生成

创建大规模配对视频数据集可能既昂贵又具有挑战性,尤其是对于视频传播任务,因为很难涵盖所有视频任务。为了解决这个问题,本文提出使用从视频实例分割数据集中派生的合成数据。在训练中,使用了Youtube-VOS、SAM-V2 和一个内部数据集。然而,这一数据生成pipeline可以应用于任何可用的视频实例分割数据集。

采用了多种增强技术来处理分割数据,针对不同的传播子任务进行了定制:

  • 复制并粘贴:从一个视频中随机分割对象并粘贴到另一个视频中,模拟物体插入;

  • Mask填充:对mask区域进行修复,在选定区域内创建逼真的编辑;

  • 颜色填充:用特定的颜色填充mask区域,表示基本的物体追踪场景。

对于颜色填充,将被送到,将被送到,如公式3所示。每种合成数据类型与一个特定任务对齐,使得本文的模型能够跨不同应用进行泛化。对应这些增强方法的任务嵌入被注入到模型中,引导模型根据增强类型进行适应。请注意,尽管数据创建方法和任务多样,但SCE的核心功能保持一致:编码未编辑的信息,而I2V模型保持生成能力以传播已编辑区域。

实验

实现细节

由于GenProp是一个通用框架,在基于Sora的DiT架构和基于Stable Video Diffusion (SVD)的U-Net架构上进行了实验,作为基本的视频生成模型。对于前者,模型在32、64和128帧的视频上进行I2V生成训练,帧率为12和24FPS,基准分辨率为360p。SCE(24个块)和MPD进行训练,而I2V模型被冻结。结果可以使用超分辨率模型提升至720p。学习率设置为5e-5,采用余弦衰减调度器和线性预热。为确保训练稳定性,采用指数滑动平均。梯度范数阈值设为0.001,以防止训练不稳定。分类器自由引导(CFG)值设为20,数据增强比率分别设置为0.5/0.375/0.125,分别对应复制并粘贴/掩码填充/颜色填充。在RA损失中,为2.0,为1.0,为1.0。所有实验在32/64个NVIDIA A100 GPU上进行,针对不同的架构进行实验。DiT骨干网络具有更好的视频生成质量。主要结果来自这个DiT变体,而消融研究则基于SVD架构进行。

比较

由于生成视频传播是一个新问题,在GenProp的三个子任务中与现有的最先进方法进行了比较。请注意,本文的模型能够在同一个模型中处理这些任务,并进一步涵盖了如外延(outpainting)以及这些子任务的组合等附加任务,如下图1底部所示。

基于扩散的视频编辑
在下图6(a)和(b)中,将GenProp与其他基于扩散的视频编辑方法进行了比较,包括文本引导和图像引导的方法。InsV2V依赖于指令文本来控制生成。然而,由于训练数据有限,它在形状变化较大时表现不佳,并且不支持对象插入。Pika也使用文本提示在框选区域内进行编辑,但当物体形状发生显著变化时,它表现较差,且无法处理背景编辑或对象插入。AnyV2V是一个无需训练的方法,使用第一帧来引导编辑。虽然它能够处理外观变化,但在发生大规模形状或背景修改时会失败,通常会导致退化或鬼影效果。像InsV2V和Pika一样,它也无法插入物体。使用ReVideo通过先移除一个物体再重新插入来处理大规模的形状变化,但这种两阶段过程有缺点。基于框的区域可能导致模糊的边界,并且物体运动会受到原始点跟踪的影响,导致错误累积。此外,框选区域限制了它有效编辑复杂背景的能力。

视频物体移除
对于物体移除,将GenProp与传统的修补pipeline进行了比较,其中级联了两个最先进的模型来实现类似传播的修补,因为传统方法需要对所有帧进行密集的遮罩注释:SAM-V2用于遮罩跟踪,然后Propainter用于修补估计遮罩中的区域。如上图6(c)和(d)所示,GenProp具有几个优点:(1)不需要密集的遮罩注释作为输入;(2)去除物体的反射和阴影等效果;(3)去除大物体并在大面积内进行自然填充。

视频物体跟踪
在上图6(e)中将GenProp与SAM-V2在跟踪性能上进行了比较。由于SAM-V2是在大规模SA-V数据集上训练的,因此SAM-V2通常会生成比GenProp更精确的跟踪遮罩。此外,GenProp比像SAM-V2这样的实时跟踪方法要慢。然而,它有显著的优势。由于其视频生成的预训练,GenProp具有强大的物理规则理解能力。如图6所示,与SAM-V2不同,后者由于训练数据有限且偏倚,难以处理物体的反射和阴影等效果,GenProp能够稳定地跟踪这些效果。这突显了通过生成模型处理经典视觉任务的潜力。

定量结果
对多个测试集进行了定量评估。在视频编辑(如表1所示)中,在两种类型的测试集上进行了评估:(1)经典测试集,使用TGVE的DAVIS部分及其“对象变化描述”作为文本提示,重点关注对象替换和外观编辑;(2)挑战性测试集,包括从Pexels和Adobe Stock收集的30个手动选择的视频,涵盖了大规模物体替换、物体插入和背景替换。对于(2),第一帧使用商业图像编辑工具进行了编辑。对于Pika,使用在线框选工具,每个结果运行三次。对于ReVideo,选择一个框选区域,然后使用其代码提取原始物体的运动点以跟踪外观变化。对于具有显著形状变化的编辑,首先移除原始物体,再插入新物体并分配未来轨迹。

为了评估未编辑区域的一致性,在编辑遮罩外计算PSNR,记作PSNRm。对于形状变化较大的情况,我们在原始和编辑区域上应用粗略的遮罩,仅计算这些遮罩外区域的PSNR。对于文本对齐,我们计算编辑帧与文本提示的CLIP嵌入之间的余弦相似度(CLIP-T)。对于结果质量,计算跨帧的CLIP特征距离(CLIP-I)。

如下表1所示,GenProp在大多数指标上优于其他方法,特别是在挑战性测试集上。Pika在经典测试集上表现出较好的一致性,因为当物体形状相对不变时,其边界框表现得相当好。ReVideo在多个物体上效果较差。对于物体移除,收集了15个复杂场景的视频,包括物体效果和遮挡,因为现有的测试集没有覆盖这些情况。对于SAM,我们点击物体和副作用以确保完整的覆盖。

如表2所示,GenProp实现了最高的一致性,而ReVideo可能会产生边界框伪影,ProPainter在物体效果方面表现较差。

由于质量指标往往不能准确捕捉生成结果的真实感,使用Amazon MTurk进行了用户研究,共有121名参与者。每个参与者查看由GenProp和随机基线生成的几个视频,以及原始视频和文本提示。他们被问到两个问题:

  • 哪个视频与说明更匹配?

  • 哪个视频在视觉上更好?

然后参与者为每个问题选择一个视频。在上面表1和表2中,展示了用户在对齐/质量上的偏好,GenProp在所有基线上均大幅领先,特别是在挑战性测试集上。

消融研究

Mask预测解码器(MPD)
在下表3中,评估了MPD在挑战性测试集上的效果,结果显示它可以改善文本对齐和一致性。如图7的第1和第2行所示,未使用MPD时,输出mask往往严重退化,导致移除质量更差。如果没有MPD的显式监督,模型可能会混淆应该传播的部分和应该保留的部分,导致在后续帧中部分移除的物体重新出现。MPD有助于解耦,使得移除结果和预测掩码更加准确,即使在严重遮挡的情况下也能实现完全物体移除。

区域感知损失 (RA Loss)
在表3中,进一步测试了所提议的RA Loss在挑战性测试集上的有效性。GenProp中的一个核心挑战是,SCE可能错误地选择原始视频的所有区域,包括编辑区域,这会因为重建损失而削弱I2V生成能力。

如下图7的第3至第5行所示,在没有RA Loss的情况下,原始物体往往会逐渐重新出现,从而阻碍了第一帧编辑(绿色摩托车)的传播。使用RA Loss后,编辑区域能够以稳定一致的方式传播。

颜色填充增强 (Color Fill Augmentation)
颜色填充增强是解决传播失败的另一个关键因素。尽管复制粘贴和遮罩填充增强使得模型能够隐式学习物体修改、替换和删除,但颜色填充增强明确地训练模型进行跟踪,引导模型在整个序列中保持第一帧所做的修改,提示为“跟踪彩色区域”。如上图7的第6至第8行所示,由于形状差异显著,将女孩变成一只小猫是具有挑战性的。然而,使用颜色填充增强后,GenProp成功地将这一大幅修改在整个序列中传播。

结论

本文设计了一种新型的生成视频传播框架——GenProp,利用I2V模型固有的视频生成能力,实现了包括物体移除、插入和跟踪等多种下游应用。通过展示其能够扩展可实现的编辑范围(例如,移除或跟踪物体及其相关效果)并生成高度逼真的视频,且不依赖于传统的中间表示(如光流或深度图),我们展示了其潜力。通过集成选择性内容编码器并利用I2V生成模型,GenProp能够始终保持未改变的内容,同时动态传播变化。合成数据和区域感知损失进一步提升了其在跨帧解耦和细化编辑方面的能力。实验结果表明,GenProp在范围和精度上均优于现有方法,确立了其作为一种强大、灵活的解决方案的地位。未来,我们计划扩展该模型以支持多个关键帧的编辑,并探索可以支持的其他视频任务。

参考文献

[1] Generative Video Propagation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2275658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

make工程管理器与Makefile

目录 一、介绍 1、make工程管理器 2、Makefile 二、Makefile语法规则 1、Makefile语法格式 2、Makefile中特殊处理与伪目标 3、变量、规则与函数 (1)自定义变量使用示例 (2)自动变量使用示例 一、介绍 1、make工程管理器 定义: make是一个命令工具&…

【git】-2 分支管理

目录 一、分支的概念 二、查看、创建、切换分支 1、查看分支-git branch 2、创建分支- git branch 分支名 3、切换分支- git checkout 分支名 三、git指针 -实现分支和版本间的切换 四、普通合并分支 git merge 文件名 五、冲突分支合并 ​​​​​​【git】-初始gi…

3DGabor滤波器实现人脸特征提取

import cv2 import numpy as np# 定义 Gabor 滤波器的参数 kSize 31 # 滤波器核的大小 g_sigma 3.0 # 高斯包络的标准差 g_theta np.pi / 4 # Gabor 函数的方向 g_lambda 10.0 # 正弦波的波长 g_gamma 0.5 # 空间纵横比 g_psi np.pi / 2 # 相位偏移# 生成 Gabor 滤…

接口项目架构流程图-thinkphp6-rabbitmq

一、整个系统流程 第一步:平台在创建好后开启消息队列; 第二步:平台为需要服务的客户开好账号并传输对应的公私钥文件; 第三步:客户通过平台分享的接口连接地址采用开户时的手机号查看; 第四步:…

Vue3初学之组件通信

一起进行学习: 在 Vue 3 中,组件通信是一个非常重要的概念,它决定了如何在父子组件之间、兄弟组件之间以及跨层级组件之间传递数据和事件。以下是 Vue 3 中常见的组件通信方式: 父子组件通信 1.1 父组件向子组件传递数据&#x…

2025年第三届“华数杯”国际大学生数学建模竞赛【A题】Problem A: Can He Swim Faster

问题1:运动员的出色比赛表现通常得益于艰苦且持续的专业训练,这不仅提升了游泳技能,也增强了生理储备。比赛中,科学控制游泳速度是关键,包括保持个人节奏、寻求最佳身体状态节奏和合理分配体力。针对自由泳项目&#x…

【计算机网络】lab4 Ipv4(IPV4的研究)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀计算机网络_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前言 2.…

ELFK日志采集实战

一、日志分析概述 日志分析是运维工程师解决系统故障,发现问题的主要手段 日志主要包括系统日志、应用程序日志和安全日志 系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因 经常分析日志可以了解服务器的负荷&#x…

辅助--Inspector

辅助–Inspector 1.Introduction This manual explains how to use the Inspector. 1.1.Overview Inspector is a Qt-based library that provides functionality to interactively inspect low-level content of the OCAF data model, OCCT viewer and Modeling Data. Thi…

如何播放视频文件

文章目录 1. 概念介绍2. 使用方法2.1 实现步骤2.2 具体细节3. 示例代码4. 内容总结我们在上一章回中介绍了"如何获取文件类型"相关的内容,本章回中将介绍如何播放视频.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 播放视频是我们常用的功能,不过Flutter官方…

R数据分析:多分类问题预测模型的ROC做法及解释

有同学做了个多分类的预测模型,结局有三个类别,做的模型包括多分类逻辑回归、随机森林和决策树,多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的,后面两种模型报告了混淆矩阵,审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了,刚好借这个机会给大家讲讲ROC在多…

【数据库】四、数据库管理与维护

文章目录 四、数据库管理与维护1 安全性管理2 事务概述3 并发控制4 备份与恢复管理 四、数据库管理与维护 1 安全性管理 安全性管理是指保护数据库,以避免非法用户进行窃取数据、篡改数据、删除数据和破坏数据库结构等操作 三个级别认证: 服务器级别…

C语言gdb调试

目录 1.gdb介绍 2.设置断点 2.1.测试代码 2.2.设置函数断点 2.3.设置文件行号断点 2.4.设置条件断点 2.5.多线程调试 3.删除断点 3.1.删除指定断点 3.2.删除全部断点 4.查看变量信息 4.1.p命令 4.2.display命令 4.3.watch命令 5.coredump日志 6.总结 1.gdb介绍…

winform第三方界面开源库AntdUI的使用教程保姆级环境设置篇

1. AntdUI 1.1. 导入项目 1.1.1. 首先新建一个空白的基于.net的Winfrom项目1.1.2. 复制AntdUI中src目录到我们的解决方案下面1.1.3. 解决方案下添加现有项目1.1.4. 添加项目引用 1.2. 编写代码 1.2.1. 改写Form1类,让其继承自public partial class Form1 : AntdUI.W…

记录一下vue2项目优化,虚拟列表vue-virtual-scroll-list处理10万条数据

文章目录 封装BrandPickerVirtual.vue组件页面使用组件属性 select下拉接口一次性返回10万条数据,页面卡死,如何优化??这里使用 分页 虚拟列表(vue-virtual-scroll-list),去模拟一个下拉的内容…

企业开通部署 Azure OpenAI 流程:如何创建一个AI聊天机器人

由于众所周知的原因,国内没法直接调用 OpenAI 接口。 下面我将演示企业如何开通 Azure OpenAI 服务,以及如何使用 C# 调用 Azure OpenAI 接口创建一个 Console 应用程序并实现聊天机器人功能。 1开通 Azure OpenAI 服务 要开通 Azure OpenAI 服务&…

CNN Test Data

由于数据量过大,打不开了 搞一组小的吧。收工睡觉 https://download.csdn.net/download/spencer_tseng/90256048

STM32使用ITM调试_通过仿真器实现串口打印

IDE:CLion MCU: STM32F407VET6 工具:OpenOCD Telnet 一、简介 调试单片机时,如果要打印数据往往需要另接一根线通过USB转TTL接到电脑上。但这样做往往并不方便,尤其是身边没有USB转TTL工具时。这时可以使用单片机自带的ITM单元…

Ubuntu 磁盘修复

Ubuntu 磁盘修复 在 ubuntu 文件系统变成只读模式,该处理呢? 文件系统内部的错误,如索引错误、元数据损坏等,也可能导致系统进入只读状态。磁盘坏道或硬件故障也可能引发文件系统只读的问题。/etc/fstab配置错误,可能…

RT-DETR融合[AAAI2025]的ConSeg中的CDFAPreprocess模块

RT-DETR使用教程: RT-DETR使用教程 RT-DETR改进汇总贴:RT-DETR更新汇总贴 《ConDSeg: A General Medical Image Segmentation Framework via Contrast-Driven Feature Enhancement》 一、 模块介绍 论文链接:https://arxiv.org/abs/2412.083…