无需标注数据:引领视频编辑模型达到新高度

news2025/1/9 16:37:00

人工智能咨询培训老师叶梓 转载标明出处

由于标注视频编辑数据的稀缺,开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法,但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法,无需任何标注的视频编辑数据,就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例,如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。

方法

这种方法的核心在于将视频编辑任务分解为两个主要的能力:一是精确编辑图像,二是确保生成帧之间的时间连续性。

研究者们构建了一个包含图像编辑适配器和视频生成适配器的架构,这两个适配器共同堆叠在同一个文本到图像的backbone模型之上。他们选用了Emu模型作为backbone,这是一个潜在的扩散模型,其权重用θ表示。通过这种方式,研究者们能够开发并结合不同的组件以实现视频编辑。

对于视频生成适配器,研究者们利用了Emu Video,这是一个文本到视频(T2V)的模型,它在冻结的Emu模型之上包含了训练有素的时间层。这些时间层被视为视频适配器。具体而言文本到视频模型的输出表示为,其中是文本到图像和视频适配器的权重,xs是噪声视频样本,s是时间步长,cout是输出视频标题。

为了创建图像编辑适配器,研究者们训练了一个ControlNet适配器,其参数为,在训练Emu Edit的数据集上进行训练。在训练过程中,研究者们遵循ControlNet训练的标准实践,并将适配器初始化为文本到图像模型的下层和中层块的副本。在训练期间,研究者们将文本到图像模型的条件设置为输出图像标题,同时使用输入图像和编辑指令作为ControlNet图像编辑适配器的输入。因此,图像编辑模型的输出可以表示为,其中是文本到图像和图像编辑适配器的权重,xs是噪声图像样本,s是时间步长,cout是输出图像标题,cinstruct是文本编辑指令,cimg是研究者们希望编辑的输入图像。

为了使模型具备视频编辑的能力,研究者们将这两个适配器同时附加到文本到图像的backbone上。他们的目标是使用输入视频cvid、编辑指令cinstruct和输出视频标题cout来去噪一个噪声编辑视频。值得注意的是,仅附加图像编辑适配器时,得到的函数将独立处理每一帧。因此,预测视频中的每一帧应该精确且忠实于输入帧和编辑指令,但与其余编辑帧相比可能缺乏一致性。同样,仅附加视频生成适配器时,得到的函数将生成一个与输出标题忠实但不一定忠实于输入视频的时间一致视频。当结合使用这两个适配器和共享的文本到图像backbone时,得到的功能是,其中。这种公式应该能够编辑一个既时间一致又忠实于输入的视频。在实践中,研究者们观察到,尽管这种“即插即用”的方法能够实现视频编辑能力,但它仍然包含了显著的伪影。

由于适配器中已经存在必要的知识,研究者们预计一个小的对齐就足够了。因此,他们保持适配器冻结,并在文本到图像的backbone上使用低秩适配(LoRA)权重。他们的最终架构变为

图2为模型架构和对齐过程。研究者们在共享的文本到图像骨干上训练图像编辑适配器(蓝色)和视频生成适配器(橙色),然后创建一个学生网络,通过堆叠两个适配器在共享骨干上(绿色),并使用学生网络进行训练,同时使用来自每个冻结教师适配器的得分蒸馏和对抗性损失。

为了在没有监督视频编辑数据的情况下训练并对适配器进行对齐,研究者们提出了一种新的无监督蒸馏过程,即分解扩散蒸馏(FDD)。在此过程中,他们冻结了两个适配器,并将其知识联合蒸馏到视频编辑学生模型中。由于他们的方法不能假设有监督数据,他们只收集了输入数据集。数据集中的每个数据点由组成,其中cout是输出视频标题,cinstruct是编辑指令,cvid是输入视频。

在FDD的每次迭代中,研究者们首先使用学生模型利用数据点y进行k次扩散步骤生成编辑后的视频x'0(详细信息,见下面)。他们稍后将通过所有这些扩散步骤反向传播损失。然后,他们使用每个教师应用得分蒸馏采样(SDS)损失。他们采样噪声ϵ和时间步t,并使用它们将x'0噪声化为x't。然后,他们要求每位教师独立预测x't中的噪声。对于教师,SDS损失是ϵ和教师预测之间的差异:其中c(t)是权重函数,sg表示教师保持冻结。该指标是通过对学生生成的x'0、采样的时间步t和噪声ϵ取平均得到的。代入编辑和视频教师,损失变为

每个教师为不同的标准提供反馈:图像编辑适配器负责忠实和精确地编辑,视频生成适配器负责时间一致性。类似于以前的使用蒸馏方法的工作,研究者们观察到模糊的结果,因此对每个教师使用了一个额外的对抗性目标,类似于对抗性扩散蒸馏(ADD)。具体来说,他们训练了两个鉴别器。第一个,De,接收输入帧、指令和输出帧,并尝试确定编辑是由图像编辑教师还是视频编辑学生执行的。第二个,Dv,接收视频和标题,并尝试确定视频是由视频生成教师还是视频编辑学生生成的。他们进一步遵循ADD并采用铰链损失目标进行对抗性训练。因此,鉴别器最小化以下目标:而学生最小化以下目标:其中x'ψ和x'ϕ是通过应用图像编辑和视频生成教师相应地进行多次前向扩散步骤使用DDIM采样从随机噪声生成的样本。训练学生模型的组合损失是:,鉴别器用以下方式训练:。在实践中,他们将α和β都设置为0.5。他们将λ设置为2.5。

如前所述,学生模型使用k次扩散步骤生成编辑后的视频,研究者们通过所有这些步骤反向传播损失。在训练期间,他们将k设置为3,这是适合内存的最大扩散步数。值得注意的是,如果在训练期间使用相同的k时间步,并在推理时设置更大的k,可能会导致训练-测试不一致。为了避免这种训练-测试不一致,他们将T个扩散步骤分成k个大小相等的箱子,每个箱子包含T/k个步骤。然后,在每次训练生成迭代中,他们从相应的箱子中随机选择一个步骤。

鉴别器的基础架构中,研究者使用DINO作为冻结的特征网络,并添加了可训练的头部。为了对De的输入图像进行条件化,他们除了文本和噪声图像投影外,还使用了图像投影,并用额外的注意力层组合条件。为了支持Dv的视频条件化,他们在DINO的投影特征上添加了单时间注意力层,每个像素应用。

实验

研究者们使用主观和客观的成功指标进行评估。客观指标包括TGVE竞赛中使用的指标:(i) CLIPFrame(帧一致性)——测量所有视频帧之间CLIP图像嵌入的平均余弦相似度,以及(ii) PickScore——测量所有视频帧的平均预测人类偏好。这两个指标的固有局限性在于它们没有考虑时间一致性。例如,CLIPFrame对图像之间的相似度分数应用简单平均,因此它偏向于静态视频,这些视频的运动有限或没有运动。为了解决这个问题,研究者们引入了额外的指标,这些指标利用了ViCLIP,这是一个在处理视频时考虑时间信息的视频CLIP模型。他们增加了以下指标:(i) ViCLIP文本-视频方向相似度(ViCLIPdir,灵感来自CLIPdir)——测量标题变化和视频变化之间的一致性,以及(ii) ViCLIP输出相似度(ViCLIPout)——测量编辑后的图像与输出标题的相似度。

研究者们遵循TGVE基准,并依赖人类评分员进行主观评估。他们向评分员展示了输入视频、描述输出视频的标题以及两个编辑后的视频。然后,他们要求评分员回答以下问题:(i) 文本对齐:哪个视频更好地匹配标题,(ii) 结构:哪个视频更好地保留了输入视频的结构,以及(iii) 质量:从美学角度来看,哪个视频更好。他们通过平均所有三个问题的首选分数来报告整体人类评估分数。

FDD方法需要一个包含学生和教师输入的数据集。在视频编辑的情况下,每个数据点包含y = (cout, cinstruct, cvid),其中cout是输出视频标题,cinstruct是编辑指令,cvid是输入视频。为了创建这个数据集,他们利用了Emu Video的高质量数据集,该数据集包含1600个视频。对于每个视频,他们使用Llama-2生成七个编辑指令,每个指令对应Emu Edit中的一个任务:添加、移除、背景、纹理、局部、风格、全局。

研究者们使用相同的冻结Emu backbone训练两个适配器,并在训练期间强制执行零终端信噪比。他们总共训练模型1500次迭代,批量大小为64,固定学习率为1e-5,没有预热。在前1000次迭代中,他们仅使用SDS损失进行训练,在随后的500次迭代中,他们添加了对抗性损失。他们在分辨率为512×512的8帧视频剪辑上进行训练。在整篇论文中,他们使用去噪扩散隐式模型(DDIM)算法生成示例。他们对编辑适配器进行任务标签的条件化,对视频适配器进行第一帧的条件化。具体而言他们使用编辑适配器编辑第一帧。为了生成超过8帧的视频,他们对输入视频应用滑动窗口。

目前,TGVE基准是评估基于文本的视频编辑方法的既定标准。基准包含76个视频,每个视频有四个编辑提示。所有视频要么是32帧,要么是128帧,分辨率为480×480。基准包括四种类型的编辑任务:(i)局部对象修改,(ii)风格变化,(iii)背景变化,以及(iv)同时执行多个编辑任务。由于TGVE专注于较窄范围的编辑任务,他们选择通过添加三个新的编辑任务来增加其多样性:(i)对象移除(移除),(ii)对象添加(添加),以及(iii)纹理更改(纹理)。对于TGVE中的每个视频以及每个新的编辑操作,他们指派众包工作人员编写编辑指令和描述期望输出视频的输出标题。

他们将他们的模型与TGVE基准中的领先者InsV2V进行了比较。为了完整性,他们还与空间时间扩散特征(STDF)、Tune-A-Video (TAV)(在TGVE竞赛中作为基线)、SDEdit(一种流行的扩散编辑基线)和Fairy进行了比较。对于SDEdit,他们在比较了多个噪声水平并选择了与自动指标相关的最好水平后,使用了0.75的噪声水平。与官方TGVE竞赛将所有参与方法与TAV进行比较不同,他们直接将他们的模型与不同的基线进行了比较。表1显示了他们的结果与基线的比较。可以看出,人类评分员明显更倾向于EVE而不是所有基线。当考虑自动指标时,EVE在除CLIPFrame之外的所有客观指标上都呈现出最新水平的结果。尽管STDF和Fairy在CLIPFrame指标上取得了最高分,但人类评分员分别有72.4%和71.7%的时间更倾向于我们的模型。除了数字结果,图3还提供了EVE和表现最好的基线的输出之间的视觉比较。

研究者们在表2中提供了人类评分的消融研究,以评估他们对TGVE+基准的不同贡献的有效性。他们首先消融了将预训练适配器添加到学生模型而不是在对齐过程中联合学习它们的决定。在这个实验(Random Init)中,他们用文本到图像编码器的权重初始化ControlNet编辑适配器,并将时间层初始化为身份。然后他们对整个结果模型进行微调。他们的观察表明,这种变体在获取视频编辑任务的熟练度方面是不成功的,这意味着FDD更擅长对齐预训练适配器,而不是从头开始训练它们。

他们继续消融对齐过程的设计本身,检查了三种结合适配器的方法:(i) 没有任何对齐(w/o alignment),(ii) 仅使用对抗性损失并排除SDS(w/o SDS),以及(iii) 包含SDS但排除对抗性损失(w/o Discriminators)。正如预期的那样,不使用任何对齐会导致结构保留和质量方面的结果较差。这表明FDD在结合分别训练用于不同任务的适配器时是必不可少的。在评估EVE中每个术语的贡献时,即SDS和对抗性损失,SDS项对对齐过程有更大的影响。仅使用对抗性项就足以实现一定程度的对齐。然而,使用这两个术语对于成功的对齐至关重要。

消融实验最后研究者们验证了使用K-Bin扩散采样的贡献。他们在整个训练过程中均匀地采样k步,而不是从k个桶中随机采样。正如结果所显示的,从k个桶中采样步骤的过程进一步提高了FDD的性能。

研究者们探索了FDD对齐其他适配器的能力。他们在文本到图像的backbone上训练了四个不同的LoRA适配器;两个用于主题驱动的生成,两个用于风格驱动的生成。然后他们将每个适配器与他们的图像编辑适配器对齐,以促进个性化和风格化图像编辑能力。为了创建风格化编辑的无监督数据集,他们利用了Emu Edit的数据集中的1000个(输入标题、指令、输出标题)三元组。对于个性化编辑,他们使用1000个输入标题,并使用Llama-2生成添加主题或用主题替换图像中的项目的指令。值得注意的是,他们在训练期间不使用图像,而是使用LoRA适配器生成输入图像。虽然每个LoRA适配器需要不同的对齐,但他们指出可以使用主题条件适配器,如ReferenceNet,并对所有主题和风格执行一次对齐。

在图5中,他们展示了他们的方法在这些组合上的应用的定性示例。对于每个输入图像和指令,他们展示了使用:(i) 纯Emu Edit,(ii) 附加两个适配器而不进行对齐,以及 (iii) 对齐后获得的样本。正如预期的那样,Emu Edit无法进行个性化编辑,因为它缺乏对期望主题的认识。同样,对于风格化编辑,它在保持输入风格方面存在困难。当使用“即插即用”方法时,模型要么无法保持风格或主题身份,要么产生带有显著伪影的不满意生成。然而,在对齐之后,编辑变得更加符合参考风格和主题。

Meta AI的研究团队通过Emu Video Edit (EVE)模型,展示了一种无需标注视频编辑数据就能训练出高性能视频编辑模型的新方法。该方法不仅在视频编辑领域达到了最新技术水平,还展示了通过无监督学习对其他适配器组合进行对齐,从而解锁新能力的潜力。

论文链接:https://arxiv.org/abs/2403.09334

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2076288.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Code Llama: Open Foundation Models for Code论文阅读

整体介绍 Code Llama 发布了3款模型,包括基础模型、Python 专有模型和指令跟随模型,参数量分别为 7B、13B、34B 和 70B。这些模型在长达 16k tokens 的序列上训练。都是基于 Llama 2。 作者针对infilling (FIM) 、长上下文、指令专门做了微调 long-con…

CSS Sprite(精灵图)

CSS Sprite也叫CSS精灵图、CSS雪碧图,是一种网页图片应用处理方式。它允许你将一个页面涉及到的所有零星图片都包含到一张大图中去 优点: 减少图片的字节减少网页的http请求,从而大大的提高页面的性能 原理: 通过background-i…

《黑神话悟空》幽魂怎么打?大头怪幽魂打法攻略

黑神话悟空第一章中许多玩家都容易被大头怪幽魂给难住,这算是渡劫中的第一难,所以不少玩家想了解黑神话悟空大头怪怎么打?其实大头怪打起来并不难,只是很多的玩家们没有了解他的弱点以及特性。小编今天就为大家整理了大头怪幽魂的…

吴艳妮牵手创维,奥运后的首个代言为什么是她?

​近日,吴艳妮参加奥运会的表彰大会,晒出了与孙颖莎、王楚钦等运动员的合照,并写道:“最幸福的一天”在网络上引发讨论,让人不禁想起在巴黎奥运会刚结束的时候,家电巨头创维官宣她作为其品牌大使的消息也是…

在不训练模型的情况下强化语言模型

文章目录 一些神奇咒语提供额外资讯拆解任务使用工具让模型彼此合作 一些神奇咒语 让模型一步一步的思考 让模型解释一下自己的答案 对模型进行情绪勒索,比如对模型说:这件事对我真的很重要! 跟模型说”请“是没有用的;跟模型说“…

IO--标准函数使用方法

在学习这个知识点时,要清楚我们使用IO其实就是如何使用函数; 注意点 函数名函数参数之间的关系应用的场景,返回值缓冲区的概念 1、IO的分类 文件IO标准IO 重点 1、标准IO函数 fopen / fclosefprintf / fscanffputc / …

如何使用Kdrill检测Windows内核中潜在的rootkit

关于Kdrill Kdrill是一款用于分析 Windows 64b 系统内核空间安全的工具,该工具基于纯Python 3开发,旨在帮助广大研究人员评估Windows内核是否受到了rootkit攻击。 需要注意的是,该项目与Python2/3兼容,无其他依赖组件&#xff0c…

女明星玩乙游,为何会推动国乙玩家“世纪大和解”?

“震惊!叠姐和光姐竟然世纪大和解了。” 这件在国乙圈匪夷所思、想都不敢想的事,竟然在一位女明星的推动下发生了,也因此诞生了国乙圈的“8.22事件”。 事情的起因是女艺人乃万在社交平台上发布了乙游相关言论,引起了乙游玩家不…

SAP 有趣的‘bug‘ 选择屏幕输入框没了

如下代码将会输出一个P_U的字段 PARAMETERS p_u TYPE string VISIBLE LENGTH 12 MEMORY ID m1.AT SELECTION-SCREEN OUTPUT.LOOP AT SCREEN.IF screen-name P_U.screen-invisible 1.MODIFY SCREEN.ENDIF.ENDLOOP. 如果我们给这个字段设置一个默认值,参考如下代码…

8.26-docker创建容器+打包镜像+docker文件的学习

一、回顾 创建容器:docker run -it --name a1 centos:latest /bin/bash 查看容器:docker ps(查看正在up的容器) docker ps -a(查看所有的容器) 切回宿主机:ctrl p q 启动容器:d…

Furion+SqlSugar环境配置与项目创建

一、速通一图流 二、安装 .NET 8 1. 下载与安装 .NET 8 SDK 访问 .NET 下载页面 并下载最新版本的 .NET 8 SDK。根据操作系统选择适合的安装包(如 Windows、macOS 或 Linux),并按照提示完成安装。 2. 验证安装 打开终端或命令提示符&…

SpringMVC - 第一个 SpringMVC 程序

MVC: 模块 视图 控制器 的简写,表示层 属于 C V,业务层和逻辑层属于 M SpringMVC 是对 web 使用的一套框架,可以更加快捷高效的管理 web应用 所有的请求都会经过 DispatcherServlet 这一个 Servlet 支持 IoC 和 AOP 统一处理请求 可以解析多…

找工作——行秋24届求职面试经验汇总

前言 求职记录:本人bg双9(末流),共投岗位200,收到5个offer,求职方向偏向于国企,求职城市青睐新一线城市。个人求职记录 (qq.com)https://docs.qq.com/sheet/DSlBBVWRKZVZ5TWlD?tabBB08J2&…

C 06 编译4阶段

c语言编译的4个阶段:预处理、 编译、 汇编、 链接 预处理阶段会在源代码中查找预编译指令,其中主要是头文件展开(include),宏定义(defind),选择性编译(ifdef)三种指令 预…

Claude 3.5 Sonnet引入了LaTeX公式渲染功能!!

终于,Claude 也引入了LaTeX公式渲染功能,消息一出,评论区的网友们热议不断。 【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册 早在 ChatGPT 率先支持 LaTeX 语言用于输入和显示数学公式时&#xf…

[从0开始AIGC][LLM]:LLM中Encoder-Only or Decoder-Only?为什么主流LLM是Decoder-Only?

LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only? 文章目录 LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only?1. 什么是Encoder-only、Decoder-Only2. 为什么当前主流的LLM都是Decoder-only的架构低秩问题 …

欧瑞康oerlikon PECVD 系统 KAI MT R1.0 模块化 操作说明

欧瑞康oerlikon PECVD 系统 KAI MT R1.0 模块化 操作说明

HTML5手机端通用网站模板源码

文章目录 1.设计来源1.1 主界面1.2 文章信息界面1.3 文章列表界面1.4 双列文章列表界面1.5 通用标签界面1.6 联系我界面1.7 折叠框标签界面1.8 相关界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作…

如何给笔记本或台式机顺利升级内存条

先查一下主板还有无剩下卡槽 win r 输入命令 taskmgr 调用后台查看 获取两个关键信息 速度 2666MHZ ,卡槽 2/4 意味着还剩下两个空卡槽 接下来 用鲁大师纯净版查一下主板型号 鲁大师 v5.21.1300 绿色纯净版 - 果核剥壳 (ghxi.com) 查完之后&#xff0…

如何使用双重IP代理实现更安全的网络访问

在进行网络爬虫或其他需要隐匿真实IP的操作时,单一的代理IP有时并不能完全满足我们的需求。为了进一步提高安全性和隐私保护,我们可以使用双重IP代理。本文将详细介绍如何使用Java实现双重IP代理,帮助你在网络环境中更加游刃有余。 什么是双重…