AnyV2V:一种用于各种视频编辑任务的即插即用框架

news2024/9/20 6:29:45

人工智能咨询培训老师叶梓 转载标明出处

视频编辑任务通常涉及根据额外的控制信息(如文本提示、主题、风格等)编辑源视频,以生成与源视频和提供的控制信息相符的新视频。然而,现有方法往往局限于特定类型的编辑任务,难以满足广泛的用户需求。而且一些方法需要额外的参数调整或视频特征提取,导致时间和内存成本较高。为了解决这些问题,加拿大滑铁卢大学和多伦多Vector Institute的研究团队提出了一种创新的视频编辑框架——AnyV2V。这一框架能够简化视频编辑流程,支持广泛的编辑任务,包括基于文本提示、主题、风格等的编辑。它具有以下两大优势:

  1. 兼容性:AnyV2V与所有图像编辑方法具有优越的兼容性。AnyV2V可以无缝地建立在先进的图像编辑方法之上,如InstructPix2Pix、InstantID、NST、AnyDoor等,以执行多种类型的编辑。
  2. 简单性:AnyV2V是一种无需调整的方法,不需要任何额外的视频特征即可实现高外观和时间一致性。

方法

AnyV2V框架的整体架构(图1),显示视频编辑过程被分解为两个阶段:第一阶段是第一帧图像编辑,第二阶段是利用DDIM反演和特征注入的图像到视频生成。

AnyV2V 框架处理视频编辑任务的两个阶段流程如图2所示。首先,输入源视频 ​,接着在第一阶段利用黑盒图像编辑方法对第一帧 进行编辑以满足特定的编辑需求。第二阶段,将源视频通过 DDIM 反演转换成初始噪声 ,然后使用 DDIM 采样对其进行去噪处理。在采样过程中,从图像到视频模型的解码层提取空间卷积特征、空间注意力和时间注意力特征。为了生成编辑后的视频,通过将固定为 并使用编辑后的第一帧作为条件信号来进行 DDIM 采样。在采样过程中,将提取的特征和注意力注入模型的相应层中,以确保编辑后视频在外观和运动上与源视频保持一致性。 

第一阶段:灵活的第一帧编辑

在视频编辑中,控制性是实现精确编辑的关键因素。AnyV2V通过利用各种图像编辑模型来修改视频的第一帧,从而实现更可控的视频编辑。这种方法不仅能够对视频进行高度精确的修改,还与多种图像编辑模型兼容,包括但不限于以下几类:

  • 图像风格迁移:能够将一种艺术风格应用到视频的第一帧上。
  • 基于遮罩的图像编辑:允许对视频的第一帧进行局部修改,如添加或移除特定对象。
  • 图像修复:在第一帧中填补或修改不期望的区域。
  • 身份保持的图像编辑:在修改第一帧时保留特定人物的身份特征。
  • 主题驱动的图像编辑:根据给定的主题图像替换第一帧中的特定对象。

第二阶段:结构化引导使用DDIM反演

为了确保从I2V(Image-to-Video)生成模型产生的视频遵循源视频的一般结构,AnyV2V采用了DDIM(Denoising Diffusion Implicit Models)反演技术。这个过程在没有文本提示条件的情况下,只使用第一帧作为条件来进行。通过这种方式,可以在每个时间步骤t获得源视频的潜在噪声

在实际操作中,如果直接使用最终时间步骤T的初始噪声(源视频的初始噪声)作为编辑视频的初始噪声,可能会因为某些I2V模型的局限性而导致编辑后的视频出现失真。解决方案为:从早于T的一个时间步骤T'开始采样。

尽管仅使用编辑后的第一帧和DDIM反演的噪声作为模型输入,I2V生成模型已经具备一定的编辑能力,但这种方法往往无法正确保留编辑后第一帧的背景和源视频中的运动,因为编码在反演噪声中的源视频的有条件信号是有限的。

为了加强与源视频的一致性,AnyV2V在去噪U-Net的卷积层和空间注意力层执行特征注入。在视频采样过程中,同时对源视频使用先前收集的DDIM反演的潜在噪声进行去噪,以保存两种类型的特征:卷积特征和空间自注意力分数。

空间特征注入机制显著增强了编辑视频的背景和整体结构的一致性。然而,这种方法在一定程度上帮助保持源视频的运动,编辑后的视频仍有很高几率包含与源视频相比不正确的运动。

为了更好地在编辑视频中重建源视频的运动,AnyV2V提出注入时间注意力特征到视频生成过程中。与空间注意力注入类似,收集源视频的时间自注意力查询和键,并将其注入到编辑视频的去噪分支中。

结合空间和时间特征注入机制,AnyV2V可以在不同的层中替换编辑分支的特征。这种特征注入方案使得I2V生成模型能够无需调整地适应视频编辑任务。实验结果表明,设计中的每个组件对于准确编辑源视频都至关重要。

实验

AnyV2V框架在三个现成的图像到视频(I2V)生成模型上进行了测试:I2VGen-XL、ConsistI2V 和 SEINE。对于所有的I2V模型,研究者设置了特定的超参数,其中τconv、τsa 和 τta 分别代表卷积特征注入、空间注意力注入和时间注意力注入的阈值,并且这些阈值与总采样步数T有关。研究者使用了DDIM采样器,并为所选的I2V模型设置了T的默认值。在采样过程中,所有模型都应用了无文本分类器的引导(CFG),使用了相同的负面提示。

为了获取初始编辑帧,研究者使用了一组图像编辑模型,包括基于提示的图像编辑模型InstructPix2Pix、风格迁移模型Neural Style Transfer (NST)、主题驱动的图像编辑模型AnyDoor 和身份驱动的图像编辑模型InstantID。研究者只对成功编辑的帧进行了实验,这对于本方法至关重要。所有实验都在单个Nvidia A6000 GPU上进行。编辑一个16帧的视频大约需要15G的GPU内存和大约100秒的推理时间。

Figure 3 展示了AnyV2V在多种基于提示的视频编辑任务中的鲁棒性,同时保持了背景的一致性。结果显示,AnyV2V与文本提示的对齐度最高,并且保持了高运动一致性。例如,AnyV2V能够准确地在老人的头上放置一个派对帽,并将飞机涂成蓝色,同时保持原始视频的背景和保真度。

Table 2 展示了AnyV2V与基线模型(Tune-A-Video、TokenFlow 和 FLATTEN)在基于提示的视频编辑任务上的定量比较。AnyV2V在文本对齐和时间一致性方面通常表现更好,特别是使用I2VGen-XL作为骨架时,因为它不会过度编辑视频。

对于风格迁移、主题驱动的编辑和身份操作这些新任务,研究者强调与参考图像的对齐,而不是文本提示。Figure 4 展示了AnyV2V在这些任务上的能力,例如,能够捕捉到定制的风格,即使这种风格没有被文本编码器学习过。在示例中,AnyV2V准确地捕捉到了瓦西里·康定斯基的“构图VII”和文森特·梵高的“奥弗斯的城堡”的艺术风格。

当前最先进的I2V模型大多只训练了包含16帧的视频数据。为了编辑超出I2V模型训练帧数的视频,研究者利用了更长的反演潜在变量作为初始潜在变量,并强制I2V模型生成更长的输出帧。实验发现,反演的潜在变量包含了足够的时间和语义信息,使得生成的视频能够保持时间和语义的一致性,如Figure 5 所示。

为了验证模型设计选择的有效性,研究者进行了消融研究,逐步禁用了模型中的三个核心组件:

  1. 时间特征注入(Temporal Feature Injection):禁用时间特征注入后,虽然CLIP-Image分数略有上升,但编辑后的视频往往显示出对源视频中呈现的运动的依从性降低。例如,在“couple sitting”案例中,如果没有应用时间注入,源视频中女性抬腿的动作在编辑后的视频中没有得到反映。

  2. 空间特征注入(Spatial Feature Injection):移除空间特征注入机制后,CLIP-Image分数下降,表明编辑后的视频在连续帧之间过渡不顺畅,并包含更多外观和运动的不一致性。例如,在“ballet dancing”案例中,移除空间特征注入会导致主体外观和姿态不正确。

  3. DDIM反演噪声作为初始噪声(DDIM Inverted Latent as Initial Noise):将初始DDIM反演噪声替换为随机噪声后,CLIP-Image分数进一步下降,视觉外观显著降低。这表明,当编辑提示完全脱离领域时,I2V生成模型对输入图像的动画制作能力变弱,突出了DDIM反演噪声作为编辑视频结构化引导的重要性。

Table 3展示了消融研究的结果,显示了不同组件对模型性能的影响。这些观察结果表明,直接从DDIM反演噪声生成编辑后的视频通常不足以完全保留源视频的结构,空间特征注入机制对于实现更好的编辑结果至关重要。通过这些评估和消融研究,研究者们展示了AnyV2V模型在视频编辑任务中的有效性和灵活性,并验证了其核心组件在保持视频质量和一致性方面的重要性。

论文链接:https://arxiv.org/abs/2403.13248

GitHub 地址:https://github.com/lichao-sun/Mora

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2072754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面向对象06:super关键字详解

本节内容视频链接:面向对象10:Super详解_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV12J41137hu?p69&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 Java中的‌super关键字是一个特殊的引用,‌用于指代父类对象‌。‌在子…

搜维尔科技:Xsens通过其先进的动作捕捉技术和惯性跟踪传感器,实现了与机器人的高效互动,提高了机器人的操作精度、自然性和稳定性

‌Xsens通过实时动作捕捉技术和MTI惯性跟踪传感器与机器人进行互动‌,这些技术为机器人提供了高精度的运动数据和稳定的导航能力,从而实现了机器人操作的精确性和效率的提升。 Xsens的技术主要应用于两大领域:人类物理交互行为的建模和分析&a…

如何使用ssm实现基于java的小型超市管理系统+vue

TOC ssm195基于java的小型超市管理系统vue 绪论 1.1 研究背景 现在大家正处于互联网加的时代,这个时代它就是一个信息内容无比丰富,信息处理与管理变得越加高效的网络化的时代,这个时代让大家的生活不仅变得更加地便利化,也让…

Git 的配置

1. 忽略特殊文件 在⽇常开发中,我们有些⽂件不想或者不应该提交到远端,⽐如保存了数据库密码的配置⽂件,那怎么让 Git 知道呢?在 Git ⼯作区的根⽬录下创建⼀个特殊的 .gitignore ⽂件,然后把要忽略的⽂件名填进去&am…

【中仕公考怎么样】2025年山东各考试汇总

准备同时备考山东多项考试的考生看过来啦!本篇文章带大家了解一下2025年山东省各项考试时间节点! ①国考 公告发布:2024年10月14日(参考去年) 笔试时间:11月下旬 笔试内容:行测申论,部分有专业科目;面试形式:结构化 ②省考 公告发布:2024年11月 笔试时间:202…

Unet改进8:在不同位置添加SpatialGroupEnhance||空间群智能增强:改进卷积网络中的语义特征学习

本文内容:在不同位置添加SpatialGroupEnhance 论文简介 卷积神经网络(Convolutional Neural Networks, cnn)通过收集分层的、不同部分的语义子特征来生成复杂对象的特征表示。这些子特征通常以分组的形式分布在每一层的特征向量中[43,32],代表各种语义实体。然而,这些子特征…

python --cnlunar(黄历)

import datetime import cnlunara cnlunar.Lunar(datetime.datetime(2024, 8, 26, 10, 30), godType8char) # 常规算法 # a cnlunar.Lunar(datetime.datetime(2022, 2, 3, 10, 30), godType8char, year8CharbeginningOfSpring) # 八字立春切换算法 dic {日期: a.date,农历…

如何使用ssm实现毕业生就业管理平台

TOC ssm192毕业生就业管理平台jsp 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规范化管理…

如何使用ssm实现保险业务管理系统设计与实现

TOC ssm131保险业务管理系统设计与实现jsp 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规…

Pytorch构建网络模型结构都有哪些方式

目录 前言 1.使用nn.Module基类 2.使用nn.Sequential容器 3. 使用nn.ModuleList 4. 使用nn.ModuleDict 5. 混合使用nn.Module和原生Python代码 6.表格总结 前言 nn.Module:最通用、最灵活的方式,适用于几乎所有场景。nn.Sequential:适…

基于Springboot/Vue的企业内部培训考试系统

本系统不开源! 本系统不开源! 本系统不开源! 前言: 时间宝贵的朋友直接跳过这段进入主题吧。 首先,好久没有静心写点东西了,有些经验之谈、生活经历以及一些规划和感悟吧,大体写一下就当自我…

Linux下编译安装PETSc

本文记录在Linux编译安装PETSc的流程。 1 下载代码 git clone https://gitlab.com/petsc/petsc.git cd ./petsc git checkout v3.21.4 2 安装依赖 3 PETSc Without MPI 3.1 Debug版本 3.1.1 配置 export PETSC_ARCHarch-linux-c-debug-dto python3 ./configure --prefix/…

水凝胶与柔性电子啥关系?能用来干啥?

大家好,今天我们来聊一聊一篇关于水凝胶在柔性电子领域应用的文章——《Smart materials for flexible electronics and devices: hydrogel》发表于《RSC Advances》。随着科技的不断发展,柔性电子设备越来越受到关注,而水凝胶作为一种具有独…

python-小理和01串(赛氪OJ)

[题目描述] 小理有一个 01 串,串中只包含 0 和 1 ,小理要把这个串划分成连续的 m 段,使得每一段至少包含一个 0 和一个 1 。小理想最大化 m ,m 最大是多少呢?输入格式: 输入包含一行一个 01 串 S 。保证中至…

OpenCV绘图函数详解及其用法示例

MFC类库中的CDC类有划线,画矩形,画椭圆,画多边形,文字等绘图函数,OpenCV也有类似的绘图函数。二者的区别在于MFC画图是在一定的区域内绘制图形,而OpenCV则是在图像上绘制,主要用于图像标注。 OpenCV的常用绘图函数有arrowedLine,circle ,drawContours, drawMarker, dra…

Date.now()与performance.now()

前言 Date.now() 和 performance.now() 都是 JS 中用于获取当前时间的方法,本文将讲述二者的区别与优劣。 Date.now() 返回自 Unix 时间纪元(1970年1月1日 00:00:00 UTC)以来的毫秒数。 在大多数环境下,Date.now() 的精度为 1毫…

Spring Cloud Consul精选面试题及答案

Spring Cloud Consul 面试题及答案: 1. 什么是Spring Cloud Consul? 答:Spring Cloud Consul 是一个基于 Spring Boot 和 Spring Cloud 的微服务框架,用于实现服务发现、配置中心和负载均衡等功能。Consul 是 HashiCorp 公司开源…

【C/C++】Sleep()函数详解

🦄个人主页:修修修也 🎏所属专栏:Linux ⚙️操作环境:Visual Studio 2022 / Xshell (操作系统:CentOS 7.9 64位) 目录 📌Windows系统下Sleep()函数简介 🎏函数功能 🎏函数参数 🕹️DWORD milliseconds &…

连Llama3都坐冷板凳,市场正在抛弃开源模型

Llama3被亚马逊、微软“打入冷宫”,罪在开源? 俗话说,是骡子是马,牵出来溜溜就知道。 最近,开源大模型届的“汗血宝马”Llama3,似乎要露馅了。 据美国媒体The Information报道,在全球最大云计…

2024.8.24

130124202408241009 DATE #:20240824 ITEM #:DOC WEEK #:SATURDAY DAIL #:捌月廿壹 TAGS < BGM "风屿&#xff0d;&#xff0d;闫东炜" > < theme oi-graph theory > < [NULL] > < [空] > < [空] > 与风为名&#xff0c;屿之齐鸣。…