延迟减少10倍!OCD:基于以目标为中心Diffusion的高效视频编辑方法

news2024/11/16 21:28:44

基于扩散的视频编辑已经取得了令人瞩目的质量,可以根据文本编辑提示转换给定视频输入的全局风格、局部结构和属性。然而,这类解决方案通常需要大量的内存和计算成本来生成时间上连贯的帧,无论是以扩散反演还是跨帧注意力的形式。在本文中,我们对这些低效性进行了分析,并提出了简单而有效的修改,可以在保持质量的同时实现显著的加速。此外,我们引入了Object-Centric Diffusion,简称OCD,通过将计算更多地分配到在感知质量上可能更重要的前景编辑区域,进一步减少延迟。我们通过两个新颖的提议实现了这一点:i)Object-Centric Sampling,将分配给显着区域或背景的扩散步骤解耦,将模型容量的大部分分配给前者;ii)Object-Centric 3D Token Merging,通过融合不重要的背景区域中的冗余标记,降低了跨帧注意力成本。这两种技术都可以轻松应用于给定的视频编辑模型,无需重新训练,并且可以显著降低其内存和计算成本。我们在基于反演和基于控制信号的编辑pipeline上评估了方法,并展示了在可比较的综合质量下延迟减少达到10倍的效果。

主要贡献

总结下来本文贡献如下:

  • 分析了最近基于反演的视频编辑方法的成本和低效性,并提出了简单的方法,显著提高了它们的速度。

  • 引入了Object-Centric Sampling,它将编辑对象和背景区域的扩散采样分开,将大部分去噪步骤限制在前者,以提高效率。

  • 引入了Object-Centric 3D ToMe,通过主要在背景区域融合冗余的跨帧注意力标记,减少了跨帧注意的标记数量。

  • 通过优化两个最近的视频编辑模型展示了OCD的有效性,实现了非常快的编辑速度,而不损害保真度。

方法

现成的加速方法: 通过采用现成的技术并进行一些非平凡的修改,获得了显著的延迟优势。如下图3所示,首先,我们用 DPM++替换 (b) 默认的 DDIM采样器,这使能够将采样步骤从 50 减少到 20 而不会严重降低质量。接下来,应用 ToMe 以减少由于注意力模块引起的内存和计算开销。尽管加速了生成过程,但生成结果明显变差 (d)。为了解决这个问题,我们实施了 (e) 在反演和生成之间对标记位置(目标和未合并源)进行配对,以及 (f) 对每一帧重新采样目标标记位置,从而恢复了质量。总体来说,这些优化的结果被称为 Optimized-FateZero。

如下面算法1所述,根据前景掩码m(例如,在视频数据集中通常可用的分割掩码或来自检测器)将潜变量划分为前景和背景潜变量,分别表示为和。并不对前景和背景区域运行相同数量的采样步骤,而是基于超参数φ减少背景上的采样步骤。为了避免在前景和背景之间生成不一致的结果,在由超参数γ指定的某个采样步骤合并去噪的潜变量。经验证明,将大约25%的采样步骤分配给这个混合阶段通常足以生成在空间和时间上一致的帧。

目标中心的3D token合并: 通过人为地降低前景对象的源tokens之间的相似性,在它们的位置上累积未合并的tokens(蓝色)。目标tokens(红色)仍然在网格内随机采样,保留一些背景信息。已合并的源tokens(为避免混乱而未表示)将来自背景。如下图4所示:

效果比较

与最先进技术的定性比较: 展示了使用我们的方法编辑的视频帧,与FateZero 、Tune-A-Video、TokenFlow 和SDEdit的输出进行比较。在这里,Tune-A-Video 始终是对每个序列进行1-shot微调(用*表示),而其他方法是zero-shot。我们的方法在保持质量的同时比基于其上构建的基线(即FateZero)生成速度显着更快。与其他最先进的视频基线相比,它还更高效。

与基于反演的视频编辑流程的定量比较: 在这里,考虑了FateZero的基准设置。报告了CLIP指标的保真度(时态一致性、CLIP分数)和延迟。我们的方法在不牺牲生成质量的情况下,相较于基线和其他最先进的方法(无论是视频还是逐帧),取得了显著的加速。

在ControlVideo设置中的定性比较: 展示了使用我们的方法编辑的视频帧,与ControlVideo 进行了比较。两种方法都使用深度调节。我们的方法在保持不可区分或可比较的编辑质量的情况下,将延迟降低了6倍。

与基于ControlNet的视频编辑流程的定量比较: 在ControlVideo 基准设置中使用深度调节计算的保真度(时态一致性、CLIP分数)和延迟的CLIP指标。在具有可比较生成质量的情况下,我们的方法相对于基线实现了显著的6倍加速。

本文贡献定性分析: 展示了使用Optimized-FateZero、Object-Centric 3D ToMe以及Object-Centric 3D ToMe + Object-Centric Sampling (OCD)进行编辑的帧和延迟。我们使用红色轮廓突出生成中的伪影。计时报告为反演/生成。如下图7所示:

本文贡献量化分析: 在这里,我们考虑FateZero基准设置。Object-Centric 3D ToMe在不牺牲延迟的情况下改善了时域一致性和保真度(请参阅上图7以进行定性比较)。通过在其上应用Object-Centric Sampling,看到了延迟的进一步改善,实现了最快的生成。

在不同目标尺寸下Object-Centric Sampling的影响:在这里,我们设计了一个新的基准,具有大、中和小的前景对象。在较小的前景对象中实现了更多的延迟节省,而不会牺牲生成质量,同时还提供了更真实的背景区域重建(参见上面的图7的最后两行)。

总结

本文介绍了一些用于加速基于扩散的视频编辑的解决方案。在这方面,首先对反演模型的延迟来源进行了分析,并识别和采用了一些现成的技术,如快速采样和 Token Merging,经过适当修改后,这些技术能够在不牺牲生成质量的情况下显著降低成本。此外,由于视频编辑通常需要对特定对象进行修改,我们引入了Object-Centric Diffusion,包括:i) 仅在背景区域合并tokens的技术,以及 ii) 在前景区域限制大部分扩散采样步骤的技术。我们在基于反演的模型和基于 ControlNet 的模型上验证了我们的解决方案,在这两种情况下,我们的策略分别实现了10倍和6倍的更快编辑。

参考文献

[1] Object-Centric Diffusion for Efficient Video Editing

链接:https://arxiv.org/pdf/2401.05735

 

更多精彩内容,请关注公众号:AI生成未来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1385514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MtimeMtimecmp

Mtime: 实时time计数器,可读可写;mtime必须按照一个固定的频率递增;如果count overflow了,则mtime的值需要卷绕;对于32/64的系统来说,mtime的值都是64bits的; 与mtime对应的,还有一…

uniap vue3 组件使用uni.createSelectorQuery() 获取dom报错

由于vue3中没有this,所以使用uni.createSelectorQuery().in(this)时,会报错 使用 getCurrentInstance 获取组件实例 使用 uni.createSelectorQuery() 批量查询时,结果是按照查询的顺序返回的 使用示例 import { getCurrentInstance } from…

70.网游逆向分析与插件开发-角色数据的获取-自动化助手UI显示角色数据

内容参考于:易道云信息技术研究院VIP课 上一个内容:利用技能点属性分析角色数据基址-CSDN博客 码云地址(ui显示角色数据 分支):https://gitee.com/dye_your_fingers/sro_-ex.git 码云版本号:367aa71f60b…

conda环境下No module named ‘pytorch_lightning‘问题解决

1 问题描述 在训练wav2lip模型时,出现如下错误: D:\.conda\wav2lip\python.exe D:/ml/wav2lip384/parallel_syncnet_tanh.py --data_root D:/ml/Wav2Lip/data/25fps_out/ --checkpoint_dir syncnet_checkpoints/ --checkpoint_path Traceback (most re…

怎样获取power shell 的全部可用命令?5/5(篇幅有点长,分成5份)

在power shell 窗口中,有一个获取全部可用命令的命令:get-command,获取到的命令有1640多个,够学习了吧?那么,power shell 命令有哪些类别呢? PowerShell命令可以分为以下几类: Cmd…

LeetCode 每日一题 Day 37-43

终于考完试了,寒假期间将会每天持续更新! 447. 回旋镖的数量(Day 37) 给定平面上 n 对 互不相同 的点 points ,其中 points[i] [xi, yi] 。回旋镖 是由点 (i, j, k) 表示的元组 ,其中 i 和 j 之间的欧式距离和 i 和 k 之间的欧…

鸿蒙Harmony--状态管理器--@Provide装饰器和@Consume装饰器详解

今天是1月11日号星期四,农历腊月初一,辞旧的岁月里,愿你守得云开、终见月明,迎新的时光中,愿你心御寒冬、顺遂无忧,岁末冬深,希望接下来的日子里足够幸运,攒足勇气、信心和运气&…

基于Java SSM框架实现学生成绩管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现学生成绩管理系统演示 摘要 学生成绩是高校人才培养计划的重要组成部分,是实现人才培养目标、培养学生科研能力与创新思维、检验学生综合素质与实践能力的重要手段与综合性实践教学环节。而学生所在学院多采用半手工管理学生成绩的方式&#…

springboot整合websocket后启动报错:javax.websocket.server.ServerContainer not available

一、场景 Springboot使用ServerEndpoint来建立websocket链接。引入依赖。 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-websocket</artifactId> </dependency>配置Websocket Confi…

浏览器中把HTML转为PDF的几种方式

浏览器中把HTML转为PDF的几种方式 打印 操作步骤 另存为pdf 优点 简便易用&#xff1a; 浏览器自带的打印功能通常是用户界面友好的&#xff0c;不需要额外的插件或工具&#xff0c;用户只需点击几下即可完成转换。 跨平台支持&#xff1a; 大多数现代浏览器都支持这种方…

Baumer工业相机堡盟工业相机如何联合NEOAPI SDK和OpenCV实现Mono12和Mono16位深度的图像保存(C++)

Baumer工业相机堡盟工业相机如何联合BGAPI SDK和OpenCVSharp实现Mono12和Mono16位深度的图像保存&#xff08;C#&#xff09; Baumer工业相机Baumer工业相机保存位深度12/16位图像的技术背景代码案例分享1&#xff1a;引用合适的类文件2&#xff1a;NEOAPI SDK联合OpenCV进行图…

Asynchronous FIFO and synchronous FIFO-翻译自外网

Synchronous FIFO 先进先出 (FIFO) 是一种非常流行且有用的设计块&#xff0c;用于模块之间的同步和握手机制。 FIFO 的深度&#xff1a; FIFO 中的槽数或行数称为 FIFO 的深度。 FIFO 的宽度&#xff1a;每个槽或行中可以存储的位数称为 FIFO 的宽度。 在同步 FIFO 中&…

大屏项目:react中实现3d效果的环形图包括指引线

参考链接3d环形图 3d效果的环形图 项目需求实现方式指引线&#xff08;线的样式字体颜色&#xff09; 项目需求 需要在大屏上实现一个3d的环形图&#xff0c;并且自带指引线&#xff0c;指引线的颜色和每段数据的颜色一样&#xff0c;文本内容变成白色&#xff0c;数字内容变…

投标文件组成分析

标注组成&#xff1a; 标书内容&#xff1a; 一、前面内容 1、投标首页&#xff08;正本/副本&#xff09;/ 2、评分索引表&#xff08;来源于“招标文件的评分细则表”&#xff0c;一般在原有的“评分细则表”的后面添加一列“所在页码”&#xff0c;里面填写得分对应“页…

CentOS stream 9最小化安装说明

Server with GUI&#xff1a;An integrated , easy-to-manage server with a graphical interface. 带有图形用户界面的服务器&#xff1a;集成、易于管理的服务器&#xff0c;带有图形界面。Server&#xff1a;An integrated , easy-to-manage server. 服务器&#xff1a;集成…

服务器 conda update 失败解决方法

1. 强制 conda update 租借一台服务器&#xff0c;发现 conda 版本是4.10.3&#xff0c;需要升级&#xff0c;使用了如下命令都没有效果&#xff0c;仍然是一样的版本 conda update conda update --all conda update -n base -c defaults conda最后强制用conda-forge通道更新…

工作再忙,这个门禁管理小技巧也要学!

在现代社会&#xff0c;随着城市化和科技的迅猛发展&#xff0c;安全管理已经成为社会的一项首要任务。在这个背景下&#xff0c;门禁监控系统作为一种高效、先进的安全管理工具&#xff0c;逐渐成为各类场所、机构和企业的不可或缺的一部分。 客户案例 医疗机构 湖南某大型医…

2.IHRM人力资源 - 登录

一、登录页结构与表单开发 我们要实现的登录界面 目前的登录界面 1.1 登录页结构 复制下面的代码到views/login/index.vue页面下 <template><div class"login-container"><div class"logo"/><div class"form"><h1&…

【计算机二级考试C语言】C常量

C 常量 常量是固定值&#xff0c;在程序执行期间不会改变。这些固定的值&#xff0c;又叫做字面量。 常量可以是任何的基本数据类型&#xff0c;比如整数常量、浮点常量、字符常量&#xff0c;或字符串字面值&#xff0c;也有枚举常量。 常量就像是常规的变量&#xff0c;只…

反序列化提升刷题

例题&#xff1a; <?php //flag is in flag.php highlight_file(__FILE__); error_reporting(0); class Modifier { private $var; public function append($value) { include($value); echo $flag; } public function __invoke(){ …