超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!

news2025/1/14 18:37:38

论文链接:https://arxiv.org/pdf/2407.21475
github链接: https://densechen.github.io/zss/

亮点直击

  • 本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。

  • 本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。

  • 通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。

将时间维度引入预训练的图像扩散模型中用于视频生成是一种常见的方法。然而,这种方法计算量大,并且需要大规模的视频数据集。更为关键的是,图像和视频数据集之间的异质性常常导致图像专业知识的灾难性遗忘。最近,直接从图像扩散模型中提取视频片段的尝试在一定程度上缓解了这些问题。然而,这些方法只能生成带有简单运动的短视频片段,无法捕捉细粒度的运动或非网格变形。

本文提出了一种新颖的zero-shot视频采样算法,称为,能够直接从现有的图像生成方法(如Stable Diffusion)中采样高质量的视频片段,而无需任何训练或优化。具体来说,利用依赖噪声模型和时间动量注意力机制,分别确保内容一致性和动画连贯性。这一能力使其在相关任务中表现出色,例如条件和上下文专门化的视频生成以及指导性的视频编辑。实验结果表明,在zero-shot视频生成方面达到了最先进的性能,有时甚至超越了最近的监督方法。

依赖噪声模型

图像扩散模型经过训练,可以从扰动图像中消除独立噪声。去噪目标中的噪声向量采样自独立同分布的高斯分布。然而,在训练图像扩散模型并将其应用于逐帧将真实视频帧反向映射到噪声空间后,不同帧对应的噪声图显示出高度相关性。

在这项研究中,目标是探索噪声先验的设计空间,并提出一种最适合视频采样任务的模型,从而显著提高性能。本文将对应于单个视频帧的噪声表示为,其中对应于噪声张量的第个元素。PYoCo开发了两种直观的噪声模型,即混合噪声模型和渐进噪声模型,以在之间引入相关性。

混合噪声模型,也称为残差噪声模型或个体噪声模型,已在[21]中用于加速视频扩散模型的收敛。在混合噪声模型中,本文生成两个噪声向量:。是跨所有视频帧共享的通用噪声向量,而是每帧的个体噪声。最终噪声是这两个向量的线性组合:。

渐进噪声模型,也称为线性噪声模型,以自回归方式为每一帧生成噪声,其中是通过扰动生成的。设表示为第一帧和第帧生成的独立噪声。然后,渐进噪声可以表示为:。

在这两种模型中,参数的范围从0到1,控制跨不同视频帧共享的噪声程度。较大的表示不同帧对应的噪声图之间的相关性更强。当接近1时,所有帧都被赋予相同的噪声,从而创建一个静态视频。相反,表示独立同分布(i.i.d.)噪声。

在训练视频扩散模型时使用混合和渐进噪声模型已证明是有效的,如[11]所示。这种方法使得在训练过程中能够有效地学习帧之间的动画过渡。

依赖噪声模型

为了生成更具结构化的噪声序列 ,以更有效地封装动画,本文提出了一种新颖的依赖噪声模型。该模型采用KL散度作为调节机制来控制两个连续帧之间的相关性。具体来说,该模型规定,对于所有 , 和 之间的KL散度应近似为 。这一要求需要最小化以下目标函数:

对于 。这里, 作为两个连续帧之间KL散度的控制参数。通过调整 ,本文可以更有效地调节帧间内容变化的速率。当 时,所有帧都包含相同的噪声,导致生成静态视频,这种情况类似于 。相反,当 时,对应于独立同分布(i.i.d.)噪声。

回到公式1,给定 ,可以通过以下公式计算 :

这一推导源于KL散度的定义。然而,这种解析解 并不一定始终符合约束,即 。事实上,随着视频序列的延长,这种解析解往往会显著偏离正态分布,导致采样的噪声无法通过扩散模型生成有效内容。

如下面算法1所示,本文提出了一种两阶段噪声搜索算法,这与传统的解析解方法有所不同。

在第一阶段,即随机搜索阶段,本文通过从正态分布 中采样生成一组独立噪声。选择与 进行比较时KL散度最接近 的噪声作为 的初始值,记为 。

在随后的阶段中,本文旨在找到一个系数 ,使得

从而最小化公式1。

时间动量注意力

为了利用跨帧注意力的潜力,并使用预训练的图像扩散模型而无需重新训练,FateZero将每个自注意力层替换为跨帧注意力。在这种设置中,每一帧的注意力主要集中在初始帧。类似的结构也在 [19] 中采用。

更详细地说,在原始的UNet架构 中,每个自注意力层接收一个特征图 ,然后将其线性投影成查询、键和值特征 。该层的输出使用以下公式计算(为简化起见,这里仅描述一个注意力头):

在视频采样的上下文中,每个注意力层接收 个输入:。因此,线性投影层生成 个查询、键和值 。因此,本文将每个自注意力层替换为跨帧注意力,其中每一帧的注意力集中在初始帧,如下所示:

.

跨帧注意力的应用有助于将外观、结构以及物体和背景的身份从第一帧传递到后续帧。然而,这种方法缺乏相邻帧之间的连接,这可能导致生成的视频序列中出现显著的变化,如下图3所示。

时间动量注意力

本文的观察表明,自注意力由于缺乏帧间上下文,会导致采样特征的多样性更高。另一方面,跨帧注意力仅依赖于初始帧的信息。这虽然保证了采样结果的一致性,但也导致了多样性的减少。

为了在自注意力和跨帧注意力的不同效果之间取得平衡,本文引入了时间动量注意力(Temporal Momentum Attention, TMA)。TMA的数学表示如下:

这适用于 ,其中

并且 。同样的定义也适用于 。

显然,当所有 的值都设置为 1 时,TMA 等效于跨帧注意力。相反,当所有 的值都设置为 0 时,TMA 等效于自注意力。如下图 4 所示,通过适当地控制 的值,本文可以生成更优的视频序列。

高效计算。一种直接的方法是使用 for 循环逐个计算 的值。然而,为了充分利用 GPU 的计算能力,本文建议使用矩阵运算来同时计算所有 的值。这种方法特别需要构造一个上三角系数矩阵 。 的向量通过如下矩阵乘法操作获得:

其中

一般来说,当 的指数 相对较大时, 接近 0。这些元素可以忽略,以进一步减少计算开销。

Zero-Shot 视频采样算法

通过结合依赖噪声模型和时间动量注意力,本文成功地利用现有的 DDIM 算法从图像扩散模型中采样出高质量的视频。这个过程在上面的算法 1 中进行了概述。

有趣的是,当视频采样单个图像时,即 ,依赖噪声模型简化为随机噪声模型,时间动量注意力简化为自注意力。这表明,无论赋予 和 什么值, 采样算法将始终生成与原始 DDIM 算法相同的结果。这个特性确保了 算法与各种采样算法和编码框架的高度兼容性,消除了额外项目维护的需求。

与相关工作的比较。 Text2Video-Zero 和 是同时代的工作,均旨在开发创新的zero-shot视频生成采样方法。然而,Text2Video-Zero 为了实现令人满意的采样结果,在潜在代码中引入了运动动态,需要额外的 DDIM 向后和 DDPM 向前计算。为了进一步确保视频背景的连续性,它还采用了一种显著性检测方法进行背景平滑。这不仅增加了计算开销,还使算法实现复杂化,从而限制了其灵活性和适用性。相比之下, 在这些方面提供了显著的优势。此外,本文的实验结果表明, 采样的视频片段明显优于 Text2Video-Zero 生成的片段。

实验

文本与视频任务的综合比较

在本研究中,本文从定量和定性两个方面对本文的方法和另一个zero-shot视频合成方法 Text2Video-Zero 进行了广泛的比较。

从定量角度来看, 本文使用CLIP评分,一种用于视频-文本对齐的度量标准进行评估。本文随机选择由DDIM和Text2Video-Zero生成的100个视频,使用五种不同的扩散模型,总共500个视频。然后,本文使用相同的提示按照本文的方法合成相应的视频,其中DDIM采样个独立图像。CLIP评分如下表1所示。两种方法都改变了扩散模型的推理和采样过程,这可能在训练期间引入未知的噪声分布,从而影响采样质量。然而,正如CLIP评分所示,本文的方法产生的结果与DDIM更为一致,从而展示了本文方法的优越性和通用性。有趣的是,对于某些扩散模型,本文甚至在CLIP评分上超过了DDIM。本文将此归因于在采样过程中有效利用时间信息,从而提高了单帧采样的质量。

从定性角度来看, 本文在上图3中提供了一些生成视频片段的可视化。本文方法生成的视频片段明显表现出更优越的连续性,显著减少了突兀的帧。与[19]中的简单上下物体运动相比,本文的依赖噪声模型采样的噪声可以扩散出更具体、复杂的运动,并在不同的扩散模型中很好地泛化,如下图2所示。结合时间动量注意力,本文的方法可以为更具挑战性的对象生成更复杂的运动,例如流体的非刚性变形、复杂的烟雾扩散效果,甚至是微妙的面部微表情,如下图1所示。

与监督视频扩散模型的定性比较 在下图6中,本文展示了由和各种监督视频扩散模型生成的短视频的比较。显然,本文的方法采样的视频帧通常显示出更优的图像质量,而视频扩散模型采样的视频帧则明显模糊。这种差异主要源于训练过程中缺乏大量的视频片段(数量级为百万),相比之下,图像数据集的数量级为数百亿。这种固有的数据不足导致了视频扩散模型输出的质量不佳。因此,通常采用视频与图像结合训练的方法,或者基于预训练的图像扩散模型进行训练。然而,这种方法未能充分利用图像的先验知识,导致随着训练的进行,图像专家的显著遗忘。

通过结合时空超分辨率模型进行后处理,本文可以将采样的视频片段转换为高分辨率且更流畅的视频片段,如下图5所示。本文的方法首先通过zero-shot采样视频片段,然后应用时空超分辨率模型进行后处理,有效地绕过了图像专家的遗忘问题,并为视频生成提供了一种新颖的解决方案。

扩展

算法在各种任务中表现出卓越的适应性。为了说明这一点,本文基于ControlNet进行了条件生成,基于DreamBooth进行了专门生成,并基于Instruct Pix2Pix实现了Video Instruct-Pix2Pix任务。本文在补充材料和本文的主页上展示了相应的结果。从这些图中可以明显看出,本文的算法在各种任务上下文中都能取得令人满意的结果。

结论

总之,本文提出了,这是一种开创性的zero-shot视频采样算法,专门设计用于高质量、时间一致性的视频生成。本文的方法无需优化或微调,可以轻松地与各种图像采样技术结合,从而使文本到视频的生成及其相关应用更加普及。本文的方法在多种应用中得到了验证,如条件生成、专门生成和指令引导的视频编辑。本文认为,可以激发出更优方法的发展,从图像扩散模型中采样高质量视频片段。这种改进仅需调整现有的采样算法,无需任何额外的训练或计算开销。

参考文献

[1] Fine-gained Zero-shot Video Sampling

更多精彩内容,请关注公众号:AI生成未来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084304.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

青岛实训day33(8/21)

1、配置一主二从mysql 1. mycat对mysql8不完全支持 2. mysql8主从问题不大get_pub_key1 3. gtids事务复制 4. 删除/etc/my.cnf 5. 同步data文件需要先停用mysql服务,删除data目录中的auto.cnf 6. gtid模式以及经典模式都需要锁表 flush tables with read lock;unlock tables;…

解决渠道低价问题可以这样做

在品牌渠道的发展之路上,经销商低价、乱价、窜货以及非经销商的不受管控往往会引发渠道混乱,这已然成为众多品牌难以回避的难题。那么,面对这些各异的渠道问题,究竟该如何施展出不同的治理妙招呢?难道仅有单一的处罚手…

priority_queue模拟

一、什么是priority_queue? priority_queue是C标准库中的一个容器适配器,用于实现优先队列(priority queue)的数据结构。优先队列是一种特殊的队列,其中的元素按照一定的优先级进行排序,每次取出的元素都是优先级最高…

OpenAI融资谈判 估值或超1000亿美元

🦉 AI新闻 🚀 OpenAI融资谈判 估值或超1000亿美元 摘要:OpenAI正在进行一轮融资谈判,预计估值将超过1000亿美元,主导投资方为Thrive Capital,将投资10亿美元。今年早些时候,OpenAI估值已超过8…

vue按钮弹框

在Vue中实现按钮点击后弹出对话框(弹框)的功能,通常可以使用一些Vue的UI组件库,如Element UI、Vuetify、BootstrapVue等,这些库提供了丰富的组件,包括对话框(Dialog)、模态框&#x…

一般中小型企业网站用哪种类型的SSL证书?

对于一般中小型企业网站,常用的SSL证书类型主要包括域名验证型SSL证书(DV SSL证书)和组织验证型SSL证书(OV SSL证书)。 域名验证型SSL证书(DV SSL证书) 特点: 验证简单&#xff1…

android 将新建的底部导航的demo,修改首页默认显示的字符串为helloworld。

1、先上个图,demo建好了以后,默认显示一个字符串: 2、这个demo的结构: activity_main.xml中用navGraph与其关联。 3、增加方法,给text赋值: package com.example.helloworld.ui.homeimport androidx.lifec…

三级_网络技术_53_应用题

一、 请根据下图所示网络结构回答下列问题。 1.设备1应选用__________网络设备。 2.若对整个网络实施保护,防火墙应加在图中位置1~3的__________位置上。 3.如果采用了入侵检测设备对进出网络的流量进行检测,并且探测器是在交换机1上通过端口镜像方式…

Launcher3 长按Hotseat图标,显示删除角标(红底白杠杠用于删除图标或者显示应用未读消息数量)

基于Android 13,Launcher3实现需求: 1. 长按Hotseat的图标显示红色删除角标 2. 点击角标,删除图标并保存到Database 3.点击其他地方,取消编辑hotseat图标模式 实现效果: 实现原理: 图标是由BubbleTextView来是实现…

剑侠情缘c#版(游戏源码+资源+工具+程序),百度云盘下载,大小1.68G

剑侠情缘c#版(游戏源码资源工具程序),c#开发的,喜欢研究游戏的可以下载看看。亲测可进游戏。 剑侠情缘c#版(游戏源码资源工具程序)下载地址: 通过网盘分享的文件:【游戏】剑侠情缘c#…

jmeter如何把一个请求的响应中部分字段提取出来便于下个请求用

jmeter如何把一个请求的响应中部分字段提取出来便于下个请求用,可以通过json提取器提取,如果提取多个,就设置多个json提取。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/dd5afb1fca3f4e31b636e17e11e8dfc3.png

2.10鼠标事件

目录 实验原理 实验代码 运行结果 文章参考 实验原理 在 OpenCV 中存在鼠标的操作,比如左键单击、双击等。对于 OpenCV 来讲,用户的鼠标操作被认为发生了一个鼠标事件,需要对这个鼠标事件进行处理,这就是事件的响应。下面我们…

手机ip频繁跳动的原因是什么?手机ip地址老是变怎么解决

在当今数字化时代,‌手机已成为我们生活中不可或缺的一部分。‌然而,‌有些用户可能会遇到手机IP地址频繁变动的问题,‌这不仅可能影响网络连接的稳定性,‌还可能对特定的在线活动造成困扰。‌本文将深入探讨手机IP频繁跳动的原因…

传输大咖36 | 镭速轻松解决医疗卫生行业跨网文件传输难题

在医疗领域,医疗数据的关键性显而易见。病历详尽记载与医学影像数据等,均为确保精确诊断与治疗成效的基石。但是,医疗数据量的迅猛增长使得传统文件传输方法的不足之处日益凸显,难以跟上现代医学的步伐。特别是在跨网文件交换这一…

SSM框架之Mybatis

前言 什么是框架? 框架就是对技术的封装,将基础的技术进行封装,便于程序员使用,提高开发效率 ssm框架是什么? ssm包括spring、springMvc、Mybatis,是后端企业级开发时会使用到的框架组合,在…

无人机搭载高压喷水清洗绝缘子技术详解

随着电力行业的快速发展,高压输电线路作为电力传输的“大动脉”,其安全稳定运行至关重要。绝缘子作为输电线路中的重要组件,长期暴露于自然环境中,易受尘埃、鸟粪、盐雾等污染物附着,导致绝缘性能下降,甚至…

Visual Basic 6.0教程/Visual Basic从入门到实践/Visual Basic学习视频教程

Visual Basic 6.0教程/Visual Basic从入门到实践/Visual Basic学习视频教程 李天生VB从入门到精通 第一章 VisualBasic6基本介绍 第二章 VisualBasic6的数据类型与运算符表达式 第三章 VisualBasic6的内部函数 第四章 VisualBasic6的基本语句 第五章 VisualBasic6的数组 第六章…

AMC8美国数学竞赛备考:吃透625道真题和知识点(持续)

距离接下来最近的2025年AMC8美国数学竞赛还有几个月的时间,实践证明,做真题,吃透真题和背后的知识点是备考AMC8有效的方法之一。 2000-2024年AMC8真题和解析:2023年第13题 这道题的考点是分数。 题意的重点是均匀分布&#xff0c…

OpenCV绘图函数(5)绘制标记函数drawMarker()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::drawMarker 函数在 OpenCV 中用于在一个给定的位置上绘制标记。目前支持几种不同的标记类型,具体信息可以参考 MarkerTypes 函数…

这样图解Transformer应该没人看不懂了吧——多头注意力机制详解

这是关于Transformer系列文章的第三篇部分,我们将用自上而下的方式深入探讨Transformer的功能。 在前两篇文章中,我们已经了解了Transformer是什么、它的架构以及工作原理。 没看过的同学可以点击图片进行查看 Transformer图解1—基础与架构 Transform…