Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器

news2025/1/11 19:53:11

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Paper: https://arxiv.org/abs/2303.13439
Project: https://github.com/Picsart-AI-Research/Text2Video-Zero
原文链接:Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器(by 小样本视觉与智能前沿)

目录

文章目录

  • Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
    • 01 现有工作的不足?
    • 02 文章解决了什么问题?
    • 03 关键的解决方案是什么?
    • 04 主要的贡献是什么?
    • 05 有哪些相关的工作?
    • 06 方法具体是如何实现的?
      • Zero-shot Text-to-Video 问题表述
      • 方法细节
        • 1)潜码的运动动态
        • 2)重新编程跨帧注意
        • 3)背景平滑
      • 条件和特定的Text-to-Video
      • 视频Instruct-Pix2Pix
    • 07 实验结果和对比效果如何?
      • 定性评估
      • 和Baseline比较
        • 1)定量比较
        • 2)定性比较
    • 08 消融研究告诉了我们什么?
    • 09 结论

01 现有工作的不足?

最近的text-to-video生成方法依赖于计算量大的训练,并且需要大规模的视频数据集。

02 文章解决了什么问题?

在本文中,我们引入了zero-shot文本到视频生成的新任务,并通过利用现有文本到图像合成方法(例如stable diffusion)的能力,提出了一种低成本的方法(无需任何训练或优化),使其适用于视频领域。

03 关键的解决方案是什么?

  • 利用运动动态生成帧的隐码,使全局场景和背景时间保持一致;
  • 在第一帧的基础上使用每一帧的新跨帧注意力重新编程帧级自注意力,以保留上下文、外观和前景对象的身份。

04 主要的贡献是什么?

  • Zero-shot文本到视频合成的新问题设置,旨在使文本引导的视频生成和编辑“freely affordable”。我们只使用预训练的文本到图像扩散模型,没有任何进一步的微调或优化。
  • 通过在潜码中编码运动动态,并使用新的跨帧注意力重新编程每帧的自注意,两种新的post-hoc技术来强制时间一致的生成。
  • 各种各样的应用证明了我们的方法的有效性,包括有条件的和专门的视频生成,以及视频指令-pix2pix,即通过文本指令编辑视频。

05 有哪些相关的工作?

  • Text-to-Image Generation
  • Text-to-Video Generation

与上述方法不同,我们的方法完全不需要训练,不需要大量计算能力或数十个GPU,这使得每个人都能负担得起视频生成过程。在这方面,Tunea Video[41]最接近我们的工作,因为它将必要的计算减少到只调谐一个视频。然而,它仍然需要优化过程,并且严重依赖于参考视频。

06 方法具体是如何实现的?

Zero-shot Text-to-Video 问题表述

给定一个文本描述τ和一个正整数m∈N,目标是设计一个函数 F \mathcal{F} F,输出视频帧 V ∈ R m x H x W x 3 V \in R^{mxHxWx3} VRmxHxWx3(对于预定义的分辨率H×W),它们表现出时间一致性。

为了确定函数 F \mathcal{F} F,不需要对视频数据集进行训练或微调。

我们的问题表述为文本到视频生成提供了一种新的范式。值得注意的是,零样本文本到视频方法自然地利用了文本到图像模型的质量改进。

方法细节

针对naive方法存在的外观不一致和时间不一致的问题,我们提出:

  • 引入了潜码 x T 1 , . . . , x T m x_T^1,...,x_T^m xT1,...,xTm之间的运动动态,以保持全局场景时间一致。
  • 使用跨帧注意机制来保持前景对象的外观和身份。

整体框架如图2所示。

Fig 2. 方法框架

1)潜码的运动动态

我们通过执行以下步骤来构造潜码 x T 1 : m x_T^{1:m} xT1:m,而不是独立的从标准高斯分布随机采样它们(也参见算法1和图2)。

  1. 随机采样第一帧的潜码 x T 1 x_T^1 xT1 ~ N ( 0 , 1 ) N(0,1) N(0,1).
  2. 使用SD模型,在 x T 1 x_T^1 xT1上执行∆t步 DDIM后向传播,得到对应的潜码 x T ′ 1 x_{T'}^1 xT1,其中 T ′ = T − Δ t T' = T - \Delta t T=TΔt.
  3. 为全局场景和摄像机运动定义一个方向 δ = ( δ x , δ y ) ∈ R 2 \delta = (\delta_x,\delta_y) \in R^2 δ=(δx,δy)R2。默认 δ \delta δ可以是主对角线方向,也就是 δ x = δ y = 1 \delta_x = \delta_y = 1 δx=δy=1
  4. 为每一帧 k = 1 , 2 , . . . , m k=1,2,...,m k=1,2,...,m 计算全局平移量 δ k = λ ⋅ ( k − 1 ) δ \delta^k = \lambda \cdot(k-1)\delta δk=λ(k1)δ,其中 λ \lambda λ是控制全局运动的超参数。
  5. 构造运动平移流,最后的序列表示为 x ~ T ′ 1 : m \tilde{x}_{T'}^{1:m} x~T1:m,其中 W k ( ⋅ ) W_k(\cdot) Wk()是通过向量 δ k \delta^k δk平移的翘曲操作.

  1. 在2-m帧上执行 Δ t \Delta t Δt步DDPM前向传播,得到对应的潜码 x T 2 : m x_T^{2:m} xT2:m.

2)重新编程跨帧注意

我们使用跨帧注意机制来保存有关(特别是)前景对象的外观,形状和身份在整个生成视频的信息。

为了利用跨帧注意力,同时在不重新训练的情况下利用预训练的SD,我们用跨帧注意替换它的每个自注意层,每一帧的注意都在第一帧上。
注意力公式:

在我们的方案中,每个注意力层接收m个输入,因此,线性注入层分别产生m个Q,K,V。
因此,我们可以用第一帧的值替换到其他2-m帧的值,实现跨帧注意力:


通过使用跨帧注意力,物体和背景的外观和结构以及身份从第一帧延续到后续帧,显著增加了生成帧的时间一致性(见图10及其附录,图16,20,21)。

3)背景平滑

在之前工作的基础上,我们对解码后的图像应用显著目标检测(一种in-house解决方案)[39],获得每帧k对应的前景掩码 M k M^k Mk。然后根据 W k W_k Wk定义的所使用的运动动态对 x t 1 x_t^1 xt1进行变形,并将结果表示为 x ^ t k : = W k ( x t 1 ) \hat{x}_t^k:=W_k(x_t^1) x^tk:=Wk(xt1)

背景平滑是通过实际潜码 x t k x_t^k xtk与背景上扭曲的潜码 x ^ t k \hat{x}_t^k x^tk的凸组合来实现的,即:


其中 α \alpha α是超参数(实验中取0.6)。当没有提供指导时,我们在从文本生成视频时使用背景平滑。关于背景平滑的消融研究,见附录第6.2节。

条件和特定的Text-to-Video

为了指导我们的视频生成过程,我们将我们的方法应用到基本的扩散过程中,即用运动信息来丰富潜码 x T 1 : m x_{T}^{1:m} xT1:m,并将UNet中的自注意转化为跨帧注意。在采用UNet进行视频生成任务的同时,在每帧潜码上应用ControlNet预训练的每帧复制分支,并将ControlNet分支输出添加到UNet的skip-connections。

Fig 4. Text2Video-Zero+ControlNet的框架

视频Instruct-Pix2Pix

随着文字引导图像编辑方法的兴起,如Prompt2Prompt [9], directive - pix2pix [2], SDEdit[19]等,文字引导视频编辑方法出现了[1,16,41]。虽然这些方法需要复杂的优化过程,但我们的方法可以在视频领域采用任何基于sd的文本引导图像编辑算法,而无需任何训练或微调。在这里,我们采用文本引导的图像编辑方法instruction-pix2pix,并将其与我们的方法相结合。更准确地说,我们将directive-pix2pix中的自注意机制根据公式8改为跨帧注意力。

我们的实验表明,这种自适应显著提高了编辑视频的一致性(见图9).

07 实验结果和对比效果如何?

定性评估

在文本到视频的情况下,我们观察到它生成了与文本提示对齐良好的高质量视频(参见图3和附录)。例如,画中的熊猫自然地走在街上。同样地,使用来自边缘或姿势的额外引导(见图5、图6、图7和附录),可以生成与提示和引导相匹配的高质量视频,具有很好的时间一致性和身份保持性。在视频Instruct-pix2pix(见图1和附录)的情况下,生成的视频相对于输入视频具有高保真度,同时密切遵循指令。

Fig 3. 文本到视频结果。描绘的框架表明身份和外表在时间上是一致的,并且适合文本提示。有关更多结果,请参见附录第6节。

Fig 5. 带有位姿控制的条件生成。更多结果见附录第8节。

Fig 6. 带有边缘控制的条件生成。更多结果见附录第7节。

Fig 7. 具有边缘控制和DB模型的条件生成。

和Baseline比较

1)定量比较

为了显示定量结果,我们评估CLIP评分[10],它表示视频-文本对齐。我们随机选取由CogVideo生成的25个视频,按照我们的方法用相同的提示来合成相应的视频。我们的方法和CogVideo的CLIP得分分别是31.19和29.63。因此,我们的方法略优于CogVideo,尽管后者有94亿个参数,需要在视频上进行大规模训练。

2)定性比较

我们在图8中给出了我们方法的几个结果,并与CogVideo[15]进行了定性比较。这两种方法在整个序列中都表现出良好的时间一致性,保持了目标和背景的同一性。然而,我们的方法显示出更好的文本-视频对齐。例如,虽然我们的方法正确地生成了图8(b)中一个人在阳光下骑自行车的视频,但CogVideo将背景设置为月光。同样在图8(a)中,我们的方法正确地显示了一个人在雪中跑步,而在CogVideo生成的视频中,雪和跑步的人都不清晰可见。

Fig 8. 我们的方法与CogVideo在文本到视频生成任务上的比较(左为我们的方法,右为CogVideo[15])。更多的比较见附录图12。

视频instruction-pix2pix的定性结果以及与每帧directive-pix2pix和Tune-AVideo的视觉对比如图9所示。虽然instruction-pix2pix显示出良好的每帧编辑性能,但它缺乏时间一致性。这一点在描述滑雪者的视频中尤为明显,其中的雪和天空使用了不同的风格和颜色绘制。使用我们的Video instruction-pix2pix方法,这些问题得到了解决,从而在整个序列中实现了时间一致的视频编辑。

Fig 9. 视频指令-pix2pix(我们的)与Tune-A-Video和每帧指令-pix2pix的比较。有关更多比较,请参阅附录

虽然Tune-A-Video创建了时间一致的视频生成,但它与指令引导的一致性不如我们的方法,难以创建本地编辑并丢失输入序列的细节。这一点在图9(左侧)所描绘的舞者视频的编辑中变得很明显。与Tune-A-Video相比,我们的方法更好地保留了背景,例如舞者身后的墙几乎保持不变。Tune-A-Video绘制了一堵经过严重修改的墙。此外,我们的方法更忠实于输入细节,例如,Video instruction-pix2pix完全按照提供的姿势绘制舞者(图9左),并显示输入视频中出现的所有滑雪人员(对比图9最后一帧(右)),与Tune-A-Video相比。所有上述的Tune-A-Video的弱点也可以在附录(图23、24)中提供的附加评估中观察到。

08 消融研究告诉了我们什么?

定性结果如图10所示。仅使用基本模型,即没有我们的更改(第一行),无法实现时间一致性。对于不受约束的文本到视频世代来说,这尤其严重。例如,马的外观和位置变化非常快,背景完全不一致。使用我们提出的运动动态(第二行),视频的一般概念在整个序列中得到更好的保存。例如,所有的帧都显示了一匹运动中的马的特写。同样地,女人的外观和中间四个人物的背景(使用带有边缘引导的ControlNet)得到了极大的改善。

Fig 10. 消融研究显示了我们提出的文本到视频和文本引导视频编辑组件的效果。附加的消融研究结果在附录中提供。

使用我们提出的跨帧注意(第三行),我们看到在所有帧中,对象身份及其外观的保存都得到了改进。最后,通过结合这两个概念(最后一行),我们实现了最佳的时间相干性。例如,我们在最后四列中看到相同的背景图案和关于物体身份的保留,同时在生成的图像之间自然过渡。

09 结论

本文针对Zero-shot文本视频合成问题,提出了一种时间一致视频生成的新方法。我们的方法不需要任何优化或微调,使文本到视频的生成及其应用程序对每个人都负担得起。

我们证明了我们的方法在各种应用中的有效性,包括条件和专业视频生成,以及视频指导-pix2pix,即指导视频编辑。

我们对该领域的贡献包括提出了zero-shot文本到视频合成的新问题,展示了文本到图像扩散模型用于生成时间一致视频的使用,并提供了我们的方法在各种视频合成应用中的有效性的证据。我们相信,我们提出的方法将为视频生成和编辑开辟新的可能性,使每个人都能获得并负担得起。

原文链接:Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器(by 小样本视觉与智能前沿)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/691811.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Splashtop 让按需远程支持流程更加流畅

Splashtop 一直采用9位 SOS 会话码的形式为用户提供按需支持: 1、技术员引导最终用户访问网站 sos.splashtop.com; 2、最终用户下载并运行小程序,然后发送9位会话码给技术员。 自2015年 Splashtop SOS 产品推出以来,我们一直采…

PLC数字量与模拟量信号输入/输出接线

西门子S7-1200 具有用于进行计算和测量、闭环回路控制和运动控制的集成技术,是一个功能非常强大的系统,可以实现多种类型的自动化任务。下面分享S7-1200系列数字量与模拟量信号输入/输出接线图给大家。 数字量信号模块输入输出接线 SM 1221 数字量输入…

分布式机器学习(Parameter Server)

分布式机器学习中,参数服务器(Parameter Server)用于管理和共享模型参数,其基本思想是将模型参数存储在一个或多个中央服务器上,并通过网络将这些参数共享给参与训练的各个计算节点。每个计算节点可以从参数服务器中获取当前模型参数&#xf…

高速电路设计系列分享-信号链精度分析(下)

文章目录 概要整体架构流程技术名词解释技术细节小结 概要 提示:这里可以添加技术概要 在任何设计中,信号链精度分析都可能是一项非常重要的任务,必须充分了解。之前, 我们讨论了在整个信号链累积起来并且最终会影响到转换器的多…

嵌入式软件测试笔记7 | 嵌入式软件测试中基于风险的测试策略如何开展?

7 | 嵌入式软件测试中基于风险的测试策略如何开展? 1 风险评估1.1 分析风险1.2 如何估计故障几率?1.3 导致故障几率较高的因素1.4 估计可能的损失1.5 风险评估的来源1.6 风险的处理 2 主测试计划中的策略2.1 目标2.2 制定策略的步骤2.3 选择质量特性2.4 …

美国签证办理需要户口本吗?

在申请美国签证时,有关所需文件的问题常常令人困惑。关于是否需要提供户口本,知识人网可以向您解释一下相关情况。 首先,需要明确的是,美国签证申请并不要求申请人提供户口本。美国领事馆和大使馆在签证申请过程中通常要求申请人提…

零知识证明(Sigma和Flat-shamir)

概述 定义:大概的定义就是prover可以向verifier证明自己给定的信息是大概率正确的,但是不泄露任何附加信息,包含信息本身。 举例 这里以一个比较经典的例子,即向红绿色盲(无法区分红色和绿色,看红色和绿色…

基于RFID技术的并列式挤奶厅方案

随着现代农业的不断发展,RFID技术已经广泛应用于畜牧业生产中。在奶牛养殖领域,RFID技术可以帮助养殖场管理人员实现奶牛的精准管理,提高生产效率。本文将介绍一种基于RFID技术的并列式挤奶厅方案,该方案可以实现对每头奶牛的精准…

网络安全(黑客)必备工具包

1. NMap 作为Network Mapper的缩写,NMap是一个开源的免费安全扫描工具,可用于安全审计和网络发现。它适用于Windows、Linux、HP-UX、Solaris、BSD变体(包括Mac OS)以及AmigaOS。Nmap可用于探测网络上哪些主机可访问,它们正在运行的操作系统类…

Keil MDK编程环境下的 STM32 IAP下载(学习笔记)

IAP的引入 不同的程序下载方式 ICP ICP(In Circuit Programing)。在电路编程,可通过 CPU 的 Debug Access Port 烧录代码,比如 ARM Cortex 的 Debug Interface 主要是 SWD(Serial Wire Debug) 或 JTAG(Joint Test Action Group); ISP ISP(I…

合宙Air724UG Cat.1模块硬件设计指南--Wifi扫描

概述 Air724UG具有WiFi Scan功能,支持2.4G频段下的802.11b,802.11g,802.11n等WiFi技术协议,结合模块本身支持的蓝牙功能,二者共用一路天线。 Air724UG以主动的方式,在每个信道上发出Probe Request帧&#x…

Java集合框架中取出元素时的比较问题:“==“与equals()方法

今天随便刷力扣的时候看到了最小栈&#xff0c;发现力扣上没做过&#xff0c;题不难&#xff0c;于是做了一下 一开始的代码如下&#xff1a; class MinStack {Deque<Integer> stack;Deque<Integer> minStack;public MinStack() {stack new LinkedList<>()…

HHU商务数据挖掘期末考点复习

文章目录 第一章 概述第二章 商务智能过程2.1四个部分2.2数据仓库与数据库2.3在线分析处理与在线事务处理 第三章 关联分析3.1 频繁模式与关联规则3.2 相关性度量liftcosine 第四章 分类4.1决策树4.1.1 信息熵的概念4.1.2 计算目标变量的信息熵4.1.3 算条件熵4.1.4 信息增益4.1…

从专用模型到大模型

背景&#xff1a; 在开始文章正文之前&#xff0c;我们来讲讲为何突然大模型火了&#xff0c;大模型和专用模型到底有何差异。 大模型火之前专业模型其实已经能够很好的配合做很多很复杂的事情。如果只是从提高工作效率的角度来讲应该是发展模型的专业问题解决能力&#xff0…

SpringSecurity实现Remember-Me实践

【1】基于会话技术的实现 也就是基于Cookie的实现。 ① 登录页面 这里name"remember-me"表示“记住我”的复选框&#xff0c;默认key是remember-me。 <form action"/user/login" method"post"><input type"text" name&q…

Jmeter连接数据库并进行操作

一&#xff1a;加一个JDBC组件 二、填写连接信息&#xff1a; 三&#xff1a;添加JDBC请求 四、填写sql并运行

[centos] 新买的服务器环境搭建

由于去年买的云服务器快过期了,然后最近又新买了一个服务器,所以就写下了这篇文章, 虽然可以镜像搭建,但是本身原服务器就没有多少东西,所以我选择了手动搭建... 再且,也可以帮我再熟悉一下 centos 环境... 当然很多都是我之前OneNote的学习笔记,这里就直接复制和粘贴了(&#…

操作系统3——处理机调度与死锁

本系列博客重点在深圳大学操作系统课程的核心内容梳理&#xff0c;参考书目《计算机操作系统》&#xff08;有问题欢迎在评论区讨论指出&#xff0c;或直接私信联系我&#xff09;。 梗概 本篇博客主要介绍操作系统第三章处理机调度与死锁的相关知识。 目录 一、调度基本概念…

【FFmpeg实战】MP4封装格式分析

原文地址&#xff1a;https://www.cnblogs.com/moonwalk/p/16244932.html 解析工具&#xff1a; https://gpac.github.io/mp4box.js/test/filereader.html (mp4box) 1. 概述 mp4 容器格式相较于 flv、ts 容器格式来说&#xff0c;其定义较为复杂&#xff0c;本篇文章主要记录…

1.计算机是如何工作的(上)

文章目录 1.计算机发展史2.冯诺依曼体系&#xff08;Von Neumann Architecture&#xff09;3.CPU 基本工作流程3.1逻辑门3.1.1电子开关 —— 机械继电器(Mechanical Relay)3.1.2门电路(Gate Circuit) 3.2算术逻辑单元 ALU&#xff08;Arithmetic & Logic Unit&#xff09;3…