Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning

news2024/9/22 13:31:43

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Fig 1. Tune-A-Video:一种使用文本视频对和预训练的T2I模型生成T2V 的新方法。

Project:https://tuneavideo.github.io
原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿)

目录

文章目录

  • Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
    • 01 现有工作的不足?
    • 02 文章解决了什么问题?
    • 03 关键的解决方案是什么?
    • 04 主要的贡献是什么?
    • 05 有哪些相关的工作?
    • 06 方法具体是如何实现的?
      • Network Inflation
      • Fine-Tuning and Inference
        • 1)Model fine-tuning
        • 2)基于DDIM反演的结构指导
    • 07 实验结果和对比效果如何?
      • Applications
        • 1)Object editing.
        • 2)Background change.
        • 3)Style transfer.
        • 4)个性化可控生成
      • 定性结果
      • 定量结果
    • 08 消融研究告诉了我们什么?
    • 09 这个工作还是可以如何优化?
    • 10 结论

01 现有工作的不足?

为了复制文本到图像(T2I)生成的成功,最近的工作使用大规模视频数据集来训练文本到视频(T2V)生成器。尽管他们的结果很有希望,但这种范式在计算上是昂贵的。

Fig 2. 对预训练的 T2I 模型的观察:1)它们可以生成准确地表示动词术语的静态图像。2) 将空间自注意力扩展到时空注意力会在帧之间产生一致的内容。

02 文章解决了什么问题?

我们提出了一种新的T2V生成设置-单次视频调优,其中只有一个文本视频对。我们的模型建立在最先进的T2I扩散模型上,该模型是在大量图像数据上预训练的。

03 关键的解决方案是什么?

我们引入了Tune-A-Video,它涉及定制的时空注意机制和有效的一次性调整策略。在推理中,我们采用DDIM反演为采样提供结构指导。

04 主要的贡献是什么?

  • 我们为 T2V 生成引入了 One-Shot Video Tuning 的新设置,消除了使用大规模视频数据集进行训练的负担。
  • 我们提出了 Tune-A-Video,这是第一个使用预训练的 T2I 模型生成 T2V 的框架。
  • 我们提出了有效的注意力调整和结构反转,显着提高了时间一致性。

05 有哪些相关的工作?

  • Text-to-Image diffusion models.
  • Text-to-Video generative models.
  • Text-driven video editing.
  • Generation from a single video.

06 方法具体是如何实现的?

Fig 3. Tune-A-Video的高级概述。给定一个字幕视频,我们为 T2V 建模微调预训练的 T2I 模型(例如,Stable diffusion)。在推理过程中,我们生成新的视频来表示文本提示中的编辑,同时保留输入视频的时间一致性。

Network Inflation

spatial self-attention mechanism:


其中, z v i z_{v_i} zvi 是帧 v i v_i vi对应的潜码表示。 W ∗ W^* W是将输入投影到查询、键和值的可学习矩阵,d 是键和查询特征的输出维度。

我们提出使用稀疏版本的因果注意机制(causal attention mechanism),其中在帧 z v i z_{v_i} zvi 和帧 z v 1 z_{v_1} zv1 z v i − 1 z_{v_{i-1}} zvi1 之间计算注意矩阵,保持低计算复杂度在 O ( 2 m ( N ) 2 ) O(2m(N)^2) O(2m(N)2)
我们实现Attention(Q,k,V)如下:


其中 [ ⋅ ] [\cdot] []表示连接操作,视觉描述见图5。

Fig 5. ST-Attn:帧vi的潜在特征,前一帧vi−1和v1被投影到queryQ、key K和value V。输出是值的加权和,由查询和关键特征之间的相似性加权。我们强调更新的参数 WQ。

Fine-Tuning and Inference

1)Model fine-tuning

我们微调整个时间自注意力 (T-Attn) 层,因为它们是新添加的。此外,我们建议通过更新交叉注意力中的查询投影来细化文本-视频对齐(Cross-Attn)。在实践中,与完全调优[39]相比,微调注意块在计算上是有效的,同时保留了预训练的T2I扩散模型的原始特性。我们在标准ldm[37]中使用相同的训练目标。图4 说明了带有突出显示可训练参数的微调过程。

Fig 4. Tune-A-Video 的流程:给定一个文本-视频对(例如,“一个人正在滑雪”)作为输入,我们的方法利用预训练的 T2I 扩散模型来生成 T2V。在微调期间,我们使用标准的扩散训练损失更新注意块中的投影矩阵。在推理过程中,我们从输入视频倒置的潜在噪声中采样一个新的视频,由编辑后的提示引导(例如,“Spider Man 在海滩上冲浪,卡通风格”)。

2)基于DDIM反演的结构指导

通过没有文本条件的DDIM反演得到源视频V的潜在噪声。该噪声作为DDIM采样的起点,由编辑后的提示 T ∗ \mathcal{T}^* T指导。输出视频 V ∗ \mathcal{V}^* V 由下式给出:

07 实验结果和对比效果如何?

Applications

1)Object editing.

我们的方法的主要应用之一是通过编辑文本提示来修改对象。这允许轻松替换、添加或删除对象。图 6 显示了一些示例.

Fig 6. 实验结果

2)Background change.

我们的方法还允许用户更改视频背景(即对象所在的位置),同时保留对象运动的一致性。例如,我们可以通过添加新位置/时间描述并将图 7 中的国家侧道路视图更改为海洋视图,将图 6 中滑雪人的背景修改为“海滩上”或“太阳落下”。

Fig 7. 评估方法之间的定性比较

3)Style transfer.

由于预训练 T2I 模型的开放域知识,我们的方法将视频转换为各种难以仅从视频数据中学习的风格(12)。例如,我们通过将全局样式描述符附加到提示中,将现实世界的视频转换为漫画风格(图 6,或 Van Gogh风格(图 10)。

Table 1. 定量评估.

4)个性化可控生成

我们的方法可以很容易地与个性化的T2I模型集成(例如,DreamBooth[39],它以3-5张图像作为输入,并返回一个个性化的T2I模型),直接对它们进行细化。例如,我们可以使用“现代迪士尼风格”或“土豆头先生”个性化的DreamBooth来创建特定风格或主题的视频(图11)。我们的方法还可以与T2I适配器[29]和ControlNet[52]等条件T2I模型集成,在不需要额外训练成本的情况下对生成的视频进行不同的控制。例如,我们可以使用一系列人体姿势作为控制来进一步编辑运动(例如,图1中的舞蹈)。

定性结果

我们在图7中给出了我们的方法与几个基线的视觉比较。 相比之下,我们的方法生成了时间连贯的视频,保留了输入视频中的结构信息,并与编辑过的单词和细节保持一致。另外的定性比较可以在图12中找到。

定量结果

我们通过automatic metrics和用户研究来根据基线量化我们的方法,并在表1中报告框架一致性和文本可信度。

08 消融研究告诉了我们什么?

我们在Tune-A-Video中进行了一项消融研究,以评估时空注意(ST-Attn)机制、DDIM反演和微调的重要性。每个设计都是单独的,以分析其影响。结果如图8所示。

Fig 8. Ablation study.
这些结果表明,我们所有的关键设计都有助于我们方法的成功结果。

09 这个工作还是可以如何优化?

图9给出了输入视频中包含多个目标并出现遮挡时,我们的方法失败的情况。这可能是由于T2I模型在处理多个对象和对象交互方面的固有局限性。一个潜在的解决方案是使用附加的条件信息,如深度,使模型能够区分不同的对象及其相互作用。这方面的研究要留待将来研究。

Fig 9. limitations.

10 结论

在本文中,我们介绍了T2V生成的一项新任务–one-shot视频调优。该任务涉及仅使用单个文本视频对和预训练的T2I模型来训练T2V生成器。我们提出Tune-A-Video,一个简单而有效的框架,用于文本驱动的视频生成和编辑。为了生成连续视频,我们提出了一种有效的调优策略和结构反演,可以生成时间相干视频。大量的实验证明了我们的方法在广泛的应用中取得了显著的效果。

原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/697629.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于matlab使用校准相机测量平面物体(附源码)

一、前言 此示例演示如何使用单个校准相机以世界单位测量硬币的直径。 此示例演示如何校准相机,然后使用它来测量平面对象(如硬币)的大小。这种方法的一个示例应用是测量传送带上的零件以进行质量控制。 二、校准相机 相机校准是估计镜头…

基于多站点集中汇聚需求的远程调用直播视频汇聚平台解决方案

一、行业背景 随着视频汇聚需求的不断提升,智慧校园、智慧园区等项目中需要将各分支机构的视频统一汇聚到总部,进行统一管控,要满足在监控内部局域网、互联网、VPN网络等TCP/IP环境下,为用户提供低成本、高扩展、强兼容、高性能的…

ModaHub魔搭社区:如何基于向量数据库+LLM(大语言模型),打造更懂你的企业专属Chatbot?

目录 1、为什么Chatbot需要大语言模型向量数据库? 2、什么是向量数据库? 3、LLM大语言模型ADB-PG:打造企业专属Chatbot 4、ADB-PG:内置向量检索全文检索的一站式企业知识数据库 5、总结 1、为什么Chatbot需要大语言模型向量数据库? 这个春天,最让人震感的科技产品莫过…

6.28作业

作业1 结构体不能被继承,类可以被继承结构体默认的都是公共,类默认是私有的 转载【结构体和类的区别】 结构体是值类型,类是引用类型 结构体存在栈中,类存在堆中 结构体成员不能使用protected访问修饰符,而类可以 结…

vsCode 运行 报错信息 yarn : 无法加载文件 C:\Program Files\nodejs\yarn.ps1

检索说是 PowerShell 执行策略,默认设置是Restricted不去加载配置文件或运行脚本。需要去做相应的变更, 修改配置为 RemoteSigned 管理员身份打开 PowerShell,执行命令,修改PowerShell 执行策略 set-ExecutionPolicy RemoteSigne…

2023.6.28

类和结构体区别&#xff1a; 1&#xff0c;类可以进行封装&#xff08;有访问权限等&#xff09;&#xff0c;结构体无&#xff1b; 2&#xff0c;类有&#xff1a;封装&#xff0c;继承&#xff0c;多态三大特征&#xff0c;结构体只有变量和函数。 #include <iostream&g…

面试题小计(1)

Https加密过程、与三次握手 三次握手是传输层的概念&#xff0c;HTTPS通常是 SSL HTTP 的简称&#xff0c;目前使用的 HTTP/HTTPS 协议是基于 TCP 协议之上的&#xff0c;因此也需要三次握手。要在 TCP 三次握手建立链接之后&#xff0c;才会进行 SSL 握手的过程&#xff08;…

Linux在线升级JDK版本(不用去官网下载安装包)

Linux在线升级JDK版本 ​ 只要3个命令 确保系统已连接到互联网&#xff1a;确保你的 Linux 系统已连接到互联网&#xff0c;以便下载和安装新的 JDK 版本。 更新软件包管理器&#xff1a;运行以下命令来更新系统的软件包管理器&#xff08;在不同的 Linux 发行版中&#xff0…

(3)深度学习学习笔记-简单线性模型

文章目录 一、线性模型二、实例1.pytorch求导功能2.简单线性模型&#xff08;人工数据集&#xff09; 来源 一、线性模型 一个简单模型&#xff1a;假设一个房子的价格由卧室、卫生间、居住面积决定&#xff0c;用x1&#xff0c;x2&#xff0c;x3表示。 那么房价y就可以认为yw…

大数据分析与机器学习的结合:实现智能决策

章节一&#xff1a;引言 在当今数字化时代&#xff0c;大数据分析和机器学习已经成为推动技术创新和业务发展的关键要素。大数据的快速增长和复杂性使得传统的数据处理方法变得不再有效。而机器学习作为一种自动化的数据分析方法&#xff0c;能够从海量数据中挖掘出有价值的信…

QSS样式设置及语法规则

QSS&#xff08;Qt Style Sheets&#xff09;是Qt的一个功能强大的样式表语言。它类似于CSS&#xff08;Cascading Style Sheets&#xff09;&#xff0c;可以用于定义和控制应用程序的外观和样式。QSS可以应用于Qt部件&#xff08;Widgets&#xff09;和绘制元素&#xff0c;以…

集合专题----Map篇

1、Map 接口和常用方法 &#xff08;1&#xff09;Map 接口实现类的特点 ① Map与Collection并列存在&#xff08;即平行关系&#xff09;。Map用于保存具有映射关系的数据&#xff1a;Key-Value&#xff1b; ② Map 中的 key 和 value 可以是任何引用类型的数据&#xff0c;…

先平移再旋转和先旋转再平移的区别

对于一个刚体&#xff0c;以汽车为例&#xff0c;先旋转再平移和先平移再旋转有没有区别要看这个平移旋转是以什么坐标系为基准 如果平移和旋转都以小车坐标系为基准&#xff0c;二者是有区别的 如果平移旋转以世界坐标系为基准&#xff0c;二者是没有区别的 看图就明白了 所…

v8-tc39-ecma262:concat,不只是合并数组

如上图&#xff0c;解释如下&#xff1a; 如果是对象o&#xff0c;转换为对象新建数组A设n0,用于最后赋值给A&#xff0c;确保A的长度正确预先把值设置到items(这里不知何意&#xff1f;)循环items&#xff0c;设置元素为E E是否可展开如果可展开 有len下标&#xff0c;则获取…

LLM - 第2版 GLM 中文对话模型 ChatGLM2-6B 服务配置 (2)

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://blog.csdn.net/caroline_wendy/article/details/131445696 ChatGLM-6B v1 工程&#xff1a;基于 ChatGLM-6B 模型搭建 ChatGPT 中文在线聊天 (1)ChatGLM2-6B v2 工程&#xff1a;第2版 …

react umi中使用svg线上图片不加载问题

参考链接&#xff1a; https://www.jianshu.com/p/c927122a6e82 前言&#xff1a; 在react项目中&#xff0c;我们本地通过img标签的src使用svg图片是可以加载的&#xff0c;但是发布到线上图片加载不出来。 import stopImg from /images/stop.svg; <img src{stopImg }/&…

Transformer时间序列:PatchTST引领时间序列预测进

Transformer时间序列&#xff1a;PatchTST引领时间序列预测进 引言为什么transformer框架可以应用到时间序列呢统计学模型深度学习模型 PatchTSTPatchTST模型架构原理。通道独立性Patchingpatching的优点Transformer编码器 利用表示学习改进PatchTST使用PatchTST模型进行预测初…

深入理解 Golang: 聚合、引用和接口类型的底层数据结构

Go 中有基础类型、聚合类型、引用类型和接口类型。基础类型包括整数、浮点数、布尔值、字符串&#xff1b;聚合类型包括数组、结构体&#xff1b;引用类型包括指针、切片、map、function、channel。在本文中&#xff0c;介绍部分聚合类型、引用类型和接口类型的底层表示及原理。…

如何在Microsoft Excel中快速筛选数据

你通常如何在 Excel 中进行筛选?在大多数情况下,通过使用自动筛选,以及在更复杂的场景中使用高级过滤器。 使用自动筛选或 Excel 中的内置比较运算符(如“大于”和“前10项”)来显示所需数据并隐藏其余数据。筛选单元格或表范围中的数据后,可以重新应用筛选器以获取最新…

数据结构与算法基础-学习-25-图之MST(最小代价生成树)之Prim(普利姆)算法

一、生成树概念 1、所有顶点均由边连接在一起&#xff0c;但不存在回路的图。 2、一个图可以有许多棵不同的生成树。 二、生成树特点 1、生成树的顶点个数与图的顶点个数相同。 2、生成树是图的极小连通子图&#xff0c;去掉一条边则非连通。 3、一个有n个顶点的连通图的生…