论文学习——Video LDM (Align your Latents)

news2024/12/25 13:48:41

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

0. 来源

本文是阅读论文后的个人笔记,适应于个人水平,叙述顺序和细节详略与原论文不尽相同,并不是翻译原论文。

如果想了解所有细节,建议移步arxiv。

论文地址:https://arxiv.org/abs/2304.08818
项目地址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

1. 整体结构

本文基于图像生成领域的典型框架LDM,扩展到视频生成领域,且保留了其以低计算成本,在压缩后的低维潜空间内生成高质量图片的优点,最终能够以低成本生成全局连贯的高分辨率长视频。

模型整体训练流程可表述如下:
a. 在图像数据上预训练LDM,或是使用available的图像LDM预训练模型;
b. 通过在LDM(latent space diffusion model)中引入时间层,固定空间层(spatial layers)参数,并在视频数据上进行微调,以实现将图像生成器转换为视频生成器。分为两部分,1.将图像的潜向量生成器转换为视频的潜向量生成器。2.将自编码器在像素空间上进行时序对齐。
c. 改造为预测模型以获得较长视频的生成(Long-Term Generation)
d. 使用时序的插值以获得高帧率
e. 在时间上对齐 图像DM 的上采样器,将其转换为时序一致的视频超分模型。(仅在需要合成高分辨率视频时选择进行该项,video upsampler仅在局部上进行操作,以保留较低的计算成本)

要生成连续的长视频,其流程如下图所示
在这里插入图片描述

1 . 首先生成离散的关键帧;
2+3. 分两步使用相同的插值模型,在关键帧之间进行时序插值,以实现较高的帧率;
(以上三步均基于LDM模型,且它们共享相同的image backbone,分别进行微调)
4. 将潜向量解码到像素空间
5. (可选)使用视频上采样DM得到更高的分辨率

该模型的训练过程其实就是对同一款预训练的图片LDM(及DM上采样器)的不同微调过程,下面将逐步对以上a,b,c三步进行解释

2. 具体实现

b.1 将潜向量生成器由图像领域转到视频领域

在这里插入图片描述

现有的空间LDM能够高质量地生成独立帧,但难以生成多张连续的视频帧,这是由于其没有时间的概念。

如上左图所示,在原有LDM的空间层中交错插入时间层,时间层包括3d卷积层和时间注意力层,以时序一致性的方式对齐独立的帧,而在优化过程中需要固定住空间层,而仅优化时间层。

在这里插入图片描述

上右图,则取出了一套“空间层+时间层”对运算过程进行了解释,在空间层和时间层,它们对(TxCxHxW)视频的理解不一样,空间层将时间维度并入batch维度,视频看做batch里的一小串无关的照片,B*T成为了新的batch size而已,故而输入空间层的张量格式为 (b t) c h w;而时间层将整个视频按时间维度排列,是一个整体,输入时间层的张量格式为b c t h w。张量通过时间层前后需要进行如下变形:
在这里插入图片描述

在每一步运算之后,需要对输入时间层前后的张量z和z’进行加权。
α ϕ i z + ( 1 − α ϕ i ) z ′ , 其中 α ϕ i ∈ [ 0 , 1 ] \alpha ^i_\phi z + (1-\alpha ^i_\phi)z', 其中\alpha ^i_\phi \in [0,1] αϕiz+(1αϕi)z,其中αϕi[0,1]

关于图中其他可疑的点,如cs,表示在训练预测模型时使用的对上下文帧的掩码

b.2 自编码器的时序微调

直接将图像领域的LDM的自编码器用于时序上连贯的视频,会导致生成的视频出现闪烁的假象(flickering artifacts)。

在这里插入图片描述
为了保证在潜向量空间上预训练的LDM模型能够被复用,故而保留编码器不变,仅对解码器进行微调。

以视频为微调数据集,微调采样的是3d卷积搭建出的(patch-wise的)时序判别器。

需要注意的是,我们b.1中生成的是图像或视频的潜向量,是以特征的形式存在的,如上图底部,不同的潜特征对于不同的分布峰值,将通过decoder解码到图像中。而处于不同的区间上的潜向量将decode出不同的图像。通过观察这个特性,可以解释对framework进行视频微调时帧之间的时序一致性
在这里插入图片描述
可以看见,不原本散落在不同峰值附近的图像内容各自独立,经过视频微调之后,它们处于同一峰值附近,而图像也呈现出内容上的连贯性。

c. 改造为预测模型以获得长期的生成结果

b章节中使用的方法难以生成长视频序列,故而我们喂入S个上下文帧,训练模型成为一个预测模型。这是通过时序的二进制掩码来实现的,在长度为T的视频中,保留S个视频帧,而掩盖住T-S个要预测的视频帧。将视频帧编码后,乘以掩码,再经过已经学到的下采样操作(learned downsampling operation:resize+conv2d,不太清楚怎么学到的下采样,可以看看代码)并喂入到时序层中。

在推理过程中,为了生成场视频可以迭代地进行采样过程,复用最新的预测作为新的上下文。第一个初始序列的生成方式:从base image model生成单一的上下文帧并基于此生成初始序列;其余序列的生成办法:使用两个上下文帧来编码移动。为稳定这一过程,本文使用无分类器的扩散引导来引导采样过程,如下式。
在这里插入图片描述
本章的目的是生成关键帧,虽然较少的帧节省了内存,但不同帧之间仍然存在较大的语义变化,为实现高帧率,同时实现连贯性,下一章将对帧之间进行时序的插值。

d. 时序插值以获得更高的帧率

沿用c章节中提到的条件掩码机制(masking-conditioning mechanism)在两两关键帧之间插值,不过掩码的对象是要被插值的帧,否则就和c章节一样了,图像模型将被细化为一个视频插值模型。在实验中,单次插值的结果是视频长度从T转为4T,可迭代使用两次,转为16T。

e. 对超分模型进行时序微调

受级联DM的启发,作者尝试再使用一层上采样器如pixel-space DM 或LDM upsampler来增加单张图片的分辨率,但对各帧独立地上采样会导致时间一致性很差,所以超分模型也需要具有时间上的视野,选择如同b章节中介绍的方法一样来微调上采样器。由于上采样器是仅在聚不上进行操作,所以可以高效地在patch上训练所以的上采样器,然后卷积式地应用到模型上。

3. 不同任务领域及各自细节

本模型应用于户外驾驶数据的仿真、基于text2video的创造性内容生成

另外,该模型可以对现有的图像LDM仅训练出一套在时间上对齐的模型,而解锁不同的(对image LDM进行微调而得到的变种)LDMs的视频版本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/465196.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为OD机试真题(Java),旋转数组的最小数字(100%通过+复盘思路)

一、题目描述 有一个长度为 n 的非降序数组,比如[1,2,3,4,5],将它进行旋转,即把一个数组最开始的若干个元素搬到数组的末尾,变成一个旋转数组,比如变成了[3,4,5,1,2],或者[4,5,1,2,3]这样的。请问&#xf…

Filter 的使用

把对资源的请求拦截下来,从而实现一些特殊功能 ,比如需要先登录再使用其他功能 拦截对资源的请求 放行后,执行完资源,再执行放行后的逻辑 按字符比较升序排序,值小的优先级高 FilterDemo优先级高于FilterDemo2 Listene…

华为OD机试真题(Java),最长的连续子序列(100%通过+复盘思路)

一、题目描述 有N个正整数组成的一个序列,给定一个整数sum,求长度最长的的连续子序列使他们的和等于sum,返回该子序列的长度,如果没有满足要求的序列返回-1。 二、输入描述 第1行有N个正整数组成的一个序列。 第2行给定一个整…

[MySQL]基础知识笔记(数据库与表操作)

内存与硬盘的区别: 内存:容量小,速度快,造价高,断电后数据丢失硬盘:容量大,速度慢,造价低,断电后数据不丢失 常见的关系型数据库: 1.ACCESS-微软出的在OFF…

【RPA开发】Beautiful Soup 使用详解

爬虫时通过 requests.get 方法获得 html 源代码后,通常需要从源代码中提取关键信息,这有多种方式,比如使用正则表达式匹配,也可通过 python 的第三方库 Beautiful Soup 实现定位提取关键信息,类似的库还有 lxml 第三方…

如何配置java环境以及tomcat详细步骤

jdk 下载安装及配置 jdk 官网地址: https://www.oracle.com/java/(opens new window) #1、jdk 下载 进入官网,定位到:Java -> Java SE -> Oracle JDK 点击进入,如下图所示: 选择 Java archive,再鼠标下拉页面,选择 Java SE 8 (8u202 and earlier) 下载 jdk-8u2…

一款综合地图应用Vue组件,内置了百度、高德、天地图瓦片

一、开源项目简介 新德汇地图应用类库 基于Openlayers的地图应用Vue组件。内置了百度、高德、天地图瓦片,并支持与方正、超图、山海经纬、航天精一等PGIS厂商对接。包含文本、图形、html、热力图、轨迹回放等20个组件,支持与ECharts结合实现散点、飞行…

scratch电子画板 少儿编程 电子学会图形化编程scratch编程等级考试二级真题和答案解析2023年3月

目录 scratch电子画板 一、题目要求 1、准备工作 2、功能实现 二、案例分析

12.java程序员必知必会类库之HTML解析库

前言 HTML是开发经常遇见的一种报文格式。但是我们日常中,更多是用它来渲染数据。利用他的很多各种标签,格式化我们的数据。一般前端接触的比较多。 但是,随着爬虫技术在互联网上越来越流行,如何处理我们爬到的HTML。。。我们当…

[DASCTF Apr.2023 X SU战队2023开局之战] crypto复现

感觉突然啥都不会了,后来拿到官方WP,也没整明白,这官方的WP没有代码只讲了些道理,复现一下也不容易。 1,easySign 这是个自制的签名题。 from secret import r, t from Crypto.Util.number import *flag bxxx flag bytes_to_long(flag) e 0x10001def gen_keys…

53.网页设计规则#2_配色

选择正确的颜色 让主色调与你的网站个性相匹配:颜色传递意义 a. 红色吸引了很多人的注意,象征着权力、激情和兴奋。 b. 橙色不那么具有攻击性,并传达出幸福、愉快和创造性。 c. 黄色意味着快乐、光明和智慧 d. 绿色代表和谐、自然、成长和健康…

数学建模第六天:数学建模算法篇之插值及MATLAB实现

目录 一、前言 1、引例 2、插值与拟合模型 二、插值 1、插值相关定义 2、拉格朗日插值 3、分段线性插值 4、matlab实现 5、二维插值及matlab实现 一、前言 1、引例 伍老师最近苦不堪言,最近胡吃海喝,管不住嘴,感觉自己最近张胖了&am…

【数据去重】海量数据实时去重方案

文章目录 Prologue布隆过滤器去重什么是布隆过滤器实现的核心思想怎么理解 内嵌RocksDB状态后端去重引入外部K-V存储去重 Prologue 数据去重(data deduplication)是我们大数据攻城狮司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更…

信号完整性分析基础知识之传输线和反射(四):不连续点和端接

每当信号遇到阻抗变化,就会出现反射现象,反射对信号质量影响很大。信号完整性工作最重要的部分之一就是预测不连续点对信号的影响,以及设计工程可接受的备选方案。 尽管电路板在设计上是可控阻抗互连,但是信号在以下结构中仍然会遇…

如何选择最佳的实时聊天软件

在客户服务和支持领域,实时聊天正在改变游戏规则已不是什么秘密。从推动销售到提升客户体验和提高保留率,实时聊天已成为与客户互动和支持的一种全新的方式。客户和支持专业人员都注意到了这一点。 研究发现,高达41%的消费者更喜欢实时聊天&…

李宏毅 深度学习

目录 深度学习与自然语言处理 | 斯坦福CS224n 课程带学与全套笔记解读(NLP通关指南完结)pytorch快速入门csdn快速入门OS包PIL包Opencv包Dataset类Tensorboard的使用torchvision.transforms 的使用torchvision中数据集的使用DataLoader的使用(torch.util…

【C++】:想知道如何实现互译字典吗?来看二叉搜索树

二叉搜索树好文! 文章目录 前言一、实现搜索二叉树二、二叉搜索树的应用 1.K模型2.KV模型总结 前言 二叉搜索树概念 : 二叉搜索树又称二叉排序树,它或者是一棵空树 ,或者是具有以下性质的二叉树 : 若它的左子树不为空&#xff0…

Orcale中OCILogon和OCIServerAttach登录方式的区别分析

参考文档《Oracle Call Interface Programmers Guide》 在Orcale和DM数据库提供的API中,通过OCI方式接口连接数据库的方法有多个,这里只讨论OCILogon和OCIServerAttach的比较。 1、官方描述 根据文档里的描述: OCILogon():This function is…

DJ4-5 路由和选路

目录 一、路由与转发的相互作用 二、路由的基本概念 1. 默认路由器 2. 路由算法 三、网络的抽象模型 1. 节点图 2. 费用 Cost 四、路由算法分类 1. 静态路由算法 2. 动态路由算法 3. 全局路由算法 4. 分布式路由算法 一、路由与转发的相互作用 二、路由的基本概念 …

美团赴抖音之“约”:让本地生活补贴大战来得更猛烈些?

面对抖音在本地生活领域的强势挑战,美团似乎准备好了正面迎战。 近期,美团动作频频。最开始,美团在美团App美食页面下的“特价团购”打出“限时补贴,全网低价”的口号。对此,一位行业人士分析称,“之前美团…