from T2I to T2V

news2025/4/21 7:47:44

生成图片

在Stable Diffusion推理过程中，其使用unet对一个初始化的向量不断去噪，并编入条件信息 $c$ ，最后使用vae-decoder将其上采样为一张图片。

计算过程：
$f_{latent}=unet(f_{latent}),f_{latent} \in R^{h \times w \times c} \\ I=decoder(f_{latent}),I \in R^{H \times W \times 3}$
$h, w$ 是特征的空间维度， $c$ 是特征维度， $H, W$ 是图像高，宽

生成视频

视频由视频帧组成，即视频由一组图像组成。将stable diffusion中初始化的隐向量添加时间序列，并且将计算网络扩充为3D，即可完成视频的生成。

$h, w$ 是特征的空间维度， $c$ 是特征维度， $f$ 是帧数

VAE视频压缩

与SD一致，训练视频生成网络首先需要进行视频压缩，这主要通过VAE完成。压缩视频主要是通过3D卷积实现。给定一个视频 $v\in R^{16 \times 512 \times 512 \times 3}$ ，如果使用 $N$ 个形状为 $R^{2\times2\times2\times3}$ 的卷积核进行卷积，最终得到 $v\in R^{15 \times511\times511\times N}$ 的特征。

去噪网络

SD生图使用UNET逐步完成对隐向量的不断去噪。而在视频进行去噪时，为匹配隐向量的维度，会将UNET中的2D卷积扩充为3D卷积。即增加一维时间维度,也就是伪3D卷积。基本思想是利用一个1 $\times$ 3 $\times$ 3的二维空间卷积和3 $\times$ 1 $\times$ 1的一维时域卷积来模拟常用的3 $\times$ 3 $\times$ 3三维卷积，即利用2D+1D实现3D做的事。
所以最开始Stable Video Diffusion网络使用伪3D的网络直接对视频帧隐向量进行去噪，这也使视频帧之间联系不强，所以需要一个专属的模块来完成视频帧之间的信息交互，这通常通过空间-时间注意力实现。

空间-时间注意力

对于视频特征，空间注意力主要负责帧内特征的交流，时空注意力负责不同帧的相同位置之间的特征交流，主要通过Attention完成。

对于视频特征 $f\in R^{f\times h \times w \times c}$ ，其中 $f$ 是视频的帧数量。空间注意力首先会将其变换为 $f\in R^{f\times hw \times c}$ ，随后输入attention block中在 $h w$ 维度进行注意力计算，而对于时间注意力，会将特征变换为 $f\in R^{hw \times f \times c}$ ，随后同样输入attention block中，在 $f$ 维度计算注意力。这样针对视频的UNET网络就变成了下面这个样子。

3D Causal

左半部分是普通3D卷积网络，随着卷积的不断深入，1号的感受野不断扩大。右半部分是因果卷积，在第一帧前加入padding（黄色），那么即使卷积不断深入，后续帧的信息也不会泄漏到当前帧，即1号位的感受野永远是自己。这样就可实现图像与视频的联合训练，我们可以将一张图像当作视频帧直接使用3D因果卷积卷它。

最终网络结构

最后基于UNET的视频生成网络：

视频使用3D-VAE causal Encoder进行压缩
UNET不断进行降噪
1. 卷积计算
2. 空间注意力
3. 时间注意力
VAE-Decoder解码为图像

sora

将unet换成Transformer
3D full attention，所有视频帧的特征并成一个序列，计算attention

cogvideox

将unet换成Transformer，解耦合text与video特征

EasyAnimate

将unet换为Transformer，并加入基于两种attention的Motion Module

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2126390.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

from T2I to T2V

生成图片

生成视频

VAE视频压缩

去噪网络

空间-时间注意力

3D Causal

最终网络结构

sora

cogvideox

EasyAnimate

相关文章

frida主动调用init_array中的函数

三种方式可以将彩色图像转成灰度图对比

秋招面经9.11

[leetcode-python]杨辉三角2

Mycat2原理介绍

【828华为云征文｜如何使用华为云Flexus X实例搭建私人博客：从配置到发布全指南】

c语言位运算符速成

网络高级（学习）2024.9.10

C++——STL——栈(stack)

【Lua学习】Lua入门

杀毒软件 | Malware Hunter v1.189.0.816 绿色版

5--SpringBoot、Mybatis

关于前端知识中框架概念部分的详细介绍

2.安卓逆向-初识java语言

kolors文生图框架安装

Vue3+TS项目封装SVG图标显示组件vite-plugin-svg-icons插件使用

常用电路及分析

Java小白一文讲清Java中集合相关的知识点（八）

力扣 — — 2555. 两个线段获得的最多奖品

修改Netty 中EventLoopGroup的线程名字前缀