【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

news2026/2/8 9:57:29

note

现在很多主流的文生视频应该还是Diffusion-based 基于扩散模型的方法
这篇综述将现有研究按照三个维度进行分类：进化生成器（Evolutionary Generators）、卓越追求（Excellent Pursuit）、现实全景（Realistic Panorama）。

文章目录

note
一、相关背景
- 扩散模型
- 论文简介
二、三种大分类
- 进化的生成器（Evolutionary Generators）
- - 1. GAN/VAE-Based
  - 2. Diffusion-based 基于扩散模型的方法
  - 3. Autoregressive-based 基于自回归的方法
- 卓越追求（Excellent Pursuit）
- 现实全景（Realistic Panorama）
三、实验数据
Reference

一、相关背景

论文：From Sora What We Can See: A Survey of Text-to-Video Generation

在这里插入图片描述

扩散模型

待补充。

论文简介

Q: 这篇论文试图解决什么问题？
A: 这篇论文是关于文本到视频生成（Text-to-Video Generation, T2V）领域的综述，它试图解决的问题是如何全面理解并推进这一领域的研究和发展。具体来说，论文从以下几个方面展开：

技术概览：提供了文本到视频生成技术的基础知识和预备概念，帮助读者理解这一领域的技术背景。
文献分类：将现有的文献从三个维度进行分类：进化生成器（Evolutionary Generators）、卓越追求（Excellent Pursuit）和现实全景（Realistic Panorama），以系统地审视不同研究方向和方法。
数据集和评估指标：详细组织和介绍了在文本到视频生成领域广泛使用的数据集和评估指标，为研究者提供了基准和评价标准。
挑战与开放问题：识别并讨论了当前文本到视频生成领域面临的挑战和未解决的问题，如物体间的一致性运动、长时间视频生成的连贯性等。
未来研究方向：基于对现有研究和Sora模型的深入分析，提出了未来研究的潜在方向，为该领域的研究者提供了前瞻性的指导。
Sora模型分析：特别关注了由OpenAI开发的Sora模型，这是一个具有分钟级世界模拟能力的视频生成模型，论文尝试从Sora的角度出发，探讨其在文本到视频生成方面的成就和遇到的障碍。

二、三种大分类

截止2024年年中的文生视频大模型：
在这里插入图片描述

进化的生成器（Evolutionary Generators）

1. GAN/VAE-Based

GAN/VAE-Based: 基于生成对抗网络（GAN）和变分自编码器（VAE）的方法，如TGANs-C、IRC-GAN、GODIVA、Text2Filter等。

（1）基于VAE的方法：

初期创新：[55]提出结合 VAE 和递归注意机制的方法，以生成时间序列帧，并通过文本输入指导。
VQ-VAE 的引入：[56]提出 VQ-VAE 模型，通过向量量化结合离散和连续表示的优势，在生成高质量图像、视频和语音方面表现出色。[57]进一步基于 VQ-VAE，展示了预训练模型在下游视频生成任务中的微调能力及零样本能力。

（2）基于GAN的方法：

TGANs-C：[60]提出了一种从文本字幕生成视频的方法，通过3D卷积和多组件损失函数，确保视频在时间上的连贯性和语义上的一致性。
混合模型：[58]提出将 VAE 和 GAN 结合的模型，能够捕捉文本中的静态和动态属性，从而提升基于文本生成视频的复杂性和细致度。
结合 LSTM 的创新：[59]将 GAN 与长短期记忆（LSTM）网络结合，提高了生成视频的视觉质量和语义连贯性，确保生成内容与文本描述的紧密对齐。

2. Diffusion-based 基于扩散模型的方法

在这里插入图片描述

Diffusion-based: 基于扩散模型的方法，如DDPM、Make-A-Video、VideoCrafter1、ModelScopeT2V、DiT等。

视频扩散模型（VDM）是这一领域的重要突破，通过3D U-Net架构和时间注意机制提升了视频生成的时间连贯性和质量。类似地，MagicVideo 系列模型利用潜在扩散方法应对复杂时间动态和高计算成本，生成高质量的视频。
LVDM 模型引入层次化潜在视频扩散，实现长视频的高效生成，并减少计算需求。Show-1 和 PixelDance 结合像素和潜在空间技术确保高分辨率视频输出，而 SVD 利用时间卷积和注意层在潜在空间中高效捕捉时间动态。
Tune-A-Video 扩展了2D潜在扩散模型到时空领域，通过稀疏时空注意机制优化计算效率，实现视频生成的时间一致性。
VideoLCM 通过一致性蒸馏策略和DDIM求解器提高训练效率，VideoCrafter2 利用数据解耦策略显著提升了视频生成的视觉保真度和运动动态。
Make-A-Video 模型和 Imagen Video 采用文本生成图像技术，拓展至视频领域，结合时空超分辨率模型提升生成视频的质量和时间一致性。MotionDiffuse 提供文本驱动的动作生成，细粒度控制输出的多样性和真实性。Text2Video-Zero 专为零样本T2V生成设计，确保跨帧时间一致性。
NUWA-XL 利用“多层次扩散”架构生成极长视频，采用“粗到细”策略生成全局一致且细致的视频内容。

3. Autoregressive-based 基于自回归的方法

Autoregressive-based: 基于自回归模型的方法，如NUWA、NUWA-Infinity、Phenaki、VideoGPT等。
NUWA 系列

NUWA 采用3D变换器编码器-解码器框架，通过3D临近注意机制实现高质量图像和视频合成，展现了零样本能力。
NUWA-Infinity 引入创新的自回归与自回归框架，能够生成可变大小的高分辨率视觉效果，以灵活且高效的方式创建视觉内容。

Phenaki

采用C-ViViT编码器-解码器结构，实现从文本输入生成可变长度的视频，高效地将视频数据压缩成紧凑的令牌化表示，生成连贯且时间一致的视频。

VideoGPT

结合VQ-VAE和变换器架构，通过3D卷积和轴向注意力学习视频的降采样离散潜在表示，捕捉视频序列的复杂时间和空间动态。

Large World Model (LWM)

设计为处理长上下文序列的自回归变换器，融合视频和语言数据，并通过RingAttention机制高效处理大量令牌，最大化上下文意识。

Genie

生成性交互工具，利用时空（ST）变换器进行视频令牌化和动作模型的提取，自回归预测下一帧，生成可控和交互的视频环境。

TATS

设计用于生成长时视频，结合时间无关的VQGAN和时间敏感的变换器，确保视频质量和长时间依赖性的平衡，生成连贯的长视频。

CogVideo

继承CogView2预训练模型的文本-图像对齐知识，通过多帧率分层训练生成关键帧并插补中间帧，采用双通道注意机制和递归插值过程，生成详细且语义一致的视频。

卓越追求（Excellent Pursuit）

Extended Duration: 研究如何生成更长时序的视频，例如Video LDM、Show-1、STUNet、MoCoGAN-HD、Text2Performer等。
Superior Resolution: 专注于生成高分辨率视频的研究，如DAIN、CyclicGen、Softmax-Splatting、FLAVR等。
Seamless Quality: 研究如何生成无缝质量的视频，提高视频的流畅性和观感。

现实全景（Realistic Panorama）

Dynamic Motion: 研究如何处理视频中的动态运动，如LAMP、AnimateDiff、MotionLoRA、Lumiere、Dyson-VDM、ART•V、DynamiCrafter、PixelDance、MoVideo、MicroCinema、ConditionVideo、DreamVideo、TF-T2V、GPT4Motion、Text2Performer等。
Complex Scene: 研究如何生成复杂的场景，如VideoDirectorGPT、FlowZero、VideoDrafter、SenceScape、NUWA-XL、MCVD等。

三、实验数据

在这里插入图片描述

数据集和评估指标（Datasets & Metrics）

数据集包括但不限于：UCF-101、MSR-VTT、DideMo、YT-Tem-180M、WebVid2M、HD-VILA-100M、InternVid、HD-VG-130M、Youku-mPLUG、VAST-27M、Panda-70M、ActNet-200、Charades、Kinetics、ActivityNet、Charades-Ego、SS-V2、How2、HowTo100M、LSMDC、MAD等。
评估指标包括：PSNR/SSIM、IS、FID、CLIP Score、Video IS、FVD/KVD、FCS等。