SORA技术报告

news2025/4/5 0:42:13

文档链接：https://openai.com/research/video-generation-models-as-world-simulators

文章目录

Video generation models as world simulators
- Turning visual data into patches
- Video compression network
- Spacetime latent patches
- Scaling transformers for video generation
- Variable durations, resolutions, aspect ratios
- - Sampling flexibility
  - Improved framing and composition
- Language understanding
- Prompting with images and videos
- Image generation capabilities
- Emerging simulation capabilities
- - 3D consistency
  - Long-range coherence and object permanence
  - Interacting with the world
  - Simulating digital worlds
- Discussion

Video generation models as world simulators

探索在视频数据上生成模型的大规模训练。具体而言，在可变持续时间，分辨率和宽高比的视频和图像上共同训练文本条件扩散模型；利用在视频和图片的隐空间的spacetime patches执行计算的Transformer架构。最大的模型Sora能够生成一分钟的高保真视频；结果表明，扩展视频生成模型是建立物理世界的通用模拟器的有前途的途径。

技术报告集中在以下两个方向：

如何将所有类型的视觉数据转换为统一表示的方法，用于大规模训练生成模型
Sora能力和局限性的定性评估

许多先前的工作已经使用各种方法研究了视频数据的生成建模，包括递归网络、生成对抗性网络、自回归Transformers和扩散模型。这些工作基本关注狭义的视觉数据，关注较短的视频，或固定大小的视频。Sora是一个通用的视觉数据模型，它可以生成不同持续时间、宽高比和分辨率的视频和图像，最高可达一分钟的高清视频。

Turning visual data into patches

从大型语言模型中获得灵感，这些模型通过对互联网规模的数据进行训练来获得通用能力。LLM范式的成功在一定程度上得益于tokens的使用，这些tokrnd优雅地统一了文本的各种形式——代码、数学和各种自然语言。在这项工作考虑视觉数据的生成模型如何继承这些优势。LLMs有文本tokens，Sora有视觉patches。patches在先前已被证明是视觉数据模型的有效表示。本工作发现对于在各类视频、图片上训练生成模型，patches是一种高扩展、有效的表征。
在这里插入图片描述
在高维度上，首先将视频压缩到较低维度的潜在空间中，随后将视频表征分解为spacetime patches。

Video compression network

训练一个降低视觉数据维度的网络。该网络将原始视频作为输入，并输出在时间和空间上都被压缩的潜在表征。Sora与LDM相似，在潜在空间进行训练、生成视频；同时训练了一个对应的解码模型，将生成的隐向量映射回像素空间。

Spacetime latent patches

给定压缩输入视频，提取了一系列spacetime patches，此序列相当于transformer tokens。该方案也适用于图像，因为图像是带有单个帧的视频。基于patches的表示使Sora可以在可变分辨率，持续时间和纵横比的视频、图像上训练。推理时，可以通过在适当尺寸的网格中安排随机定位的patches来控制生成的视频的大小。

Scaling transformers for video generation

Sora是一个扩散模型，给定noisy patches或带有文本控制信息的patches，其通过预测原始clean patches的方式进行训练。重要的是，Sora是基于transformer的扩散模型。Transformer 在多个领域展示了卓越的扩展特性，包括语言建模、计算机视觉和图像生成。
在这里插入图片描述
这项工作发现扩散transformers也可以有效地缩放为视频模型。