Sora技术报告——Video generation models as world simulators

文章目录

1. 视频生成模型，可以视为一个世界模拟器
2. 技术内容
- 2.1 将可视数据转换成patches
- 2.2 视频压缩网络
- 2.3 Spacetime Latent Patches
- 2.4 Scaling transformers 用于视频生成
- 2.5 可变的持续时间，分辨率，宽高比
- 2.6 抽样的灵活性
- 2.7 改进框架和构图
- 2.8 为视频生成字幕，作为训练集
3. 应用
- 3.1 动画DALL·E图像（输入图片输出视频）
- 3.2 扩展生成视频
- 3.3 Video-to-video编辑 (改变视频风格或场景)
- 3.4 拼接视频
- 3.5 图像生成功能
4. 新兴的模拟能力
- 4.1 3d一致性
- 4.2 长程相干性和对象持久性
- 4.3 与世界互动
- 4.4 模拟数字世界
5. 讨论
6. 参考文献
第三方的猜想与讨论

欢迎关注微信公众号InfiniReach，这里有更多AI大模型的前沿算法与工程优化方法分享
请添加图片描述

1. 视频生成模型，可以视为一个世界模拟器

我们在视频数据上探索生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。

我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明，缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。

本技术报告侧重于

我们将所有类型的视觉数据转换为统一表示的方法，从而能够大规模训练生成模型，
对Sora的能力和局限性进行定性评估。

模型和实现细节不包括在本报告中。许多先前的工作已经使用各种方法研究了视频数据的生成建模，包括循环网络、生成对抗网络、autoregressive transformers和扩散模型。这些作品通常集中在一个狭窄的视觉数据类别上，在较短的视频上，或者在固定大小的视频上。

Sora是一个通用的视觉数据模型，它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像，甚至可以生成一分钟的高清视频。

2. 技术内容

2.1 将可视数据转换成patches

我们从大型语言模型中获得灵感，这些模型通过对互联网规模数据的训练获得了全面的能力。LLM范式的成功在一定程度上是由于使用了token，这些token优雅地统一了文本代码、数学和各种自然语言的各种形式。在这项工作中，我们考虑了视觉数据的生成模型如何继承这些好处。

llm有文本令牌，而Sora有visual patches。patches先前已被证明是视觉数据模型的有效表示。我们发现，对于在不同类型的视频和图像上训练生成模型，patch是一种高度可扩展的有效表示。
在这里插入图片描述
在高层次上，我们首先将视频压缩到一个较低维度的潜在空间[19]，然后将其分解为spacetime patches，从而将视频转化为patches。

2.2 视频压缩网络

我们训练一个网络来降低视觉数据的维数。该网络将原始视频作为输入，并输出经过时间和空间压缩的潜在表示。Sora在这个压缩的潜在空间中训练并随后生成视频。我们还训练了一个相应的解码器模型，该模型将生成的潜在映射回像素空间。

2.3 Spacetime Latent Patches

给定一个压缩的输入视频，我们提取一个spacetime patches序列，作为transformer tokens。这个方案也适用于图像，因为图像只是单帧的视频。我们基于patches的表示使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。

在推理时，我们可以通过在适当大小的网格中安排随机初始化的patches来控制生成视频的大小。

2.4 Scaling transformers 用于视频生成

Sora为扩散模型[21,22,23,24,25]，给定输入的噪声块(以及文本提示之类的条件信息)，它被训练来预测原始的“干净”块。重要的是，Sora是一个diffusion transformer。Transformer已经在许多领域展示了显著的缩放特性，包括语言建模[13,14]、计算机视觉[15,16,17,18]和图像生成[27,28,29]
在这里插入图片描述
在这项工作中，我们发现diffusion transformers也可以有效地缩放为视频模型。下面，我们展示了随着训练的进行，具有固定种子和输入的视频样本的比较。随着训练计算量的增加，样本质量显著提高。

2.5 可变的持续时间，分辨率，宽高比

过去的图像和视频生成方法通常是调整大小，裁剪或修剪视频到标准尺寸

例如，4秒的视频在256x256分辨率。

但是我们发现在原始大小的数据上进行训练提供了几个好处。

2.6 抽样的灵活性

Sora可以采样宽屏1920x1080p视频，垂直1080x1920视频以及介于两者之间的所有视频。这让Sora可以直接以不同设备的原始宽高比为其创建内容。它还允许我们在生成全分辨率的内容之前，以较小的尺寸快速创建内容原型prototype ——所有内容都使用相同的模型。

2.7 改进框架和构图

我们从经验上发现，在视频的原始长宽比上进行训练可以改善构图和框架。

我们将Sora与我们模型的一个版本进行比较，该版本将所有训练视频裁剪为方形，这是训练生成模型时的常见做法。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下，来自Sora(右)的视频有改进的帧。

左图右图

在这里插入图片描述

2.8 为视频生成字幕，作为训练集

训练文本到视频生成系统需要大量带有相应文本说明的视频。我们将DALL·E 3 [30]中介绍的字幕重配技术应用到视频中。

我们首先训练一个高度描述性的字幕模型(highly descriptive captioner model)，然后使用它为我们训练集中的所有视频生成文本字幕。我们发现，对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。与DALL·E 3类似，我们还利用GPT将简短的用户提示转换为更长的详细字幕，并将其发送到视频模型。
在这里插入图片描述

3. 应用

上面的所有结果和我们的登陆页面都显示了文本到视频的示例。但Sora也可以通过其他输入进行提示，比如预先存在的图像或视频。这种功能使Sora能够执行广泛的图像和视频编辑任务-创建完美的循环视频，动画静态图像，向前或向后扩展视频等。

3.1 动画DALL·E图像（输入图片输出视频）

Sora能够在提供图像和提示作为输入的情况下生成视频。下面我们展示了基于DALL·E 2 [31]和DALL·E 3 [30]图像生成的示例视频。
在这里插入图片描述

展示略

3.2 扩展生成视频

Sora还能够在时间上向前或向后扩展视频。下面是四个视频，它们都是从一个生成的视频片段开始向后扩展的。因此，这四个视频的开始都不同，但四个视频的结局都是一样的。

我们可以使用这种方法来向前和向后扩展视频，以产生无缝的无限循环。

3.3 Video-to-video编辑 (改变视频风格或场景)

扩散模型已经启用了大量的方法来根据文本提示编辑图像和视频。下面我们将其中一种方法SDEdit [32]应用于Sora。这项技术使Sora能够转换零拍摄输入视频的风格和环境。
在这里插入图片描述

3.4 拼接视频

我们还可以使用Sora在两个输入视频之间逐渐插入，在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中，中间的视频在左边和右边对应的视频之间插入。
在这里插入图片描述

3.5 图像生成功能

Sora还能生成图像。我们通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像，最高可达2048 × 2048分辨率。

在这里插入图片描述

4. 新兴的模拟能力

我们发现视频模型在大规模训练时表现出许多有趣的新兴能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。这些属性的出现没有任何明确的3D、物体等的归纳偏差——它们纯粹是尺度现象。

4.1 3d一致性

Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

4.2 长程相干性和对象持久性

视频生成系统面临的一个重大挑战是在长视频采样时保持时间一致性。我们发现Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如，我们的模型可以保存人物、动物和物体，即使它们被遮挡或离开了框架。同样，它可以在单个样本中生成同一角色的多个镜头，在整个视频中保持其外观。

4.3 与世界互动

Sora有时可以用简单的方式模拟影响世界状态的行为。例如，画家可以在画布上留下新的笔触，随着时间的推移，或者一个人吃汉堡时留下咬痕。
在这里插入图片描述

4.4 模拟数字世界

Sora还能够模拟人工过程，比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时，用基本策略控制《我的世界》中的玩家。这些功能可以通过向Sora提示“我的世界”的字幕而获得zero-shot。

这些功能表明，视频模型的持续缩放（continued scaling of video models）是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

5. 讨论

作为一个模拟器，Sora目前显示出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，比如玻璃破碎。其他的交互，比如吃东西，并不总是在对象状态中产生正确的变化。我们在登陆页面中列举了模型的其他常见故障模式，例如在长时间样本中发展的不一致性或对象的自发出现。

我们相信，Sora今天所拥有的能力表明，视频模型的持续缩放是一条很有前途的道路，可以开发出物理和数字世界的模拟器，以及生活在其中的物体、动物和人。

6. 参考文献

[13] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).

[14] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

[15] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

[16] Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[17] He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[18] Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).

[19] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[21] Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.

[22] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.

[23] Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.

[24] Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.

[25] Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.

[27] Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.

[28] Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.

[29] Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.

[30] Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

[31] Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

[32] Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).