Sora技术报告——Video generation models as world simulators

news2024/11/22 14:34:28

文章目录

  • 1. 视频生成模型,可以视为一个世界模拟器
  • 2. 技术内容
    • 2.1 将可视数据转换成patches
    • 2.2 视频压缩网络
    • 2.3 Spacetime Latent Patches
    • 2.4 Scaling transformers 用于视频生成
    • 2.5 可变的持续时间,分辨率,宽高比
    • 2.6 抽样的灵活性
    • 2.7 改进框架和构图
    • 2.8 为视频生成字幕,作为训练集
  • 3. 应用
    • 3.1 动画DALL·E图像 (输入图片输出视频)
    • 3.2 扩展生成视频
    • 3.3 Video-to-video编辑 (改变视频风格或场景)
    • 3.4 拼接视频
    • 3.5 图像生成功能
  • 4. 新兴的模拟能力
    • 4.1 3d一致性
    • 4.2 长程相干性和对象持久性
    • 4.3 与世界互动
    • 4.4 模拟数字世界
  • 5. 讨论
  • 6. 参考文献
  • 第三方的猜想与讨论

欢迎关注微信公众号InfiniReach,这里有更多AI大模型的前沿算法与工程优化方法分享
请添加图片描述

1. 视频生成模型,可以视为一个世界模拟器

我们在视频数据上探索生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型

我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明,缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。

本技术报告侧重于

  • 我们将所有类型的视觉数据转换为统一表示的方法,从而能够大规模训练生成模型,
  • 对Sora的能力和局限性进行定性评估。

模型和实现细节不包括在本报告中。许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括循环网络、生成对抗网络、autoregressive transformers和扩散模型。这些作品通常集中在一个狭窄的视觉数据类别上,在较短的视频上,或者在固定大小的视频上。

Sora是一个通用的视觉数据模型,它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,甚至可以生成一分钟的高清视频。

2. 技术内容

2.1 将可视数据转换成patches

我们从大型语言模型中获得灵感,这些模型通过对互联网规模数据的训练获得了全面的能力。LLM范式的成功在一定程度上是由于使用了token,这些token优雅地统一了文本代码、数学和各种自然语言的各种形式。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。

llm有文本令牌,而Sora有visual patches。patches先前已被证明是视觉数据模型的有效表示。我们发现,对于在不同类型的视频和图像上训练生成模型,patch是一种高度可扩展的有效表示。
在这里插入图片描述
在高层次上,我们首先将视频压缩到一个较低维度的潜在空间[19],然后将其分解为spacetime patches,从而将视频转化为patches。

2.2 视频压缩网络

我们训练一个网络来降低视觉数据的维数。该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示。Sora在这个压缩的潜在空间中训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在映射回像素空间。

2.3 Spacetime Latent Patches

给定一个压缩的输入视频,我们提取一个spacetime patches序列,作为transformer tokens。这个方案也适用于图像,因为图像只是单帧的视频。我们基于patches的表示使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。

在推理时,我们可以通过在适当大小的网格中安排随机初始化的patches来控制生成视频的大小。

2.4 Scaling transformers 用于视频生成

Sora为扩散模型[21,22,23,24,25],给定输入的噪声块(以及文本提示之类的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个diffusion transformer。Transformer已经在许多领域展示了显著的缩放特性,包括语言建模[13,14]、计算机视觉[15,16,17,18]和图像生成[27,28,29]
在这里插入图片描述
在这项工作中,我们发现diffusion transformers也可以有效地缩放为视频模型。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。
在这里插入图片描述

2.5 可变的持续时间,分辨率,宽高比

过去的图像和视频生成方法通常是调整大小,裁剪或修剪视频到标准尺寸

例如,4秒的视频在256x256分辨率。

但是我们发现在原始大小的数据上进行训练提供了几个好处。

2.6 抽样的灵活性

Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。这让Sora可以直接以不同设备的原始宽高比为其创建内容。它还允许我们在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型prototype ——所有内容都使用相同的模型。

2.7 改进框架和构图

我们从经验上发现,在视频的原始长宽比上进行训练可以改善构图和框架。

我们将Sora与我们模型的一个版本进行比较,该版本将所有训练视频裁剪为方形,这是训练生成模型时的常见做法。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下,来自Sora(右)的视频有改进的帧。

左图 右图

在这里插入图片描述

2.8 为视频生成字幕,作为训练集

训练文本到视频生成系统需要大量带有相应文本说明的视频。我们将DALL·E 3 [30]中介绍的字幕重配技术应用到视频中。

我们首先训练一个高度描述性的字幕模型(highly descriptive captioner model),然后使用它为我们训练集中的所有视频生成文本字幕。我们发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。与DALL·E 3类似,我们还利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。
在这里插入图片描述

3. 应用

上面的所有结果和我们的登陆页面都显示了文本到视频的示例。但Sora也可以通过其他输入进行提示,比如预先存在的图像或视频。这种功能使Sora能够执行广泛的图像和视频编辑任务-创建完美的循环视频,动画静态图像,向前或向后扩展视频等。

3.1 动画DALL·E图像 (输入图片输出视频)

Sora能够在提供图像和提示作为输入的情况下生成视频。下面我们展示了基于DALL·E 2 [31]和DALL·E 3 [30]图像生成的示例视频。
在这里插入图片描述

展示略

3.2 扩展生成视频

Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

我们可以使用这种方法来向前和向后扩展视频,以产生无缝的无限循环。

3.3 Video-to-video编辑 (改变视频风格或场景)

扩散模型已经启用了大量的方法来根据文本提示 编辑图像和视频。下面我们将其中一种方法SDEdit [32]应用于Sora。这项技术使Sora能够转换零拍摄输入视频的风格和环境。
在这里插入图片描述

3.4 拼接视频

我们还可以使用Sora在两个输入视频之间逐渐插入,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。
在这里插入图片描述
在这里插入图片描述

3.5 图像生成功能

Sora还能生成图像。我们通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。

在这里插入图片描述

4. 新兴的模拟能力

我们发现视频模型在大规模训练时表现出许多有趣的新兴能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。这些属性的出现没有任何明确的3D、物体等的归纳偏差——它们纯粹是尺度现象。

4.1 3d一致性

Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

4.2 长程相干性和对象持久性

视频生成系统面临的一个重大挑战是在长视频采样时保持时间一致性。我们发现Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,我们的模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

4.3 与世界互动

Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。
在这里插入图片描述

4.4 模拟数字世界

Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。这些功能可以通过向Sora提示“我的世界”的字幕而获得zero-shot。

这些功能表明,视频模型的持续缩放(continued scaling of video models)是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

5. 讨论

作为一个模拟器,Sora目前显示出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。其他的交互,比如吃东西,并不总是在对象状态中产生正确的变化。我们在登陆页面中列举了模型的其他常见故障模式,例如在长时间样本中发展的不一致性或对象的自发出现

我们相信,Sora今天所拥有的能力表明,视频模型的持续缩放是一条很有前途的道路,可以开发出物理和数字世界的模拟器,以及生活在其中的物体、动物和人。

6. 参考文献

[13] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).

[14] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

[15] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

[16] Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[17] He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[18] Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).

[19] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[21] Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.

[22] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.

[23] Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.

[24] Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.

[25] Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.

[27] Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.

[28] Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.

[29] Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.

[30] Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

[31] Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

[32] Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).

第三方的猜想与讨论

施工中

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1452344.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件工程师,OpenAI Sora驾到,快来围观

概述 近期,OpenAI在其官方网站上公布了Sora文生视频模型的详细信息,展示了其令人印象深刻的能力,包括根据文本输入快速生成长达一分钟的高清视频。Sora的强大之处在于其能够根据文本描述,生成长达60秒的视频,其中包含&…

【教学类-19-09】20240214《ABAB式-规律黏贴18格-手工纸15*15CM-一页3种图案,AB满,纵向、无边框》(中班)

背景需求 利用15*15CM手工纸制作AB色块手环(手工纸自带色彩),一页3个图案,2条为一组,黏贴成一个手环 素材准备 代码展示 # # 作者:阿夏 # 时间:2024年2月14日 # 名称:正方形数字卡…

普中51单片机学习(二)

51单片机介绍 所需基础知识 基础数模电知识,简单的C语言。 PS:如果有不懂的直接通义千问。。。 什么是单片机 在一片集成电路芯片上集成微处理器、存储器、I/O接口电路,从而构成了单芯片微型计算机,即单片机。 学习方法 多实…

LaTeX中的documentclass命令:指定文档的类型和整体布局

诸神缄默不语-个人CSDN博文目录 documentclass 是 LaTeX 中一个基础且重要的命令,用于定义文档的整体布局和样式。这个命令告诉 LaTeX 编译器文档是属于哪一类的,比如是文章、报告、书籍等,每一类都有其预定义的格式和结构。 文章目录 基本语…

Linux常见指令(一)

一、基本指令 1.1ls指令 语法 : ls [ 选项 ][ 目录或文件 ] 功能:对于目录,该命令列出该目录下的所有子目录与文件。对于文件,将列出文件名以及其他信息。 常用选项: -a 列出目录下的所有文件,包括以 .…

LeetCode 100题目(python版本)待续...

一.哈希 1.两数之和 题目 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复…

一个小白的转行Python的经历!

1. 寻找一个导师 导师可以降低你加入一个新行业的成本,帮助你熟悉环境和行业规则,也会鼓励你完成心理方面的转变。 2. 建立新的社交网络 过去的人脉关系会阻碍你的转行,因为他们是以过去对你的认知来评价你。新领域的人脉,会给你提…

HAL库 STM32驱动W25QXX驱动例程

HAL库 STM32驱动W25QXX驱动例程 📍驱动程序参考:《STM32CubeMX | 基于STM32使用HAL库W25Q128驱动程序》🔑 驱动方式:硬件SPI方式和SPI DMA方式。🔖适用于:W25X系列/Q系列芯片:W25Q80、W25Q16、W25Q32、 W25…

rust函数 stuct struct方法 关联函数

本文结合2个代码实例主要介绍了rust函数定义方法,struct结构体定义、struct方法及关联函数等相关基础知识。 代码1: main.rc #[derive(Debug)]//定义一个结构体 struct Ellipse {max_semi_axis: u32,min_semi_axis: u32, }fn main() {//椭圆&#xff0…

第14集《佛说四十二章经》

好!请大家打开讲义第十九面,第三十九章、教诲无差。 佛言:学佛道者,佛所言说,皆应信顺。譬如食蜜,中边皆甜。吾经亦尔。 大智慧的佛陀说,佛弟子们在修学过程中,对佛陀所说的一切佛…

面向对象编程(一)

目录 1. 面向对象编程概述(了解) 1.1 程序设计的思路 1.2 由实际问题考虑如何设计程序 2. Java语言的基本元素:类和对象 2.1 类和对象概述 2.2 类的成员概述 2.3面向对象完成功能的三步骤(重要) 步骤1:类的定义 步骤2:…

什么是数据同步利器DataX,如何使用?

转载至我的博客 https://www.infrastack.cn ,公众号:架构成长指南 今天给大家分享一个阿里开源的数据同步工具DataX,在Github拥有14.8k的star,非常受欢迎,官网地址:https://github.com/alibaba/DataX 什么…

c++类和对象新手保姆级上手教学(上)

前言: c其实顾名思义就是c语言的升级版,很多刚学c的同学第一感觉就是比c语言难学很多,其实没错,c里的知识更加难以理解可以说杂且抽象,光是类和对象,看起来容易,但想完全吃透,真的挺…

(免费领源码)java#springboot#mysql医院自助服务系统74853-计算机毕业设计项目选题推荐

目 录 摘要 1 绪论 1.1研究意义 1.2研究背景 1.3springboot框架介绍 1.3论文结构与章节安排 2 医院自助服务系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分…

java+springboot+vue试题库在线学习系统05umj

技术路线: B/S架构,后端springboot框架,前端Vue.js框架。 主要功能模块(至少六大功能),参考任务书并拓展 (1)用户管理模块:规定不同角色的用户对系统中各个功能模块的使用…

【学网攻】 第(29)节 -- 综合实验二

系列文章目录 目录 系列文章目录 文章目录 前言 一、综合实验 二、实验 1.引入 实验目标 实验设备 实验拓扑图 实验配置 实验验证 文章目录 【学网攻】 第(1)节 -- 认识网络【学网攻】 第(2)节 -- 交换机认识及使用【学网攻】 第(3)节 -- 交换机配置聚合端口【学网攻…

【Make编译控制 06】CMake初步使用

目录 一、概述与安装 二、编译源文件 三、无关文件管理 一、概述与安装 CMake是一个跨平台的项目构建工具,相比于Makefile,CMake更加高级,因为CMake代码在执行的时候是会先翻译生成Makefile文件,再调用Makefile文件完成项目构…

【Python--网络编程之TCP三次握手】

🚀 作者 :“码上有前” 🚀 文章简介 :Python开发技术 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 Python网络编程之[TCP三次握手] 往期内容代码见资源,效果图如下一、实验要求二、协…

MySQL数据库基础(六):DDL数据库操作

文章目录 DDL数据库操作 一、MySQL的组成结构 二、数据库的基本操作 1、创建数据库 2、查询数据库 3、删除数据库 4、选择数据库 三、总结 DDL数据库操作 一、MySQL的组成结构 注:我们平常说的MySQL,其实主要指的是MySQL数据库管理软件。 一个M…

django定时任务(django-crontab)

目录 一:安装django-crontab: 二:添加django_crontab到你的INSTALLED_APPS设置: 三:运行crontab命令来创建或更新cron作业: 四:定义你的cron作业 五:创建你的管理命令&#xff…