openai sora 只能根据文本生成视频?不,TA 是通用物理世界模拟器

news2024/11/10 16:05:40

视频生成模型作为世界模拟器

我们探索了在视频数据上进行大规模生成模型的训练。

具体来说,我们联合在可变持续时间、分辨率和长宽比的视频和图像上训练文本条件扩散模型。

我们利用了一个在视频和图像潜在编码的时空补丁上操作的变压器架构。

我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是建立通用物理世界模拟器的有前途的途径。

TODO: 视频

PS:其他视频省略。

这份技术报告着重介绍了两个方面:

(1) 我们将各种类型的视觉数据转化为统一表示的方法,从而实现了生成模型的大规模训练;

(2) 对Sora的能力和局限性进行了定性评估。模型和实现细节不包含在本报告中。

之前的研究已经探讨了利用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变压器和扩散模型等。

这些工作通常专注于某一类视觉数据,或者是针对较短的视频,或者是针对尺寸固定的视频。

Sora是一种通用的视觉数据模型——它可以生成跨越不同持续时间、长宽比和分辨率的视频和图像,高清视频的长度可达一分钟。

将视觉数据转化为补丁 Turning visual data into patches

我们受到大型语言模型的启发,这些模型通过在互联网规模的数据上进行训练获得了通用能力。

语言模型范式的成功部分得益于优雅地统一了文本、代码、数学和各种自然语言等多种形式的令牌的使用。

在这项工作中,我们考虑了生成视觉数据模型如何继承这些好处。

而语言模型有文本令牌,Sora有视觉补丁。已经有研究表明,补丁是视觉数据模型的有效表示。我们发现,补丁是一种高度可扩展且有效的表示,可用于训练不同类型的视频和图像的生成模型。

视觉补丁

在高层次上,我们通过首先将视频压缩成低维潜在空间,然后将表示分解为时空补丁来将视频转化为补丁。

视频压缩网络 Video compression network

我们训练了一个网络来降低视觉数据的维度。该网络将原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。

Sora在这个压缩的潜在空间上进行训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在补丁 Spacetime latent patches

给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁充当变压器令牌。

这个方案对图像也适用,因为图像只是具有单个帧的视频。我们基于补丁的表示使得Sora能够在分辨率、持续时间和长宽比各异的视频和图像上进行训练。

在推理时,我们可以通过将随机初始化的补丁排列成适当大小的网格来控制生成视频的大小。

对视频生成进行变压器的扩展 Scaling transformers for video generation

Sora是一个扩散模型;给定输入的噪声补丁(以及诸如文本提示等的条件信息),它被训练成预测原始的“干净”补丁。

值得注意的是,Sora是一个扩散变压器。变压器在各种领域展示了显著的扩展特性,包括语言建模、计算机视觉和图像生成。

t

在这项工作中,我们发现扩散变压器(diffusion transformers)在视频模型中也能有效扩展。

下面,我们展示了随着训练计算量增加,使用固定种子和输入的视频样本的比较。

随着训练计算量的增加,样本质量显著提高。

变化的持续时间、分辨率、长宽比 Variable durations, resolutions, aspect ratios

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪到标准大小——例如,256x256分辨率的4秒视频。

我们发现,与其在标准大小上进行训练,不如在数据的原始大小上进行训练具有几个好处。

采样灵活性 Sampling flexibility

Sora可以对宽屏的1920x1080p视频、垂直的1080x1920视频以及两者之间的所有内容进行采样。

这使得Sora能够直接按照其原生长宽比为不同设备创建内容。这也使我们能够在生成全分辨率之前快速原型化较低大小的内容——而所有这些都是使用同一个模型完成的。

改善构图和构图 Improved framing and composition

我们凭经验发现,使用视频的原始长宽比进行训练可以改善构图和构图。

我们将Sora与我们模型的一个版本进行比较,该版本将所有训练视频裁剪为正方形,这在训练生成模型时是常见的做法。

在使用正方形裁剪训练的模型(左)中,有时会生成主体仅部分可见的视频。相比之下,来自Sora(右)的视频具有改善的构图。

语言理解 Language understanding

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们应用了DALL·E 3中引入的重新标题技术到视频中。我们首先训练一个高度描述性的标题生成模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,在高度描述性的视频标题上进行训练不仅可以提高文本的准确性,还可以提高视频的整体质量。

类似于DALL·E 3,我们还利用GPT将短用户提示转化为更长、详细的标题,然后将其发送到视频模型。这使得Sora能够生成高质量的视频,并准确地遵循用户的提示。

使用图像和视频提示

上面所有的结果以及我们网页上的展示都是文本到视频样本。但是Sora也可以使用其他输入来提示,比如现有的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务——创建完美循环的视频、将静态图像动画化、将视频向前或向后延长等。

将DALL·E图像动画化

Sora能够根据图像和提示生成视频。

下面我们展示了根据DALL·E 231和DALL·E 330图像生成的示例视频。

扩展生成的视频

Sora还能够扩展视频,无论是向前还是向后延长时间。

以下是四个视频,它们都是从一个生成视频的片段开始向时间向后延长的。因此,这四个视频中的每一个都从不同的起点开始,但最终都会导向同一个结尾。

视频到视频编辑

扩散模型已经为从文本提示编辑图像和视频提供了大量的方法。

下面我们将其中一种方法,SDEdit,应用到Sora上。这种技术使得Sora能够零样本地转换输入视频的风格和环境。

连接视频

我们还可以使用Sora逐渐插值两个输入视频之间,创建完全不同主题和场景构图的视频之间的无缝过渡。在下面的示例中,中间的视频是左侧和右侧对应视频之间的插值。

图像生成能力

Sora也能够生成图像。

我们通过在一个帧的时间范围内以空间网格的形式排列高斯噪声的补丁来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达2048x2048。

新兴的模拟能力

我们发现,当在大规模训练时,视频模型表现出许多有趣的新兴能力。

这些能力使得Sora能够模拟物理世界中的一些人、动物和环境的某些方面。这些属性在没有任何明确的归纳偏差的情况下出现,比如对3D、物体等,它们纯粹是规模效应的现象。

3D一致性。Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中以一致的方式移动。

长程一致性和对象持久性(Long-range coherence and object permanence.)。

视频生成系统面临的一个重要挑战是在采样长视频时保持时间一致性。我们发现,尽管不总是如此,但Sora通常能够有效地模拟短程和长程依赖关系。例如,我们的模型可以在人、动物和物体被遮挡或离开画面时仍能持续存在。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

与世界互动。Sora有时可以模拟以简单方式影响世界状态的动作。

例如,一个画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。Sora还能够模拟人工过程——一个例子是视频游戏。

Sora可以同时使用基本策略控制Minecraft中的玩家,并以高保真度渲染世界及其动态。这些能力可以通过提示Sora并提到“Minecraft”来零样本激发。

这些能力表明,持续扩展视频模型是通向开发高度能力的物理世界和数字世界以及其中的物体、动物和人类的模拟器的有前途的路径。

Discussion

Sora目前作为模拟器表现出许多限制。例如,它不能准确地模拟许多基本交互的物理现象,比如玻璃破碎。其他交互,比如吃食物,并不总是产生正确的物体状态变化。我们在我们的首页上列举了模型的其他常见故障模式,比如在长时间样本中发展出的不一致性或物体的突然出现。

我们相信Sora今天所具有的能力表明,继续扩展视频模型是通往开发能够模拟物理世界和数字世界以及其中生活的物体、动物和人类的有能力模拟器的有前途的道路。

参考资料

https://cdn.openai.com/papers/dall-e-3.pdf

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1464985.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt_纯虚函数的信号和槽

简介 在C中,纯虚函数是一个在基类中声明但没有实现的虚函数。纯虚函数的声明以 “ 0” 结尾。纯虚函数的目的是为了提供一个接口,但是不提供实现。派生类必须实现纯虚函数,否则它也会成为一个抽象类。纯虚函数可以在基类中定义,也…

PNPM 批量检查和更新项目依赖

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页: Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

代码随想录算法训练营第59天 | 583.两个字符串的删除操作 72.编辑距离

两个字符串的删除操作 dp[i][j] 表示使得[0, i-1]的word1子串和[0, j-1]的word2子串相同所需要的最小步数。 递推公式:也是分为word1[i-1]和word2[j-1]相不相等两种情况。如果相等则不需要修改,dp[i][j] dp[i - 1][j - 1]。如果不相等,要么删…

李一舟的AI人工智能课程全部内容

科技一直都在进步,我们唯一能做的就是只能让自己不断地学习,保持终身学习,否则时代抛弃你,连招呼都不会打一个。 分享一下最近很火的某老师的AI人工智能课程及工具,希望对你的人工智能学习有所帮助 课程的内容网盘链接…

酷开科技丨新年新玩法!酷开系统壁纸模式给客厅“换”新

甲辰龙年即将到来,新年新家新气象,快到酷开系统壁纸模式中挑选一款喜欢的壁纸,为新的一年增添一份美好和喜悦吧! 酷开科技将更多的电视新玩法带给你,让你的电视成为家庭中的焦点!酷开系统壁纸模式&#xf…

在SAP生产系统里面快速地紧急修复BUG修改代码

在SAP生产系统里面快速地紧急修复BUG修改代码

RENISHAW雷尼绍双读数头系统应用分享

在精密回转运动控制中,大多数场合都会对系统的回转定位精度有严格的要求,RENISHAW雷尼绍圆光栅系统(RESM增量和RESA绝对值)对于回转角度的反馈测量方案能有效的解决运动控制对回转精度的需求。但是配置单个读数头的圆光栅系统的精…

flutter sliver 多种滚动组合开发指南

flutter sliver 多种滚动组合开发指南 视频 https://youtu.be/4mho1kZ_YQU https://www.bilibili.com/video/BV1WW4y1d7ZC/ 前言 有不少同学工作中遇到需要把几个不同滚动行为组件(顶部 appBar、内容固定块、tabBar 切换、tabBarView视图、自适应高度、横向滚动&a…

PostgreSQL 实体化视图的使用

上周的教程中,通过 DVD Rental Database 示例,让我们了解了在 PostgreSQL 中创建实体化视图的过程。正如我们所了解的,PostgreSQL 实体化视图提供了一种强大的机制,通过预计算和存储查询结果集为物理表来提高查询性能。接下来的内…

广州市轻工技师学院领导一行莅临泰迪智能科技开展“访企拓岗”活动

2月21日,广州市轻工技师学院技能鉴定处副主任王永润、信息技术产业系副主任邝嘉伟及信息技术产业系骨干教师等一行莅临广东泰迪智能科技股份有限公司产教融合实训基地就深入“访企拓岗”、强化校企合作、促进毕业生充分就业、创新人才培养范式等领域进行了深入交流。…

美团优惠券平台的探索设计与实现

随着电子商务的不断发展,优惠券已经成为吸引用户、促进消费的重要手段之一。美团作为中国领先的生活服务平台,也推出了优惠券平台,为用户提供更多实惠和便捷。本文将探讨美团优惠券平台的设计与实现,以及其在用户消费中的作用和未…

opencv判断二值的情况

目的 先说说理论: 什么叫图像的二值化?二值化就是让图像的像素点矩阵中的每个像素点的灰度值为0(黑色)或者255(白色),也就是让整个图像呈现只有黑和白的效果。在灰度化的图像中灰度值的范围为0…

Flutter插件开发指南01: 通道Channel的编写与实现

Flutter插件开发指南01: 通道Channel的编写与实现 视频 https://www.bilibili.com/video/BV1ih4y1E7E3/ 前言 本文将会通过一个加法计算,来实现 Channel 的双向通讯,让大家有个一个体会。 Flutter插件 Flutter插件是Flutter应用程序与原生平台之间的桥…

Leetcode3036. 匹配模式数组的子数组数目 II

Every day a Leetcode 题目来源:3036. 匹配模式数组的子数组数目 II 解法1:KMP 设数组 nums 的长度为 m,数组 pattern 的长度为 n。 遍历数组 nums 的每个长度是 n1 的子数组并计算子数组的模式,然后与数组 pattern 比较&…

智能图书馆开源项目

结尾有项目链接 技术栈介绍 ☃️前端主要技术栈 技术作用版本Vue提供前端交互2.6.14Vue-Router路由式编程导航3.5.1Element-UI模块组件库,绘制界面2.4.5Axios发送ajax请求给后端请求数据1.2.1core-js兼容性更强,浏览器适配3.8.3swiper轮播图插件&…

1+X电子商务运营数据采集(一)

王某在淘宝网经营着一个水果销售店铺,经过一年多的运营和推广,店铺生意毫无起色,而推广费用却没有少花。为此,王某准备对店铺的客户数据进行分析。采集了网店从开业到目前店铺的已有客户数据与行业客户人群画像进行比对&#xff0…

软件开发公司如何打造产品力,产品就是最好的推销员!

hello,我是贝格前端工场,作为开发公司,大家长期奉行的是SLG(销售驱动增长),一切围绕拿项目进行,那么是否可以采用PLG(产品驱动增长)呢?着力打造产品力&#x…

【前端素材】推荐优质后台管理系统Minia平台模板(附源码)

一、需求分析 后台管理系统是一种用于管理网站、应用程序或系统的工具,它通常作为一个独立的后台界面存在,供管理员或特定用户使用。下面详细分析后台管理系统的定义和功能: 1. 定义 后台管理系统是一个用于管理和控制网站、应用程序或系统…

数据结构与算法——排序算法

目录 文章目录 前言 一.排序的基本概念 1.什么是就地排序 2.什么是内部排序和外部排序 3.什么是稳定排序 4.判定一个排序算法的是稳定的 二.插入排序算法 1.直接插入排序 1.1基本思想 1.2复杂度 1.3稳定性 1.4代码演示 2.折半插入排序 2.1基本思想 2.2性能 3.…

如何进行非线性负载测试?

非线性负载测试是模拟真实用户行为和系统性能的测试方法,它可以帮助我们发现系统在高并发、高负载情况下的性能瓶颈和潜在问题。以下是进行非线性负载测试的一些建议: 在进行非线性负载测试之前,首先要明确测试的目标,例如测试系统…