Video generation models as world simulators-视频生成模型作为世界模拟器

news2024/11/26 0:30:01

原文地址:Video generation models as world simulators

我们探索在视频数据上进行大规模生成模型的训练。具体来说,我们联合训练文本条件扩散模型,同时处理不同持续时间、分辨率和长宽比的视频和图像。我们利用一个在视频和图像潜在编码的时空块上运行的转换器结构。我们最大的模型Sora能够生成一分钟高保真度视频。我们的结果表明,扩展视频生成模型是建立物理世界通用目的模拟器的一个有前途的途径。

这份技术报告着重介绍了两个方面:(1) 我们将各种类型的视觉数据转化为统一表示形式的方法,从而实现生成模型的大规模训练;和 (2) 对Sora的能力和局限性进行定性评估。报告中不包括模型和实施细节。

许多先前的研究都使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常聚焦于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种视觉数据的通用模型,它能够生成跨越不同持续时间、长宽比和分辨率的视频和图像,达到高清晰度视频长达一分钟。

将视觉数据转化为块

我们受到大型语言模型的启发,这些模型通过在互联网规模的数据上进行训练获得了通用能力。语言模型的成功在一定程度上归功于优雅地统一了文本、代码、数学和各种自然语言等多种形式的令牌。在这项工作中,我们考虑如何将视觉数据的生成模型继承这些好处。而语言模型使用文本令牌,Sora使用视觉块。之前已经证明,块对于视觉数据的模型是一种有效的表示形式。我们发现,块是一种高度可扩展且有效的表示形式,适用于训练各种类型的视频和图像的生成模型。

 

在高层次上,我们首先将视频压缩成较低维的潜在空间,然后将表示分解为时空块。

视频压缩网络 

我们训练了一个网络来降低视觉数据的维度。该网络接收原始视频作为输入,并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在块 

给定一个压缩的输入视频,我们提取一系列时空块作为变换器的令牌。这个方案也适用于图像,因为图像只是具有单帧的视频。我们基于块的表示形式使得Sora能够在分辨率、持续时间和长宽比可变的视频和图像上进行训练。在推理时,我们可以通过将随机初始化的块按适当大小的网格排列来控制生成的视频的大小。

扩展变换器用于视频生成 

Sora是一个扩散模型;在给定噪声块输入(以及像文本提示这样的条件信息)的情况下,它被训练来预测原始的“清晰”块。重要的是,Sora是一个扩散变换器。变换器在各种领域展示了显著的扩展性能,包括语言建模、计算机视觉和图像生成。

 

在这项工作中,我们发现扩散变换器同样可以有效地扩展为视频模型。下面,我们展示了在训练进行中使用固定种子和输入的视频样本比较。随着训练计算力的增加,样本质量显著提高。

可变的持续时间、分辨率和长宽比 

先前的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准尺寸,例如256x256分辨率的4秒视频。我们发现,相反,以原始大小训练数据具有几个优势。

采样灵活性 

Sora可以对宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的视频进行采样。这使Sora能够直接以各种设备的原生长宽比创建内容。它还使我们能够在较低尺寸快速原型化内容,然后再使用相同的模型生成全分辨率内容。

改善构图和组成   

我们在实践中发现,以视频的原生长宽比进行训练可以改善构图和组成。我们将Sora与将所有训练视频裁剪为正方形的模型版本进行了比较,这是训练生成模型时常见的做法。在正方形裁剪训练的模型(左侧)有时会生成主体仅部分在视野中的视频。相比之下,Sora生成的视频(右侧)具有改进的构图。

语言理解 

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们将引入 DALL·E 3 中的重新标注技术应用到视频中。我们首先训练一个高度描述性的标题模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,使用高度描述性的视频标题进行训练不仅提高了文本的准确性,还改善了视频的整体质量。

类似于DALL·E 3,我们还利用GPT将用户的简短提示转化为更加详细的长篇说明,并将其发送给视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

通过图像和视频发出提示 

以上所有结果以及我们的主页展示的都是文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务,比如创建完美循环的视频、为静态图像添加动画效果、向后或向前延伸视频等。

为DALL·E图像添加动画效果 

Sora能够根据提供的图像和提示生成视频。以下是基于DALL·E 2和DALL·E 3图像生成的示例视频。

延长生成的视频 

Sora还可以延长视频的时间,可以向前或向后延长。以下是四个视频,它们都是从一个生成的视频片段开始向时间倒退延伸。因此,这四个视频的开头各不相同,但最终都导向同样的结尾。

我们可以使用这种方法向前和向后延伸视频,以生成一个无缝的无限循环。

视频到视频的编辑 

扩散模型为从文本提示编辑图像和视频提供了众多方法。下面我们将其中一种方法,SDEdit,应用到Sora上。这种技术使得Sora能够零-shot转换输入视频的风格和环境。

连接视频 

 我们还可以使用Sora逐渐插值两个输入视频之间,创建在完全不同主题和场景组合之间无缝过渡的视频。在下面的示例中,中间的视频是左侧和右侧对应视频之间插值产生的结果。

图像生成能力 

Sora还具备生成图像的能力。我们通过在时间轴上以一帧的时间跨度将高斯噪声块排列在空间网格中来实现这一点。该模型可以生成不同大小的图像,分辨率高达2048x2048。

新兴的仿真能力 

我们发现,当视频模型在大规模训练时,它们表现出一些有趣的新兴能力。这些能力使得Sora能够从物理世界中模拟出人、动物和环境的某些方面。这些特性的出现并没有任何针对3D、物体等显式归纳偏好,它们纯粹是规模现象所产生的。

3D一致性  Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中以一致的方式移动。

长程连贯性和物体持久性  对视频生成系统的一个重要挑战是在采样长视频时保持时间一致性。我们发现,尽管不总是如此,Sora通常能够有效地模拟短期和长期依赖关系。例如,我们的模型可以在人们、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样地,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持他们的外观。

与世界互动  Sora有时可以模拟一些影响世界状态的简单动作。例如,一位画家可以在画布上留下新的笔触,并随着时间推移而保留下来,或者一个人可以吃掉一个汉堡并留下咬痕。

模拟数字世界  Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以同时使用基本策略控制《Minecraft》中的玩家,并以高保真度呈现世界及其动态。通过提供包含“Minecraft”关键词的描述性标题,这些能力可以从零开始引出。

这些能力表明,继续扩展视频模型是发展高能力物理世界和数字世界模拟器的有前途的道路,并模拟其中生活的物体、动物和人类。

讨论 

目前,Sora作为一个模拟器还存在许多限制。例如,它无法准确地模拟许多基本交互的物理性质,比如玻璃破碎。其他交互,比如吃东西,也不总是产生正确的物体状态变化。我们在我们的首页上列举了模型出现的其他常见故障模式,比如长时间样本中出现的不连贯性或物体的突然出现。

我们相信,Sora如今所展现的能力表明,继续扩展视频模型是发展具有能力的物理世界和数字世界模拟器,并模拟其中生活的物体、动物和人类的有前途的道路。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1463247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Salesforce顾问如何拿到更高的薪水?

顾问的角色已经在Salesforce生态系统存在了一段时间,随着Salesforce针对职业发展的Trailhead培训模块的发布,该角色的热度又达到了新的浪潮。越来越多人走上了Salesforce顾问这条职业道路。 当然其薪资水平也非常可观,据调查,美国…

【Linux系统化学习】深入理解匿名管道(pipe)和命名管道(fifo)

目录 进程间通信 进程间通信目的 进程间通信的方式 管道 System V IPC(本地通信) POSIX IPC(网络通信) 管道 什么是管道 匿名管道 匿名管道的创建 匿名管道的使用 匿名管道的四种情况 匿名管道的五种特性 命名管道 …

2024第16届全国大学生广告艺术大赛介绍

全国大学生广告艺术大赛介绍 全国大学生广告艺术大赛(简称大广赛)自2005年第1届至今,遵循“促进教改、启迪智慧、强化能力、提高素质、立德树人”的竞赛宗旨,成功举办了14届共15次赛事,全国共有1857所高校参与其中&am…

#LLM入门|Prompt#1.7_文本拓展_Expanding

输入简短文本,生成更加丰富的长文。 “温度”(temperature):控制文本生成的多样性。 一、定制客户邮件 根据客户的评价和其中的情感倾向,使用大语言模型针对性地生成回复邮件。将大大提升客户满意度。 # 我们可以在…

Rust: reqwest库示例

一、单一文件异步 1、cargo.toml [dependencies] tokio { version "1.0.0", features ["full", "tracing"] } tokio-util { version "0.7.0", features ["full"] } tokio-stream { version "0.1" }tr…

《数字化运维路线图》第四部分-数字化运维转型场景 震撼发布!

《数字化运维路线图》系列的压轴之作——《数字化运维转型场景》终于迎来正式发布。这部分内容与《数字化运维组织升级》、《数字化运维转型的标准流程》和《数字化运维转型平台》共同构成了一套完整的数字化运维转型作战蓝图,全方位、多角度地概括了企业如何有效地…

10MARL深度强化学习 Value Decomposition in Common-Reward Games

文章目录 前言1、价值分解的研究现状2、Individual-Global-Max Property3、Linear and Monotonic Value Decomposition3.1线性值分解3.2 单调值分解 前言 中心化价值函数能够缓解一些多智能体强化学习当中的问题,如非平稳性、局部可观测、信用分配与均衡选择等问题…

前端架构: 脚手架之Chalk和Chalk-CLI使用教程

Chalk Chalk 是粉笔的意思, 它想表达的是,给我们的命令行中的文本添加颜色类似彩色粉笔的功能 在官方文档当中,它的 Highlights 核心特性 Expressive API Highly performant No dependencies Ability to nest styles 256/Truecolor color support Auto-…

Android中通过属性动画实现文字轮播效果

前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂,风趣幽默",感觉非常有意思,忍不住分享一下给大家。 👉点击跳转到教程 一、创建一个自定义ProvinceView类,具体代码如下 /*** Author: ly* Date: 2024/2/22* D…

【服务器】服务器推荐

一、引言 在数字世界的浪潮中,服务器作为数据存储和处理的基石,其重要性不言而喻。而在这个繁星点点的市场中,雨云以其独特的优势和超高的性价比,逐渐成为众多企业和个人的首选。今天,就让我带你走进雨云的世界&#…

2024 Sora来了!“手机Agent智能体”也来了!

近日,Open AI发布了能够根据文本生成超现实视频的工具Sora,多款震撼视频引爆科技圈刷屏,热度持续发酵占据AI领域话题中心,被认为是AGI实现过程里的重大里程碑事件。新一轮的人工智能浪潮给人类未来的生产和生活方式带来巨大而深远…

盘点被吹爆的桌面便签小工具

桌面便签小工具有很多,任何一款桌面便签小工具都有它的优缺点,而那些被吹爆了好用的桌面便签小工具往往是优点远多于缺点,从而深受用户的喜爱,今天我们来给大家盘点一款被很多行业吹爆了的桌面便签小工具:好用便签。 …

[论文精读]Do Transformers Really Perform Bad for Graph Representation?

论文网址:[2106.05234] Do Transformers Really Perform Bad for Graph Representation? (arxiv.org) 论文代码:https://github.com/Microsoft/Graphormer 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼…

EAP-TLS实验之Ubuntu20.04环境搭建配置(FreeRADIUS3.0)(二)

上篇文章简要介绍了freeradius的搭建及配置,在最后数据库连接阶段还没进行测试验证,今天继续。 修改相关文件 1 radiusd.conf 打开762行注释($INCLUDE mods-enabled/sql); 2 sites-available/default …

智慧工地uniapp项目管理系统源码

目录 智慧工地的核心 智慧工地特点 智慧工地的优势 智慧工地应用场景 智慧工地平台---项目版(端) 智慧工地数字栾生平台 三位一体全数据贯通 智慧工地是指应用物联网、大数据、云计算、人工智能等新兴技术,对建筑工地进行数字化、信息…

http://127.0.0.1:9222/json打不开Chrome环境变量问题

解决方案: 系统环境变量Path设置错误, 1、先看下端口是否占用:netstat -ano|findstr “9222” , 如下127.0.0.1:9222端口显示LISTENING是正常的 如果是SYN_SENT可能不太正常,这个时候, taskkill /PID 端…

Ubuntu使用Docker部署Redis并实现远程访问本地数据库

文章目录 前言1. 安装Docker步骤2. 使用docker拉取redis镜像3. 启动redis容器4. 本地连接测试4.1 安装redis图形化界面工具4.2 使用RDM连接测试 5. 公网远程访问本地redis5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问 前言 本文主要介绍如何在Ub…

uniapp微信小程序-项目实战修改密码

图标是使用uview里面的图标&#xff0c;icfont也可以 以下是所有代码 <template><view><!-- 密码三个 --><view class"password" v-for"(item,index) in userList"><view class"contentuser"><view class&qu…

先进语言模型带来的变革与潜力

用户可以通过询问或交互方式与GPT-4这样的先进语言模型互动&#xff0c;开启通往知识宝库的大门&#xff0c;即时访问人类历史积累的知识、经验与智慧。像GPT-4这样的先进语言模型&#xff0c;能够将人类历史上积累的海量知识和经验整合并加以利用。通过深度学习和大规模数据训…

基于springboot+vue的知识管理系统(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…