SORA技术报告

news2024/12/28 2:53:51

文档链接:https://openai.com/research/video-generation-models-as-world-simulators

文章目录

  • Video generation models as world simulators
    • Turning visual data into patches
    • Video compression network
    • Spacetime latent patches
    • Scaling transformers for video generation
    • Variable durations, resolutions, aspect ratios
      • Sampling flexibility
      • Improved framing and composition
    • Language understanding
    • Prompting with images and videos
    • Image generation capabilities
    • Emerging simulation capabilities
      • 3D consistency
      • Long-range coherence and object permanence
      • Interacting with the world
      • Simulating digital worlds
    • Discussion

Video generation models as world simulators

探索在视频数据上生成模型的大规模训练。具体而言,在可变持续时间,分辨率和宽高比的视频和图像上共同训练文本条件扩散模型;利用在视频和图片的隐空间的spacetime patches执行计算的Transformer架构。最大的模型Sora能够生成一分钟的高保真视频;结果表明,扩展视频生成模型是建立物理世界的通用模拟器的有前途的途径。

技术报告集中在以下两个方向:

  • 如何将所有类型的视觉数据转换为统一表示的方法,用于大规模训练生成模型
  • Sora能力和局限性的定性评估

许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括递归网络、生成对抗性网络、自回归Transformers和扩散模型。这些工作基本关注狭义的视觉数据,关注较短的视频,或固定大小的视频。Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。

Turning visual data into patches

从大型语言模型中获得灵感,这些模型通过对互联网规模的数据进行训练来获得通用能力。LLM范式的成功在一定程度上得益于tokens的使用,这些tokrnd优雅地统一了文本的各种形式——代码、数学和各种自然语言。在这项工作考虑视觉数据的生成模型如何继承这些优势。LLMs有文本tokens,Sora有视觉patches。patches在先前已被证明是视觉数据模型的有效表示。本工作发现对于在各类视频、图片上训练生成模型,patches是一种高扩展、有效的表征。
在这里插入图片描述
在高维度上,首先将视频压缩到较低维度的潜在空间中,随后将视频表征分解为spacetime patches。

Video compression network

训练一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上都被压缩的潜在表征。Sora与LDM相似,在潜在空间进行训练、生成视频;同时训练了一个对应的解码模型,将生成的隐向量映射回像素空间。

Spacetime latent patches

给定压缩输入视频,提取了一系列spacetime patches,此序列相当于transformer tokens。该方案也适用于图像,因为图像是带有单个帧的视频。基于patches的表示使Sora可以在可变分辨率,持续时间和纵横比的视频、图像上训练。推理时,可以通过在适当尺寸的网格中安排随机定位的patches来控制生成的视频的大小。

Scaling transformers for video generation

Sora是一个扩散模型,给定noisy patches或带有文本控制信息的patches,其通过预测原始clean patches的方式进行训练。重要的是,Sora是基于transformer的扩散模型。Transformer 在多个领域展示了卓越的扩展特性,包括语言建模、计算机视觉和图像生成。
在这里插入图片描述
这项工作发现扩散transformers也可以有效地缩放为视频模型。

Variable durations, resolutions, aspect ratios

之前的图像和视频生成方法通常会调整,裁剪或修剪视频的大小,例如256x256分辨率的4秒视频。本工作发现,相反,以其原始大小的数据进行训练会有更多优势。

Sampling flexibility

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。 这使得 Sora 可以直接以其原生宽高比为不同设备创建内容;还使得能够在以全分辨率生成之前快速以较低尺寸制作原型内容

Improved framing and composition

根据经验发现,对视频的原始纵横比进行训练可以改善构图和框架。将 Sora 与将所有训练视频裁剪为正方形(训练生成模型时的常见做法)的模型版本进行比较。 在方形数据上训练的模型有时会生成仅部分可见主体的视频。 相比之下,Sora的视频的取景效果有所改善。

Language understanding

训练文本到视频生成系统需要大量带有相应文本字幕的视频。 将 DALL·E 3 中引入的re-captioning技术应用于视频。首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。 发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

与 DALL·E 3 类似,还利用了 GPT 将简短的提示词转换为较长的详细字幕,然后发送到视频模型。 这使得 Sora 能够生成准确遵循提示词的高质量视频。

Prompting with images and videos

除文本外,Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。 此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、向前或向后扩展视频等。

  • Animating DALL·E images:能够以给定的视频和提示词作为输出生成视频
  • Extending generated videos:能够在时间上向前或向后扩展视频
  • Video-to-video editing:扩散模型实现了多种根据文本提示编辑图像和视频的方法
  • Connecting videos:在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡

Image generation capabilities

Sora 还能够生成图像,通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。
在这里插入图片描述
在这里插入图片描述

Emerging simulation capabilities

本工作发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。在没有引入对 3D、物体等任何明确的归纳偏差情况下涌现了这些属性——它们纯粹是尺度现象。

3D consistency

Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。

Long-range coherence and object permanence

视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。本工作发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,Sora可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

Interacting with the world

Sora有时可以用简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

Simulating digital worlds

Sora 还能够模拟人工过程——一个例子是视频游戏。 Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用带“Minecraft”的caption提示 Sora 触发。

这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

Discussion

Sora目前作为模拟器显示出许多限制。例如,它没有准确模拟许多基本交互的物理,比如玻璃破碎。其他交互,比如吃东西,不总是会产生正确的物体状态变化。模型的其他常见故障模式还包括在长时间样本中出现的不一致性或物体的自发出现。

Sora目前具备的能力表明,继续扩展视频模型是通向开发能够模拟物理世界、数字世界以及其中的物体、动物和人类的有能力模拟器的一个有前景的路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1468342.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux使用C语言获取进程信息

Linux使用C语言获取进程信息 Author: OnceDay Date: 2024年2月22日 漫漫长路,才刚刚开始… 全系列文章可查看专栏: Linux实践记录_Once_day的博客-CSDN博客 参考文档: Linux proc目录详解_/proc/mounts-CSDN博客Linux下/proc目录介绍 - 知乎 (zhihu.com)Linux内…

该如何选择适合的服务器

服务器,简单来说,就是一个专门用来为其他计算机提供服务的计算机。 我们熟悉的网站、应用和各种在线服务,绝大多数都运行在一台或多台服务器中,所以说服务器是整个网络世界的基石。 服务器一般具有高速的CPU运算、高数据吞吐、可扩…

CrossOver虚拟机软件2024有哪些功能?最新版本支持哪些游戏?

CrossOver由codewaver公司开发的类虚拟机软件,目的是使linux和Mac OS X操作系统和window系统兼容。CrossOver不像Parallels或VMware的模拟器,而是实实在在Mac OS X系统上运行的一个软件。CrossOvers能够直接在Mac上运行Windows软件与游戏,而不…

算法练习-组合【回溯算法】(思路+流程图+代码)

难度参考 难度:困难 分类:回溯算法 难度与分类由我所参与的培训课程提供,但需 要注意的是,难度与分类仅供参考。且所在课程未提供测试平台,故实现代码主要为自行测试的那种,以下内容均为个人笔记&#xff0…

Code-Audit(代码审计)习题记录6-7

介绍: 自己懒得搭建靶场了,靶场地址是 GitHub - CHYbeta/Code-Audit-Challenges: Code-Audit-Challenges为了方便在公网练习,可以随地访问,本文所有的题目均来源于网站HSCSEC-Code Audit 6、习题6 题目内容如下: 源代…

Python+Flask低代码数据融合引擎工具

我用了2年多时间开发了一个低代码数据融合引擎工具 1.整体界面 2.主要功能 1)通过excel文件生成mysql数据表结构及数据保存 说明:功能细节包括(excel文件上传,文件内容预览,建表导入数据),难点在于对excel数据类型判断,并与mysql数据类型对应 2)建立数据表结构并批量导入数据 …

python程序设计基础:字符串与正则表达式

第四章:字符串与正则表达式 4.1字符串 最早的字符串编码是美国标准信息交换码ASCII,仅对10个数字、26个大写英文字母、26个小写英文字母及一些其他符号进行了编码。ASCII码采用1个字节来对字符进行编码,最多只能表示256个符号。 随着信息技…

Ubuntu20.04开启/禁用ipv6

文章目录 Ubuntu20.04开启/禁用ipv61.ipv62. 开启ipv6step1. 编辑sysctl.confstep2. 编辑网络接口配置文件 3. 禁用ipv6(sysctl)4. 禁用ipv6(grub)附:总结linux网络配置 Ubuntu20.04开启/禁用ipv6 1.ipv6 IP 是互联网…

openssl

最新版本3.0 使用 生成自签名的根证书 openssl req -x509 -new -key rootCA.key -days 3650 -out rootCA.crt -subj "/CCA/STCA/LCA/OCA/OUCA/CNCA" pem格式 BASE64,会有PUBLIC KEY表示公钥,PRIVATE KEY表示私钥 根据私钥生成公钥 openss…

工业信息安全的神秘武器——德迅卫士(主机安全)

前言: 服务器作为承载公司业务及内部运转的底层平台,其稳定、安全地运行是公司的正常发展的前提保障。由于主机上运行着各种各样的业务,会存在着各类漏洞及安全问题。攻击者以此为目标,通过对服务器的攻击来获利,给公司…

英文输入法(C 语言)

题目来自于博主算法大师的专栏:最新华为OD机试C卷AB卷OJ(CJavaJSPy) https://blog.csdn.net/banxia_frontend/category_12225173.html 题目 主管期望你来实现英文输入法单词联想功能,需求如下: 依据用户输入的单词前…

Java智慧工地云综合管理平台SaaS源码 助力工地实现精细化管理

目录 智慧工地系统介绍 1、可视化大屏 2、视频监控 3、Wi-Fi安全教育 4、环境监测 5、高支模监测 6、深基坑监测 7、智能水电监测 8、塔机升降安全监测 智慧工地系统功能模块 1、基础数据管理 2、考勤管理 3、安全隐患管理 4、视频监控 5、塔吊监控 6、升降机监…

三分钟快速搭建家纺行业小程序商城:轻松实现电子商务梦想

随着互联网的普及和移动设备的广泛使用,越来越多的商业活动正在向数字化转型。在这个过程中,小程序商城作为一种新型的电子商务模式,正逐渐受到商家的青睐。本文将通过具体步骤,指导读者如何开发一个纺织辅料小程序商城。 一、选择…

Capto 一款适用Mac屏幕录制编辑软件

Capto 是一款功能强大的 Mac 屏幕录制和编辑软件,能够满足用户的多种录制和编辑需求。无论是个人还是专业用户,都可以通过 Capto 实现高质量的屏幕录制和编辑。 首先,Capto 提供了全面的屏幕录制功能,包括全屏、选中区域、甚至是摄…

Nest.js权限管理系统开发(三)环境变量与配置文件

一般来说数据库的配置包含了一些敏感信息,不宜写在代码中提交到远程仓库,所以我们可以将配置写在配置文件中,然后提交 git 时候将生产环境的配置文件其忽略。我们可以新建.env和.env.prod两个文件分别存放开发与生产环境配置,也可以使用YAML等…

Linux【动静态库】

目录 1.软硬链接 1.1软硬链接的语法 1.2理解软硬链接 1.3目录文件的硬链接 1.4应用场景 1.5ACM时间 2.动静态库 2.1认识库 3.制作静态库 3.1静态库打包 3.2静态库的使用 4.制作动态库 4.1动态库打包 4.2动态库的链接使用 4.3动态库的链接原理 总结&#xff1…

[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--强化学习等

专属领域论文订阅 关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持 如果你感觉对你有所帮助,请关注我,每日准时为你推送最新论文。 分类: 大语言模型LLM视觉模型VLM扩散模型视觉…

Kotlin 基本语法5 继承,接口,枚举,密封

1.继承与重写的Open关键字 open class Product(val name:String ) {fun description() "Product: $name"open fun load() "Nothing .."}class LuxuryProduct:Product("Luxury"){//继承需要调用 父类的主构造函数override fun load(): String {…

热点参数流控(Sentinel)

热点参数流控 热点流控 资源必须使用注解 @SentinelResource编写接口 以及 热点参数流控处理器 /*** 热点流控 必须使用注解 @SentinelResource* @param id* @return*/ @RequestMapping("/getById/{id}") @SentinelResource(value = "getById", blockHand…

《Docker 简易速速上手小册》第3章 Dockerfile 与镜像构建(2024 最新版)

文章目录 3.1 编写 Dockerfile3.1.1 重点基础知识3.1.2 重点案例:创建简单 Python 应用的 Docker 镜像3.1.3 拓展案例 1:Dockerfile 优化3.1.4 拓展案例 2:多阶段构建 3.2 构建流程深入解析3.2.1 重点基础知识3.2.2 重点案例:构建…