SORA:OpenAI最新文本驱动视频生成大模型技术报告解读

news2024/12/23 14:42:27

Video generation models as world simulators:作为世界模拟器的视频生成模型

  • 1、概览
  • 2、Turning visual data into patches:将视觉数据转换为补丁
  • 3、Video compression network:视频压缩网络
  • 4、Spacetime Latent Patches:时空潜在补丁
  • 5、Scaling transformers for video generation:用于视频生成的缩放变压器
  • 6、Variable durations, resolutions, aspect ratios:可变持续时间、分辨率、纵横比
    • 采样灵活性
    • 改进了框架和构图
  • 7、Language understanding:语言理解
  • 8、Prompting with images and videos:使用图像和视频进行提示
    • DALL·E图像动画制作
    • 扩展生成的视频
    • 视频到视频编辑
    • 连接视频
  • 9、Image generation capabilities:图像生成能力
  • 10、Emerging simulation capabilities:新兴的模拟能力
  • 11、Discussion:讨论

1、概览

本技术报告侧重于:
(1)我们将所有类型的视觉数据转化为统一表示的方法,该方法能够对生成模型进行大规模训练。
(2)对Sora的能力和局限性进行定性评估。模型和实施细节未包含在本报告中。

许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括:
递归网络、
生成对抗性网络、
自回归变换器、
和扩散模型。
这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。

Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。
在这里插入图片描述
这里OpenAI声称:Sora已经可以较稳定地生成60s连贯长视频。

2、Turning visual data into patches:将视觉数据转换为补丁

我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上进行训练来获得通才能力。LLM范式的成功部分归功于使用了巧妙地统一了文本的各种形式——代码、数学和各种自然语言——的令牌。在这项工作中,我们考虑视觉数据的生成模型如何继承这些优势。LLM有文本标记,而Sora有视觉补丁。补丁先前已被证明是视觉数据模型的有效表示。
我们发现补丁是在不同类型的视频和图像上训练生成模型的高度可扩展和有效的表示。
在这里插入图片描述
在高水平上,我们通过首先将视频压缩到较低维度的潜在空间中,然后将表示分解为时空补丁,将视频转化为补丁。
值得注意的是,与传统的压缩空间不同,它是对时间维度进行压缩。这也就很好解释了为什么它可以生成60s的长视频。

3、Video compression network:视频压缩网络

我们训练了一个降低视觉数据维度的网络。
这个网络以原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。
Sora在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的延迟映射回像素空间。

4、Spacetime Latent Patches:时空潜在补丁

给定压缩的输入视频,我们提取一系列时空补丁,这些补丁充当变换器令牌。这种方案也适用于图像,因为图像只是具有单个帧的视频。
我们基于补丁的表示使Sora能够在不同分辨率、持续时间和纵横比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。(也就是说Sora支持不同分辨率,不同时长不同横竖比的视频训练及生成)

5、Scaling transformers for video generation:用于视频生成的缩放变压器

Sora是一个扩散模型;给定输入噪声补丁(以及文本提示等条件信息),它被训练来预测原始的“干净”补丁。
重要的是,Sora是一个diffusion transformer。transformer在各种领域都表现出了显著的缩放特性,包括语言建模、计算机视觉和图像生成。
在这里插入图片描述
在这项工作中,我们发现diffusion transformer也可以有效地扩展为视频生成模型。
下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。
在这里插入图片描述
(可以见得,越训练越狗模狗样了)

6、Variable durations, resolutions, aspect ratios:可变持续时间、分辨率、纵横比

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小,例如,分辨率为256x256的4秒视频。我们发现,相反,对数据进行原生规模的训练可以带来几个好处。

采样灵活性

Sora可以对宽屏幕1920x1080p视频、垂直1080x1920视频以及其间的所有视频进行采样。这使Sora可以直接按照不同设备的固有纵横比为其创建内容。它还允许我们在以全分辨率生成之前快速原型化较低大小的内容——所有这些都使用相同的模型。
在这里插入图片描述

改进了框架和构图

我们根据经验发现,以视频的固有长宽比进行视频训练可以改善构图和取景。我们将Sora与我们的模型的一个版本进行比较,该版本将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在方形裁剪上训练的模型(左)有时会生成仅部分可见主题的视频。相比之下,Sora(右)的视频有了更好的取景效果。
在这里插入图片描述
(这里是说Sora通过调整视频比例有了更好的生成效果,这里本文作者存疑,技术报告这一段的描述颇有种裁剪拼贴效果更好的感觉)

7、Language understanding:语言理解

训练文本到视频生成系统需要大量具有相应文本字幕的视频。我们将DALL-E3中引入的重字幕技术应用于视频。我们首先训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性视频字幕的训练可以提高文本保真度以及视频的整体质量。
与DALL-E3类似,我们还利用GPT将简短的用户提示转换为发送到视频模型的更长详细的字幕。这使Sora能够准确地按照用户提示生成高质量的视频。

8、Prompting with images and videos:使用图像和视频进行提示

上面和我们的登录页中的所有结果都显示了文本到视频的示例。但Sora也可以被其他输入提示,例如预先存在的图像或视频。这一功能使索拉能够执行广泛的图像和视频编辑任务——创建完美循环的视频、为静态图像设置动画、在时间上向前或向后扩展视频等。

DALL·E图像动画制作

Sora能够生成提供图像和提示作为输入的视频。下面展示了基于DALL·E 231和DALL·E 330图像生成的示例视频。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

扩展生成的视频

Sora还能够在时间上向前或向后扩展视频。接下来介绍了四个视频,它们都是从生成的视频片段开始向后扩展的。因此,四个视频中的每个视频的开头都与其他视频不同,但所有四个视频的结局都相同。
我们可以使用这种方法向前和向后扩展视频,以产生无缝的无限循环。

视频到视频编辑

扩散模型已经实现了从文本提示编辑图像和视频的大量方法。下面我们将其中一种方法SDEdit,32应用于Sora。这项技术使Sora能够转换零样本输入视频的风格和环境。

连接视频

我们还可以使用Sora在两个输入视频之间逐渐插值,在具有完全不同主题和场景组成的视频之间创建无缝过渡。在下面的示例中,中心的视频在左侧和右侧的相应视频之间进行插值。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

9、Image generation capabilities:图像生成能力

Sora还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达2048x2048。
(是对图像生成领域的冲击)

10、Emerging simulation capabilities:新兴的模拟能力

我们发现,视频模型在大规模训练时表现出许多有趣的突发能力。这些功能使索拉能够从物理世界模拟人、动物和环境的某些方面。这些特性的出现对3D、物体等没有任何明显的归纳偏差——它们纯粹是尺度现象。
3D一致性。Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转,人和场景元素在三维空间中一致移动。
(也是对三维模型生成领域的冲击)
(好狠的Sora,主打一个吃干抹净)

远距离连贯性和物体持久性。视频生成系统的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以持久化人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持其外观。

与世界互动。Sora有时可以用简单的方式模拟影响世界状态的动作。例如,一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕。

模拟数字世界:Sora还能够模拟人工过程,例如电子游戏。索拉可以用一个基本策略同时控制《我的世界》中的玩家,同时也可以高保真地渲染世界及其动态。这些功能可以通过提示索拉使用提及“我的世界”的标题来引发零样本
这些能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高效模拟器的一条很有前途的道路。

11、Discussion:讨论

在这里插入图片描述

Sora目前作为一个模拟器表现出许多局限性。
例如,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化。
我们在登录页中列举了该模型的其他常见故障模式,如长时间样本中出现的不相干或对象的自发出现。

在这里插入图片描述
我们相信,Sora今天的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条很有前途的道路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1452265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTTP缓存技术

大家好我是苏麟 , 今天说说HTTP缓存技术 . 资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) HTTP缓存技术 HTTP 缓存有哪些实现方式? 对于一些具有重复性的 HTTP 请求,比如每次请求得到的数据都一样的,我们可以把这对「请求-响…

Python爬虫之Splash详解

爬虫专栏:http://t.csdnimg.cn/WfCSx Splash 的使用 Splash 是一个 JavaScript 渲染服务,是一个带有 HTTP API 的轻量级浏览器,同时它对接了 Python 中的 Twisted 和 QT 库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功…

交换排序(冒泡排序和快速排序)

交换排序 冒泡排序 传统方法&#xff1a; for (int i 0; i < numsSize - 1; i) {for (int j 0; j < numsSize - 1 - i; j) {if (nums[j] > nums[j 1]) {Swap(&nums[j], &nums[j 1]);}} } 方法二&#xff1a; while循环for循环 int end numsSize - 1…

理解并实现OpenCV中的图像平滑技术

导读 图像模糊&#xff08;也称为图像平滑&#xff09;是计算机视觉和图像处理中的基本操作之一。模糊图像通常是噪声减少、边缘检测和特征提取等应用的第一步。在本博客中&#xff0c;我们将重点介绍如何使用Python中的OpenCV库应用多种模糊技术。 理论概述&#xff1a; 基本…

Netty中的内置通信模式、Bootstrap和ChannelInitializer

内置通信传输模式 NIO:io.netty.channel.socket.nio 使用java.nio.channels包作为基础–基于选择器的方式Epoll:io.netty.channel.epoll由JNI驱动的epoll()和非阻塞IO.这个传输支持只有在Linux上可用的多种特性&#xff0c;如果SO_REUSEPORT&#xff0c;比NIO传输更快&#xf…

视觉slam十四讲学习笔记(六)视觉里程计 1

本文关注基于特征点方式的视觉里程计算法。将介绍什么是特征点&#xff0c;如何提取和匹配特征点&#xff0c;以及如何根据配对的特征点估计相机运动。 目录 前言 一、特征点法 1 特征点 2 ORB 特征 FAST 关键点 BRIEF 描述子 3 特征匹配 二、实践&#xff1a;特征提取…

计算机网络——14CDN

CDN 视频流化服务和CDN&#xff1a;上下文 视频流量&#xff1a;占据着互连网大部分的带宽 Netflix&#xff0c;YouTube&#xff1a;占据37%&#xff0c;16%的下行流量 挑战&#xff1a;规模性-如何服务~1B用户&#xff1f; 单个超级服务器无法提供服务&#xff08;为什么&am…

第7章 Page442~446 7.8.9智能指针

指向堆内存的指针&#xff0c;很容易忘了释放&#xff1a; int foo() {int* p new int(9);cout << *p << endl;return *p; } 为什么要用指针 使用堆数据有以下几个目的&#xff08;也可称为作用&#xff09;如表7-18所列 表7-18 使用堆数据的常见目的 使用堆数…

阿里云服务器租用价格表(2024更新)

2024年最新阿里云服务器租用费用优惠价格表&#xff0c;轻量2核2G3M带宽轻量服务器一年61元&#xff0c;折合5元1个月&#xff0c;新老用户同享99元一年服务器&#xff0c;2核4G5M服务器ECS优惠价199元一年&#xff0c;2核4G4M轻量服务器165元一年&#xff0c;2核4G服务器30元3…

数据结构:4_二叉树

二叉树 一.树概念及结构 1. 树的概念 树是一种非线性的数据结构&#xff0c;它是由n&#xff08;n>0&#xff09;个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树&#xff0c;也就是说它是根朝上&#xff0c;而叶朝下的。 有一个**特殊的…

让你的资金运动起来,金钱的聪明处理方式

一、教程描述 本套教程主要讲解了金融思维和财务思维&#xff0c;常见投资工具的实操技巧&#xff0c;资产配置方案的制定方法&#xff0c;等等&#xff0c;将会重构你现有的投资观念&#xff0c;提升你认知的宽度和深度&#xff0c;可以轻松读懂财经新闻&#xff0c;不仅学会…

单片机学习笔记---LED呼吸灯直流电机调速

目录 LED呼吸灯 直流电机调速 模型结构 波形 定时器初始化函数 中断函数 主程序 上一节讲了电机的工作原理&#xff0c;这一节开始代码演示&#xff01; 我们上一篇说Ton的时间长Toff时间短电机会快&#xff0c;Ton的时间短Toff时间长电机会慢 并且我们还要保证无论Ton和…

红队ATKCK|红日靶场Write-Up(附下载链接)

网络拓扑图 下载地址 在线下载&#xff1a; http://vulnstack.qiyuanxuetang.net/vuln/detail/2/ 百度网盘 链接&#xff1a;https://pan.baidu.com/s/1nlAZAuvni3EefAy1SGiA-Q?pwdh1e5 提取码&#xff1a;h1e5 环境搭建 通过上述图片&#xff0c;web服务器vm1既能用于外…

【网络安全】什么样的人适合学?该怎么学?

有很多想要转行网络安全或者选择网络安全专业的人在进行决定之前一定会有的问题&#xff1a; 什么样的人适合学习网络安全&#xff1f;我适不适合学习网络安全&#xff1f; 当然&#xff0c;产生这样的疑惑并不奇怪&#xff0c;毕竟网络安全这个专业在2017年才调整为国家一级…

【BUUCTF 加固题】Ezsql 速通

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏 …

隐函数的求导【高数笔记】

1. 什么是隐函数&#xff1f; 2. 隐函数的做题步骤&#xff1f; 3. 隐函数中的复合函数求解法&#xff0c;与求导中复合函数求解法有什么不同&#xff1f; 4. 隐函数求导的过程中需要注意什么&#xff1f;

Day01 javaweb开发——tlias员工管理系统

任务介绍 完成部门管理和员工管理的增删改查功能 环境搭建 前端---->后端---->数据库 准备数据库表创建springboot工程&#xff08;web、mybatis、mysql驱动、lombok&#xff09;application.properties中引入mybatis配置信息&#xff0c;准备对应的实体类准备三层架…

Midjourney绘图欣赏系列(四)

Midjourney介绍 Midjourney 是生成式人工智能的一个很好的例子&#xff0c;它根据文本提示创建图像。它与 Dall-E 和 Stable Diffusion 一起成为最流行的 AI 艺术创作工具之一。与竞争对手不同&#xff0c;Midjourney 是自筹资金且闭源的&#xff0c;因此确切了解其幕后内容尚不…

深入理解lambda表达式

深入理解ASP.NET Core中的中间件和Lambda表达式 var builder WebApplication.CreateBuilder(args); var app builder.Build(); app.Use(async (context, next) > { // Add code before request. await next(context);// Add code after request.}); 这段C#代码是用于设…

Mac M2芯片配置PHP环境

Mac M2芯片配置PHP环境 1. XAMPP2. PHPBrew(PHP版本管理)安装php7.4.33版本 3. 直接使用homebrew 安装php环境参考 1. XAMPP 官网地址 https://www.apachefriends.org/ 安装 安装完成 web server打开后&#xff0c;在打开localhost 成功&#xff01; 2. PHPBrew(PHP版本管…