OpenAI视频生成模型Sora背后的技术及其深远的影响

news2025/1/17 2:00:57

前言

Sora的视频生成技术在保真度、长度、稳定性、一致性、分辨率和文字理解等方面都达到了当前最优水平。其核心技术包括使用视觉块编码将不同格式的视频统一编码成Transformer可训练的嵌入向量,以及类似于扩散过程的UNet方法进行降维和升维的加噪与去噪操作。通过构建足够大的模型,使其具备了智能的涌现能力,例如在一定程度上理解真实世界的物理影响和因果关系。

与其他视频生成模型不同,OpenAI采用了一种“大”模型的方法,即准备大量的视频数据,使用多模态模型对其进行标注,并将视频编码成统一的视觉块嵌入。然后,通过足够大的网络架构、训练批次和算力,使模型能够对大量训练数据进行全局拟合,从而更好地理解并还原细节。

这种视频生成模型只是OpenAI在理解和模拟真实世界复杂因果关系的通用模型之路上的一个里程碑,而不是终点。人们对其未来发展充满期待,同时也可能感到一些不安。

sora生成视频

算法报告

1.视频生成模型作为世界模拟器

我们探索了在视频数据上进行大规模训练生成模型。具体来说,我们联合训练了文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们利用了一种在视频和图像潜码的时空块上操作的变压器架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模是朝着构建物理世界通用模拟器的有前途的路径。

tokyo-walk

算法报告重点介绍:
(1)我们将各类视觉数据转换为统一表示的方法,该方法能够实现生成模型的大规模训练;
(2)Sora能力和局限性的定性评估。报告中未包含模型和实现细节。

以前的许多工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常专注于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种通用的视觉数据模型——它可以生成持续时间、宽高比和分辨率各异的视频和图像,长达一分钟的高清视频。

2.将视觉数据转换为图像块

我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上训练来获得通用能力。这种范式的成功在一定程度上得益于使用词元编码/令牌(token),它们巧妙地统一了文本的多种形式——代码、数学和各种自然语言。在这项工作中,我们考虑如何让视觉数据的生成模型继承这些好处。与拥有文本令牌的不同,Sora拥有视觉块嵌入编码(visual patches)。视觉块已被证明是视觉数据模型的一种有效表示。我们发现,补丁是一种高度可扩展且有效的表示形式,用于在多种类型的视频和图像上训练生成模型。
在这里插入图片描述

3. 视频压缩网络

我们训练了一个网络,用于降低视觉数据的维度。这个网络将原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

4. 隐空间时空编码块

给定一个压缩的输入视频,我们提取一系列时空编码块作为transformer令牌(token)。这种方案也适用于图像,因为图像只是帧数为单一的视频。我们基于补丁的表示使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时,我们可以通过在适当大小的网格中排列随机初始化的编码块来控制生成视频的大小。

5.扩展Transformer用于视频生成

Sora是一个扩散模型;给定输入的噪声块(和像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个扩散变换器。变换器在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性。
在这里插入图片描述
在这项工作中,我们发现扩散变换器作为视频模型也能有效地扩展。下面,我们展示了训练进展过程中,使用固定种子和输入的视频样本比较。随着训练计算量的增加,样本质量显著提高。
在这里插入图片描述

6.可变持续时间、分辨率、宽高比

过去在图像和视频生成中的方法通常会将视频调整大小、裁剪或剪辑到一个标准尺寸——例如,4秒长的视频,分辨率为256x256。我们发现,直接在数据的原始尺寸上进行训练可以带来几个好处。

7.采样灵活性

Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有格式。这使得Sora能够直接按照不同设备的原生宽高比创建内容。它还允许我们在使用同一模型生成全分辨率内容之前,快速原型化较小尺寸的内容。
在这里插入图片描述

8.改进的构图和画面组成

我们通过实证发现,在视频的原始宽高比上进行训练可以改善构图和取景。我们将Sora与一个版本的模型进行了比较,该模型将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主体只部分出现在视野中的视频。相比之下,来自Sora的视频(右侧)具有改善的取景。
在这里插入图片描述

9.语言理解

训练文本到视频生成系统需要大量带有相应文字标题的视频。我们将在DALL·E 3中引入的重新标注技术应用到视频上。我们首先训练一个高度描述性的标注模型,然后使用它为我们训练集中的所有视频生成文字标题。我们发现,在高度描述性的视频标题上进行训练可以提高文本的准确性以及视频的整体质量。
类似于DALL·E 3,我们也利用GPT将用户的简短提示转换成更长的详细说明,然后发送给视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

10.使用图片和视频进行提示

上述结果以及我们的登录页面展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图片或视频。这项能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频,为静态图像添加动画,向前或向后延长视频的时间等。

12. 制作DALL·E图像动画

Sora能够根据输入的图片和提示生成视频。下面我们展示了基于DALL·E 2 31 和DALL·E 3 30 图片生成的示例视频。
在这里插入图片描述
在这里插入图片描述

13. 延长生成的视频

Sora也能够将视频向前或向后延长时间。下面是四个视频,它们都是从生成的视频片段开始向后延长的。因此,这四个视频的开头各不相同,但最终都会达到相同的结局。我们可以使用这种方法将视频向前和向后扩展,以制作出无缝的无限循环。
在这里插入图片描述

14.视频到视频编辑

扩散模型使得从文本提示编辑图像和视频的方法层出不穷。下面我们将其中一种方法,SDEdit,应用于Sora。这项技术使得Sora能够零次学习地转换输入视频的风格和环境。
在这里插入图片描述

15. 连接视频

我们还可以使用Sora在两个输入视频之间逐渐插值,创建在完全不同主题和场景构成的视频之间的无缝过渡。在下面的例子中,中间的视频在左右两边对应视频之间进行插值。
在这里插入图片描述
在这里插入图片描述

16.图像生成能力

Sora也能够生成图像。我们通过在具有一个帧时间范围的空间网格中排列高斯噪声块来实现这一点。该模型可以生成不同大小的图像——分辨率最高可达2048x2048。
在这里插入图片描述

涌现的模拟能力

我们发现,当在大规模上训练时,视频模型展现出许多有趣的新兴能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。
3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。
在这里插入图片描述

长距离一致性和物体恒存性。对于视频生成系统来说,一个重大挑战是在采样长视频时保持时间上的连贯性。我们发现,尽管不总是如此,Sora通常能够有效地建模短距离和长距离依赖关系。例如,我们的模型即使在人、动物和物体被遮挡或离开画面时,也能持续保持它们的存在。同样,它能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
在这里插入图片描述
与世界互动。Sora有时可以模拟一些简单的动作来影响世界的状态。例如,画家可以在画布上留下随时间持续存在的新笔触,或者一个人可以吃一个汉堡并留下咬痕。
在这里插入图片描述

模拟数字世界。Sora也能够模拟人工过程——一个例子是视频游戏。Sora可以在同时控制《我的世界》中的玩家采用基本策略的同时,还能以高保真度渲染世界及其动态。通过用提到“我的世界”的字幕提示Sora,可以零次尝试地引发这些能力。
这些能力表明,持续扩展视频模型是朝着开发高度能够模拟物理和数字世界及其内部的物体、动物和人类的有希望的道路。
在这里插入图片描述
Sora作为一个模拟器目前展现出许多限制。例如,它并没有准确地模拟许多基本互动的物理效应,比如玻璃破碎。其他互动,比如吃食物,不总是产生正确的物体状态变化。我们在我们的登录页面列举了模型的其他常见故障模式——比如在长时间样本中发展的不连贯性或物体的自发出现。
我们相信,Sora目前的能力表明,持续扩展视频模型是朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的有希望的道路。

Sora的影响

对于普通人:这可能是独立创作者最佳的时代之一。随着像 Sora 这样的工具的出现,AI生成的文案、音效和视频等工具已经非常成熟,一个人可以轻松地制作出高质量的短片。优秀的故事将会变得尤为珍贵,而有才华的创作者也更不容易被埋没。然而,从另一个角度来看,随着创作门槛的降低,故事竞争的激烈程度也将大幅增加。

XR产业,特别是以 Vision Pro 为代表的部分,有望再次蓬勃发展。随着技术的进步,内容匮乏将不再是问题,而创作者将有更多的创作空间和机会。

目前流行的短视频推荐模式可能会发生变化。可能会从系统根据用户喜好推荐短视频,转变为根据用户需求实时生成短视频。或者说,同一个短视频可以根据不同用户的需求进行实时微调,以满足不同用户群体的需要。

对于商业公司:AI视频生成公司将面临第一波挑战,但也有机会。随着 OpenAI 成功证明了利用大型模型进行视频生成的可行性,其他公司只需证明他们也可以利用大型模型生成视频。与 ChatGPT 成功后出现更多大语言模型公司的情况相似,AI视频生成领域可能会出现更多竞争者。
AI三维生成公司可能会面临第二波冲击。随着多目重建技术的出现,视频生成和3D生成之间的界限变得模糊。因此,3D生成公司可能需要重新评估当前的技术路线和商业逻辑。

虽然 OpenAI 没有明确说明,但是 Sora 所需的计算能力可能会很大。因此,显卡公司可能会迎来新的好时机,但不一定有利于英伟达。由于计算能力越来越像基础设施,而基础设施对于各国至关重要,即使不考虑制裁,各国都可能要求计算能力的自主可控。事实上,每个大公司都可能开始考虑自己开发显卡或者专用 AI 计算卡(例如 Google、特斯拉、OpenAI、阿里等)。因此,计算能力领域的竞争者可能会越来越多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1455817.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IO 流分类

一、File File 类(磁盘操作)可以用于表示文件和目录的信息,但是它不表示文件的内容。递归地列出一个目录下所有文件: public static void listAllFiles(File dir) {if (dir null || !dir.exists()) {return;}if (dir.isFile())…

Java集合篇之深入解析LinkedList

写在开头 作为ArrayList的同门师兄弟,LinkedList的师门地位逊色不少,除了在做算法题的时候我们会用到它之外,在实际的开发工作中我们极少使用它,就连它的创造者都说:“I wrote it,and I never use it”&am…

MySQL之json数据操作

1 MySQL之JSON数据 总所周知,mysql5.7以上提供了一种新的字段格式json,大概是mysql想把非关系型和关系型数据库一口通吃,所以推出了这种非常好用的格式,这样,我们的很多基于mongoDB的业务都可以用mysql去实现了。当然…

Java 基于微信小程序的汽车4S店客户管理系统

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

C++类和对象-多态->案例1计算器类、案例2制作饮品、案例3电脑组装需求分析和电脑组装具体实现

#include<iostream> using namespace std; #include<string> //分别利用普通写法和多态技术实现计算器 //普通写法 class Calculator { public: int getResult(string oper) { if (oper "") { return m_Num1 m_Num2; …

引入成熟的Pytest自动化测试框架

虽然我们能使用脚本编写自动化测试框架&#xff0c;但没有必要重复找车轮子&#xff0c;引入成熟的自动化测试框架即可&#xff0c; Pytest是目前最成熟、功能最全面的Python测试框架之一&#xff0c;简单灵活、易于上手&#xff0c;可完全兼容其他测试框架如unitest&#xff…

普中51单片机学习(十)

动态数码管 数码管显示原理 动态显示的特点是将所有数码管的段选线并联在一起&#xff0c;由位选线控制是哪一位数码管有效。选亮数码管采用动态扫描显示。所谓动态扫描显示即轮流向各位数码管送出字形码和相应的位选&#xff0c;利用发光管的余辉和人眼视觉暂留作用&#xf…

SSTI模板注入漏洞(vulhub 复现)

首先了解模板引擎&#xff1a; 模板引擎&#xff08;这里特指用于Web开发的模板引擎&#xff09;是为了使用户界面与业务数据&#xff08;内容&#xff09;分离而产生的&#xff0c;它可以生成特定格式的文档&#xff0c;利用模板引擎来生成前端的html代码&#xff0c;模板引擎…

OpenAI:Sora视频生成模型技术报告(中文)

概述 视频生成模型作为世界模拟器 我们探索视频数据生成模型的大规模训练。具体来说&#xff0c;我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用transformer架构&#xff0c;在视频和图像潜在代码的时空补丁上运行。我们最大的模型Sor…

HCIA-HarmonyOS设备开发认证V2.0-IOT硬件子系统-UART

目录 一、UART 概述二、UART 模块相关API三、UART 接口调用实例四、UART HDF驱动开发4.1、开发步骤(待续...) 坚持就有收获 一、UART 概述 UART 是通用异步收发传输器&#xff08;Universal Asynchronous Receiver/Transmitter&#xff09;的缩写&#xff0c;是通用串行数据总…

Chrome浏览器安装Axure-Chrome-Extension插件

Chrome浏览器打开Axure生成的HTML静态文件页面时&#xff0c;会显示如下图AXURE RP EXTENSION FOR CHROME&#xff0c;这是因为Chrome浏览器没有安装Axure插件Axure-Chrome-Extension导致的。 解决方法&#xff1a; 插件下载地址&#xff1a;https://download.csdn.net/downlo…

CleanMyMacX需要付费吗?多少钱?有哪些新功能

CleanMyMac X是一个付费应用程序**&#xff0c;需要许可证或订阅来解锁所有功能。不过&#xff0c;CleanMyMac X提供免费试用版供您访问其有限的功能。在试用模式下&#xff0c;用户可以使用部分功能进行体验&#xff0c;但这并非完全免费&#xff0c;因为某些功能会受到限制。…

Android下SF合成流程重学习之GPU合成

Android下SF合成流程重学习之GPU合成 引言 SurfaceFlinger中的图层选择GPU合成(CLIENT合成方式)时&#xff0c;会把待合成的图层Layers通过renderengine(SkiaGLRenderEngine)绘制到一块GraphicBuffer中&#xff0c;然后把这块GraphicBuffer图形缓存通过调用setClientTarget传递…

代码随想录算法训练营 DAY20 | 二叉树(7)

一、LeetCode 530 二叉搜索树的最小绝对值 题目链接&#xff1a;530.二叉搜索树的最小绝对值https://leetcode.cn/problems/minimum-absolute-difference-in-bst/ 思路一&#xff1a;利用搜索二叉树的中序遍历结果为有序数组的性质&#xff0c;将遍历结果保存到数组中&#xf…

分析:香港2亿港元诈骗案的风险特征及技术检测思路

目录 深度伪造带来的新挑战 如何有效检测深度伪造&#xff1f; 多管齐下的安全策略 据香港公共广播公司报道&#xff0c;一家跨国公司香港分行的一名员工在一次电话会议后被骗支付了2亿港元&#xff08;超过2500万美元&#xff09;的资金。 据介绍&#xff0c;这起骗局始于202…

【深度优先搜索】【树】【有向图】【推荐】685. 冗余连接 II

LeetCode685. 冗余连接 II 在本问题中&#xff0c;有根树指满足以下条件的 有向 图。该树只有一个根节点&#xff0c;所有其他节点都是该根节点的后继。该树除了根节点之外的每一个节点都有且只有一个父节点&#xff0c;而根节点没有父节点。 输入一个有向图&#xff0c;该图由…

Python学习(16)|列表_遍历_排序_max_min_sum

列表的遍历&#xff1a; a [10,20,30,40] for obj in a: #obj 是临时变量名称&#xff0c;随意起名print(obj) 执行结果&#xff1a; 复制列表所有的元素到新列表对象&#xff1a; list1 [30,40,50] list2 list1 #只是将list2也指向了列表对象。也就是说list…

基于Python3的数据结构与算法 - 01 复杂度和列表查找

一、时间复杂度 定义&#xff1a;用来评估算法运行效率的一个式子。 例如&#xff1a;此处的O(1) 详单与一个时间单位 接下来我们看下面两个式子&#xff1a; 如果按照上面的定义&#xff0c;那么打印三次相当O(3)&#xff0c;下面的循环相当于O(n21) 但是实际不是这样的 因…

YOLO v5项目实战 P5 解决运行detect文件时设置了--view-img但是显示不出来的问题

up主讲的实时显示目标检测后的图片的两种方法&#xff1a; &#xff08;1&#xff09;在下面的Terminal中输入下列命令&#xff1a; python detect.py --view-img &#xff08;2&#xff09;点击进入右上方的detect的Edit Configurations 然后在这个参数这里输入 --view img…

Pulsar-架构与设计

Pulsar架构与设计 一、背景和起源二、框架概述1.设计特点2.框架适用场景 三、架构图1.Broker2.持久化存储&#xff08;Persistent storage&#xff09;3.Pulsar元数据&#xff08;Metadata store&#xff09; 四、功能特性1.消息顺序性2.消息回溯3.消息去重4.消息重投递5.消息重…