解释 OpenAI Sora 的时空补丁:关键因素

news2025/1/22 23:59:29

人工智能如何将静态图像转换为动态、逼真的视频?OpenAI 的 Sora 通过创新地使用时空补丁来引入答案。

在快速发展的生成模型领域,OpenAI 的 Sora 脱颖而出,成为一个重要的里程碑,有望重塑我们对视频生成的理解和能力。我们解读了 Sora 背后的技术及其在图像、视频和 3D 内容创作方面激发新一代模型的潜力。

cat-on-bed

上面的演示是由 OpenAI 使用提示生成的:一只猫叫醒了熟睡的主人,要求吃早餐。主人试图无视猫,但猫尝试了新的策略,最后主人从枕头下掏出一个秘密的零食,让猫多呆一会儿。— 借助 Sora,我们在视频内容生成方面接近于几乎无法区分的真实感。完整的模型尚未完全向公众发布,因为它正在测试中。

Sora的独特方法如何改变视频生成

在生成模型的世界里,我们已经看到了许多方法,从GAN到自回归和扩散模型,都有自己的优势和局限性。Sora 现在引入了一种范式转变,具有新的建模技术和灵活性,可以处理各种持续时间、纵横比和分辨率。

Sora 将扩散和转换器架构结合在一起,以创建扩散转换器模型,并能够提供以下功能:

  • 文字转视频正如我们所看到的
  • 图片转视频: 让静止图像栩栩如生
  • 视频到视频: 将视频样式更改为其他样式
  • 及时延长视频:向前和向后
  • 创建无缝循环: 看似永无止境的平铺视频
  • 图像生成: 静止图像是一帧的电影(最大 2048 x 2048)
  • 生成任何格式的视频: 从 1920 x 1080 到 1080 x 1920 以及介于两者之间的一切
  • 模拟虚拟世界:像 Minecraft 和其他视频游戏一样
  • 创建视频: 最长 1 分钟,包含多条短片

想象一下,你有一会儿在厨房里。传统的视频生成模型,如 Pika 和 RunwayML 就像厨师一样,严格遵循食谱。他们可以制作出出色的菜肴(视频),但受到他们所知道的食谱(算法)的限制。厨师可能专注于烘焙蛋糕(短片)或烹饪意大利面(特定类型的视频),使用特定的成分(数据格式)和技术(模型架构)。

另一方面,Sora 是一种了解风味基础知识的新型厨师。这位厨师不仅遵循食谱;他们发明了新的。Sora的食材(数据)和技术(模型架构)的灵活性使Sora能够制作各种高质量的视频,类似于主厨的多才多艺的烹饪创作。

索拉的秘密成分的核心:探索时空补丁

时空补丁是 Sora 创新的核心,它建立在 Google DeepMind 早期对 NaViT 和 ViT(视觉变形金刚)的研究之上,该研究基于 2021 年的论文 An Image is Worth 16x16 Words。

“香草”Vision Transformer 架构 — 图片来源: Dosovitskiy et al., 2021

传统上,对于视觉转换器,我们使用一系列图像“补丁”来训练用于图像识别的转换器模型,而不是用于语言转换器的单词。这些补丁使我们能够摆脱卷积神经网络进行图像处理。

框架/图像如何“修补”——图片来源: Dehghani 等人,2023 年

然而,对于视觉转换器,图像训练数据的大小和纵横比是固定的,这限制了质量,并且需要大量的图像预处理。

切片视频时态数据的可视化 — 来源: kitasenjudesign

通过将视频视为补丁序列,Sora 保持了原始的纵横比和分辨率,类似于 NaViT 对图像的处理。这种保存对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。

时空修补(处理)的可视化 — 图片来源:OpenAI (Sora)

该方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。这种灵活性确保了每条数据都有助于模型的理解,就像厨师如何使用各种食材来增强菜肴的风味特征一样。

通过时空补丁对视频数据进行详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。这些功能对于创建不仅看起来逼真而且符合世界物理规则的视频至关重要,让我们得以一窥 AI 创建复杂、动态视觉内容的潜力。

喂养 Sora:多样化数据在训练中的作用

训练数据的质量和多样性对于生成模型的性能至关重要。传统的视频模型是在限制性更强的数据集、更短的长度和更窄的目标上进行训练的。

Sora 利用了庞大而多样的数据集,包括不同持续时间、分辨率和纵横比的视频和图像。它能够重新创建像《我的世界》这样的数字世界,它可能还包括来自虚幻或Unity等系统的游戏玩法和模拟世界镜头,以捕捉视频内容的所有角度和各种风格。这使 Sora 进入了一个“通才”模型,就像文本的 GPT-4 一样。

这种广泛的培训使Sora能够理解复杂的动态,并生成既多样化又高质量的内容。该方法模仿了在各种文本数据上训练大型语言模型的方式,将类似的理念应用于视觉内容以实现通才功能。

可变“补丁”NaVit 与传统视觉变形金刚 — 图片来源: Dehghani 等人,2023 年

正如 NaViT 模型通过将来自不同图像的多个补丁打包到单个序列中来展示显着的训练效率和性能提升一样,Sora 利用时空补丁在视频生成中实现类似的效率。这种方法允许从庞大的数据集中更有效地学习,提高模型生成高保真视频的能力,同时降低与现有建模架构相比所需的计算量。

让物理世界栩栩如生:Sora对3D和连续性的掌握

3D空间和物体持久性是Sora演示中的关键亮点之一。通过对各种视频数据进行训练,无需对视频进行调整或预处理,Sora 学会了以令人印象深刻的精度对物理世界进行建模,因为它能够以原始形式使用训练数据。

它可以生成数字世界和视频,其中物体和角色在三维空间中令人信服地移动和交互,即使它们被遮挡或离开框架也能保持连贯性。

展望未来:Sora的未来影响

Sora 为生成模型的可能性设定了新标准。这种方法很可能会激发开源社区对视觉模式的实验和改进,从而推动新一代生成模型的出现,从而突破创造力和现实主义的界限。

Sora 的旅程才刚刚开始,正如 OpenAI 所说,“扩展视频生成模型是构建物理世界通用模拟器的一条有前途的道路”

Sora的方法将最新的人工智能研究与实际应用相结合,预示着生成模型的光明未来。随着这些技术的不断发展,它们有望重新定义我们与数字内容的互动,使高保真、动态视频的创作更易于访问和通用。

节选自:《解释 OpenAI Sora 的时空补丁:关键因素》OpenAI 视频生成式 AI 的幕后花絮

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1454686.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【简洁的代码永远不会掩盖设计者的意图】如何写出规范整洁的代码

个人名片: 🦁作者简介:学生 🐯个人主页:妄北y 🐧个人QQ:2061314755 🐻个人邮箱:2061314755qq.com 🦉个人WeChat:Vir2021GKBS 🐼本文由…

黑马程序员——移动Web——day04

目录: vw适配方案 vw和vh基本使用vw布局vh问题综合案例-酷我音乐 准备工作头部布局头部内容搜索区域banner区域标题公共样式排行榜内容推荐歌单布局推荐歌单内容下载区域头部固定 1.vw适配方案 vw和vh基本使用 vw和vh是相对单位,相对视口尺寸计算结果…

【数据结构】图的存储与遍历

图的概念 图是由顶点集合及顶点间的关系组成的一种数据结构&#xff1a;G (V&#xff0c; E) 图分为有向图和无向图 在有向图中&#xff0c;顶点对<x, y>是有序的&#xff0c;顶点对<x&#xff0c;y>称为顶点x到顶点y的一条边(弧)&#xff0c;<x, y>和&l…

C++学习:list

1.list的定义和结构 list的使用频率不高&#xff0c;在做题时几乎遇不到需要使用list的情景。list是一种双向链表容器&#xff0c;它是标准模板库(STL)提供的一种序列容器。list容器以节点(node的形式存储元素&#xff0c;并使用指针将这些节点链接在一起&#xff0c;形成一个…

【快速解决】python项目打包成exe文件——vscode软件

目录 操作步骤 1、打开VSCode并打开你的Python项目。 2、在VSCode终端中安装pyinstaller&#xff1a; 3、运行以下命令使用pyinstaller将Python项目打包成exe文件&#xff1a; 其中your_script.py是你的Python脚本的文件名。 4、打包完成后&#xff0c;在你的项目目录中会…

如何通过软文引起用户共鸣,媒介盒子支招

不管是哪个行业&#xff0c;哪个品牌都需要通过软文来吸引用户&#xff0c;一篇合格的软文应该能引起用户情绪&#xff0c;让用户为情绪买单&#xff0c;引起用户的共鸣&#xff0c;今天媒介盒子就来和大家聊聊&#xff1a;如何通过软文引起用户共鸣。 一、 熟知用户心理情绪 …

开源软件:推动软件行业繁荣的力量

文章目录 &#x1f4d1;引言开源软件的优势分析开放性与透明度低成本与灵活性创新与协作 开源软件对软件行业的影响推动技术创新和进步促进软件行业的合作与交流培养人才和提高技能促进软件行业的可持续发展 结语 &#x1f4d1;引言 随着信息技术的飞速发展&#xff0c;软件已经…

力扣热题100_双指针_11_盛最多水的容器

文章目录 题目链接解题思路解题代码 题目链接 11. 盛最多水的容器 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回…

洛谷P5716 月份天数 题解

#题外话&#xff08;第31篇题解&#xff09;&#xff08;累了&#xff0c;歇会……&#xff09; #先看题目 题目链接https://www.luogu.com.cn/problem/P5716 #思路&#xff08;看代码&#xff09; #代码 代码1&#xff1a;不管三七二十七&#xff0c;直接先判断闰年&#x…

网络原理 - HTTP/HTTPS(1)

HTTP HTTP是什么 HTTP("全程超文本协议")是一种应用非常广泛的应用层协议. 文本:字符串(能在utf8/gbk)码表上找到合法字符. 超文本:不仅是字符串,还能携带图片啥的(HTML). 富文本:类似于word文档这种. HTTP诞生于1991年.目前已经发展为最主流使用的一种应用层协议.…

[Docker实战] 旭日X3派上Docker Openwrt +Samba 实现局域网NAS 开启AP模式

​ &#x1f308; 博客个人主页&#xff1a;Chris在Coding &#x1f3a5; 本文所属专栏&#xff1a;[旭日X3派] [Docker实战] ❤️ 前置学习专栏&#xff1a;[Linux学习] ⏰ 我们仍在旅途 …

Python:变量与数据类型

目录 一、变量 1.1 强数据类型与弱数据类型 1.2 全局函数 1.3 变量的命名规范 二、数据类型 2.1 基本数据类型 2.2 复合数据类型&#xff08;引用数据类型&#xff09; 三、数据类型转换 一、变量 变量&#xff1a;顾名思义&#xff0c;变化的量。在python中代指运行时…

博客新增每日早报api,网站增加每日早报功能

1、每日早报 使用alapi的每日早报接口&#xff0c;回调一个日报图片&#xff0c;然后展示这个图片&#xff0c;即可看到每日早报内容 1.1 api申请 在Alapi官网注册一个账号 1.2 获取密钥 然后获取用户中心的Token密钥&#xff0c;这个用于输出早报内容 2、早报创建 2.1 创…

2024最新软件测试八股文(答案+文档)

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 关注公众号【互联网杂货铺】&#xff0c;回复 1 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 1、B/S架构和C/S架构区别 B/S 只需要有操作系统和浏览器就行&a…

自然语言编程系列(一):自然语言和程序语言介绍

1.自然语言和程序语言 自然语言和程序语言是两种截然不同但又相互关联的语言体系&#xff0c;它们分别服务于人类日常交流和计算机指令执行。 自然语言&#xff1a; 定义&#xff1a;自然语言是指人类在日常生活中使用的语言&#xff0c;如英语、汉语、法语等。它是非正式且灵…

2024年回炉计划之JWT(五)

一、简介 WT&#xff08;JSON Web Token&#xff09;是一种用于在网络应用间安全地传递信息的开放标准&#xff08;RFC 7519&#xff09;。它是一种紧凑且自包含的方式&#xff0c;用于在各方之间传输信息作为 JSON 对象。JWT 可以通过数字签名&#xff08;使用 HMAC 算…

Kafka(二)

第 4 章 Kafka Broker 4.1 Kafka Broker 工作流程 4.1.1 Zookeeper 存储的 Kafka 信息 &#xff08;1&#xff09;启动 Zookeeper 客户端。 bin/zkCli.sh &#xff08;2&#xff09;通过 ls 命令可以查看 kafka 相关信息。 ls /kafka 4.1.2 Kafka Broker 总体工作流程…

C++类和对象——继承详解

目录 1.基本语法 2.继承方式 3.继承中的对象模型 4.构造和构析顺序 5.同名成员处理 6.同名静态成员处理 7.多继承语法 8.菱形继承 图片示例&#xff1a; 虚继承 代码示例&#xff1a; 1.基本语法 #include<bits/stdc.h> using namespace std;//公共页面类 …

招募Sui大使,共同构建Sui社区,解锁专属福利

我们非常激动地宣布推出新一轮的Sui大使计划&#xff0c;这是围绕Sui创新技术构建全球社区的关键举措。 大使计划赋予了热衷于Sui使命并渴望在Sui社区和受众中传播意识的个人以权力。Sui大使体现了网络的价值观&#xff0c;并通过战略性和有影响力的行动加速了采用过程。我们很…

PFA洗气瓶配空气采样泵用PFA气体吸收瓶的特点

PFA洗气瓶是一种洗去气体中杂质的器皿&#xff0c;是将不纯气体通过选定的适宜液体介质鼓泡吸收&#xff08;溶解或由于发生化学反应&#xff09;&#xff0c;从而洗去杂质气体&#xff0c;以达净化气体的目的。在设计时&#xff0c;四氟球的周围都布满小孔。一般情况下&#x…