Sora 的工作原理

news2024/10/4 2:37:39

原文:How Sora Works (And What It Means)

作者:

DAN SHIPPER

OpenAI 的新型文本到视频模型为电影制作开启了新篇章

DALL-E 提供的插图。

让我们先明确一点,我们不会急急忙忙慌乱。我们不会预测乌托邦或预言灾难。我们要保持冷静并...

你真的看到 SORA 了吗???

OpenAI 的新文本到视频模型可以生成一段 60 秒的高度逼真的视频,内容是两只可爱的在山顶上做播客的金毛寻回犬。它能生成一个闪亮的动物园的视频,在这里,一只老虎在镶满翡翠的围栏里懒洋洋地躺着,一只卷尾猴戴着国王的皇冠待在金笼子后面。它还能生成一个AI 意大利奶奶的视频,在乡村厨房里,她穿着粉色的花朵围裙,制作着意大利土豆饺子。(她的手看起来有点像在电影《一切无处不在》中的热狗手指,尽管如此,这也是一部电影!)

这就是疯狂,真是令人难以置信。这让 Mr. Beast 在推特上对 Sam Altman 说:“请不要让我无家可归。”

有一句契诃夫的故事里说的话:“我理解它就像我理解闪电一样。”他也可以这样描述 Sora。这些演示影片给我带来的震撼,就像电击般强烈。

呼,我很高兴终于说出了心里的话。这非常重要,因为写关于 OpenAI 这样一个热门新产品,有点像在心灵的穿梭于狭缝和哈吕布狄斯之间:

这种梗图格式的创意来自于 Visakan Veerasamy。

在我头脑的一部分,有种类似末日恐惧的情绪在警告我,如果不赶紧对那些数据中心进行改革,电影行业就可能会像梅尔·吉布森的职业生涯一样突然走下坡。而另一部分的我,对新技术充满了乐观和期待,已经开始策划,一旦我掌握了这个模型,我将创作出一部皮克斯风格的电影。我相信,世界终会发现我其实是乔治·卢卡斯的未被发现的接班人,尽管我从未亲手制作过一部电影。

然而,问题是,我知道我脑海中的这两种想法都是错误的。这就尴尬了

我误将这种新奇感理解为了其他的东西。我从这些演示中得到的感觉,并不是我从观看一部精彩的电影、YouTube 视频或 TikTok 时所得到的感觉。为什么呢?因为我知道,随着时间的流逝,这些演示的新奇感会逐渐消失,它们将变得平常——甚至可能变得乏味。我将不再因它们而感到兴奋。而一部精心制作的电影将始终能够吸引人们。

对于这样的技术进步,保持冷静的最佳方式是以长期的趋势来看待它们。Sora,以及一般的 AI 制片,正是以下两个重要趋势的体现:

  1. 通过使用大量的数据和计算力,取得了令人瞩目的 AI 突破。
  2. 技术的发展降低了电影制作的成本。

让我们来深入探讨一下这两个方面。

Sora 是如何利用大数据创造出令人瞩目的视频片段的

AI 的效果取决于规模:数据和计算能力越大,结果越好。OpenAI 的 Sora 如此令人瞩目,是因为它找到了将更多的数据和计算投入到文本到视频转换中的方法,比其他人做得更多。以下是我从其白皮书中粗略理解到的公司如何做到这一点的简化版本。

想象一下《黑暗骑士》的电影胶片。你应该知道我在说什么:一个年轻人穿着红色夹克,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。Patch 是 Sora 的基本单元,就像 GPT-4 的基本单元是“Token”。Token 是文字的片段,而 Patch 则是电影的片段。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 遵循相同的逻辑:它处理一系列的 Patch,并预测出序列中的下一个“Patch”。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

Sora 的另一个重大突破是其所使用的架构。传统的文本到视频模型,如 Runway,是扩散模型(Diffusion Model),而文本模型像 GPT-4 则是 Transformer 模型。Sora 则是一个融合了两者的 Diffusion Transformer 模型。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。通过使用这种架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

当 Sora 的视频刚刚发布时,人们惊讶于其能模拟出咖啡在杯子里溅出的液体动力学。他们以为 OpenAI 已经将 Sora 连接到了一个游戏引擎(那些驱动视频游戏并能模拟物理现象的算法)以得到这样的结果。但实际上并非如此,Sora 完全能够自主生成这样的图像。

GPT-4 像是通过学习文本的语法规则,从而预测序列中的下一个词。

而像 Sora 这样的 Diffusion Transformer 模型则像是在学习物理学——宇宙的语法,从而预测视频的下一段内容。OpenAI 把 Sora 看做“世界模拟器”的第一步,能够用文本提示词来模拟任何现实中的场景。

这真是令人震撼!这将对电影制作产生重要影响。

技术如何影响电影制作

在一个视频如此普遍的世界里,会有什么不同呢?可能会彻底改变制作视频的方式,而这是一件好事。

电影制作历来都极其昂贵。摄像机、灯光、情绪不稳定的演员——这些都需要大量的资金。这就是为什么电影行业是一个行业,而不是一个艺术家的聚居地。

在电影的大部分历史上,只有少数人才能制作电影。因为制作电影需要冒险!你需要有资金去制作电影,而只有少数人才能筹集到足够的资金,承担一部电影制作失败的风险。制作电影就像创办一家公司。

然而,在过去的二十年间,这个情况有了改变。例如,互联网和 iPhone 等技术的出现,使得更多的人拥有了电影制作和分发设备。这催生了一种全新的电影制作形式,如 YouTube 视频、TikToks、Reels,和 Quibbis(或许 Quibbis 除外)。

这一代的电影制作有着自己独特的风格,完全不同于好莱坞电影,这种风格受到了可用技术和资源的制约和塑造。比如,YouTubers 以直接对镜头讲话,快速剪辑,以及展示日常生活琐事的视频日志而闻名,这些都是你能独自在房间里,用 iPhone 就能做到的。

AI 视频制作工具使得在你的房间里制作更多种类的视频变得更容易。比如 Runway,一个已经公开可用的视频制作工具,可以让你把一张图片,无论是真实的还是人工智能生成的,变成四秒钟的视频片段。你可以控制图片中的不同元素以不同方式移动,还可以控制摄像机的运动。这就好像你具有了让图片动起来的魔法,就像哈利·波特里的魔法照片一样。

这些工具也孕育了一种新的电影制作风格,这种风格受到了它们独特的能力和限制的制约和塑造。例如,它们让创建在新的环境和风格中使用熟悉角色的 AI 视频变得容易。常见的一种手法是把两部共享的流行文化作品混合在一起,就像在一段视频中,将《星球大战》的角色以韦斯·安德森的风格呈现。

另一个例子是,像 Runway 这样基于扩散模型的视频模型架构,在不同片段中保持角色一致性很困难。你可以让角色看起来有相似性,有一种家族的相似性,但是控制还不够精细,无法让角色看起来完全一样。因此,AI 生成的电影往往更像视觉拼接:一段几秒钟的剪辑,画面快速切换,旁边是讲述者在讲述一个故事,而不是像传统电影那样,一组固定的演员在镜头前进行对话。

Sora 是一种重大的技术突破,它使得 AI 电影制作者能够做更多的事情,而需要的资源更少。每一段片段可以长达 60 秒,这将使得更多种类的剪辑风格成为可能。Sora 可以进行的动态模拟和物理模拟远胜过任何公开可用的模型。这将允许创作出比目前可能的更复杂的场景,角色动作,以及角色与周围环境的互动。

这将对电影制作产生怎样的影响?

当今的 AI 电影制作

有时候,你会感觉整个世界都在帮助你,就像你在玩扑克时手里拿着一对不配的 2 和 3,最后一张河牌却让你意外地连成了顺子。恰巧的是,我对 AI 电影制作有一些了解,因为我在 Sora 发布前两天就采访了这个领域的一位领军人物,这个采访将在两周后在我的播客中直播。在此,我想先和你分享一些我学习到的内容。

Dave Clark是一位传统的电影制作人,他开始制作由 AI 生成的视频。他最近制作了一部名为Borrowing Time的科幻短片,灵感来自于他父亲在 1960 年代作为一名黑人的经历。他完全使用 Midjourney 和 Runway 来生成图像和视频,自己为电影配音,并使用Eleven Labs将他的配音转变成不同角色的声音。

Borrowing Time在网络上广受欢迎,Dave 告诉我他如果没有 AI,他不可能完成这部电影。他的这种类型的科幻短片在传统的好莱坞电影工作室是无法获得资助的。然而,现在这部电影已经发布并且受到了广大的欢迎,他表示他正在接触一些顶级的好莱坞电影工作室,他们希望将其改编成一部全长电影。

这个例子充分展示了像 Sora 这样的 AI 模型将如何改变未来的电影制作。

测试电影理念的成本将显著降低

如果你想在有 Sora 的世界中制作一部科幻电影,你只需要一台笔记本电脑和一些 OpenAI 信用点。更多的人将能够将他们的想象力变成视频,无需通过传统的审核或获得资金支持。而且,能够得到这个机会的不仅仅是播主或者 YouTuber 主播们,任何人都有可能。

那些获得关注的创意视频制作者更有可能获得资金支持,从而将他们的创意变为电影,正如今天的作家们通过推特和新闻简报来获得书籍出版的机会。

大预算电影的制作成本将降低

理想情况下,AI 工具将使传统的好莱坞电影的制作成本降低。比如,Everything Everywhere All at Once,这部电影使用 Runway 进行特效制作,只需要八个人的团队,就能实现令人惊叹的特效(比如形似热狗的手臂!)。相比之下,Shrek的制作团队约有 300 人。

理论上讲,像 EEAAO 这样的作品应该会因为 Sora 而变得更为常见。但实际上,由于现有的商业结构和工会协议的限制,好莱坞可能无法充分利用这些工具。相反,新的电影制作形式可能会在其他地方崭露头角。

AI 电影制作将崛起,好莱坞的影响力将会降低

iPhone 和互联网的发展催生了视频博客和化妆教程的繁荣,同样,AI 电影制作也将创造出属于自己的电影类型,独特的风格和形式。我预期我们已经看到的那种视频会越来越多:利用现有的 IP 来制作混搭和剪辑,更快的剪辑和旁白独白会成为这个类型的主流,至少在技术再次发生变革之前是如此。(据我们所知,由 Sora 生成的视频中的演员无法表现出与特定对话线匹配的面部动作。)

这些 AI 制作的视频不会取代传统的好莱坞电影制作——就像 YouTube 视频没能取代——但它们可能会占据更多的市场份额,尤其是在年轻人群体中。

创造力的未来

在本文的前面,我们谈到了 Sora 正在延续的几个长期趋势:

  1. 数据增多和计算能力提升带来更出色的 AI 成果
  2. 技术降低了电影制作的成本,改变了哪种电影会被制作以及由谁来制作

希望这能让你们对 Sora 的一些能力有更宽广的理解。但还有一个我想要强调的重要趋势。

过去的几个月,我一直在写我们正从知识经济向资源配置经济转变:我们正在从一个你的收入取决于你知道什么的世界,转变为一个你的收入取决于你如何分配智能的世界。在这个世界中,即使是个人创作者或创业者也会成为管理者——不过我们管理的不再是人,而是模型。

显然,Sora 就是这个范式的一个例子:你越能熟练地运用它作为工具创造出惊人的东西,你在新经济中的地位就越高。但最令人兴奋的部分是,它扩大了可以在世界上创造事物的人的范围。

就像 GPT-4 让任何人只要有足够的坚持,就可以开发一个网络应用程序一样,Sora 让任何人都有可能制作一个视频。而当我说任何人时,我指的包括你。

Sora 并不意味着任何人只需轻轻一按按钮就可以制作出一部伟大的视频。讲故事需要更多的技巧、品味和热忱。但任何人都可以开始,学习这些技能,并有机会成为伟大的——只需要一台笔记本电脑。

如果你是一个有创造力的人,那么毫无疑问,这是生活的最好时代。


编者注: Sora 的解释已被刻意简化。构成"Patch"的视频像素在使用前都会被压缩至一个更小的潜在空间。欲了解更多细节,请查阅白皮书(文章中也已附有链接)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1457476.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java面试多线程篇

文章说明 在文章中对所有的面试题都进行了难易程度和出现频率的等级说明 星数越多代表权重越大,最多五颗星(☆☆☆☆☆) 最少一颗星(☆) 1.线程的基础知识 1.1 线程和进程的区别? 难易程度:☆☆…

Filterajax

1.Filter概念 概念:表示过滤器,是JavaWeb三大组件(Servlet,Filter,Listener)之一;过滤器可以把对资源的请求拦截下来,从而实现一些特殊的功能.过滤器可以完成一些通用操作比如:登录添加购物车,视频广告,敏感字符处理等等... 2.Filter快速入门 3.Listener 4.Ajax学习 1.使用场…

移动通信相关知识学习笔记

一、移动通信架构简图 移动无线的接入网是专指各种基站设备。核心网就是各种交换机。 二、无线信号基本原理 无线网络中,使用AP设备和天线来实现有线和无线信号互相转换。如上图所示,有线网络侧的数据从AP设备的有线接口进入AP后,经AP处理为…

一.重新回炉Spring Framework: 理解Spring IoC

1. 写在前面的话 说实话,从事java开发工作时间也不短了,对于Spring Framework,也是天天用,这期间也碰到了很多问题,也解决了很多问题。可是,总感觉对Spring Framework还是一知半解,不能有个更加…

PCIe学习笔记(2)错误处理和AER/DPC功能

文章目录 PCIe ErrorAER (Advanced Error Reporting)DPC (Downstream Port Containment) 处理器上错误通常可分为detected和undetected error。Undetected errors可能变得良性(benign),也可能导致系统故障如silent data corruptions (SDC)。Detected errors则又可分…

2024024期传足14场胜负前瞻

2024024期赛事由亚冠5场,欧冠4场、英超1场、英冠4场组成。售止时间为2月20日(周二)17点30分,敬请留意: 本期中深盘中等,1.5以下赔率5场,1.5-2.0赔率5场,其他场次是平半盘、平盘。本期…

Django后端开发——ORM

文章目录 参考资料ORM-基础字段及选项字段类型练习——添加模型类应用bookstore下的models.py数据库迁移——同步至mysqlmysql中查看效果 字段选项Meta类定义示例:改表名应用bookstore下的models.py终端效果 练习——改表名字段选项修改应用bookstore下的models.py终…

DVWA 靶场之 Brute Force-LowMedium(前期配置铺垫与渗透方法及源码分析)

首先登录 DVWA 靶场 DVWA 默认的用户有5个,用户名及密码如下: admin/passwordgordonb/abc1231337/charleypablo/letmeinsmithy/password 难度等级设置为 low ,我们先从最简单的开始 来到 Brute Force(暴力破解) 我们可…

手写myscrapy(二)

我们看一下scrapy的系统架构设计方法和思路: 模块化设计: Scrapy采用模块化设计,将整个系统划分为多个独立的模块,包括引擎(Engine)、调度器(Scheduler)、下载器(Downl…

目录IO 2月19日学习笔记

1. lseek off_t lseek(int fd, off_t offset, int whence); 功能: 重新设定文件描述符的偏移量 参数: fd:文件描述符 offset:偏移量 whence: SEEK_SET 文件开头 SEE…

C++ 浮点数二分 数的三次方根

给定一个浮点数 n ,求它的三次方根。 输入格式 共一行,包含一个浮点数 n 。 输出格式 共一行,包含一个浮点数,表示问题的解。 注意,结果保留 6 位小数。 数据范围 −10000≤n≤10000 输入样例: 1000.00…

面试题:链表相交

链表相交 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。 图示两个链表在节点 c1 开始相交: 思路 这个题目有2个思路,我先说容易想到的思路 对齐链表…

极速提升测试效率:揭秘Web自动化三大等待技巧!

三种等待方式 简介 在实际工作中等待机制可以保证代码的稳定性,保证代码不会受网速、电脑性能等条件的约束。 等待就是当运行代码时,如果页面的渲染速度跟不上代码的运行速度,就需要人为的去限制代码执行的速度。 在做 Web 自动化时&…

Jetpack 之Glance+Compose实现一个小组件

Glance,官方对其解释是使用 Jetpack Compose 样式的 API 构建远程 Surface 的布局,通俗的讲就是使用Compose风格的API来搭建小插件布局,其最新版本是2022年2月23日更新的1.0.0-alpha03。众所周知,Compose样式的API与原生差别不小&…

测试开发【Mock平台】13基础:拦截器服务实现(四) 简单规则匹配逻辑

【Mock平台】为系列测试开发教程,从0到1编码带你一步步使用Spring Boot 和 Antd React框架完成搭建一个测试工具平台,希望作为一个实战项目对各位的测试开发学习之路有帮助,关注公众号发送“mock”获取github项目源码地址,大奇一个…

力扣算法Algorithm竞赛模板库(codeforces-go):含了算法竞赛中常用的数据结构和算法实现,助力开发者更高效地解决问题

1.算法Algorithm竞赛模板库(codeforces-go) 算法竞赛模板库,为算法竞赛爱好者提供了一系列精心设计的算法模板。这个库包含了算法竞赛中常用的数据结构和算法实现,助力开发者更高效地解决问题 一个算法模板应当涵盖以下几点&…

【C++】【类和对象】初始化列表

1.形式和必用场景 初始化列表&#xff1a;以一个冒号开始&#xff0c;接着是一个以逗号分隔的数据成员列表&#xff0c;每个"成员变量"后面跟一个放在括号中的初始值或表达式。 #include<iostream> using namespace std; class Date { public:Date(int year,…

蓝牙BLE学习-GATT和ATT

1. GATT GATT-Generic Attribute profle-通用属性配置文件。GATT层是传输真正数据所在的层。包括了一个数据传输和存储架构以及其基本操作。GATT用来规范attribute中的数据内容&#xff0c;并运用group&#xff08;分组&#xff09;的概念对attribute进行分类管理。没有GATT&a…

幻兽帕鲁游戏联机的时候,显示“网络连接超时”怎么解决?

如果你在游戏联机的时候&#xff0c;显示“网络连接超时”&#xff0c;可以检查下&#xff1a; 1、前提是你已经按照教程部署成功 2、检查防火墙有没有忘记设置&#xff0c;协议是UDP&#xff08;只有TCP不行&#xff0c;一定要有UDP&#xff09;&#xff0c;端口是否填了8211&…