Sora,开启通往世界模拟之路!

news2024/11/18 15:27:31

2024年2月16日,OpenAI发布视频生成AI大模型Sora。消息一经发出,业界再一次被之震撼。
OpenAI官网描述:Sora是一个根据文本指令生成真实与虚拟场景的AI模型,可根据用户指令生成时长达1分钟的高清视频,能生成具有多个角色、包含特定运动的复杂场景,即能够理解和模拟运动中的物理世界。
过去的一年,伴随ChatGPT及GPTs的热潮,文生图、文生视频和图生视频等各类产品也相继涌现。为何Sora一经发出,如同ChatGPT一般又一次掀起了浪花?

一 性能表现

与其它文生视频产品相比,能生成时长达60s的具有连贯性以及人物、场景长期一致性的视频,是Sora的显著优势。

要知道,此前的1月24日和2月15日,谷歌研究人员分别公布了视频生成模型Lumiere和Gemini 1.5的演示视频。前者可生成画质非常高清的真实图片,并且可实现一键换装以及根据图片和提示词生成动态视频,后者在图像识别、多轮对话方面表现出惊人的逆天能力。然而,不曾想,仅仅是十天后,Sora的悄然问世,便立即抢走了Lumiere和Gemini 1.5的风头。究其原因,主要还是看产品的整体性能表现。
尽管Lumiere和Gemini 1.5已经足够惊艳,但在生成视频的时长和连贯性方面并未未有突破性进展(生成视频的时长仅限于5s)。同样地,其它同类产品,如Runway、Pika等,都还在突破几秒内的连贯性(连贯性极其影响视频的真实性)。而Sora可以直接生成长达60s、每秒帧数可达30FPS的视频,在生成时长和连贯性方面简直是碾压其它同类。不仅如此,Sora还可以生成多种分辨率的视频,包括1920x1080(宽屏)和1080x1920(垂直)的视频以及介于二者之间的所有分辨率的视频,最高可达2048x2048。这使得Sora模型可以创建适应的视频内容。参见下表1。
表1 多种AI视频模型生成视频的时长和分辨率比较

##
当然,Sora还有超越其它AI视频模型的优势,包括:既能准确呈现细节,又能理解物体在物理世界中的存在,并生成具有丰富情感的角色,甚至模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

二 实现方式

以往,生成视频的实现方式主要有循环神经网络RNN(Recurrent Neural Network)、生成对抗网络GANs(Generative Adversarial Networks)、自回归变换器(Autoregressive Transformers)和扩散模型(Diffusion Models)。总体而言,基于这些实现方式的视频生成模型缺点比较明显,如支持视觉数据的类别少、视频时间短、视频尺寸固定等等。
而Sora是基于Transformer的Diffusion Model模型架构训练而成的,集Transformer的“生成式”和Diffusion Model的“扩散式”之长处于一体。Transformer由于其自注意力机制,能够捕捉序列中的长距离依赖关系,使得它在处理视频这种具有复杂时空依赖性的数据方面具有优势。同时,由于自注意力机制特性,基于Transformer的模型可以通过矩阵运算进行高效的并行计算,因而具有并行处理大规模数据并更快地生成视频的能力。通过结合扩散模型,Transformer Diffusion Models能够在生成视频时保留更多的细节和纹理信息,可生成更高质量的视频。正是由于采用了Transformer Diffusion Models,Sora能够生成多样化的视频和图像,并解决了先前其它方法在视频长度、尺寸和固定大小方面的限制。参见下表2。
表2 各种生成视频的实现方式比较

在这里插入图片描述

三 Sora的视频生成原理

Sora模型的视频生成原理总体上分三步曲。首先是通过视频压缩网络(Video Compression Network),将视频或图片压缩成紧凑的形式(即降维)。其次是进行时空潜在补丁提取(Spacetime latent patches),将视图信息分解成一个个小的单元,每个单元都包含了视图中一部分的空间和时间信息,以便在后续步骤中进行有针对性的处理。最后是视频生成,通过对输入文本或图片进行解码加码,由Transformer模型(即ChatGPT基础转换器)决定如何将这些单元转换或组合,从而形成完整的视频。

步骤一:视频压缩网络

如下图1所示,Sora模型通过视频压缩网络技术,将输入的视频或图片压缩成一个低维度的表示形式。这一过程类似于将不同尺寸和分辨率的照片“标准化”,便于处理和存储。
在这里插入图片描述

图1 视频压缩示意图
然后,Sora将这些压缩后的视图数据进一步分解成所谓的“时空补丁”(Spacetime Patches),每个补丁都携带了一部分视频的空间和时间信息,形成了视觉内容的基本构建模块。通过这种方法,Sora在保留原始视觉信息丰富性的基础上,也可将不同的原始视频(不同长度、不同分辨率、不同风格等)处理成一致的格式。

步骤二:时空潜在补丁提取

经过预先训练好的转换器(Transformer模型),将提取步骤一生成的时空潜在补丁的信息,形成众多的补丁“清单”,这些补丁清单记录了视图信息表示与其语义之间的对应关系,为后续的视频生成提供了知识素材。

步骤三:视频生成的Transformer模型

在Sora的视频生成过程中,Transformer模型接收时空潜在补丁(这些时空潜在补丁来自于一段与生成目标视频同样时长,但是内容完全是随机噪声的视频)。随后,Sora根据给定的文本提示开始不断修改这段视频中的各个补丁(在这个过程中,Sora利用了从大量的视频和图片数据中学习到的知识,来决定如何逐步去除噪声),将噪声视频转变成接近文本描述的内容,然后再将这些片段转换或组合以生成最终的视频内容。

四 Sora的技术创新

从发布的技术报告来看,与ChatGPT如出一辙,在底层技术层面,Sora并没有过多的独创,而是充分利用了已有的先进技术。但是在应用体验方面,则注入了与其它同类产品不同的创新。
Sora视频生成三步曲中,视频压缩借鉴的是论文“High-Resolution Image Synthesis with Latent Diffusion Models”中的思想。时空潜在补丁的“补丁”(patches和Visual patches)概念引自论文“Vivit:A video vision transformer”(即ViT)(谷歌,2021年)。而Transformer Diffusion Model模型结构最初由论文“Diffusion Models with Transformers”(William Peebles, Saining Xie 2022年)提出。
但在视频的尺寸选择、语言理解能力、多模态输入和多样化视频生成方面,Sora模型具有独到之处。
以往的生成视频模型,都会把视频的尺寸和时长裁剪到标准尺寸,比如256256的4秒视频。而Sora可以直接生成不同尺寸的视频。比如横屏的19201080,竖屏的1080*1920。这使得Sora能够根据设备的屏幕尺寸,生成不同分辨率的视频。这主要缘自视频网络压缩技术应用过程中的低维空间的“标准化”(见上文)。
Sora的技术报告中提到,借鉴了DALL·E3中使用的重新标注技术,对模型训练集里的所有视频重新生成了更详细更准确的文本说明。同时,使用了GPT模型,将用户简短的Prompt扩展成更加详细的说明文字。通过这些数据增强的方式提高了Sora模型对语言的理解能力。
在输入方面,不仅可以输入文本提示,还可以输入图片和视频,典型的多模态支持。视频生成方面,Sora模型可以编辑、增补和拼接视频,也可向前或向后拓展视频内容。

五 未来期望与启发

当然,从视频生成的表现来看,Sora模型仍然有许多不足,如在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面,仍存在一定的问题。但随着训练数据的增多和模型的迭代升级,相信这些不足都将逐步得到改善。
无庸置疑的是,Sora模型及其后续升级版,都将加速AIGC在视频产业方面的发展与应用, 对众多如影视、直播、媒体、广告、动漫、艺术设计等多个行业产生深远影响。特别是在短视频盛行的当下,Sora已经可以承担短视频的摄影、导演和剪辑等任务。
然而,对OpenAI公司而言,在其致力于开发通用人工智能使命的征程中,Sora不只是一个视频生成工具。正如Sora的技术文档里有一句话:“我们的结果表明,扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径”。由此可见,OpenAI最终想做的是打造一个通用的“物理世界模拟器”。从这个意义上,Sora模型的定位在于形成一个世界模型为真实世界建模。
数字孪生,更多的是通过对物理世界的数字化,形成对物理世界的“镜像”,以此增加对物理世界运行状态的掌握和规律把控,并通过在数字虚拟世界的指令干预,以调整、干预和优化物理世界的运行。而“世界模型”,则有望将人类的的思想世界和心理世界充分进行具象化,并与真实的物理世界的状态和运行进行比照,最终形成人类对物理世界状态和运行的期盼与改造策略。由此,Sora模型不仅是一个视频生成模型,而且是一个客观世界模拟器,开户了模拟世界之路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1713205.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ee trade:主力如何建仓吸筹的

主力建仓吸筹是指大型机构投资者或市场主力在股票市场中通过一系列策略和操作,逐步购买并积累大量股票,以建立或增加其在某只股票上的持仓。这个过程通常是为了在未来通过股价上涨来实现盈利。以下是一些主力可能采用的建仓吸筹策略: 隐蔽吸…

命运方舟 失落的方舟台服下载教程+账号注册教程(图文全攻略)

命运方舟 失落的方舟台服下载教程账号注册教程(图文全攻略) 失落的方舟,作为今年一款备受瞩目的MMORPG类型游戏,在官宣的时候就收获了一波不小的热度。这款游戏由游戏开发商Smile gate开发,游戏本体搭建于知名的虚幻引擎之上,为玩…

torch.scatter看图理解

torch.Tensor.scatter 有 4 个参数: scatter(dim, index, src, reduceNone) 先忽略 Reduce,最后再解释。先从最简单的开始。我们有一个 (2,4) 形状的张量,里面填充了 1: 粉红色的符号表示张量结构 并且我们传入相应的参数并得到…

5.25.6 深度学习在放射图像中检测和分类乳腺癌病变

计算机辅助诊断 (CAD) 系统使用数字化乳房 X 线摄影图像并识别乳房中存在的异常情况。深度学习方法从有限数量的专家注释数据中学习图像特征并预测必要的对象。卷积神经网络(CNN)在图像检测、识别和分类等各种图像分析任务中的性能近年来表现出色。本文提…

用易查分制作研学活动报名,支持在线签名,一键导出报名统计表格!

学校组织研学活动时,需要家长扫码在线填写报名信息,确认安全承诺和手写签名,提交报名后希望分配报名号,应该如何实现? 易查分的新建填表功能就可以实现上述需求,下面就来教大家如何制作吧。 📌使…

常用IP核的引脚图

一、复数乘法 这是一个Xilinx(赛灵思)的复数乘法IP核的接口图,包含了几个主要的AXI-Stream接口。每个接口都有其特定的用途,下面将详细解释各个引脚的作用。 主要接口和引脚说明 S_AXIS_A(输入复数A) s…

【网络安全】新的恶意软件:无文件恶意软件GhostHook正在广泛传播

文章目录 推荐阅读 一种新的恶意软件 GhostHook v1.0 正在一个网络犯罪论坛上迅速传播。这种创新的无文件浏览器恶意软件由 Native-One 黑客组织开发,具有独特的分发方式和多功能性,对各种平台和浏览器构成重大威胁。 GhostHook v1.0 支持 Windows、Andr…

一个交易者的自白:念念不忘的交易,10个日内9个亏

一、新手: 面对爆仓,我像个白痴 我是在2012年开始接触的,这些年里我尝到了残酷失败的滋味,更品尝过胜利带来的喜悦。刚刚接触时很自信,总想着自己有一天一定会变成千万富翁的,用杠杆获取暴利。 在我首次爆仓的时候,我的…

QT6.2.4 MSVC2019 连接MySql数据库,无驱动问题

1.下载 查询一下数据库驱动 qDebug()<<QSqlDatabase::drivers(); 结果显示&#xff0c;没有QMYSQL的驱动。 QList("QSQLITE", "QMARIADB", "QODBC", "QPSQL") MySql6.2.4驱动下载地址&#xff0c;如果是别的版本&#xff0c;…

使用Python构建CART决策树回归模型

数据预处理 此次构建模型是根据泰坦迪克号邮轮票价、乘客性别、船上亲友数量等特征信息来预测乘客存活率的模型&#xff0c;使用的数据集为泰坦尼克数据集&#xff0c;下载地址&#xff1a;taitanic | Kaggle。 在下载完数据集后&#xff0c;可以先试用 ydata_profiling库&am…

Codeforces Round 946 (Div. 3) A~G

A.Phone Desktop (枚举) 题意&#xff1a; 小 A A A的手机有一个桌面&#xff08;或称启动器&#xff09;。桌面可以由多个屏幕组成。每个屏幕表示为大小为 5 3 5 \times 3 53 的网格&#xff0c;即五行三列。 有 x x x 个应用程序的图标大小为 1 1 1 \times 1 11 个单…

高铁Wifi是如何接入的?

使用PC端的朋友&#xff0c;请将页面缩小到最小比例&#xff0c;阅读最佳&#xff01; 在飞驰的高铁上&#xff0c;除了窗外一闪而过的风景&#xff0c;你是否好奇过&#xff0c;高铁Wifi信号如何连接的呢&#xff1f; 远动的火车可不能连接光纤吧&#xff0c;难道是连接的卫星…

6.2 Go 切片(Slice)

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

OrangePi AIpro初体验:开启嵌入式开发之旅

概述 随着物联网和智能设备时代的到来&#xff0c;单板电脑因其独特的优势成为创新项目和教育实践的重要工具。在众多单板电脑中&#xff0c;香橙派以其出色的性能和亲民的价格&#xff0c;十分吸引博主这初涉嵌入式开发的新手。博主有幸被CSDN邀请对OrangePi AIpro进行测评。…

Anaconda虚拟环境安装Pybullet

Anaconda虚拟环境安装Pybullet 当直接使用pip install Pybullet的时候出现以下问题&#xff1a; 查看报错信息和CSDN上的许多博客教程&#xff0c;基本都在说与缺少C的依赖有关需要安装几个G的microsoft visual 我尝试使用Conda 包管理器从 conda-forge 通道安装名为 pybulle…

PyTorch自定义张量操作开发指南【CFFI+CUDA】

PyTorch 与 TensorFlow 一起成为深度学习研究人员和从业者的标准。虽然 PyTorch 在张量运算或深度学习层方面提供了多种选择&#xff0c;但一些专门的操作仍然需要手动实现。在运行时至关重要的情况下&#xff0c;应使用 C 或 CUDA 来完成此操作&#xff0c;以支持 CPU 和 GPU …

快团团供货大团长如何打印电子面单?

一、功能说明 快团团打单平台是目前唯一一个服务于快团团团长的打单发货工具&#xff0c;免费提供给团长使用。可帮助团长快速打印面单、分拣包裹、完成发货。 目前快团团打单平台已支持大批量打印快递单、自定义快递面单、自动发货、绑定拼多多电子面单账号等功能&#xff0c…

摸鱼大数据——Hive表操作——复杂类型

1、hvie的SerDe机制 其中ROW FORMAT是语法关键字&#xff0c;DELIMITED和SERDE二选其一。本次我们主要学习DELIMITED关键字相关知识点 如果使用delimited: 表示底层默认使用的Serde类:LazySimpleSerDe类来处理数据。 如果使用serde:表示指定其他的Serde类来处理数据,支持用户自…

香橙派AIpro开发板初体验

香橙派AIpro开发板初体验 一、引言 在当前的AI发展浪潮中&#xff0c;边缘计算逐渐成为了研究的热点。香橙派AIpro开发板作为一款基于昇腾AI技术的开发板&#xff0c;凭借其强大的算力和丰富的接口&#xff0c;为AI边缘计算提供了强大的支持。最近&#xff0c;我也是拿到了官…

揭秘SQL中的公用表表达式:数据查询的新宠儿

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 揭秘SQL中的公用表表达式&#xff1a;数据查询的新宠儿 前言公用表表述的概述非递归CTE的作用递归CTE的作用CTE性能优化 前言 你是否曾经为SQL查询的复杂性而困扰不已&#xff1f;尤其是那些读写层子…