Sora----打破虚实之间的最后一根枷锁----这扇门的背后是人类文明的晟阳还是最后的余晖

news2024/9/20 20:27:43

目录

一.Sora出道即巅峰

二.为何说Sora是该领域的巨头

三.Sora无敌的背后究竟有怎样先进的处理技术

1.Spacetime Latent Patches 潜变量时空碎片,建构视觉语言系统

2.扩散模型与Diffusion Transformer,组合成强大的信息提取器

3.DiT应用于潜变量时空碎片,学习获得海量视频中时空碎片的动态关联

4.Sora 或Lumiere 视频学习与生成的技术背后蕴含的原理分析

四.OpenAI官方给予Sora的说明

1.优势及缺陷

2.安全问题的考虑及解决方案

3.研究技术

五.穿梭于虚实之间的sora是否会打破虚拟与现实的平衡


Sora官网https://openai.com/sora

一.Sora出道即巅峰

Sora是OpenAI在2024年2月16日发布的首个文本生成视频模型。该模型能够理解复杂场景中不同元素之间的物理属性及其关系,从而深度模拟真实物理世界,生成具有多个角色、包含特定运动的复杂场景。Sora继承了Dall·E-3的画质和遵循指令能力,可以根据用户的文本提示快速制作长达一分钟的高保真视频,还能获取现有的静态图像并从中生成视频。

 
Sora的发布使内容创作领域的专业难度降低,作为实现通用人工智能(AGI)的重要里程碑,其问世标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。

二.为何说Sora是该领域的巨头

Sora是OpenAI在2024年2月16日发布的首个文本生成视频模型,能够根据用户的文本提示快速制作长达一分钟的高保真视频。该模型具有以下特点:
 
- 超长时长:可以直接输出长达60秒的1080P高清视频,而其他竞品仅能实现20秒左右。
- 多视角切换:人物场景在三维空间的移动更为自然,并且能够理解车窗倒影等物理规律,进行交互。
- 多模态输入处理:可以接受文字、图片、视频的输入提示,能够根据图像创建视频或补充现有视频,还能沿时间线向前或向后扩展视频。
 
Sora主要按AI视频生成领域应用场景分类,可应用于内容创作与广告、影视制作与后期、教育与培训、社交媒体与娱乐、新闻与媒体、虚拟角色与动画等领域。

与其他视频生成模型相比,Sora具有以下优势:
 
- 生成视频的时间更长:Sora生成的视频时间最多可达1分钟,而其他文生视频大模型仅能生成3至4秒的视频。
- 视频质量更高:Sora生成的视频在时间维度上更加清晰稳定,景物也更符合描述。
- 对用户输入语言的理解更精准Sora能够准确理解用户输入的语言,并表达出复杂的情感样态。
- 对物理世界模拟的能力更强Sora能够模拟真实物理世界的运动,如物体的移动和相互作用,这被普遍认为是实现通用人工智能(AGI)的重要一步。

三.Sora无敌的背后究竟有怎样先进的处理技术

Sora的工作原理是通过大量的学习视频来理解现实世界的动态变化,并用计算机视觉技术来模拟这些变化,从而创作出全新的视觉内容。它已经不仅局限于学习图片和视频,同时它也在学习视频里那个世界的“物理规律”

1.Spacetime Latent Patches 潜变量时空碎片,建构视觉语言系统

与ChatGPT首先引入Token Embedding思路一致,针对视觉数据的建模方法作为构建Sora最重要的第一步。碎片Patch已经被证明是一个有效的视觉数据表征模型,且高度可扩展表征不同类型的视频和图像。将视频压缩到一个低维的潜变量空间,然后将其拆解为时空碎片Spacetime Latent Patches。

有了时空碎片这一统一的语言,Sora自然解锁了多种技能:

1. 自然语言理解

采用DALLE3 生成视频文本描述,用GPT丰富文本prompts,作为合成数据训练Sora,架起了GPT与Sora语言空间的更精确关联,等于在Token与Patch之间统一了“文字”;

2. 图像视频作为prompts

用户提供的图像或视频可以自然地编码为时空碎片Patch,用于各种图像和视频编辑任务——静态图动画、扩展生成视频、视频连接或编辑等。

2.扩散模型与Diffusion Transformer,组合成强大的信息提取器

OpenAI讲Sora是一个Diffusion Transformer,这来自伯克利学者的工作Diffusion Transformer (摘取大佬原文https://blog.csdn.net/qq_44681809/article/details/135531494):“采用Transformer的可扩展扩散模型 Scalable diffusion models with transformers”[2],整体架构如下:

Diffusion Transformer (DiT)架构。

左:我们训练调节的潜DiT模型。输入潜变量被分解成几个patch并由几个DiT块处理。

右:DiT块的细节。我们对标准Transformer的变体进行了实验,这些变体通过自适应层归一化、交叉注意力和额外的输入token做调节。自适应层归一化效果最好。

扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过逆转这个加噪过程来学习恢复数据。训练后可以使用扩散模型来生成数据,只需通过学习到的去噪过程来传递随机采样的噪声。扩散模型是一种潜变量模型,逐渐向数据添加噪声,以获得近似的后验

图像渐进地转化为纯高斯噪声。训练扩散模型的目标是学习逆过程,即训练pθ(xt-1|xt)。通过沿着这个过程链向后遍历,可以生成新的数据。

从信息熵的角度可以这样理解:结构化信息信息熵低,多轮加高斯噪音,提高其信息熵,逐步掩盖原来的结构信息。本就无序的非结构化部分,信息熵很高,添加少量高斯噪音,甚至不用添加高斯噪音,已然很无序。

在此视角下,学习到的内容其实是原来结构化信息(如图像)的“底片”。类似化学上的酸碱中和,本来很酸的地方,得放更多的碱,现在我们学到了放碱的分布和节奏,反过来,剔除碱的分布,酸的分布就被还原了。

基础的扩散模型,过程中不降维、无压缩,还原度比较高。学习过程中的概率分布作为潜变量参数化,训练获取其近似分布,用KL散度计算概率分布之间的距离[3]。Diffusion Transformer (DiT) 因为引入Transformer做多层多头注意力和归一化,因而引入了降维和压缩,diffusion方式下的底片信息提取过程,原理与LLM的重整化无异。

3.DiT应用于潜变量时空碎片,学习获得海量视频中时空碎片的动态关联

与“LLM在其高维语言空间中通过Transformer提取人类语言中无数的结构与关联信息”类似,Sora是个基于扩散模型的Transformer,被用于从高维的时空碎片长成的空间中,观察并提取丰富的时空碎片之间的关联与演化的动态过程。如果把前者对应人类读书,后者就是人类的视觉观察。

参照Google Lumiere的技术原理来大胆推演一下。视频其实是记录了时空信息的载体:时空碎片patch可以看作是三维空间的点集(x,y,z)的运动(t),或者说其实是个四维时空模型(x,y,z,t)。Sora和Lumiere之类的生成模型的第一步都是如何从中提取出相应的关键信息。

Lumiere(Google推出的AI视频大模型) STUNet架构。将预训练的T2I U-Net架构(Ho et al., 2022a)“膨胀”到一个时空UNet (STUNet),在空间和时间上对视频进行上下采样。

(a)STUNet激活图的示例;颜色表示不同时序模块产生的特征:

(b)基于卷积的块,由预训练的T2I层和因子化时空卷积组成

(c)在最粗的U-Net级别上基于注意力的块,其中预训练的T2I层和时间注意力。由于视频表征在最粗的级别上被压缩,我们使用有限的计算开销堆叠几个时间注意力层。

谷歌Lumiere: A Space-Time Diffusion Model for Video Generation[4]也选择了扩散模型,堆叠了归一化与注意力层,类似Sora的DiT,但细节如时长、分辨率、长宽比等的处理方式不同。细节决定成败,OpenAI称Sora摒弃了“其他文生视频调整视频大小、裁剪或修剪到标准大小的通常做法”,以可变时长、原始分辨率与长宽比训练视频生成获得重要优势,如采样灵活性,改进的创作与成帧

4.Sora 或Lumiere 视频学习与生成的技术背后蕴含的原理分析

1. 状态空间对事物的表征和刻画:状态空间的高维度,某时刻的信息,即某时刻的事物的能量的概率分布,是众多维度的联合概率分布,各维度都可能具有连续性和非线性,如何用线性系统近似,并最大努力消除非线性的影响非常关键;不同层次的潜变量空间,对信息的提取,和粗颗粒度逐层抽象,都需要类似重整化群RG中的反复归一化,以消除“近似非线性处理”对整体概率为 1 的偏离。关于重整化群信息提取的原理,请参考笔者梳理的“大模型认知框架”,此处不再赘述。这里Sora采用的Diffusion Transformer (DiT) 架构与谷歌Lumiere 采用的Space-Time UNet (STUNet) 都具备注意力与归一化,神经网路架构差异看起来主要来自是否采用“调整视频大小、裁剪或修剪到标准大小的通常做法”。

2. 状态空间的动态性:即从时间的维度,研究整个状态空间的变迁。这个变迁是状态空间的大量非时间维度的信息逐层提取,叠加时间这一特殊维度的(状态-时间)序列sequence。不管是高维度低层次的细颗粒度的概率分布的时间变化,还是低维度高层次的粗颗粒度概率分布的时间变化,都是非线性时变系统,用线性时不变(LTI)的模型都是无法很好刻画的。

Sora的具体做法技术综述中没有透露。Lumiere的处理中可以窥见端倪。这里可以有多种建模的方式,最自然的方式就是 ((x,y,z), t )的方式,将事物整体的演化看成时间序列,但此种方式往往存在数字视频采样频率不足导致的运动模糊与运动混淆问题。比如高速运转的轮子有时候看起来像在倒转。

Nyquist-Shannon采样定理

告诉我们,对于模拟信号,如果希望同时看到信号的各种特性,采样频率应该大于原始模拟信号的最大频率的两倍,否则将发生混叠即相位或频率模糊。因而Lumiere采用了自监督时间超分辨率 (TSR) 与空间超分辨率 (SSR) 技术[5],将事物的运动建模成多维度两两组合的模型:(x,y), … ,(x,t),(y,t),(z,t)。

小的时空碎片会在视频序列的各个维度上重复出现,特别是空间和时间维度之间进行交换时,因而可以对其在时间域与空间域的表征做关联分析,慢逆时针有可能是快顺时针的假象,也可能就是慢逆时针。即使时域无法分辨,空域可以调整频率,看到更模糊或者没有特别变化的表征。当物体快速移动时,x-t和y-t切片中的Patch看起来是高分辨率x-y切片 (传统帧) 的低分辨率版本。在t方向上增加这些x-t和y-t切片的分辨率与增加视频的时间分辨率是一样的。因此,空间x-y视频帧提供了如何在同一视频中增加x-t和y-t切片的时间分辨率的示例。

即将t看成第四维度,可以用x-y高分辨率训练修正x-t, y-t。同理,当物体移动非常缓慢时,x-t和y-t切片中的Patch呈现为x-y帧中Patch的拉伸版本,表明这些时间切片可以为如何提高视频帧的空间分辨率提供示例。即时间切片,反过来提升空间分辨率。如果SSM学到了物理规律(如运动方程),直接输出高频帧理论上也应当可行。

“跨维”递归的一维图示。1D对象向右移动。当适当的采样时间 (T=1),时间切片类似于空间切片 (1D“帧”)。然而,当时间采样率过低 (T=2) 时,时间切片是空间切片的欠采样(混叠 aliasing)版本。因此,空间帧提供了消除时间混叠的示例。

3. 状态空间时间序列的非马尔可夫性:思考attention 的价值,时序数据上的attention注意到了什么?诸如趋势、周期性、 一次性事件等。非时间维度子空间内的attention,注意到的是范畴内与范畴间的关系, 即某个时刻的状态空间。状态空间的时序,研究的是状态空间的动力学,外在驱动“力”或因素导致的状态的“流动”,即状态空间t时刻与 t-n时刻之间的关系,注意到的是其时间依赖规律,往往不具备马尔可夫性。(马尔可夫性描述了一个系统在其当前状态下,其未来的状态只与其当前状态相关,而与之前的任何状态无关。)非马尔可夫性其实是世界的常态,事实上时延系统基本都是非马尔可夫的。时间维度的注意力与状态空间选择性非常关键。OpenAI对Sora视频生成模型的技术综述文章取了“视频生成模型作为世界模拟器video generation models as world simulators”的题目,可见其宏大的愿景。既然模拟世界,就绕不开万事万物的长程时间关联或者因果关系

四.OpenAI官方给予Sora的说明

1.优势及缺陷

Sora能够生成具有多个字符、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不仅能理解用户在提示符中的要求,还能理解这些东西在物理世界中是如何存在的。
该模型对语言有深刻的理解,使其能够准确地解释提示,并生成引人注目的字符,表达充满活力的情感。Sora还可以在一个生成的视频中创建多个镜头,这些镜头能够准确地持久化字符和视觉样式。
目前的模式存在弱点。它可能难以准确地模拟复杂场景的物理,也可能不理解因果的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间发生的事件,比如遵循特定的摄像机轨迹。

2.安全问题的考虑及解决方案


在OpenAI的产品中提供Sora之前,我们将采取几个重要的安全措施。我们正在与red teamers合作--错误信息、仇恨内容和偏见等领域的领域专家--他们将对模型进行对抗性测试。

我们还在构建一些工具来帮助检测误导性内容,例如一个检测分类器,它可以判断Sora何时生成视频。我们计划包括C2PA元数据未来如果我们将该模型部署在OpenAI产品中。

除了开发新技术为部署做准备之外,我们还利用现有安全方法我们为我们的产品打造的使用DALL·E 3的产品,该产品同样适用于Sora。

例如,一旦进入OpenAI产品,我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示,比如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人IP的提示。我们还开发了健壮的图像分类器,用于检查生成的每个视频的帧,以帮助确保它在显示给用户之前符合我们的使用策略。

我们将与世界各地的决策者、教育工作者和艺术家接触,以了解他们的关切,并确定这项新技术的积极用例。尽管进行了广泛的研究和测试,但我们无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用技术的所有方式。这就是为什么我们相信,随着时间的推移,从真实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。

3.研究技术


Sora是一种扩散模型,它通过从一个看起来类似静态噪声的视频开始生成视频,然后通过多次去除噪声逐渐将其转换。

Sora能够同时生成整个视频,或者能够扩展已生成的视频使其更长。通过一次提供许多帧的模型前瞻,我们解决了一个具有挑战性的问题,即确保一个主题即使暂时消失也保持不变。

与GPT模型类似,Sora使用transformer架构,解锁了卓越的扩展性能。

我们将视频和图像表示为更小的数据单元,称为补丁,每个补丁都类似于GPT中的令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的可视化数据上训练扩散转换器,跨越不同的持续时间、分辨率和纵横比。

Sora建立在过去对DALL·E和GPT模型的研究之上。它使用了DALL·E 3中的重新捕获技术,该技术包括为可视化训练数据生成高度描述性的标题。因此,该模型能够更忠实地跟随用户在生成的视频中的文字说明。

除了能够仅仅从文字说明生成视频之外,该模型还能够获取现有的静止图像并从中生成视频,准确地动画图像的内容,并注意到小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。技术报道.

五.穿梭于虚实之间的sora是否会打破虚拟与现实的平衡

对于这个问题我并没有答案,只是有一些担忧,在现实世界中由于AI绘图的发展,将静态图片作为某个事件证据的证明性大大降低,如果AI生成视频再超速发展,那未来我们还能看到多少真实的过去?又有多少是来源于虚拟,到底那些才是深埋于地底的现实,我们无从知晓.

视频好似已成为了链接虚拟与现实的最后一条锁链,当我们斩断它后,那些记录着现实的虚拟和那些自诩封存于虚拟的现实到底哪些才是我们真正经历过的,哪些是AI所代替的

我希望人类的未来不会取决于AI的未来

我看不清AI的未来,也捉摸不透人类的未来

PS:本文对于Sora的技术原理剖析摘自其他大佬,有兴趣者可以从浏览器搜索

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1465324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【python 的各种模块】(10) 在python3使用turtle 模块画图

目录 1 在anaconda里用python3安装turtle 1.1 因为turtle 本来是适应python2的,所以直接安装报错 1.2 准备好手动下载,官网下载安装包 1.2.1 去官方手册看了下,其实是支持python3的 1.2.2 官网下载,手动安装 1.3 解决办法&…

【Spring】IoC容器 控制反转 与 DI依赖注入 配置类实现版本 第四期

文章目录 基于 配置类 方式管理 Bean一、 配置类和扫描注解二、Bean定义组件三、高级特性:Bean注解细节四、高级特性:Import扩展五、基于注解配置类方式整合三层架构组件总结 基于 配置类 方式管理 Bean Spring 完全注解配置(Fully Annotatio…

MATLAB环境下基于短时傅里叶变换和Rényi熵的脑电信号和语音信号分析

傅里叶变换是不能很好的反映信号在时域的某一个局部范围的频谱特点的,这一点很可惜。因为在许多实际工程中,人们对信号在局部区域的特征是比较关心的,这些特征包含着十分有用的信息。这类信号因为在时域(或者是空间域)上具有突变的非稳定性和…

切比雪夫(最小区域法)圆拟合算法

欢迎关注更多精彩 关注我,学习常用算法与数据结构,一题多解,降维打击。 本期话题:切比雪夫(最小区域法)直线拟合算法 相关背景和理论 点击前往 主要介绍了应用背景和如何转化成线性规划问题 圆拟合输入和…

WordPress使用

WordPress功能菜单 仪表盘 可以查看网站基本信息和内容。 文章 用来管理文章内容,分类以及标签。编辑文章以及设置分类标签,分类和标签可以被添加到 外观-菜单 中。 分类名称自定义;别名为网页url链接中的一部分,最好别设置为中文…

Uniapp + VUE3.0 实现双向滑块视频裁剪效果

效果图 <template><view v-if"info" class"all"><video:src"info.videoUrl"class"video" id"video" :controls"true" object-fit"fill" :show-fullscreen-btn"false"play-btn…

极电电子WMS项目顺利验收,盘古信息助推新能源车企数字化转型

近年来&#xff0c;中国新能源汽车产销持续保持着较高增速&#xff0c;产销总量连续9年位居全球第一。 在产销高涨的背后&#xff0c;新能源汽车行业“内卷”现象也日益加剧&#xff0c;“配置战”、“价格战”等愈发激烈&#xff0c;驱动车企提高自身竞争力&#xff0c;以抢占…

基于AdaBoost算法的情感分析研究-微博情感分析-文本分类

基于AdaBoost算法的情感分析研究 摘 要 随着互联网的快速发展&#xff0c;各类社交媒体平台如微信、QQ等也与日俱增&#xff0c;而微博更是集成了传统网站、论坛、博客等的优点&#xff0c;并加上了人与人之间的互动性、关系亲密程度等多种智能算法&#xff0c;并以简练的形式…

华清远见嵌入式学习——驱动开发——day9

目录 作业要求&#xff1a; 作业答案&#xff1a; 代码效果&#xff1a; ​编辑 Platform总线驱动代码&#xff1a; 应用程序代码&#xff1a; 设备树配置&#xff1a; 作业要求&#xff1a; 通过platform总线驱动框架编写LED灯的驱动&#xff0c;编写应用程序测试&…

Docker容器故障排查与解决方案

Docker是一种相对使用较简单的容器&#xff0c;我们可以通过以下几种方式获取信息&#xff1a; 1、通过docker run执行命令&#xff0c;或许返回信息 2、通过docker logs 去获取日志&#xff0c;做有针对性的筛选 3、通过systemctl status docker查看docker服务状态 4、通过…

React学习——快速上手

文章目录 初步模块思维 初步 https://php.cn/faq/400956.html 1、可以手动使用npm来安装各种插件&#xff0c;来从头到尾自己搭建环境。 如&#xff1a; npm install react react-dom --save npm install babel babel-loader babel-core babel-preset-es2015 babel-preset-rea…

一休哥助手网页版如何使用

一休哥助手网页版可以使用GPT4提问了&#xff0c;具体操作流程如下&#xff1a; 1.登录网页版一休哥助手&#xff08;首次打开页面时&#xff0c;初始化久一点&#xff0c;请耐心等一下&#xff09; https://www.fudai.fun 2.登录后就可以使用GPT4了 3.你还可以自定义系统角色…

备战蓝桥杯---基础算法刷题1

最近在忙学校官网上的题&#xff0c;就借此记录分享一下有价值的题&#xff1a; 1.注意枚举角度 如果我们就对于不同的k常规的枚举&#xff0c;复杂度直接炸了。 于是我们考虑换一个角度&#xff0c;我们不妨从1开始枚举因子&#xff0c;我们记录下他的倍数的个数sum个&#…

c++笔记理解

1.封装 &#xff08;1&#xff09;构造函数不是必须在的 可以通过行为修改属性 &#xff08;2&#xff09;private和protected区别在于继承那里要学 &#xff08;3&#xff09;类默认是私有&#xff0c;struct是共有 私有的好处&#xff1a;控制数据的有效性&#xff0c;意…

如何快速提升Lazada和Shopee店铺订单量:自养号测评补单策略详解

Lazada和Shopee&#xff0c;作为东南亚地区领先的电商平台&#xff0c;汇聚了无数卖家和消费者。然而&#xff0c;随着市场竞争的日益激烈&#xff0c;如何有效地推广自己的店铺&#xff0c;成为卖家们亟待解决的问题。本文将深入探讨店铺推广的策略&#xff0c;并分享如何迅速…

百度百科词条在网络推广中的六大作用

也许很多网友都发现了&#xff0c;在网上查资料&#xff0c;百科词条往往是优先展示的。一方面因为百科是搜索引擎自身的平台&#xff0c;另一方面就是因为百科信息权威&#xff0c;网友认可度高。所以企业开展网络营销&#xff0c;百科营销是一块重要阵地。 也有的企业认为百科…

Feign远程调用(学习笔记)

先来看我们以前利用RestTemplate发起远程调用的代码&#xff1a; 存在下面的问题&#xff1a; ●代码可读性差&#xff0c;编程体验不统一 ●参数复杂URL难以维护 Feign是一个声明式的http客户端&#xff0c;官方地址&#xff1a;https://github.com/OpenFeign/feign 其作用…

代理IP为什么会有延迟?

在当今信息高速发展的时代&#xff0c;随着代理IP在数据采集、网络安全和匿名浏览等领域的应用&#xff0c;已成为网络技术中不可或缺的一环。然而&#xff0c;用户在使用代理IP时经常会遇到一个问题——延迟。 那我们要如何解决这个问题呢&#xff1f; 这需要从代理IP的原理说…

【MATLAB源码-第143期】基于matlab的蝴蝶优化算法(BOA)机器人栅格路径规划,输出做短路径图和适应度曲线。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 蝴蝶优化算法&#xff08;Butterfly Optimization Algorithm, BOA&#xff09;是基于蝴蝶觅食行为的一种新颖的群体智能算法。它通过模拟蝴蝶个体在寻找食物过程中的嗅觉导向行为以及随机飞行行为&#xff0c;来探索解空间&a…

R语言数据分析(五)

R语言数据分析&#xff08;五&#xff09; 文章目录 R语言数据分析&#xff08;五&#xff09;前言一、什么是整洁的数据二、延长数据2.1 列名中的数据值2.2 pivot_longer()的处理原理2.3 列名中包含许多变量的情况2.4 列名同时包含数据和变量 三、扩宽数据3.1 pivot_wider的处…