Sora是什么
Sora,是一款能够根据文本创建出逼真的、富有想象力场景的AI模型。Sora能够娴熟地创造出高达一分钟的高清视频,其视觉内容丰富多样,分辨率精准无误。Sora的强大之处在于,它通过在视频和图像的压缩潜在空间中进行训练,将其转化为时空位置补丁,从而实现了可扩展的视频生成能力。令人惊叹的是,Sora甚至展现出了对模拟物理世界和数字世界的掌控能力,如三维一致性和交互体验。研究结果表明扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径,同时也可能意味着AGI的发展又迈上了新的台阶了!
文章转自:Sora:最强文生视频工具🔧
Sora功能
文生视频
Sora可以根据文本一键生成视频
Prompt: 逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。
图生视频
Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务、创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等
图片转动画
不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个小圆点怪物,所有怪物都在一个有趣的环境中互动。
Prompt: 写有“SORA”的现实云的图像。
Prompt: 在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机,熟练地驾驭海浪。
扩展生成的视频
Sora 还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从生成的视频片段开始向后延伸的。因此,这四个视频的开头都不同,但所有四个视频的结局都是相同的。
可以使用此方法向前和向后扩展视频以产生无缝的无限循环。
视频到视频编辑
扩散模型启用了多种根据文本提示编辑图像和视频的方法。Sora 能够零镜头地改变输入视频的风格和环境。
连接视频
Sora 可以在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频插值在左侧和右侧的相应视频之间。
图片生成
Sora 还能够生成图像,其通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。
模拟能力
视频模型在大规模训练时表现出许多有趣的涌现功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。
3D 一致性
Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。
远程相干性和物体持久性
视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。研究发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,Sora模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
与世界互动
Sora可能已经学到了物理世界的规则,有时可以用简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界
Sora 还能够模拟人工过程——一个例子是视频游戏。Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提及“我的世界”的标题提示 Sora 来零射击。
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。
Sora局限性
Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。同时长时间样本中出现的不连贯性或对象的自发出现。
如何使用
OpenAI表示,目前Sora向"红队成员"开发,即能够苹果风险并识别潜在问题(如错误信息、偏见和仇恨内容)但专家。他们将“对抗性”地测试模型,从而来评估关键区域的危害或风险。
同时Sora还向一些视觉艺术家、设计师和电影制作人提供访问权限,以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。
而对于普通用户来说,目前还无法使用到,但可以猜测的是,一旦Sora向公众开放时,ChatGPT Plus用户会提前享有使用权