OpenAI 全新发布文生视频模型 Sora，支持 60s 超长长度，有哪些突破？将带来哪些影响？

Sora大模型简介

OpenAI 的官方解释了在视频数据基础上进行大规模训练生成模型的方法。

我们下面会摘取其中的关键部分罗列让大家快速get重点。

喜欢钻研的伙伴可以到官网查看技术报告：

https://openai.com/research/video-generation-models-as-world-simulators

技术特点

三维空间的连贯性：Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。
模拟数字世界：Sora还能模拟人工过程，如视频游戏。Sora能够同时控制Minecraft中的玩家，并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示，可以零样本地激发Sora的这些能力
长期连续性和物体持久性：对视频生成系统来说，Sora通常能够有效地模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。
与世界互动：Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。

强在哪里

文本到视频生成能力：Sora能够根据用户提供的文本描述生成长达60S的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示语。
复杂场景和角色生成能力：Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜，使得生成的视频具有高度的逼真性和叙事效果。
语言理解能力：Sora拥有深入的语言理解能力，能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令，并在生成的视频内容中忠实地反映这些指令。
多镜头生成能力：Sora可以在单个生成的视频中创建多个镜头，同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
从静态图像生成视频能力：Sora不仅能够从文本生成视频，还能够从现有的静态图像开始，准确地动画化图像内容，或者扩展现有视频，填补视频中的缺失帧。
物理世界模拟能力：Sora展示了人工智能在理解真实世界场景并与之互动的能力，这是朝着实现通用人工智能（AGI）的重要一步。它能够模拟真实物理世界的运动，如物体的移动和相互作用。

为什么是可作为世界模拟器的视频生成模型

统一的视觉数据表示：研究者们将所有类型的视觉数据转换为统一的表示，以便进行大规模的生成模型训练。Sora 使用视觉补丁（patches）作为其表示方式，类似于大型语言模型（LLM）中的文本标记。
视频压缩网络：研究者们训练了一个网络，将原始视频压缩到一个低维潜在空间，并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练，并生成视频。
扩散模型：Sora 是一个扩散模型，它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。
视频生成的可扩展性：Sora 能够生成不同分辨率、时长和宽高比的视频，包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容，或者在生成全分辨率视频之前快速原型化内容。
语言理解：为了训练文本到视频生成系统，需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术，首先训练一个高度描述性的标题生成器，然后为训练集中的所有视频生成文本标题。
图像和视频编辑：Sora 不仅能够基于文本提示生成视频，还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务，如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。
模拟能力：当视频模型在大规模训练时，它们展现出了一些有趣的新兴能力，使得 Sora 能够模拟物理世界中的某些方面，如动态相机运动、长期一致性和对象持久性等。
讨论：尽管 Sora 展示了作为模拟器的潜力，但它仍然存在许多局限性，例如在模拟基本物理交互（如玻璃破碎）时的准确性不足。研究者们认为，继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

训练过程

Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。Sora实际上是一种扩散型变换器模型（diffusion transformer）。

首先将视频压缩到一个低维潜在空间中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。
训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入，输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。还开发了一个对应的解码器模型，它能将生成的潜在表示映射回到像素空间。
对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。
随着 Sora 训练计算量的增加，样本质量有了显著提升。
Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。
针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。
训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。
与DALL·E 3相似，也利用了GPT技术，将用户的简短提示转换成更详细的提示，然后发送给视频模型。Video generation models as world simulators。

与其他视频大模型的比较分析

绘图能力 - 与MJ6对比

来源：https://twitter.com/doganuraldesign/status/1758444092328194217

视频效果 - 与Runway，Pika，Stable Video对比

去年，Pika Labs发布的文生视频大模型Pika 1.0曾轰动一时。该产品只需某张图片输入所需要的动态指令，或者框选某段视频的某个部位，输入指令，就能生成相应的视频。

当时，有不少网友都表示，该产品生成的视频质量属实很炸裂，但只能生成3秒以内的视频，这点有些影响体验。几个月时间不到，Sora已经能够生产60s级的稳定、连续、模拟真实世界的视频，而且效果上几乎碾压，我们来看看对比：

Sora吊打其他

Sora吊打SD

商业变现场景

Sora可能带来的影响

如果Sora能够真正意义上实现文生视频，可能会带来哪些影响呢？我们来听听Sora发布后业界的声音：

没有演员的影视作品出现，对演员来说是个小挑战，将出现真正的“虚拟偶像”，此前的二次元人物并没有真正达到“偶像”的级别。
利好编剧行业，剧本、文本创作力成为核心竞争力。
Sora可能才是真正的文生视频，此前的文生视频大多只有2秒，仅仅是对象的小幅度移动。
OpenAI继续拉大领先程度，对众多还在进行大模型测试打分pk的厂商，构成压力。
直接的影响是影视行业，特别是特效行业。使用AI来制作一些特效和高风险的镜头，可以大幅降低拍摄成本，也可以避免很多危险。
摄影师行业也会受到影响，用文本来生成一些视频，可以省去很多拍摄工作。
短视频流行开以后，视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替，可能会有很多视频剪辑师失业。
对于很多短视频创作者来说，用AI来替代繁琐的剪辑工作，可以大幅提高工作效率。
很多歌手拍摄MV都是大成本制作，如果可以用AI来生成所需要的MV画面，也可以省去很大一部分制作成本。
另外，如果真正意义上的文生视频得以实现，可能会有不法份子利用这项技术实施新手段的违法犯罪。不过，从Sora官网目前展示的视频画面效果来看，效果还没那么逼近真实，短期内不会产生让行业失业，但会有辅助作用，做个动画片应该问题不大。

在Sora官网，OpenAI也表示，Sora是能够理解和模拟现实世界的模型的基础，OpenAI相信这一能力将是实现AGI的重要里程碑。

进一步落地后，可能的应用场景：

Sora+广告

个性化和定制化广告内容：根据目标受众的兴趣、习惯及互动历史，生成个性化的广告内容。例如，为每个观众提供定制的产品展示视频，以提高广告的吸引力和转化率。
高效率的广告制作：借助Sora的能力，广告制作过程可以大幅简化，从概念到成品的时间大大缩短，同时保持或提高广告的视觉质量。
虚拟场景和角色的创新应用：创建虚拟的场景和角色参与广告，无需实地拍摄或聘请演员，为广告创意提供几乎无限的可能性。
动态内容更新：针对不同的广告投放周期和受众反馈，实时更新广告内容和呈现方式，保持广告的新鲜感和相关性。
交互式和沉浸式广告体验：结合Sora的技术和交互式媒体（如AR/VR），为用户提供沉浸式的广告体验，增强品牌印象和用户参与度。
广告数据分析和优化：通过分析用户对AI生成广告内容的互动和反馈，优化广告策略和创意设计，实现更高的ROI。
品牌形象和故事叙述：Sora的出现让企业制作品牌视频的成本大幅下降，会反过来刺激企业品牌视频的需求，只需要一段文字就可以通过Sora生成的内容，塑造和传递品牌故事，加深品牌形象和价值观在目标受众心中的印象。