深入浅出熟悉OpenAI最新大作Sora文生视频大模型

蠢蠢欲动，惴惴不安，朋友们我又来了，这个春节真的过的是像过山车，Gemini1.5 PRO还没过劲，OpenAI又放大招，人类真的要认输了吗，让我忍不住想要再探究竟，到底是什么让文生视频发生了质的跃迁，再次不仅止不住唏嘘，那些老板们辛辛苦苦创起来的业，恐怕又被降维打击了一波！

这里主要介绍一下OpenAI的又一大作Sora，之所以不做产品体验，是目前人家还没全量开放，我们就先研究研究人家的开放内容！

💡 报告链接：https://openai.com/research/video-generation-models-as-world-simulators

零、科技前沿资讯

刚刚也就是2月16日，奥特曼发布OpenAI首个视频生成模型Sora，完美继承DALL·E 3的画质和遵循指令能力，能生成长达1分钟的高清视频。一石激起千层浪，我们先看看Sora能做到什么程度，再看看技术界大佬的回复！！！

对此，特斯拉CEO马斯克发推表示：gg人类，要愿赌服输。
在这里插入图片描述
360集团董事长周鸿祎认为：AGI可能已经不远了，从此前预测的10年缩短到2~3年内。
影眸科技的CTO张启煊则评价：Sora是我目前看到唯一能跳脱出空镜头生成真正有意义片段的视频生成工具。在他看来，Sora跟Pika、Runway产生了代差，视频生成领域终于被OpenAI支配。
网友们更是被震惊到失语——

「一切都结束了，我的饭碗要丢了。」
「整个电影工业都会随着这次发布的成果而消亡。」
「AI电影制作人和他们正在制作的项目Be Like」……

一、产品简介

文生视频模型Sora。据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

二、效果演示

48个视频Demo：动漫电影、逼真自然、魔幻大片：OpenAI一共放出了48个视频来展示Sora模型的强大之处。这里我剪辑了一个视频，完整呈现这些生成视频的视觉效果。

OpenAI发布革命性视频生成工具Sora：48段视频搭配提示词展示，效果令人震撼！！！

三、技术剖析

总的来说，Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构，也就是一种“扩散型Transformer”。

技术报告解读：

关于技术细节，官方报告简单提了以下6点（深入的细节尚未公开）：

1. 视觉数据的“创新转化”。

与大语言模型中的token不同，Sora采用的是“Patches（补片）”来统一不同的视觉数据表现形式。如下图所示，在具体操作中，模型先将视频压缩到低维潜空间中，然后将它们表示分解为时空补片，从而将视频转换为补片。

2. 训练了一个视频压缩网络。

它可以降低视觉数据维度，输入视频，输出时空上压缩的潜表示。Sora就在这上面完成训练。相应地，OpenAI也训练了一个专门的解码器。

3. 时空补片技术（Spacetime latent patches）。

给定一个压缩的输入视频，模型提取一系列时空补片，充当Transformer的token。正是这个基于补片的表示让Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，模型则通过在适当大小的网格中排列随机初始化的补片来控制生成视频的大小。

在“ChatGPT是第一个真正意义的人工通用智能”中，笔者总结过大语言模型借助Embedding将人类的语言 “编码”成自己的语言，然后通过注意力Attention从中提取各种丰富的知识和结构，加权积累与关联生成自己的语言，然后“编码”回人类的语言。

与ChatGPT首先引入Token Embedding 思路一致，针对视觉数据的建模方法则作为构建Sora最重要的第一步。碎片Patch已经被证明是一个有效的视觉数据表征模型，且高度可扩展表征不同类型的视频和图像。将视频压缩到一个低维的潜变量空间，然后将其拆解为时空碎片Spacetime Latent Patches。笔者觉得时空碎片是时空建模的关键，统一了时空分割的"语言"。

有了时空碎片这一统一的语言，Sora 自然解锁了多种技能：

自然语言理解，采用DALLE3 生成视频文本描述，用GPT丰富文本prompts ，作为合成数据训练Sora, 架起了GPT 与 Sora语言空间的更精确关联，等于在Token与Patch 之间统一了“文字”；
图像视频作为prompts，用户提供的图像或视频可以自然的编码为时空碎片Patch，用于各种图像和视频编辑任务 – 静态图动画、扩展生成视频、视频连接或编辑等。

4. 扩展Transformer也适用于视频生成的发现

OpenAI在这项研究中发现，扩散型Transformer同样能在视频模型领域中完成高效扩展。

5. 视频多样化上的一些揭秘

和其他模型相比，Sora能够hold住各种尺寸的视频，包括不同分辨率、时长、宽高比等等。也在构图和布局上优化了更多，很多业内同类型模型都会盲目裁剪输出视频为正方形，造成主题元素只能部分展示，但Sora可以捕捉完整的场景，报告指出，这都要归功于OpenAI直接在视频数据的原始尺寸上进行了训练。

6. 语言理解方面上的功夫

OpenAI采用了DALL·E 3中引入的一种重新标注技术，将其应用于视频。除了使用描述性强的视频说明进行训练，OpenAI也用GPT来将用户简短的提示转换为更长的详细说明，然后发送给Sora。这一系列使得Sora的文字理解能力也相当给力。

关于技术的介绍报告没提太多，剩下的大篇幅都是围绕Sora的一系列效果展示，包括文转视频、视频转视频，以及图片生成。