跟无神学AI之一文读尽Sora

news2025/4/14 3:31:33

openAI发布视频生成模型Sora，意味着人类距离AI模拟世界又近了一步，流浪地球2中数字人女儿也是对未来科技发展的一个缩影。

作为最具有代表性的大模型公司，openAI的任何一个产品都具有一定的价值，代表着AI的前沿发展方向。

博主今天较为仔细地阅读了openAI的Sora技术报告，参考开源资料对其中的技术进行了一定的总结，将感悟与各位在此进行分享：

Video generation models as world simulators

Sora的中文为空的意思，延伸含义是无穷尽。为2.15发布的一款视频处理的通用大模型。

技术报告中主要交代了训练模型的数据处理方法以及一些功能的评估和介绍。

之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型，能够处理尺寸不一的视频，生成分辨率比较高的视频。

Turning visual data into patches

Sora在互联网范围上的数据进行训练，使用了patches这个概念，博主的理解是将视频划分成每一帧的图片，然后将图片用像素点进行表示，每一个视频的所有图片组成的这样一个数据结构就叫做patches，可以理解为视频的一种机器表示，只有对训练数据进行表示，模型才能将之进一步处理。

Figure Patches

用上图的编码器将图片变成高维度后再解压成低维度（低维度是按照时空进行组合的）。

Video compression network

使用以上产生的训练数据进行训练，必须得再训练一个解码器将产生的视频表示再转化成视频。

Spacetime latent patches

对训练数据的归一化是通过将包的尺寸转换成合适的网来完成的

Scaling transformers for video generation

Sora是一个diffusion model，能够根据描述进行文生图。Transformer在文生图任务上有不俗的表现：

Figure Diffusion

当训练资源增加时，效果能变得更好。所以这也是美丽国用计算资源来限制我国科技发展的一个重要原因

Variable durations, resolutions, aspect ratios

不同于原始的一类输入数据对应一个模型，openAI团队发现将不同尺寸的视频作为训练数据能够具备一定优势：

长宽比例不同的视频能够使用一个模型输出出来

如此保持训练数据的原始能够使得模型产生的视频是完整的（构图更加符合自然）

Language understanding

使用了GPT和DALL·E去分别进行提示词扩展和图生文的描述产生，后者是该公司的另一个产品，想要详细了解可以观看另一篇论文。

Prompting with images and videos

还能用图片和视频作为输入进行其他处理，如拼接、循环等

以下就是该模型的一些具体功能，多种功能也体现其通用性：

Animating DALL·E images

能够以图片和提示词产生视频：将静态图片转换成视频

A Shiba Inu dog wearing a beret and black turtleneck.

Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

An image of a realistic cloud that spells “SORA”.

In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.