Sora简介
官网:https://openai.com/sora
当大家还在沉浸在GPT各种大语言模型的时候,OpenAI 悄无声息地发布了文生视频(text-to-video,简称 t2v)模型 Sora,这又是一个对AI冲击很大的突破了。Sora可以根据文本描述生成长达 60 秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。是不是惊呆了,简单来说,就是给它一段文字,可以生成一段十分真实的视频,未来看到的视频有可能不是真人拍摄的,大概率是通过Sora或者其他模型生成的短视频。本文也是蹭着这个新风口,稍微了解了一下什么是Sora,接下来简单其生成视频的效果、原理以及对短视频行业的影响。
Sora生成视频
首先,直接看Sora生成的视频效果是,接下来使用两个例子,看看最终视频效果是怎样的。
例子1:镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,在土路上加速行驶,给现场投下温暖的光芒。土路缓缓向远处弯曲,看不到其他汽车或车辆。路两边的树都是红木,到处都是成片的绿色植物。从后面可以看到这辆车轻松地沿着弯道行驶,看起来就像是在崎岖的地形上行驶。土路本身被陡峭的山丘和山脉包围,上面是晴朗的蓝天和稀疏的云层。
例子2:正对着意大利布拉诺的彩色建筑。一个可爱的小狗透过窗户在一楼的一栋楼里看,许多人沿着建筑物前的运河街道散步和骑自行车。
如果不说这是Sora大模型生成的,这些视频如此真实,而且十分细腻,能看得出这仅仅是上述一段文字生成的吗?
Sora原理
Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。
文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。
Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。
Sora其实是在大型语言模型基础上,通这些模型在互联网规模的数据上进行训练来获得通才能力。Sora是一个扩散模型给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。重要的是,Sora 是一个扩散_变压器_。Transformer 在各个领域都表现出了卓越的扩展特性,包括语言建模、计算机视觉,图像生成。
下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。
短视频传统制作方式
传统短视频拍摄,会根据文案剧本,人物视频还需要挑选演员,挑选场景,后续还需要剪辑等操作。我之前用过剪映,虽然可以减少部分工作量,他也有图文生成视频的,但是成果十分僵硬,有种图片拼接的效果。所以对于传统短视制作方式,有以下要求:
- 文案策划:在制作短视频之前,需要先进行文案策划,确定视频的主题、内容、风格和目标受众。这一步骤需要考虑到单个视频的影响以及整个账户的发展方向与风格呈现。
- 画面拍摄:在策划完成后,可以进行画面拍摄。这一步骤需要根据文案策划的内容,选择合适的拍摄地点、拍摄角度和拍摄手法,确保视频画面能够有效地传达信息。
- 后期制作:拍摄完成后,需要进行后期制作,包括剪辑、配音、特效、音乐等。这一步骤需要根据文案策划和视频画面,进行合理的剪辑和特效处理,使视频更具吸引力和表现力。
- 发布与推广:制作完成后,将短视频发布到合适的平台上,并进行推广,以吸引更多的观众
Sora对短视频的影响
只要用过Sora模型文生视频的功能,就会知道他的强大之处,有了Sora其实对于短视频拍摄和剪辑影响挺大的,总结了有如下影响:
- 内容创作效率。 Sora的文生视频AI模型可以帮助创作者快速生成视频内容,降低创作门槛。这使得更多的创作者可以参与到短视频制作中,提高了内容的多样性。
- 生产效率。 Sora可以根据用户的输入生成具有个性化特点的视频,这有助于提高短视频的吸引力。同时,Sora还可以根据用户的喜好和兴趣推荐相关视频,提高用户的观看时长和粘性。
- 内容多样性。 Sora可以生成各种类型的短视频,如娱乐、教育、科技等,丰富了短视频的内容多样性。
- 创作者竞争。 Sora的普及可能会加剧创作者之间的竞争,使得创作者需要更加关注内容质量、创意和个性化,以吸引观众。
不过官网也说了Sora也有缺点,Sora 目前作为模拟器(simulator)表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互过程(例如吃食物)也不总是能正确预测。
参考文献:
https://openai.com/research/video-generation-models-as-world-simulators