1,了解什么是Sora
* 什么是 OpenAI Sora?
Sora 是由 OpenAI 开发的文本到视频模型。它可以按照用户的提示生成长达一分钟的高质量和一致的视频。
* 如何使用 OpenAI Sora 模型?
目前,OpenAI Sora 模型处于内测阶段,并将很快逐步向电影制作人、设计师和视觉艺术家推出。
* Sora可以免费使用吗?
目前,Sora 尚未在 OpenAI 的产品中公开提供,到目前为止还没有发布定价信息。
* Sora的替代品是什么?
市场上有几种文本到视频生成模型,例如 Stable Video Diffusion、Runway、Pika 等。
2,下面的网站收集Sora人工智能视频示例和提示文本。
- SoraPrompts
https://soraprompts.co/
目前为止收集了79个案例,每天更新Sora案例。SoraPrompts 用作 OpenAI Sora 提示的集合和搜索引擎。将不断更新提示集合,以帮助创作者找到适合其项目的最佳提示。
- SoraHub
https://sorahub.video/zh
这是OpenAI Sora创意视频和提示词聚合平台。探索最新的OpenAI Sora生成的视频和提示词,一站式体验前沿的AI创意。有中文语言界面。
- SoraVideo
https://soravideos.media/
目前收录了113份Sora案例视频
- Sora官网
https://openai.com/sora
官网网站页面对Sora的直接介绍就是:
从文本创建视频
Sora 是一个 AI 模型,可以从文本指令中创建逼真和富有想象力的场景。
我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。
介绍我们的文本到视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。
官网技术文档报告地址
https://openai.com/research/video-generation-models-as-world-simulators
摘录一部分原文如下:
本技术报告重点介绍(1)我们将所有类型的视觉数据转换为统一表示的方法,以实现生成模型的大规模训练,以及(2)对Sora的功能和局限性进行定性评估。本报告未包括模型和实施细节。
许多先前的工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、1,2,3生成对抗网络,4,5,6,7自回归变压器,8,9和扩散模型。10,11,12这些作品通常集中在一小部分视觉数据、较短的视频或固定大小的视频上。Sora 是一种通用的视觉数据模型,它可以生成跨越不同持续时间、纵横比和分辨率的视频和图像,最多可生成一整分钟的高清视频。
将可视化数据转换为补丁
我们从大型语言模型中汲取灵感,这些模型通过对互联网规模的数据进行训练来获得通用功能。13,14LLM范式的成功在一定程度上得益于使用标记,这些标记优雅地统一了不同的文本模式——代码、数学和各种自然语言。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。LLM 有文本标记,而 Sora 有视觉补丁。补丁以前已被证明是视觉数据模型的有效表示。15,16,17,18我们发现,补丁是一种高度可扩展且有效的表示,用于在不同类型的视频和图像上训练生成模型。
在高层次上,我们首先将视频压缩到低维的潜在空间中,从而将视频转换为补丁,19并随后将表示分解为时空斑块。
视频压缩网络
我们训练了一个网络,可以降低视觉数据的维度。20该网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。
时空潜伏斑块
给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁充当转换器令牌。此方案也适用于图像,因为图像只是单帧视频。我们基于补丁的表示使 Sora 能够对可变分辨率、持续时间和纵横比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。
用于视频生成的缩放转换器
Sora是一个扩散模型21,22,23,24,25;给定输入的噪声补丁(以及文本提示等条件信息),它被训练来预测原始的“干净”补丁。重要的是,Sora是一个扩散变压器。26Transformer 在各个领域都表现出了非凡的扩展特性,包括语言建模、13,14计算机视觉,15,16,17,18和图像生成。27,28,29