关于 OpenAI Sora的一些探索和思考

探索 OpenAI 的 Sora：一种突破性的文本到视频 AI，将在 2024 年彻底改变多模态 AI。探索其功能、创新和潜在影响。

OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止，这种文本到视频的生成式 AI 模型看起来令人印象深刻，为许多行业带来了巨大的潜力。在这里，我们将探讨 OpenAI 的 Sora 是什么、它是如何工作的、一些潜在的用例以及未来会怎样。

什么是Sora？

Sora 是 OpenAI 的文本到视频生成式 AI 模型。这意味着您编写一个文本提示，它会创建一个与提示描述相匹配的视频。

下面是 OpenAI 网站的一些示例：

提示：一位时尚女士走在东京的街道上，街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克，红色长裙，黑色靴子，背着一个黑色钱包。她戴着墨镜，涂着红色口红。她自信而随意地走路。街道潮湿而反光，营造出五颜六色的灯光的镜面效果。许多行人四处走动。

OpenAI发布视频生成模型Sora！官方技术文档全翻译

OpenAI Sora 的例子

1、提示：美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。

2、提示：使用 sora 拍视频，拍出高级感摄像机紧随一辆白色老式SUV，车顶有黑色行李架，在陡峭的山路上加速前行，周围是长满松树的陡峭山坡，扬起了尘土。

3、传统上，制作广告、促销视频和产品演示的成本很高。像 Sora 这样的文本到视频的 AI 工具有望使这个过程变得更便宜。在下面的例子中，一个想要推广加州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头，或者他们可以使用人工智能，从而节省时间和金钱。

一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽 #艺术在抖音一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽历史悠久的教堂，景色展示了其历史

SORA能做什么

Sora 生成的视频长达 60 秒，OpenAI 表示，用户可以通过要求该工具按顺序创建其他剪辑来扩展视频.

Sora 能够创建长达一分钟的视频。
Sora 可以生成具有动态摄像机运动和不同角度的连贯逼真的视频。
Sora 可以模拟影响世界状态的简单动作，例如画家在画布上留下笔触或一个人吃汉堡时的凹痕。

从根本上说，Sora是一个非常大的计算机程序，经过训练可以将文本字幕与相应的视频内容相关联。从技术上讲，Sora 是一种扩散模型（与许多其他图像生成 AI 工具一样），具有类似于 ChatGPT 的转换器编码系统。开发人员使用从视频剪辑中去除视觉噪音的迭代过程，训练 Sora 从文本提示中生成输出。Sora 和图像生成器之间的主要区别在于，它不是将文本编码为静止像素，而是将单词转换为时空块，这些块共同组成一个完整的剪辑。

从 OpenAI 披露的信息来看，人们可以将 Sora 与文本、图像和视频提示一起使用。它在 3D 一致性方面表现出色，并且可以保持整个场景的连贯性。Sora AI 可以模拟现实世界的人、动物和风景。