关于 OpenAI Sora的一些探索和思考
探索 OpenAI 的 Sora:一种突破性的文本到视频 AI,将在 2024 年彻底改变多模态 AI。探索其功能、创新和潜在影响。
OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止,这种文本到视频的生成式 AI 模型看起来令人印象深刻,为许多行业带来了巨大的潜力。在这里,我们将探讨 OpenAI 的 Sora 是什么、它是如何工作的、一些潜在的用例以及未来会怎样。
什么是Sora?
Sora
是 OpenAI
的文本到视频生成式 AI 模型。这意味着您编写一个文本提示,它会创建一个与提示描述相匹配的视频。
下面是 OpenAI 网站的一些示例:
提示:一位时尚女士走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
OpenAI Sora 的例子
1、提示:美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。
2、提示:使用 sora 拍视频,拍出高级感 摄像机紧随一辆白色老式SUV,车顶有黑色行李架,在陡峭的山路上加速前行,周围是长满松树的陡峭山坡,扬起了尘土。
3、传统上,制作广告、促销视频和产品演示的成本很高。像 Sora 这样的文本到视频的 AI 工具有望使这个过程变得更便宜。在下面的例子中,一个想要推广加州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头,或者他们可以使用人工智能,从而节省时间和金钱。
一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽 #艺术在抖音 一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽历史悠久的教堂,景色展示了其历史
SORA能做什么
Sora 生成的视频长达 60 秒,OpenAI 表示,用户可以通过要求该工具按顺序创建其他剪辑来扩展视频.
- Sora 能够创建长达一分钟的视频。
- Sora 可以生成具有动态摄像机运动和不同角度的连贯逼真的视频。
- Sora 可以模拟影响世界状态的简单动作,例如画家在画布上留下笔触或一个人吃汉堡时的凹痕。
从根本上说,Sora是一个非常大的计算机程序,经过训练可以将文本字幕与相应的视频内容相关联。从技术上讲,Sora 是一种扩散模型(与许多其他图像生成 AI 工具一样),具有类似于 ChatGPT 的转换器编码系统。开发人员使用从视频剪辑中去除视觉噪音的迭代过程,训练 Sora 从文本提示中生成输出。Sora 和图像生成器之间的主要区别在于,它不是将文本编码为静止像素,而是将单词转换为时空块,这些块共同组成一个完整的剪辑。
从 OpenAI 披露的信息来看,人们可以将 Sora 与文本、图像和视频提示一起使用。它在 3D 一致性方面表现出色,并且可以保持整个场景的连贯性。Sora AI 可以模拟现实世界的人、动物和风景。
文字转视频
Sora
可以理解您的指示并生成更长的视频。
prompt:一只棕色和白色的边境牧羊犬站在滑板上,戴着太阳镜
图像到图像/视频
您可以将静止图像转换为图像、动画或动态视频。
向后或向前扩展
Sora 可以在时间上向前和向后扩展视频——根据您的指示从视频的片段开始。如果您之前对 AI 图像绘制感到惊讶,那么这个视频扩展功能简直令人兴奋到抓狂。
使用此功能,您可以创建有趣的循环视频以进行无限播放。
视频到视频
- 风格转换:
Sora
可以将一个视频的风格和元素转换为另一个视频。对于在山上行驶的汽车,您可以将其改装为在茂密的丛林或赛博朋克城市街道上比赛。 - 视频合并:
Sora
可以将两个视频合并为一个,以获得迷人的视觉体验。
Sora AI 视频的最佳提示
虽然 Sora AI 尚未公开访问,但内部创作和官方展示视频让我们一睹其功能。以下是一些最好的 Sora 提示。
Prompt:一只小熊猫和一只巨嘴鸟是最好的朋友,在蓝色时间在圣托里尼漫步。
Prompt:蚂蚁在蚂蚁巢内部导航的 POV 镜头。
技术方面:时空补丁、扩散和变压器模型
OpenAI 在他们的研究页面上分享了创建 Sora 时的见解,这里有一些简短的解释。
- 将原始视频输入到 OpenAI 训练的网络中,该网络可以降低视频和图像的维度。
- 网络输出一个在时间和空间上压缩的潜在空间。
- Sora可以从这个压缩的潜在空间生成视频(Sora也在这个潜在空间上接受过训练)。
- 然后,有一个解码器模型可以将生成的潜在(我们看不见的地方)“翻译”回像素空间(我们可以看到的地方)。
通过扩散模型,Sora 可以从输入噪声补丁中预测原始的“干净”补丁。使其更具可扩展性的是扩散变压器。例如,在给定固定种子的情况下,32 倍计算可以比 4 倍计算更好地提高视频质量。
这里的补丁是 Sora 对 ChatGPT 等大型语言模型中的文本标记的类比。在训练过程中,从压缩的输入视频中提取时空补丁,并作为 transformer
模型的 token
。
这种基于补丁的方案帮助 Sora 成为通用模拟器,不受视频分辨率、纵横比和持续时间的限制,从而消除了其他型号由于固定规格而产生的错误。
换句话说,这就是我们看到那些惊人的逼真视频在空间和时间上都保持一致的原因。
虽然 Sora 主要被框定为文本到视频生成器,但它也旨在作为构建“世界模拟器”的平台,或者用 OpenAI 的话来说,“物理世界的通用模拟器”。更多内容可以在Sora研究论文看到。
从上面的技术讨论中,我们可以看到,时空补丁的使用对于为世界模拟器提供燃料至关重要。
最后
为了帮助大家更好的学习人工智能,这里给大家准备了一份人工智能入门/进阶学习资料,里面的内容都是适合学习的笔记和资料,不懂编程也能听懂、看懂,所有资料朋友们如果有需要全套人工智能入门+进阶学习资源包,可以在评论区或扫.码领取哦)~
在线教程
- 麻省理工学院人工智能视频教程 – 麻省理工人工智能课程
- 人工智能入门 – 人工智能基础学习。Peter Norvig举办的课程
- EdX 人工智能 – 此课程讲授人工智能计算机系统设计的基本概念和技术。
- 人工智能中的计划 – 计划是人工智能系统的基础部分之一。在这个课程中,你将会学习到让机器人执行一系列动作所需要的基本算法。
- 机器人人工智能 – 这个课程将会教授你实现人工智能的基本方法,包括:概率推算,计划和搜索,本地化,跟踪和控制,全部都是围绕有关机器人设计。
- 机器学习 – 有指导和无指导情况下的基本机器学习算法
- 机器学习中的神经网络 – 智能神经网络上的算法和实践经验
- 斯坦福统计学习
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
人工智能书籍
- OpenCV(中文版).(布拉德斯基等)
- OpenCV+3计算机视觉++Python语言实现+第二版
- OpenCV3编程入门 毛星云编著
- 数字图像处理_第三版
- 人工智能:一种现代的方法
- 深度学习面试宝典
- 深度学习之PyTorch物体检测实战
- 吴恩达DeepLearning.ai中文版笔记
- 计算机视觉中的多视图几何
- PyTorch-官方推荐教程-英文版
- 《神经网络与深度学习》(邱锡鹏-20191121)
- …
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
第一阶段:零基础入门(3-6个月)
新手应首先通过少而精的学习,看到全景图,建立大局观。 通过完成小实验,建立信心,才能避免“从入门到放弃”的尴尬。因此,第一阶段只推荐4本最必要的书(而且这些书到了第二、三阶段也能继续用),入门以后,在后续学习中再“哪里不会补哪里”即可。
第二阶段:基础进阶(3-6个月)
熟读《机器学习算法的数学解析与Python实现》并动手实践后,你已经对机器学习有了基本的了解,不再是小白了。这时可以开始触类旁通,学习热门技术,加强实践水平。在深入学习的同时,也可以探索自己感兴趣的方向,为求职面试打好基础。
第三阶段:工作应用
这一阶段你已经不再需要引导,只需要一些推荐书目。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓