关于 OpenAI Sora的一些探索和思考

news2024/11/17 13:55:09

关于 OpenAI Sora的一些探索和思考

探索 OpenAI 的 Sora:一种突破性的文本到视频 AI,将在 2024 年彻底改变多模态 AI。探索其功能、创新和潜在影响。

OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止,这种文本到视频的生成式 AI 模型看起来令人印象深刻,为许多行业带来了巨大的潜力。在这里,我们将探讨 OpenAI 的 Sora 是什么、它是如何工作的、一些潜在的用例以及未来会怎样。

什么是Sora?

SoraOpenAI 的文本到视频生成式 AI 模型。这意味着您编写一个文本提示,它会创建一个与提示描述相匹配的视频。

下面是 OpenAI 网站的一些示例:

提示:一位时尚女士走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

OpenAI发布视频生成模型Sora!官方技术文档全翻译

OpenAI Sora 的例子

1、提示:美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。

img

2、提示:使用 sora 拍视频,拍出高级感 摄像机紧随一辆白色老式SUV,车顶有黑色行李架,在陡峭的山路上加速前行,周围是长满松树的陡峭山坡,扬起了尘土。

image-20240308084403916

3、传统上,制作广告、促销视频和产品演示的成本很高。像 Sora 这样的文本到视频的 AI 工具有望使这个过程变得更便宜。在下面的例子中,一个想要推广加州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头,或者他们可以使用人工智能,从而节省时间和金钱。

一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽 #艺术在抖音 一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽历史悠久的教堂,景色展示了其历史

image-20240308084445519

SORA能做什么

Sora 生成的视频长达 60 秒,OpenAI 表示,用户可以通过要求该工具按顺序创建其他剪辑来扩展视频.

  • Sora 能够创建长达一分钟的视频。
  • Sora 可以生成具有动态摄像机运动和不同角度的连贯逼真的视频。
  • Sora 可以模拟影响世界状态的简单动作,例如画家在画布上留下笔触或一个人吃汉堡时的凹痕。

从根本上说,Sora是一个非常大的计算机程序,经过训练可以将文本字幕与相应的视频内容相关联。从技术上讲,Sora 是一种扩散模型(与许多其他图像生成 AI 工具一样),具有类似于 ChatGPT 的转换器编码系统。开发人员使用从视频剪辑中去除视觉噪音的迭代过程,训练 Sora 从文本提示中生成输出。Sora 和图像生成器之间的主要区别在于,它不是将文本编码为静止像素,而是将单词转换为时空块,这些块共同组成一个完整的剪辑。

从 OpenAI 披露的信息来看,人们可以将 Sora 与文本、图像和视频提示一起使用。它在 3D 一致性方面表现出色,并且可以保持整个场景的连贯性。Sora AI 可以模拟现实世界的人、动物和风景。

文字转视频

Sora 可以理解您的指示并生成更长的视频。

prompt:一只棕色和白色的边境牧羊犬站在滑板上,戴着太阳镜

​​

图像到图像/视频

您可以将静止图像转换为图像、动画或动态视频。

向后或向前扩展

Sora 可以在时间上向前和向后扩展视频——根据您的指示从视频的片段开始。如果您之前对 AI 图像绘制感到惊讶,那么这个视频扩展功能简直令人兴奋到抓狂。

使用此功能,您可以创建有趣的循环视频以进行无限播放。

视频到视频

  • 风格转换Sora 可以将一个视频的风格和元素转换为另一个视频。对于在山上行驶的汽车,您可以将其改装为在茂密的丛林或赛博朋克城市街道上比赛。
  • 视频合并Sora 可以将两个视频合并为一个,以获得迷人的视觉体验。

Sora AI 的视频合并

Sora AI 视频的最佳提示

虽然 Sora AI 尚未公开访问,但内部创作和官方展示视频让我们一睹其功能。以下是一些最好的 Sora 提示。

Prompt:一只小熊猫和一只巨嘴鸟是最好的朋友,在蓝色时间在圣托里尼漫步。

​​

Prompt:蚂蚁在蚂蚁巢内部导航的 POV 镜头。

​​

技术方面:时空补丁、扩散和变压器模型

OpenAI 在他们的研究页面上分享了创建 Sora 时的见解,这里有一些简短的解释。

  • 将原始视频输入到 OpenAI 训练的网络中,该网络可以降低视频和图像的维度。
  • 网络输出一个在时间和空间上压缩的潜在空间。
  • Sora可以从这个压缩的潜在空间生成视频(Sora也在这个潜在空间上接受过训练)。
  • 然后,有一个解码器模型可以将生成的潜在(我们看不见的地方)“翻译”回像素空间(我们可以看到的地方)。

Sora 扩散模型

通过扩散模型,Sora 可以从输入噪声补丁中预测原始的“干净”补丁。使其更具可扩展性的是扩散变压器。例如,在给定固定种子的情况下,32 倍计算可以比 4 倍计算更好地提高视频质量。

这里的补丁是 Sora 对 ChatGPT 等大型语言模型中的文本标记的类比。在训练过程中,从压缩的输入视频中提取时空补丁,并作为 transformer 模型的 token

Sora 时空补丁

这种基于补丁的方案帮助 Sora 成为通用模拟器,不受视频分辨率、纵横比和持续时间的限制,从而消除了其他型号由于固定规格而产生的错误。

换句话说,这就是我们看到那些惊人的逼真视频在空间和时间上都保持一致的原因。

虽然 Sora 主要被框定为文本到视频生成器,但它也旨在作为构建“世界模拟器”的平台,或者用 OpenAI 的话来说,“物理世界的通用模拟器”。更多内容可以在Sora研究论文看到。

从上面的技术讨论中,我们可以看到,时空补丁的使用对于为世界模拟器提供燃料至关重要。

最后

为了帮助大家更好的学习人工智能,这里给大家准备了一份人工智能入门/进阶学习资料,里面的内容都是适合学习的笔记和资料,不懂编程也能听懂、看懂,所有资料朋友们如果有需要全套人工智能入门+进阶学习资源包,可以在评论区或扫.码领取哦)~

在线教程

  • 麻省理工学院人工智能视频教程 – 麻省理工人工智能课程
  • 人工智能入门 – 人工智能基础学习。Peter Norvig举办的课程
  • EdX 人工智能 – 此课程讲授人工智能计算机系统设计的基本概念和技术。
  • 人工智能中的计划 – 计划是人工智能系统的基础部分之一。在这个课程中,你将会学习到让机器人执行一系列动作所需要的基本算法。
  • 机器人人工智能 – 这个课程将会教授你实现人工智能的基本方法,包括:概率推算,计划和搜索,本地化,跟踪和控制,全部都是围绕有关机器人设计。
  • 机器学习 – 有指导和无指导情况下的基本机器学习算法
  • 机器学习中的神经网络 – 智能神经网络上的算法和实践经验
  • 斯坦福统计学习

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

请添加图片描述

人工智能书籍

  • OpenCV(中文版).(布拉德斯基等)
  • OpenCV+3计算机视觉++Python语言实现+第二版
  • OpenCV3编程入门 毛星云编著
  • 数字图像处理_第三版
  • 人工智能:一种现代的方法
  • 深度学习面试宝典
  • 深度学习之PyTorch物体检测实战
  • 吴恩达DeepLearning.ai中文版笔记
  • 计算机视觉中的多视图几何
  • PyTorch-官方推荐教程-英文版
  • 《神经网络与深度学习》(邱锡鹏-20191121)

  • 在这里插入图片描述
    😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

第一阶段:零基础入门(3-6个月)

新手应首先通过少而精的学习,看到全景图,建立大局观。 通过完成小实验,建立信心,才能避免“从入门到放弃”的尴尬。因此,第一阶段只推荐4本最必要的书(而且这些书到了第二、三阶段也能继续用),入门以后,在后续学习中再“哪里不会补哪里”即可。

第二阶段:基础进阶(3-6个月)

熟读《机器学习算法的数学解析与Python实现》并动手实践后,你已经对机器学习有了基本的了解,不再是小白了。这时可以开始触类旁通,学习热门技术,加强实践水平。在深入学习的同时,也可以探索自己感兴趣的方向,为求职面试打好基础。

第三阶段:工作应用

这一阶段你已经不再需要引导,只需要一些推荐书目。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。

在这里插入图片描述
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1499450.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于ACM32 MCU的电动滑板车方案了,助力低碳出行

随着智能科技的快速发展,电动滑板车的驱动系统也得到了长足的发展。国内外的电动滑板车用电机驱动系统分为传统刷式电机和无刷电机两种类型。其中,传统的刷式电机已经逐渐被无刷电机所取代,无刷电机的性能和寿命都更出色,已成为电…

JavaWeb实验 JSP 基本语法(续

实验目的 掌握JSP基本语法;掌握JSP常见用法。 实验内容 【1】创建index.jsp、first.jsp和second.jsp三个jsp文件,页面的内容分别显示“This is my JSP page of index.jsp.”、“This is my JSP page of first.jsp.”和“This is my JSP page of secon…

SpringMVC | SpringMVC的“入门“

目录: Spring MVC入门 :Spring MVC 概述第一个Spring MVC应用SpringMVC 的 “工作流程” Spring MVC入门 : 作者简介 :一只大皮卡丘,计算机专业学生,正在努力学习、努力敲代码中! 让我们一起继续努力学习! 该文章参考学习教材为&a…

docker 部署prometheus+grafana

首先进行部署docker 配置阿里云依赖: curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo # 配置centos 7的镜像源 yum install -y yum-utils device-mapper-persistent-data lvm2 # 安装一些后期或需要的的一下依…

MVO-CNN-BiLSTM多输入分类预测|多元宇宙优化算法-卷积-双向长短期神经网络分类预测(Matlab)

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、算法介绍: 四、完整程序下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matlab平台编译&am…

Android14音频进阶:AudioTrack如何拿到AudioFlinger创建的匿名共享内存(六十)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

微软免费AI基础中文课程;马斯克提出撤诉OpenAI条件:“改名ClosedAI”

🦉 AI新闻 🚀 马斯克提出撤诉OpenAI条件:“改名ClosedAI” 摘要:埃隆・马斯克针对OpenAI及其CEO萨姆・阿尔特曼提起诉讼,主因双方在人工智能开发的合作协议上出现分歧。马斯克称,OpenAI的转型为营利组织与…

C语言-----qsort函数的功能以及模拟实现

1.冒泡排序 (1)冒泡排序就是数据两个两个的进行比较每一趟都是一个数和其他的所有的数字比较, (2)这个要的是升序排列,所以前面的大的话,就会调换位置 (3)冒泡排序的缺…

Git 开源的版本控制系统-04-branch manage 分支管理

拓展阅读 Subversion 开源的版本控制系统入门介绍 VCS Git 开源的版本控制系统-01-入门使用介绍 Git 开源的版本控制系统-02-base usage 基本用法 Git 开源的版本控制系统-03-时间数据回溯 Git 开源的版本控制系统-04-branch manage 分支管理 Git 开源的版本控制系统-05-…

蓝桥-求和

目录 法一&#xff1a;暴力 法二&#xff1a;利用前缀和 法一&#xff1a;暴力 通过率60% #include <bits/stdc.h> using namespace std; long long a[200010]; long long s;int main() {int n;cin>>n;for(int i0;i<n;i){cin>>a[i];}for(int i0;i<…

MS9708/MS9710/MS9714

产品简述 MS9708/MS9710/MS9714 是一个 8-Bit/10-Bit/14-Bit 高速、低功耗 D/A 转换器。当采样速率达到 125MSPS 时&#xff0c; MS9708/MS9710/MS9714 也能提供优越的 AC 和 DC 性能。 MS9708/MS9710/MS9714 的正常工作电压范围为 2.7V 到 5.5V &#xff0c;…

GPT-SoVITS项目的API改良与使用

GPT-SoVITS是一个非常棒的少样本中文声音克隆项目&#xff0c;之前有一篇文章详细介绍过如何部署和训练自己的模型&#xff0c;并使用该模型在web界面中合成声音&#xff0c;可惜它自带的 api 在调用方面支持比较差&#xff0c;比如不能中英混合、无法按标点切分句子等&#xf…

perf的安装与迁移

前言 perf是性能优化很重要的工具之一&#xff0c;本篇博客就来看一下perf的安装以及遇到的问题。 嵌入式驱动学习专栏将详细记录博主学习驱动的详细过程&#xff0c;未来预计四个月将高强度更新本专栏&#xff0c;喜欢的可以关注本博主并订阅本专栏&#xff0c;一起讨论一起学…

ElasticSearch之文档的存储

写在前面 本文看下文档的存储相关内容。 1&#xff1a;如何确定文档存储在哪个分片&#xff1f; 我们需要确保文档均匀分布在所有的分片中&#xff0c;避免某些部分机器空闲&#xff0c;部分机器繁忙的情况出现&#xff0c;想要实现均匀分布我们可以考虑如下的几种分片路由算…

HUAWEI Pocket 2说的防晒检测,能做到什么程度?

防晒是必须&#xff0c;还是噱头&#xff1f;我们来看一下经典案例&#xff1a; 《新英格兰医学杂志》调查一名69岁的卡车司机发现&#xff0c;他位于车窗侧、遭受更多阳光直晒的左半边脸&#xff0c;无论是皱纹还是皮肤厚度&#xff0c;都要比远离阳光的右半边脸要严重得多&am…

如何阅读“计算机界三大神书”之一 ——《计算机程序的构造和解释》SICP

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; &#x1f40b; 希望大家多多支…

【设计模式 05】原型模式

有的时候&#xff0c;我们创建对象&#xff0c;需要耗费大量时间在一些资源型操作上&#xff0c;这个时候&#xff0c;我们就可以先创建出一个模板&#xff0c;然后每次创建的时候直接从模板复制即可&#xff0c;不用反复进行耗时的资源型操作。 python代码&#xff1a; impo…

【C++干货基地】六大默认成员函数: This指针 | 构造函数 | 析构函数

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引入 哈喽各位铁汁们好啊&#xff0c;我是博主鸽芷咕《C干货基地》是由我的襄阳家乡零食基地有感而发&#xff0c;不知道各位的…

【学习心得】Python好库推荐——websocket-client

websocket-client 是一个在 Python 中广泛使用的库&#xff0c;用于创建 WebSocket 客户端并实现与 WebSocket 服务器的双向通信。更多的关于websocket协议介绍&#xff0c;可以看看我之前写的文章哦&#xff01; 【学习心得】websocket协议简介并与http协议对比http://t.csdn…

什么是工业协议网关?作用是什么?

在工业自动化和智能制造领域&#xff0c;数据的采集、传输和处理是实现设备监控、远程控制和优化的关键。而工业协议网关&#xff0c;作为连接工业设备与上层管理系统的桥梁&#xff0c;发挥着至关重要的作用。今天&#xff0c;我们就来深入解析一下HiWoo Box这一工业协议网关的…