【报告解析】OpenAI Sora视频模型官方报告全解析 | 效果,能力以及基本原理

news2024/11/27 17:50:34

省流版

1 核心数据处理将视频数据整合成一个一个的Patch,方便统一训练数据,利用扩散Transformer架构

2 功能效果除了可以实现基础的文生视频外,实际上还有非常惊艳的视频延展,视频编辑,视频连接等多种功能,具体可以看官网的demo

3 模型涌现了3D一致性,远距离物体相关性等等卓越的能力

文章目录

  • 1 主要内容概述
  • 2 统一视频数据为patches
  • 3 功能效果展示
    • 3.1 文本输入生成视频
    • 3.2 图片和文本共同输入
    • 3.3 视频延展
    • 3.4 视频到视频的编辑
    • 3.5 连接视频
    • 3.6 生成图片
  • 4 涌现的能力
    • 4.1 3D一致性
    • 4.2 远距离相关性和物体持久性
    • 4.3 与世界互动
    • 4.4 模拟数字世界

1 主要内容概述

摘要中指出,OpenAI探索了生成模型在视频数据的大规模训练,特别的,训练了基于文本条件的扩散模型,模型利用了Transformer架构,能够生成长达一分钟的视频,研究结果显示大规模的视频生成模型是构建通用的真实物理世界模拟器的一种很有潜力的方式

报告主要聚焦于两点

1 将所有类型的视觉数据转换为统一表示的方法,从而实现生成模型的大规模训练

2 对能力和局限性进行定性评估

具体的模型和实施细节并不包括在该报告中

以往的工作利用循环神经网络,自回归Transformer,和扩散模型等等,这些工作往往只聚焦于视频数据的一小部分,比如很短的视频或者固定的尺寸分辨率,Sora打破了这种已有的束缚,能够生成不同时长(最长60s),不同分辨率的视频

2 统一视频数据为patches

我们知道,在语言模型中,我们会将字符转换为一个一个的token,这样可以优雅地统一各种文本形式,比如代码,数学公式和不同的自然语言

在该工作中,也进行了这样的统一,将视频数据转换为一个一个的patch,事实证明patches是一种有效的表征

首先将一帧一帧的视频数据经过一个编码器,转换为低纬度的潜在空间的表示形式(目的是在时间上和空间上进行压缩)同时训练了一个对应的练解码器将这种潜在空间的内容转换为像素空间

接下来 将这种表现形式分解为时空潜在patches

请添加图片描述

然后将这些patches输入给扩散Transformer结构,使得训练能够利用不同分辨率大小,时长的视频数据。在推理阶段,我们可以通过在适当大小的网格中排列随机初始化的patches来控制生成的视频的大小

实际训练中,随机生成噪声直到不断去噪恢复到原来的patch
请添加图片描述

证明了扩散Transformer结构在视频数据非常有效

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小,例如,分辨率为 256x256 的 4 秒视频。

OpenAI发现,以原生大小对数据进行训练有几个好处

1 采样灵活性

2 以原始纵横比对视频进行训练可以改善构图,而裁剪可能会导致很大的问题

我们首先训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。OpenAI发现,对高度描述性视频字幕的训练可以提高文本保真度以及视频的整体质量。

3 功能效果展示

3.1 文本输入生成视频

这个就不用多说了哈哈哈哈,最基础的功能

3.2 图片和文本共同输入

请添加图片描述

3.3 视频延展

可以根据已有的视频按照时间向前延展或者向后延展

最后可以生成一些有趣的效果

3.4 视频到视频的编辑

比如更改视频中的风格,背景等等

看示例

左边图是原始视频,让左边的车跑在丛林里

请添加图片描述

3.5 连接视频

请添加图片描述

如图可以将左边视频的汽车和右边视频豹子两个元素连接在一起到中间的

3.6 生成图片

对你没有看错

虽然Sora最初是为了视频来的,但是由于训练中有图片所以也可以进行图片的生成

请添加图片描述

4 涌现的能力

4.1 3D一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

4.2 远距离相关性和物体持久性

视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持它们的外观。

4.3 与世界互动

Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

4.4 模拟数字世界

Sora还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1450759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

防御保护--防病毒网关

网络安全之防病毒网关--恶意软件 按照传播方式分类 病毒 病毒 --- 一种基于硬件和操作系统的程序,具有感染和破坏能力,这与病毒程序的结构有关。病毒攻击的宿主程序是病毒的栖息地,它是病毒传播的目的地,又是一个感染的出…

Python算法题集_二叉树的层序遍历

Python算法题集_二叉树的层序遍历 题102:二叉树的层序遍历1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【DFS递归】2) 改进版一【BFS迭代】3) 改进版二【BFS迭代循环】 4. 最优算法 本文为Python算法题集之一的代码示例 题102&am…

变分自编码器(VAE)PyTorch Lightning 实现

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…

Tcl 过程

一个Tcl过程就是Tcl脚本定义的一个命令。可以使用proc命令定义新的过程。Tcl还提供了处理变量作用域的特殊命令,这些命令允许使用引用而非值传递参数,并能把新的Tcl控制结构实现为过程。 一、proc与return 过程由proc命令创建, 其中参数{a b} 中的大括…

【Win10 触摸板】在插入鼠标时禁用触摸板,并在没有鼠标时自动启用触摸板。取消勾选连接鼠标时让触摸板保持打开状态,但拔掉鼠标后触摸板依旧不能使用

出现这种问题我的第一反应就是触摸板坏了,但是无意间我换了一个账户发现触摸板可以用,因此推断触摸板没有坏,是之前的账户问题,跟系统也没有关系,不需要重装系统。 解决办法:与鼠标虚拟设备有关 然后又从知…

【解决(几乎)任何机器学习问题】:超参数优化篇(超详细)

这篇文章相当长,您可以添加至收藏夹,以便在后续有空时候悠闲地阅读。 有了优秀的模型,就有了优化超参数以获得最佳得分模型的难题。那么,什么是超参数优化呢?假设您的机器学习项⽬有⼀个简单的流程。有⼀个数据集&…

Vulnhub靶机:DC5

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:DC5(10.0.2.58) 目标:获取靶机root权限和flag 靶机下载地址:https://download.vulnhub.com/dc/DC-5.zi…

Rust 数据结构与算法:4栈:用栈实现进制转换

2、进展转换 将十进制数转换为二进制表示形式的最简单方法是“除二法”&#xff0c;可用栈来跟踪二进制结果。 除二法 下面实现一个将十进制数转换为二进制或十六进制的算法&#xff0c;代码如下&#xff1a; #[derive(Debug)] struct Stack<T> {size: usize, // 栈大…

SG7050EEN晶体振荡器SPXO规格书

频率范围:25mhz ~ 500mhz供电电压:2.5 V型。/ 3.3 V类型功能:输出使能(OE)外形尺寸:7.0 5.0 1.5 mm输出:LV-PECL低相位抖动:50fs型。(f0 156.25 MHz)工作温度:-40℃~ 105℃ 规范

二叉树相关OJ题

创作不易&#xff0c;感谢三连&#xff01;&#xff01; 一、选择题 1、某二叉树共有 399 个结点&#xff0c;其中有 199 个度为 2 的结点&#xff0c;则该二叉树中的叶子结点数为&#xff08; &#xff09; A.不存在这样的二叉树 B.200 C.198 D.199解析&#xff1a;选B&…

致创新者:聚焦目标,而非问题

传统的企业创新管理方式常常导致组织内部策略不协调、流程低效、创新失败率高等问题。而创新运营作为企业管理创新的新模式&#xff0c;通过整合文化、实践、人员和工具&#xff0c;提高组织创新能力。已经采用创新运营的公司报告了一系列积极的结果&#xff0c;如市场推出速度…

最长连续手牌 - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 200分 题解&#xff1a; Java / Python / C 题目描述 有这么一款单人卡牌游戏&#xff0c;牌面由颜色和数字组成&#xff0c;颜色为红、黄、蓝、绿中的一种&#xff0c;数字为 0−9 中的一个。游戏开始时玩家从手牌中…

力扣hot3--并查集+哈希

第一想法是排个序然后遍历一遍&#xff0c;but时间复杂度就超啦 并查集居然与哈希结合了&#xff08;&#xff09; 已经好久没用过并查集了&#xff0c;&#xff0c;&#xff0c;我们用哈希表f_node中来记录原结点的父节点&#xff0c;其中key是原结点&#xff0c;value是父节点…

OpenHarmony—UIAbility组件生命周期

概述 当用户打开、切换和返回到对应应用时&#xff0c;应用中的UIAbility实例会在其生命周期的不同状态之间转换。UIAbility类提供了一系列回调&#xff0c;通过这些回调可以知道当前UIAbility实例的某个状态发生改变&#xff0c;会经过UIAbility实例的创建和销毁&#xff0c;…

代码随想录算法训练营第二十七天|贪心算法理论基础,455.分发饼干,376. 摆动序列,53. 最大子序和

系列文章目录 代码随想录算法训练营第一天|数组理论基础&#xff0c;704. 二分查找&#xff0c;27. 移除元素 代码随想录算法训练营第二天|977.有序数组的平方 &#xff0c;209.长度最小的子数组 &#xff0c;59.螺旋矩阵II 代码随想录算法训练营第三天|链表理论基础&#xff…

抖音私信自动回复工具使用教程!

该工具基于网页版抖音&#xff0c;可以用于抖音个人号等任何权限的账号&#xff01; 获取软件 联系我的v 信&#xff1a;llike620 基本使用 了解GPT的&#xff0c;可以配置FastGPT这种训练知识库的AI进行回复 不了解的&#xff0c;可以配置关键词回复 点击抖音私信按钮&a…

Linux设置jar包开机自启动

步骤 1、新建jar包自启文件 sudo vi /etc/init.d/jarSysInit.sh 按i键进入编辑模式输入以下内容&#xff1a; export JAVA_HOME/home/jdk/jdk-11.0.22 export CLASSPATH.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jar export PATH$PATH:$JAVA_…

H5大气的互联网建站服务公司静态HTML网站模板源码

H5大气的互联网建站服务公司静态HTML网站模板源码 源码介绍&#xff1a;一款大气的互联网建站服务公司/工作室静态HTML网站模板&#xff0c;带有多个单页&#xff0c;可自行二开作为工作室或公司官网。 下载地址&#xff1a; https://www.changyouzuhao.cn/13456.html

人力资源智能化管理项目(day08:云存储)

学习源码可以看我的个人前端学习笔记 (github.com):qdxzw/humanResourceIntelligentManagementProject 存储桶列表 &#xff1a;登录 - 腾讯云 API密钥管理&#xff1a;登录 - 腾讯云 上传图片-创建腾讯云存储桶 存储桶名称&#xff1a;intelligentmanagement-1306913843 地…

【Qt】环境安装与初识

目录 一、Qt背景介绍 二、搭建Qt开发环境 三、新建工程 四、Qt中的命名规范 五、Qt Creator中的快捷键 六、QWidget基础项目文件详解 6.1 .pro文件解析 6.2 widget.h文件解析 6.3 widget.cpp文件解析 6.4 widget.ui文件解析 6.5 main.cpp文件解析 七、对象树 八、…