视频生成模型作为世界模拟器

news2024/12/28 19:48:32

  我们探索了在视频数据上大规模训练生成模型。具体来说,我们联合训练文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们利用一种在时空补丁上操作视频和图像潜码的transformer架构。我们最大的模型,Sora,能够生成高保真度的一分钟视频。我们的结果表明,扩大视频生成模型的规模是通向构建物理世界通用模拟器的一条有前景的路径。

  这份技术报告集中于(1)我们将所有类型的视觉数据转换为统一表示的方法,该方法使得生成模型的大规模训练成为可能;以及(2)对Sora能力和限制的定性评估。模型和实现细节不包含在此报告中。

  之前的许多工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归transformer和扩散模型。这些工作通常专注于狭窄的视觉数据类别、较短的视频,或者固定大小的视频。Sora是一个视觉数据的通用模型——它能够生成跨越不同持续时间、宽高比和分辨率的视频和图像,最长可达一分钟的高清视频。

一.将视觉数据转换为补丁

  我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上训练获得通用能力。大型语言模型成功的部分原因在于使用了能够优雅地统一文本的多种模态(代码、数学和各种自然语言)的令牌。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。大型语言模型有文本令牌,Sora有视觉补丁。之前的研究已经显示,补丁是视觉数据模型的一种有效表示。我们发现,补丁是一种高度可扩展且有效的表示形式,用于在不同类型的视频和图像上训练生成模型。


  在高层次上,我们通过首先将视频压缩到一个低维潜在空间,然后将表示分解为时空补丁,来将视频转换为补丁。

二.视频压缩网络

  我们训练了一个减少视觉数据维度的网络。这个网络以原始视频为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在表示映射回像素空间。

三.时空潜在补丁

  给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁作为transformer令牌。这个方案也适用于图像,因为图像只是单帧的视频。我们基于补丁的表示使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

四.扩展transformer用于视频生成

  Sora是一个扩散模型;给定输入的噪声补丁(和条件信息,如文本提示),它被训练来预测原始的“干净”补丁。重要的是,Sora是一个扩散transformer。transformer在包括语言建模、计算机视觉和图像生成等多个领域展示了显著的扩展特性。


  在这项工作中,我们发现扩散transformer作为视频模型也能有效地扩展。下面,我们展示了训练进展时,使用固定种子和输入的视频样本比较。随着训练计算量的增加,样本质量显著提高。

五.可变持续时间、分辨率、宽高比

  过去对图像和视频生成的方法通常会将视频调整大小、裁剪或修剪到标准尺寸——例如,256x256分辨率的4秒视频。我们发现,直接在数据的原始尺寸上进行训练提供了几个好处。

1.采样灵活性

  Sora能够采样宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有内容。这使Sora能够直接以不同设备的原生宽高比创建内容。它还允许我们在生成全分辨率内容之前,快速原型较小尺寸的内容——所有这些都使用同一个模型。

2.改善取景和构图

  我们通过实证发现,对视频按其原生宽高比进行训练可以改善构图和取景。我们将Sora与一个版本的模型进行比较,这个版本的模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主题只部分在视野中的视频。相比之下,来自Sora的视频(右侧)有改善的取景。

六.语言理解

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们将在DALL·E 3中介绍的重新标注技术应用于视频。我们首先训练一个高度描述性的标注模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,训练高度描述性的视频标题可以提高文本的准确性以及视频的整体质量。

类似于DALL·E 3,我们也利用GPT将简短的用户提示转换为更长的详细标题,这些标题被发送到视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

七.通过图像和视频提示

  上述所有结果以及我们的登录页面显示的都是文本到视频的样本。但是Sora也可以通过其他输入进行提示,比如现有的图像或视频。这项能力使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频,为静态图像添加动画,向时间前后扩展视频等。

1.为DALL·E图像添加动画

  Sora能够基于图像和提示作为输入生成视频。下面我们展示了基于DALL·E 2和DALL·E 3图像生成的示例视频。

2.扩展生成的视频

  Sora还能够将视频向前或向后扩展时间。下面是四个视频,它们都是从生成视频的一个片段开始向后扩展的。结果是,这四个视频的开始各不相同,但所有四个视频都有相同的结尾。

  我们可以使用这种方法将一个视频向前和向后扩展,以产生一个无缝的无限循环。

3.视频到视频编辑

  扩散模型已经使得从文本提示编辑图像和视频的方法大量出现。下面我们将其中一种方法,SDEdit,应用于Sora。这种技术使Sora能够零样本转换输入视频的风格和环境。

4.连接视频

  我们还可以使用Sora逐渐在两个输入视频之间插值,创建在完全不同的主题和场景构图之间的无缝过渡。在下面的示例中,中间的视频在左右对应的视频之间插值。

八.图像生成能力

  Sora也能够生成图像。我们通过在具有一个帧的时间范围的空间网格中排列高斯噪声补丁来实现这一点。模型可以生成不同大小的图像——分辨率高达2048x2048。

九.新兴的模拟能力

  我们发现,当在大规模上训练时,视频模型展现出许多有趣的新兴能力。这些能力使Sora能够模拟物理世界中的一些人、动物和环境的方面。这些属性是在没有任何针对3D、物体等明确归纳偏差的情况下自然出现的——它们纯粹是规模现象。

  3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中一致地移动。

  长期连贯性和物体持久性。对视频生成系统来说,一个重大挑战一直是在采样长视频时保持时间上的连贯性。我们发现,Sora通常(虽然不总是)能够有效地模拟短期和长期依赖。例如,我们的模型可以持续模拟人物、动物和物体,即使它们被遮挡或离开画面。同样,它可以在单个样本中生成同一角色的多个镜头,整个视频中保持他们的外观。

  与世界互动。Sora有时可以模拟以简单方式影响世界状态的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人可以吃汉堡并留下咬痕。

  模拟数字世界。Sora也能够模拟人工过程——一个例子是视频游戏。Sora可以同时使用基本策略控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提到“Minecraft”的标题提示Sora零样本地引出。

  这些能力表明,继续扩展视频模型是通往开发高度能够模拟物理和数字世界及其中的物体、动物和人的有力路径。

十.讨论

  Sora目前作为模拟器展示了许多限制。例如,它不能准确地模拟许多基本互动的物理,如玻璃破碎。其他互动,如吃食物,不总是产生正确的物体状态变化。我们在我们的登录页面列举了模型的其他常见失败模式——如在长时间样本中发展的不连贯性或物体的突然出现。

  我们相信,Sora今天所拥有的能力表明,继续扩展视频模型是开发能够模拟物理和数字世界及其中的物体、动物和人的有能力的模拟器的有希望的路径。

参考文献

视频生成模型作为世界模拟器:https://openai.com/research/video-generation-models-as-world-simulators

Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. “Unsupervised learning of video representations using lstms.” International conference on machine learning. PMLR, 2015.↩︎

Chiappa, Silvia, et al. “Recurrent environment simulators.” arXiv preprint arXiv:1704.02254 (2017).↩︎

Ha, David, and Jürgen Schmidhuber. “World models.” arXiv preprint arXiv:1803.10122 (2018).↩︎

Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. “Generating videos with scene dynamics.” Advances in neural information processing systems 29 (2016).↩︎

Tulyakov, Sergey, et al. “Mocogan: Decomposing motion and content for video generation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎

Clark, Aidan, Jeff Donahue, and Karen Simonyan. “Adversarial video generation on complex datasets.” arXiv preprint arXiv:1907.06571 (2019).↩︎

Brooks, Tim, et al. “Generating long videos of dynamic scenes.” Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎

Yan, Wilson, et al. “Videogpt: Video generation using vq-vae and transformers.” arXiv preprint arXiv:2104.10157 (2021).↩︎

Wu, Chenfei, et al. “Nüwa: Visual synthesis pre-training for neural visual world creation.” European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎

Ho, Jonathan, et al. “Imagen video: High definition video generation with diffusion models.” arXiv preprint arXiv:2210.02303 (2022).↩︎

Blattmann, Andreas, et al. “Align your latents: High-resolution video synthesis with latent diffusion models.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎

Gupta, Agrim, et al. “Photorealistic video generation with diffusion models.” arXiv preprint arXiv:2312.06662 (2023).↩︎

Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).↩︎↩︎

Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.↩︎↩︎

Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).↩︎↩︎

Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎

He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎

Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎

Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎

Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes.” arXiv preprint arXiv:1312.6114 (2013).↩︎

Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.↩︎

Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.↩︎

Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.↩︎

Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.↩︎

Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.↩︎

Peebles, William, and Saining Xie. “Scalable diffusion models with transformers.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.↩︎

Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.↩︎

Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.↩︎

Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎

Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎

Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.↩︎

Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1451888.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL中的各种连接的区别总结

前言 今天主要的内容是要讲解SQL中关于Join、Inner Join、Left Join、Right Join、Full Join、On、 Where区别和用法,不用我说其实前面的这些基本SQL语法各位攻城狮基本上都用过。但是往往我们可能用的比较多的也就是左右连接和内连接了,而且对于许多初学…

C++中的volatile:穿越编译器的屏障

C中的volatile:穿越编译器的屏障 在C编程中,我们经常会遇到需要与硬件交互或多线程环境下访问共享数据的情况。为了确保程序的正确性和可预测性,C提供了关键字volatile来修饰变量。本文将深入解析C中的volatile关键字,介绍其作用、…

luigi,一个好用的 Python 数据管道库!

🏷️个人主页:鼠鼠我捏,要死了捏的主页 🏷️付费专栏:Python专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 前言 大家好,今天为大家分享一个超级厉害的 Python 库 - luigi。 Github地址:https://github.com/spotify/luigi 在大数据时代,处理海量数据已经成…

Java on VS Code 2024年1月更新|JDK 21支持!测试覆盖率功能最新体验!

作者:Nick Zhu - Senior Program Manager, Developer Division At Microsoft 排版:Alan Wang 大家好,欢迎来到 Visual Studio Code for Java 2024年的第一期更新!提前祝愿大家春节快乐!在本博客中,我们将有…

ChatGPT高效提问—prompt实践(智能辅导-心理咨询-职业规划)

ChatGPT高效提问—prompt实践(智能辅导-心理咨询-职业规划) ​ 智能辅导是指利用人工智能技术,为学习者提供个性化、高效的学习辅助服务。它基于大数据分析和机器学习算法,可以针对学习者的学习行为、状态和能力进行评估和预测&a…

idea里微服务依赖在maven能install但不能启动

场景:多个微服务相互依赖,install都没问题,jar包都是正常的,就连jar都能启动,为什么在idea里面项目就是不能启动呢,我是懵逼的 所以解决办法就是: 在设置的编译器里面虚拟机选项添加 -Djps.tr…

三、Maven项目搭建及Destination(队列、主题)

Maven项目搭建及Destination(队列、主题) 一、Idea中Maven项目准备1.创建Module2.创建java包3.配置pom.xml 二、队列(Queue)1.JMS编程架构2.代码实现生产者3.代码实现消费者4.队列消费者三大情况 三、消费者类型1.同步式消费者1.1…

相机图像质量研究(30)常见问题总结:图像处理对成像的影响--重影

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

前端工程化面试题 | 11.精选前端工程化高频面试题

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

高性能MySQL 阅读笔记

mysql由服务器端与存储引擎两部分组成,存储引擎部分的锁机制对服务器端是透明的。服务器端内置缓存机制,有解析器和优化器机制。不同的存储引擎对事务、并发等都用不同的处理。 ACID代表的特性:原子性、一致性、隔离性、持久性 共享锁与排他…

【FPGA开发】HDMI通信协议解析及FPGA实现

本篇文章包含的内容 一、HDMI简介1.1 HDMI引脚解析1.2 HDMI工作原理1.3 DVI编码1.4 TMDS编码 二、并串转换、单端差分转换原语2.1 原语简介2.2 IO端口组件 笔者在这里使用的开发板是正点原子的达芬奇开发板,FPGA型号为XC7A35TFGG484-2。参考的课程是正点原子的课程手…

C++ STL->list模拟实现

theme: smartblue list list文档 list是可以在常数范围内在任意位置进行插入和删除的序列式容器,并且该容器可以前后双向迭代。list的底层是双向链表结构,双向链表中每个元素存储在互不相关的独立节点中,在节点中通过指针指向 其前一个元素…

飞天使-k8s知识点20-kubernetes实操5-pod更新与暂停-statefulset

文章目录 资源调度 Deployment:扩缩容资源调度 Deployment:更新的暂停与恢复资源调度 StatefulSet:定义一个有状态服务headless service 金丝雀发布 资源调度 Deployment:扩缩容 扩容和缩容,常用的功能 scale[rootkub…

安全基础~通用漏洞5

文章目录 知识补充CSRFSSRFxss与csrf结合创建管理员账号 知识补充 NAT:网络地址转换,可以将IP数据报文头中的IP地址转换为另一个IP地址,并通过转换端口号达到地址重用的目的。即通过将一个外部IP地址和端口映射更大的内部IP地址集来转换IP地…

人工智能学习与实训笔记(二):神经网络之图像分类问题

目录 四、图像分类问题 4.1 尝试使用全连接神经网络 4.2 引入卷积神经网络 4.3 分类函数Softmax 4.4 交叉熵损失函数 4.5 学习率优化算法 4.6 图像预处理算法 4.6.1 随机改变亮暗、对比度和颜色等 4.6.2 随机填充 4.6.3 随机裁剪 4.6.4 随机缩放 4.6.5 随机翻转 4.…

【开源】SpringBoot框架开发学校热点新闻推送系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 新闻类型模块2.2 新闻档案模块2.3 新闻留言模块2.4 新闻评论模块2.5 新闻收藏模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 新闻类型表3.2.2 新闻表3.2.3 新闻留言表3.2.4 新闻评论表3.2.5 新闻收藏表 四、系统展…

计算机设计大赛 深度学习YOLO安检管制物品识别与检测 - python opencv

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络4 Yolov55 模型训练6 实现效果7 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习YOLO安检管制误判识别与检测 ** 该项目较为新颖,适合作为竞赛课题方向&…

如何合理评估信号过孔的残桩效应--Via Stub

设计中,之所以会去考察信号过孔的残桩效应(Via Stub),是因为它的存在导致了不需要的频率谐振,当这些谐振出现在所关注的信号通道的插入损耗中时,就会引发较为严重的信号完整性(SI)问…

【Java程序设计】【C00251】基于Springboot的医院信息管理系统(有论文)

基于Springboot的医院信息管理系统(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的医院信管系统 本系统分为管理员功能模块、系统功能模块以及医生功能模块。 系统功能模块:医院信管系统,…

活用 Composition API 核心函数,打造卓越应用(上)

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…