OpenAI视频生成Sora技术简析

news2024/10/3 0:30:25

基本介绍

Sora是春节期间OpenAI发布的产品,主要是通过文字描述生成视频,通过大规模视频数据训练而成的生成模型,当前还没开放试用。官方发布的技术报告:https://openai.com/research/video-generation-models-as-world-simulators

基本思想

本质上还是一个扩散模型框架,与之前图像生成类似,只是视频相当于图像加了时间序列,增加了一个时间维度。大致可以想象成通过解噪音,生成了很多图,然后在时间维度上叠加,得到生成的视频。但实际情况并不是一张张图生产后再拼凑成视频。

2e43366d7f45f490e64863860e1162e8.png 64833611af810c0a65b3f5866ce7b45a.png

DiT网络

在网络结构方面,相比于传统的扩散模型网络,Sora中了Diffusion Transformers(DiT)网络结构。这个网络其实就是把原来扩散模型中的Unet换成了Transformer结构,当前Transformer大有一统江湖的趋势,啥都换Transformer,这个主要就是因为Transformer有很强的扩展性。

0fa9d3ff8147e740c0ef2a91aef04abd.png

块(patch)转换

将可视数据转成块能够实现统一处理,块是一种高度可扩展且有效的表示方式。其实也是一种数据表示思想,类似于大语言模型的token化。他主要是通过一个编码器来对其进行转换的,原始视频输入到这个网络,得到的输出就是经过压缩后的潜在表示,Sora模型就是在这个潜在空间中进行训练。

0e9e6fd3a7fd72bc4943c091839b2081.png 0356c0824ea31e6786ffe8ece9b92fdb.png

从更高层面上看,实际上视频就被压缩到了一个指定的低纬度的潜在空间。潜在空间的块组合包含了视频的时间和空间信息,原始视频转换成了块组合。通过这种处理能够统一能够很好解决分辨率、持续时间、纵横比等不同的视频问题。最终再将这些块以序列的结果拼接起来,最终输入到编码器中,这是为了满足transformer网络结构输入的要求。

关于潜在空间

就是图片生成中使用的方法推广到视频,以前的稳定扩散模型中就是把图片经过编码器压缩到潜在空间,然后潜在空间再通过解码器来生成图片。像素级的生成方式所需要的显存和计算都很大,成本很高。潜在空间主要解决的问题就是维度灾难,降维后能减轻运算量,实际上就是一种压缩方式。

a2791cad3667cca6077c10e84a5a644d.png

文本条件化扩散模型

所谓的条件化实际上就是将文本也向量化后作为输入的一部分进入到网络,这样就能够控制视频的生成。下图展示的是文本条件化的扩散模型,这里只画了图像的示意图,其实都差不多。整个过程应该也是经过几百上千次的去噪音操作,最终得到潜在空间表示后经过解码器生成最终的视频。

36a4b05651692dd9e4894bb070bfb826.png 4d1f08b60413fcb35b8432469943732a.png

关于数据样本

收集了大量带有相应文本字幕的视频,相当于有了视频的文字描述。但是这个描述还不够,因为人类对视频中的字幕添加时主要是关注主题对象,并没有对背景细节及图像颜色之类的进行描述,所以Sora还用了一种叫e-captioning的技术,它能丰富对视频的解读并增加细节文字描述,这个也是OpenAI的DALLE3产品提出来的一种技术。

还支持图像和视频提示

Sora还支持给定一张图片或视频,然后接着生成相关视频。这个实际上就是在输入时增加了图像和视频作为条件,也就是前面说的除了文本条件外,还有图像条件和视频条件。

b1f78699cc3e057daef44164e5de5ae0.png

完整技术框架

完整的技术框架大致如下,视频经过压缩网络处理后成为块,然后进行扩散处理,这个过程其实主要就是训练一个噪音预测器。然后在生成的阶段会把潜在空间随机噪音、文本、视频、图片等多模态提示作为条件一起进行解噪音操作,最终得到潜在空间表示,将其经过解码器网络得到生成的视频。

15e7c442df592f9648c7f93b19c65b4b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1471789.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【深入理解设计模式】适配器设计模式

适配器设计模式 适配器设计模式是一种结构型设计模式,用于将一个类的接口转换成客户端所期望的另一个接口,从而使得原本由于接口不兼容而不能一起工作的类能够一起工作。适配器模式通常用于以下场景: 现有接口与需求不匹配:当需要…

遭遇DDOS攻击忍气吞声?立刻报警!首都网警重拳出击,犯罪分子无所遁形

遭遇DDOS攻击忍气吞声?立刻报警!首都网警重拳出击 公元2024年2月24日18时许,笔者的个人网站突然遭遇不明身份者的DDOS攻击,且攻击流量已超过阿里云DDos基础防护的黑洞阈值,服务器的所有公网访问已被屏蔽,由…

观后感:UniAD

背景 首先定一个调,自动驾驶方向统一的大模型不是一般的公司就能做的,没几十张A100训练都训练死你,这批观后感旨在学习UniAD的思想,拓展一下眼界 UniAD将检测,跟踪,建图,轨迹预测这四个任务统一…

如何本地部署LightPicture结合cpolar内网穿透打造个人云图床

文章目录 1.前言2. Lightpicture网站搭建2.1. Lightpicture下载和安装2.2. Lightpicture网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1.前言 现在的手机越来越先进,功能也越来越多,而手机…

深度学习在过冷沸腾气泡动力学分割中的应用

Application of deep learning for segmentation of bubble dynamics in subcooled boiling 深度学习在过冷沸腾气泡动力学分割中的应用 期刊信息:International Journal of Multiphase Flow 2023 级别:EI检索 SCI升级版工程技术2区 SCI基础版工程技术3区…

Python之pyecharts的常见用法4-3D柱状图

目录 专栏导读背景1、3D柱状图代码 2、3D柱状图3、3D柱状图结尾 专栏导读 🌸 欢迎来到Python办可视化化专栏,目前专栏正在更新中 🏳️‍🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注 👍 此外…

300分钟吃透分布式缓存-15讲:如何深入理解、应用及扩展 Twemproxy?

Twemproxy 架构及应用 Twemproxy 是 Twitter 的一个开源架构,它是一个分片资源访问的代理组件。如下图所示,它可以封装资源池的分布及 hash 规则,解决后端部分节点异常后的探测和重连问题,让 client 访问尽可能简单,同…

LeetCode 1038.从二叉搜索树到更大和树

给定一个二叉搜索树 root (BST),请将它的每个节点的值替换成树中大于或者等于该节点值的所有节点值之和。 提醒一下, 二叉搜索树 满足下列约束条件: 节点的左子树仅包含键 小于 节点键的节点。 节点的右子树仅包含键 大于 节点键的节点。 左…

c++:vector的相关oj题(136. 只出现一次的数字、118. 杨辉三角、26. 删除有序数组中的重复项、JZ39 数组中出现次数超过一半的数字)

文章目录 1. 136. 只出现一次的数字题目详情代码(直接来异或)思路 2. 118. 杨辉三角题目详情代码1思路代码2思路2 3. 26. 删除有序数组中的重复项题目详情代码思路 4. JZ39 数组中出现次数超过一半的数字题目详情代码1(暴力)思路1代码2&#…

《论文阅读》利用提取的情感原因提高共情对话生成的内容相关性 CCL 2022

《论文阅读》利用提取的情感原因提高共情对话生成的内容相关性 前言简介模型架构情绪识别情绪原因提取实验结果示例总结前言 亲身阅读感受分享,细节画图解释,再也不用担心看不懂论文啦~ 无抄袭,无复制,纯手工敲击键盘~ 今天为大家带来的是《Using Extracted Emotion Caus…

el-tab-pane标签页如何加图标

效果如下 主要修改 <el-tab-pane name"tab6" v-if"subOrderType 10 && urlname ! wgSalesTerminationOrder"><span slot"label"> 售后判责<span class"el-icon-warning" style"color:#F66B6C;"&…

电脑dll缺失怎么办,找不到dll的多种解决方法分享

dll文件在计算机领域中扮演着至关重要的角色&#xff0c;它代表的是Dynamic Link Library&#xff08;动态链接库&#xff09;文件。那么&#xff0c;究竟什么是dll文件呢&#xff1f;简单来说&#xff0c;dll文件是一种特殊的程序模块&#xff0c;其中包含了可以被多个应用程序…

Web3的奇迹:数字世界的新篇章

在数字化时代的潮流中&#xff0c;Web3正以其令人振奋的潜力和前景引领着我们进入一个全新的数字时代。作为互联网的下一代&#xff0c;Web3将重新定义我们对数字世界的认知和体验&#xff0c;为我们带来无限的可能性和奇迹。本文将深入探讨Web3的重要性、核心特征以及未来展望…

Nginx----高性能的WEB服务端(二)

一、高级配置 1、网页的状态页 基于nginx 模块 ngx_http_stub_status_module 实现&#xff0c;在编译安装nginx的时候需要添加编译参数 --with-http_stub_status_module&#xff0c;否则配置完成之后监测会是提示语法错误注意: 状态页显示的是整个服务器的状态,而非虚拟主机的…

【力扣白嫖日记】180.连续出现的数字

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 180.连续出现的数字 表&#xff1a;Logs 列名类型idintnumvarchar 找出所有至少连续出现三次的数字。 返回…

Spring之AOP源码解析(下)

前言 在上一遍文章中,我们主要讲解了ProxyFactory在Spring完成AOP动态代理的过程中发挥的作用。这一篇我们主要讲解这些注解都是如何注入Advisors,然后分析这些Advisors生效的条件 注解都是如何注入Advisor并匹配的 EnableTransactionManagement注解 我们在之前提到EnableT…

vue2实现无感刷新token

&#x1f3ac; 江城开朗的豌豆&#xff1a;个人主页 &#x1f525; 个人专栏 :《 VUE 》 《 javaScript 》 &#x1f4dd; 个人网站 :《 江城开朗的豌豆&#x1fadb; 》 ⛺️ 生活的理想&#xff0c;就是为了理想的生活 ! 目录 &#x1f4d8; 引言&#xff1a; &#x1f4…

商家入驻平台怎么让资金自动分配给商家

最近很多上线了多商户电商系统的朋友咨询&#xff0c;我们平台的用户支付后&#xff0c;钱进入了我们的对公账户&#xff0c;怎样让钱在走完流程后&#xff0c;自动进入商家的账户呢&#xff1f;今天商淘云为您分享商户入驻平台自动分配给商家资金的三种方法。 首先是平台应建立…

用户体验设计师如何在 2024抢占先机?

01. 严峻的经济形势和就业市场 我们生活在一个通货膨胀的时代。就从超市抓几个苹果、卷心菜、鸡蛋&#xff0c;看看价格吧&#xff01;我不得不多次检查收据&#xff0c;因为我简直不敢相信。外出就餐费用上涨了 10-20%&#xff0c;现在 Spotify 和 YouTube 要求收取更高的订阅…

Android 水波纹扩散效果实现

人生只是一种体验&#xff0c;不必用来演绎完美。 效果图 View源码 package com.android.circlescalebar.view;import android.animation.Animator; import android.animation.AnimatorListenerAdapter; import android.animation.ObjectAnimator; import android.animation.…