Sora技术原理解析

Sora技术原理解析

news2025/4/8 23:22:04

1.Sora简介

Sora是一个基于大规模训练的文本控制视频生成扩散模型。 Sora能够生成高达1分钟的高清视频，涵盖广泛的视觉数据类型和分辨率。 Sora使用简单的文本描述，使得视频创作变得前所未有的简单和高效。

Sora的一些能力：

Text-to-video: 文生视频
Image-to-video: 图生视频
Video-to-video: 改变源视频风格or场景
Extending video in time: 视频拓展(前后双向)
Create seamless loops: Tiled videos that seem like they never end
Image generation: 图片生成 (size最高达到 2048 x 2048)
Generate video in any format: From 1920 x 1080 to 1080 x 1920 视频输出比例自定义
Simulate virtual worlds: 链接虚拟世界，游戏视频场景生成
Create a video: 长达60s的视频并保持人物、场景一致性

2.Sora模型训练

2.1 Sora技术报告

原文链接：https://openai.com/research/video-generation-models-as-world-simulators

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. **Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.**

2.2 模型训练流程

原始视频数据被切分为 Pathes，通过VAE编码器压缩成低维空间表示；
基于 Diffusion Transformer 完成从文本语义到图像语义的再映射；
DiT 生成的低维空间表示，通过 VAE 解码器恢复成像素级的视频数据。

2.3 视频数据统一表示（Transforming Visual Data into Patches）

在这里插入图片描述
Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构

在这里插入图片描述

2.4 扩散模型DDPM

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.5 基于扩散模型的主干网络

U-Net 网络模型结构把模型规模限定；
SD/SDXL 作为经典网络只公布了推理和微调；
国内主要基于 SD/SDXL 进行二次创作

在这里插入图片描述

3.关键技术

3.1 ViT

ViT 尝试将标准 Transformer 结构直接应用于图像；
图像被划分为多个 patch后，将二维 patch 转换为一维向量作为 Transformer 的输入

3.2 时空编码（Spacetime latent patches）

在这里插入图片描述
摊大饼法：从输入视频剪辑中均匀采样 n_t 个帧，使用与ViT相同的方法独立地嵌入每个2D帧(embed each 2D frame independently using the same method as ViT)，并将所有这些token连接在一起

在这里插入图片描述
将输入的视频划分为若干tuplet，每个tuplet会变成一个token，经过Spatial Temperal Attention 进行空间/时间建模获得有效的视频表征token，即下图中灰色block。

在这里插入图片描述

参考资料

https://datawhaler.feishu.cn/file/KntHbV3QGoEPruxEql2c9lrsnOb

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1478680.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

爬取一人之下所有图片的uzr以及源代码

爬取一人之下所有图片的uzr以及源代码

import requests from lxml import etree import json import os from urllib import request# 设置Bing搜索URL和请求头 url https://cn.bing.com/images/search?q%E4%B8%80%E4%BA%BA%E4%B9%8B%E4%B8%8B%E5%9B%BE%E7%89%87&formIQFRML&first1&cw1177&ch693 …

阅读更多...

Gophish+EwoMail 自建钓鱼服务器

Gophish+EwoMail 自建钓鱼服务器

GophishEwoMail 自建钓鱼服务器文章目录 GophishEwoMail 自建钓鱼服务器1.前提准备2.搭建EwoMail邮件服务器1）Centos7 防火墙操作2）设置主机名3）host配置4）安装EwoMail5）获取DKIM6）端口服务介绍7&#xff…

阅读更多...

BUUCTF crypto做题记录（11）新手向

BUUCTF crypto做题记录（11）新手向

一、[HDCTF2019]bbbbbbrsa 题目所给的信息我汇总到以下代码中 from base64 import b64encode as b32encode from gmpy2 import invert,gcd,iroot from Crypto.Util.number import * from binascii import a2b_hex,b2a_hex import randomflag "************************…

阅读更多...

如何在Win系统从零开始搭建Z-blog网站，并将本地博客发布到公网可访问

如何在Win系统从零开始搭建Z-blog网站，并将本地博客发布到公网可访问

文章目录 1. 前言2. Z-blog网站搭建2.1 XAMPP环境设置2.2 Z-blog安装2.3 Z-blog网页测试2.4 Cpolar安装和注册 3. 本地网页发布3.1. Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1. 前言想要成为一个合格的技术宅或程序员，自己搭建网站制作网页是绕…

阅读更多...

印象笔记 - Markdown 入门指南

印象笔记 - Markdown 入门指南

一、Markdown 是什么？ Markdown 是一种轻量级的「标记语言」，创始人为约翰格鲁伯，用简洁的语法代替排版，目前被越来越多的知识工作者、写作爱好者、程序员或研究员广泛使用。其常用的标记符号不超过十个，相对于更为复…

阅读更多...

苍穹外卖Day03——总结3

苍穹外卖Day03——总结3

前期文章文章标题地址苍穹外卖Day01——总结1https://lushimeng.blog.csdn.net/article/details/135466359苍穹外卖Day01——解决总结1中存在的问题https://lushimeng.blog.csdn.net/article/details/135473412苍穹外卖Day02——总结2https://lushimeng.blog.csdn.net/articl…

阅读更多...

嵌入式中14 个超级牛的免费开源小工具

嵌入式中14 个超级牛的免费开源小工具

Homebrew for macOS 地址：https://brew.sh Mac 上非常好用的包管理工具，很多常见的安装都可以通过 brew install app 或者 brew cask install app 直接安装，类似 apt-get 。 Oh My Zsh 地址：https://github.com/robbyrussell…

阅读更多...

系统设计:设计Spotify

系统设计:设计Spotify

初始阶段：基础版本需求: 初始要求是处理50万用户和3000万首歌曲。我们将有播放歌曲的用户和上传歌曲的艺术家。 1*6V8fzH4kUg780E7AJExMsA.png 估算：数据计算让我们从估算我们需要的存储开始。首先，我们需要将歌曲存储在某种存储中。 •歌曲…

阅读更多...

Machine Vision Technology：Lecture2 Linear filtering

Machine Vision Technology：Lecture2 Linear filtering

Machine Vision Technology：Lecture2 Linear filtering Types of ImagesImage denoising图像去噪Defining convolution卷积的定义Key properties卷积的关键属性卷积的其它属性Annoying details卷积练习Sharpening锐化Gaussian KernelNoise噪声分类Gaussian noise高…

阅读更多...

Sora：开启视频生成新时代的强大人工智能模型

Sora：开启视频生成新时代的强大人工智能模型

目录一、Sora模型的诞生与意义二、Sora模型的技术特点与创新三、Sora模型的应用前景与影响四、面临的挑战与未来发展 1、技术挑战 2、道德和伦理问题 3、计算资源需求 4、未来发展方向随着信息技术的飞速发展，人工智能（AI）已成为…

阅读更多...

jenkins插件下载失败bug

jenkins插件下载失败bug

如果遇到安装jenkins插件经常失败并报以下类似错误，很可能是因为jenkins国外官方插件地址下载速度非常慢，我们可以修改为国内插件地址。 java.io.IOException: Failed to load: SCM API Plugin (scm-api 676.v886669a_199a_a_) - Jenkins (2.361.4) or h…

阅读更多...

外包干了6个月，技术退步明显。。。。。

外包干了6个月，技术退步明显。。。。。

先说一下自己的情况，本科生，2019年我通过校招踏入了重庆一家软件公司，开始了我的职业生涯。那时的我，满怀热血和憧憬，期待着在这个行业中闯出一片天地。然而，随着时间的推移，我发现自己逐渐陷入…

阅读更多...

Java中的时间API：Date、Calendar到Java.time的演变

Java中的时间API：Date、Calendar到Java.time的演变

引言在软件开发中，处理时间和日期是一项基本且不可或缺的任务。无论是日志记录、用户信息管理还是复杂的定时任务，准确地处理时间都显得至关重要。然而，时间的处理并不像它看起来那么简单，尤其是当我们考虑到时区、夏令时等因素…

阅读更多...

稀疏图带负边的全源最短路Johnson算法

稀疏图带负边的全源最短路Johnson算法

BellmanFord算法 Johnson算法解决的问题带负权的稀疏图的全源最短路算法流程重新设置的每条边的权重都大于或等于0，跑完Djikstra后得到的全源最短路，记得要还原，即：f(u,v) d(u,v) - h[u] h[v] 例题

阅读更多...

Javaweb之SpringBootWeb案例之 SpringBoot原理的详细解析

Javaweb之SpringBootWeb案例之 SpringBoot原理的详细解析

3. SpringBoot原理 SpringBoot使我们能够集中精力地去关注业务功能的开发，而不用过多地关注框架本身的配置使用。而我们前面所讲解的都是面向应用层面的技术，接下来我们开始学习SpringBoot的原理，这部分内容偏向于底层的原理分析。在剖析Sp…

阅读更多...

LeetCode225. 用队列实现栈(C++)

LeetCode225. 用队列实现栈(C++)

LeetCode225. 用队列实现栈题目链接代码题目链接 https://leetcode.cn/problems/implement-stack-using-queues/description/ 代码 class MyStack { public:queue<int> q1;queue<int> q2;MyStack() {}void push(int x) {q1.push(x);}int pop() {int size q1…

阅读更多...

【Unity】如何设置Unity脚本的执行顺序？

【Unity】如何设置Unity脚本的执行顺序？

在 Unity 编辑器中设置脚本执行顺序在 Unity 中，如果有多个脚本，并且它们之间的执行顺序很重要，可以通过编辑器设置来确保它们按照自己期望的顺序执行。这对于确保某些脚本在其他脚本之前执行非常有用。在这篇文章中，将向会展示如…

阅读更多...

MySQL 5.7.31详细下载安装配置

MySQL 5.7.31详细下载安装配置

1、下载步骤下载完毕后将文件解压到你想保存到的盘和目录内。我是将文件解压到D:\Mysql目录下面 2.配置环境变量 1.系统—>高级系统设置—>环境变量—>系统变量在系统变量中点击新建，变量名为量名为：MYSQL_HOME，添加你的mysql…

阅读更多...

怎么调用文心一言的api接口生成一个简单的聊天机器人（python代码）

怎么调用文心一言的api接口生成一个简单的聊天机器人（python代码）

寒假在学习大模型，但也没弄出多少眉目，电脑性能还有点小问题，大模型总跑不起来，只会简单调用一下现有的大模型的接口，例如：文心一言，下面展示一下代码： import tkinter as tk impor…

阅读更多...

比亚迪领航新能源时代：汉唐传承，品牌力量

比亚迪领航新能源时代：汉唐传承，品牌力量

比亚迪，以中国文化的深度与自信，为新能源汽车领域注入强大动力。汉唐车型，不仅承载着中国古代文明的辉煌，更以其创新技术和环保理念，终结油电之争，让燃油车再次破防。作为销量冠军，比亚迪品牌的…

阅读更多...

推荐文章

最新文章