OpenAI发布Sora技术报告深度解读!真的太强了!

news2024/12/25 23:42:48

在这里插入图片描述

😎 作者介绍:我是程序员洲洲,一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公粽号:洲与AI。
🎈 本文专栏:本文收录于洲洲的【AI+GPT前沿科技】系列专栏,欢迎大家关注本专栏~专栏一键跳转
🤓 同时欢迎大家关注其他专栏,我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。
🌼 同时洲洲已经建立了程序员技术交流群,如果您感兴趣,可以私信我加入我的社群~社群中将不定时分享各类福利
🖥 随时欢迎您跟我沟通,一起交流,一起成长、进步!点此即可获得联系方式~

导读

大家好,我是小洲。

昨天OpenAI推出的文生成视频大模型Sora可谓是在科技媒体头条一时风头无两,大放异彩。其惊人的逼真细节、流畅的视频动作,以及准确的文本语义还原令人惊叹。许多媒体、科技专家和电影导演纷纷指出,Sora的亮相不仅使一直在该领域深耕的Pika、Stability等知名企业相形见绌,甚至可能对整个影视行业产生颠覆性影响。

Sora主要令人惊艳的点在于可以生成60s的高清视频,一镜到底,并且多个场景镜头无缝衔接,视频主体不变,各个物体间的物理位置关系不变。

今天OpenAI发布了Sora的技术报告,我们来仔细研读一下Sora的技术原理~
(Sora官方技术报告链接:https://openai.com/research/video-generation-models-as-world-simulators)

报告总览

首先我们来梳理一下Sora报告的技术要点:

  • 模型训练

1、Sora的架构是扩散模型Diffusion Model和Transformer.

在最开始的文生视频领域,常用的有RNN\GAN\DM模型。Sora属于扩散模型。

扩散模型展现出卓越的优势,相较于GAN而言,它在生成多样性和训练稳定性方面更为出色。最为关键的是,在图片和视频生成领域,扩散模型呈现出更为广阔的发展空间。相较于GAN模型本质上是机器对人的模仿,扩散模型更像是机器真正学会了“成为一个人”。这不仅突显了其在生成领域的前沿地位,还彰显了其在理解和模拟人类特质方面的独特能力。因此,扩散模型不仅在技术上取得了显著的进步,更为全面地超越了传统的生成对抗网络。

说得直白一点,GAN模型就像是一位学徒,他一边不停地对着样本作画,一边接受着老师的不断评分以进行提升“训练”(生成器和判别器的相互博弈)。最终画家可能取得了不小的进步画出逼真的作品,但整个过程难以精确控制,有时候会走火入魔,输出一些难以理解的内容。而且,他的进步主要是在不断地模仿先前的作品,缺乏创造性。

相比之下,扩散模型则更像是一位勤奋且聪明的创作者。他不仅仅是机械地仿作,而是在学习大量作品的同时,深刻理解图像内涵及图像之间的关系。他具备对图像上的“美”和某种“风格”进行思考的能力,从而更有前途。不同于GAN的局限性,扩散模型在创造性方面表现更出色,为未来的发展提供了更广阔的可能性。

2、Sora模型在训练时是先用预训练模型把各种不同的视频源文件编码统一都转化为Patch表示,接着把时空要素作为Transformer的token进行训练。

大型语言模型之所以在之前取得成功,关键在于Token的出色应用。Token这一概念,可被视作一种巧妙的工具,它成功地将代码、数学以及各种自然语言有机地统一在一起,为进行大规模训练提供了高效而便捷的手段。这种统一不仅简化了模型的训练过程,还促使了不同领域知识的有效交融,为模型的全面学习提供了有力支持。

在视频模型Sora的训练中,OpenAI巧妙地将Token的思想延伸,并引入了“Patch”概念。这里,“Patch”可以被译为图块,这一概念的引入进一步加强了对视频信息的处理能力。通过将Token理解为词元,我们可以将“Patch”视为对图像信息进行分块处理的有效手段,为Sora在处理视频生成时提供了更灵活和精准的工具。

需要强调的是,在大型语言模型的成功背后,Token并非孤立存在。其背后还有Transformer架构的协同作用,这个架构为模型提供了更为智能和高效的学习方式。Transformer架构与Token相辅相成,相互配合,使得模型在各个层面都能更好地理解和处理复杂信息。

因此,Sora作为一种视频生成扩散模型,与主流采用U-Net架构的视频生成扩散模型不同,选择采用了Transformer架构。这种创新设计不仅使Sora在视频生成领域具备独特的优势,还为模型在理解和处理更丰富、更复杂信息方面开辟了新的可能性。这样的前瞻性设计使得Sora在实际应用中表现抢眼,并为视频生成技术的进一步发展贡献了重要的经验和启示。

  • 特点

1、自然语言的理解能力大大增强,可以贴切的理解prompt提示词。

2、可以将视频内容主体的特征保持不变。

3、可以生成长达60s的高清一镜到底视频(之前所有的文生视频大模型几乎都只能生成10s以内的视频内容)。

4、可以实现视频补全、视频延伸等等。

5、已经对真实的物理世界有了认知,可以自然理解一些简单的物理世界原理并做出视频。

Sora报告

(1) 将视觉数据转化为补丁

借鉴于大型语言模型的成功经验,这些模型通过海量的互联网数据训练,具备出色的通用能力。LLM范式的成功得益于其巧妙运用标记,这些标记巧妙地统一了文本、代码、数学以及各种自然语言模式。在研究中OpenAI思考了视觉数据生成模型如何能够继承并运用这些优势。相较于LLM拥有文本标记,Sora则通过引入视觉补丁实现其目标。过去的研究已经证明,补丁在表示视觉数据模型时是一种有效的方式。发现表明,补丁是一种高度可扩展和有效的表示方式,适用于在不同类型的视频和图像上进行生成模型的训练。在更高层面上,首先将视频压缩至较低维的潜在空间,然后通过将表示分解为时空补丁的方式,成功地将视频转换为补丁形式。这一方法为训练生成模型提供了更灵活、更有效的手段。

(2) 视频压缩网络

通过训练网络成功实现了对视觉数据维度的降低。这个网络以原始视频为输入,输出在时间和空间上经过压缩的潜在表示。Sora在这一压缩的潜在空间中接受训练,进而生成出新的视频。为了完善这一过程进行了解码器模型的训练,它能够将生成的潜在表示映射回像素空间,为最终的视觉输出提供了高质量的还原。

这个创新性的方法不仅能够在降低数据维度的同时保持信息的关键性,还为视觉数据处理领域带来了更为高效和灵活的解决方案。

(3) 时空潜补丁

这个“潜”,可以理解成“降维”或者“压缩”,意在用更少的信息去表达信息的本质。

给定一个压缩的输入视频,提取一系列时空补丁,充当变压器令牌。该方案也适用于图像,因为图像只是具有单帧的视频。基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

(4) 改进的框架和构图

基于原始视频的长宽比进行训练有助于改善构图和取景效果。特别将Sora与一种常见的训练生成模型方式进行比较,即将所有训练视频裁剪为正方形的模型版本。在方形裁剪的模型训练中,有时会产生仅显示部分主体的视频的情况。相比之下,Sora模型的视频在取景效果上表现更佳,通过保留原始长宽比,成功改进了视频的构图,使其更加完整和有吸引力。

(5) 语言理解

为了训练文本到视频生成系统采用具备相应文本字幕的大量视频。引入了DALL·E 3中的重新字幕技术,首先培训了一个高度描述性的字幕生成器模型,并将其用于为训练集中的所有视频生成文本字幕。这一过程的关键是通过对高度描述性视频字幕的训练,提高文本的保真度,从而提升整体视频质量。

与DALL·E 3相似,巧妙地利用GPT将短小的用户提示转换为更为详细的字幕,然后将其发送到视频模型。这一策略使得Sora能够生成高质量视频,准确地符合用户的提示,为用户提供了更加个性化和令人满意的视觉体验。

(6) 通过图像和视频进行提示

Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

总结

Hello,各位看官老爷们好,洲洲已经建立了CSDN技术交流群,如果你很感兴趣,可以私信我加入我的社群。

📝社群中不定时会有很多活动,例如每周都会包邮免费送一些技术书籍及精美礼品、学习资料分享、大厂面经分享、技术讨论、行业大佬创业杂谈等等。

📝社群方向很多,相关领域有Web全栈(前后端)、人工智能、机器学习、自媒体变现、前沿科技文章分享、论文精读等等。

📝不管你是多新手的小白,都欢迎你加入社群中讨论、聊天、分享,加速助力你成为下一个技术大佬!也随时欢迎您跟我沟通,一起交流,一起成长。变现、进步、技术、资料、项目、你想要的这里都会有

📝网络的风口只会越来越大,风浪越大,鱼越贵!欢迎您加入社群~一个人可以或许可以走的很快,但一群人将走的更远!

📝关注我的公众号(与CSDN同ID:程序员洲洲)可以获得一份Java 10万字面试宝典及相关资料!~

📝想都是问题,做都是答案!行动起来吧!欢迎评论区or后台与我沟通交流,也欢迎您点击下方的链接直接加入到我的交流社群!~ 跳转链接社区~

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1452833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NodeJS背后的人:Express

NodeJS背后的人:Express 本篇文章,学习记录于:尚硅谷🎢 文章简单学习总结:如有错误 大佬 👉点. 前置知识:需要掌握了解: JavaScript基础语法 、Node.JS环境API 、前端工程\模块化 …

代码随想录算法训练营第53天 | 121.买卖股票的最佳时机 + 122.买卖股票的最佳时机II

今日任务 121. 买卖股票的最佳时机 122.买卖股票的最佳时机II 121.买卖股票的最佳时机 - Easy 题目链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第…

Rust 语言学习杂谈 (end) (各种工作中遇到的疑难杂症)

1.在运行 “cargo build --release” 的时候,到底发生了什么? 源 (GPT4.0) : 当我们运行 cargo build --release 命令时,实际上在进行一系列复杂的步骤来编译和构建 Rust 项目的发布版本。这个过程大致可以分解为以下几个步骤:…

Java - SPI机制

本文参考:SPI机制 SPI(Service Provider Interface),是JDK内置的一种服务提供发现机制,可以用来启动框架扩展和替换组件,主要是被框架的开发人员使用,比如 java.sql.Driver接口,其他…

【C语言】实现队列

目录 (一)队列 (二)头文件 (三) 功能实现 (1)初始化 (2) 销毁队列 (3) 入队 (4)出队 (5&a…

【论文精读】GPT1

摘要 如何从大量未标注文本中获取词级别的信息有两个主要挑战,使用何种优化目标能有效地学习文本表示,如何有效地将学习到的表示迁移到目标任务。针对这些问题,本文提出一种无监督预训练和有监督微调的组合的半监督方法,具体为&am…

Vue3+Ant-Design-Vue:报错Cannot read properties of null (reading ‘isCE‘)

问题描述 在使用Ant-Design-Vue内置的Table表格组件,实现expand展开行功能时,报错:Uncaught TypeError: Cannot read properties of null (reading ‘isCE‘) 。 报错信息图示: 在GitHub上找到如下描述, 解决方案 网上…

【maya 入门笔记】基本视图和拓扑

1. 界面布局 先看基本窗口布局,基本窗口情况如下: 就基本窗口布局的情况来看,某种意义上跟blender更像一点(与3ds max相比)。 那么有朋友就说了,玛格基,那blender最下面的时间轴哪里去了&…

书生浦语大模型实战营-课程笔记(4)

微调分为两种,增量预训练和指令跟随。 指令跟随微调: 1.只对答案计算Loss 2.训练时数据为一问一答的形式(input和output) 增量预训练: 只需要output的数据进行训练 xtuner:微调框架 操作部分的笔记参考git上的文档…

杨中科 ASP.NET DI综合案例

综合案例1 需求说明 1、目的:演示DI的能力; 2、有配置服务、日志服务,然后再开发一个邮件发送器服务。可以通过配置服务来从文件、环境变量、数据库等地方读取配置,可以通过日志服务来将程序运行过程中的日志信息写入文件、控制台、数据库等。 3、说明…

python 基础知识点(蓝桥杯python科目个人复习计划43)

今日复习内容:做点真题和继续复习动态规划 例题1:三国游戏 (用的知识点是贪心和排序) 题目描述: 小蓝正在玩一款游戏,游戏中魏(X),蜀(Y)&…

HAL/LL/STD STM32 U8g2库 +I2C SSD1306/sh1106 WouoUI磁贴案例

HAL/LL/STD STM32 U8g2库 I2C SSD1306/sh1106 WouoUI磁贴案例 📍基于STM32F103C8T6 LL库驱动版本:https://gitee.com/chcsx/platform-test/tree/master/MDK-ARM🎬视频演示: WouoUI移植磁贴案例,新增确认弹窗 &#x1f…

《剑指Offer》笔记题解思路技巧优化 Java版本——新版leetcode_Part_3

《剑指Offer》笔记&题解&思路&技巧&优化_Part_3 😍😍😍 相知🙌🙌🙌 相识😢😢😢 开始刷题1. LCR 138. 有效数字——表示数值的字符串2. LCR 139. 训练计划…

【数据结构】17 二叉树的建立

二叉树的建立 由于树是非线性结构,创建一颗二叉树必须首先确定树中结点的输入顺序,常用方法是先序创建和层序创建。 层序创建所用的节点输入序列是按数的从上至下从左到右的顺序形成的各层的空结点输入数值0。在构造二叉树过程中需要一个队列暂时存储各…

AI数据中心网络架构需求:400/800G光模块

随着AI技术和相关应用的不断发展,大模型、大数据和AI计算能力在AI发展中的重要性日益凸显。大模型和数据集构成AI研究的软件基础,而AI算力是关键的基础设施。在本文中,我们将探讨AI发展对数据中心网络架构的影响。 Fat-Tree数据中心网络架构…

《白话C++》第10章 STL和boost,Page67~70 std::auto_ptr

std::auto_ptr可以不经意间转移裸指针控制权 std::auto_ptr持有裸指针的控制权&#xff0c;却可以随随便便看似不经意地转移给另一个auto_ptr: #include <iostream> #include <memory>using namespace std;struct S {int a;void SetA(int a){this->a a;}~S()…

跟着pink老师前端入门教程(JavaScript)-day02

三、变量 &#xff08;一&#xff09;变量概述 1、什么是变量 白话&#xff1a;变量就是一个装东西的盒子 通俗&#xff1a;变量是用于存放数据的容器&#xff0c;通过变量名获取数据&#xff0c;甚至数据可以修改 2、变量在内存中的存储 本质&#xff1a;变量是程序在内存…

记录:零基础小白初学云计算 第一天

一、认识【rootlocalhost ~】# root:当前登录用户的用户名 localhost&#xff1a;主机名 ~&#xff1a;当前用户的家目录 #&#xff1a;超级用户的命令提示符 基础命令 ifup ens33&#xff1a;启动网卡 ip a&#xff1a;查看IP地址 远程连接端口默认 &#xff1a;22 二…

WordPress主题YIA移动端文章页的面包屑不显示怎么办?

平时我们一般都会在文章页导航菜单下方显示面包屑&#xff0c;类似于“当前位置&#xff1a;boke112百科 WordPress 正文”。平时用浏览器调试站点的时候&#xff0c;在Edge浏览器的“切换设备仿真”中&#xff0c;不管是选择什么设备都会显示面包屑。具体如下图所示&#xf…

C#,整数转为短字符串(Short string)的加解密算法与源代码

1 整数转为短字符串的应用 网站生成的动态 URL 往往以内容序列号id为标识与参数&#xff0c;比如&#xff1a; http://www.jerry.com/tom.aspx?id1 使用 Web Rewrite&#xff0c;可以实现网页静态化&#xff0c;称为&#xff1a; http://www.jerry.com/content/1.html 对…