OpenAI Sora:浅析文生视频模型Sora以及技术原理简介

news2025/1/23 3:47:43

一、Sora是什么?

Sora官方链接:https://openai.com/sora

  视频模型领头羊Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。

OpenAI,永远快别人一步!!!!

像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。

100万token的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在Sora的荣光下被衬得暗淡无光,着实令人唏嘘。

三个词总结 “60s超长长度”、“单视频多角度镜头”,“世界模型”

60s超长长度: pika和runway(视频模型领头羊)还只能生成4s视频,这60s直接拉开了差距。而且动作连续,还有一定的艺术性,没有生硬的感觉。

单视频多角度镜头: 在60s的视频内,可以在保持主角色不变的高度一致性的同时,还生成多个不同角度的分镜。Sora能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。

要知道,以前的AI视频,都单镜头生成的。。

世界模型: Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上持续添加新的笔触,或者一个人吃汉堡时留下咬痕。这个就厉害了,基于虚幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的。

二、为什么这一次Sora得到全世界这么多关注?

1. 技术上遥遥领先

  跟之前的runway和pika可以说不属于一个种群了(类似于猿猴与人类),Sora是跟ChatGPT一样是有理解能力的,它可以感知真实的物理世界和自然语言。

OpenAI究竟是怎么做到的?根据官网介绍,「通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。」

显然,这个王炸级技术有着革命般的意义,连Sam Altman都沉迷到不能自拔!

他不仅疯狂发推安利,而且还亲自下场为网友生成视频:你们随意来prompt
,我一一输出。

1

2. 大幅度降低了短视频制作的成本

   只需一个简单的提示词,就能生成一段制作精良的60秒视频。时间之长,画面之不失违和,简直令人震惊。

   支持使用图片或视频片段进行扩展,生成全新的视频。同时也支持将两个视频合并整合成一个新的视频。

   原先汽车广告视频要花费大量的人力物力,是不是可以AI生成了?电影宣传片是不是也可以?短视频和短片本身就短那就更没问题了吧?(有人甚至认为tiktok都会被取代了)

  但是需要创意和价值观的电影一时半会还不能被替代。因为需要好的估时剧本,好的导演,好的演员,大家配合才能演绎出一个经典的电影。

3. 生成4K图片

Sora 还能够生成图像,分辨率高达 2048×2048。除了Midjourney和Dall-E又有了个新的选择。

Sora一出,马斯克直接大呼:人类彻底完蛋了!

2 6


马斯克为什么这么说?

OpenAI科学家Tim Brooks表示,没通过人类预先设定,Sora就自己通过观察大量数据,自然而然学会了关于3D几何形状和一致性的知识。

三、Sora技术原理简介介绍

1. Sora的训练受到了大语言模型(Large Language Model)的启发

这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。

Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。

OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。

2. Sora的独特方法如何改变视频生成

以往,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。

但是!!!Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。

Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusion transformer模型。

于是,以下功能应运而生——

文字转视频:将文字内容变成视频
图片转视频:赋予静止图像动态生命
视频风格转换:改变原有视频的风格
视频时间延展:可以将视频向前或向后延长
创造无缝循环视频:制作出看起来永无止境的循环视频
生成单帧图像视频:将静态图像转化为最高2048 x 2048分辨率的单帧视频
生成各种格式的视频:支持从1920 x 1080到1080 x 1920之间各种分辨率格式
模拟虚拟世界:创造出类似于Minecraft等游戏的虚拟世界
创作短视频:制作最长达一分钟的视频,包含多个短片

3. Sora秘密成分的核心:时空patch

这种方法使Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。

这种灵活性确保了每条数据都有助于模型的理解,就像厨师可以使用各种食材,来增强菜肴的风味特征一样。

时空patch对视频数据详细而灵活的处理,为精确的物理模拟和3D一致性等复杂功能奠定了基础。

从此,我们可以创建看起来逼真且符合世界物理规则的视频,人类也得以一窥AI创建复杂、动态视觉内容的巨大潜力。

4. 多样化数据在训练中的作用

训练数据的质量和多样性,对于模型的性能至关重要。

传统的视频模型,是在限制性更强的数据集、更短的长度和更窄的目标上进行训练的。

而Sora利用了庞大而多样的数据集,包括不同持续时间、分辨率和纵横比的视频和图像。

它能够重新创建像Minecraft这样的数字世界,以及来自Unreal或Unity等系统的模拟世界镜头,以捕捉视频内容的所有角度和各种风格。

3


这样,Sora就成了一个「通才」模型,就像GPT-4对于文本一样。

四、Sora 怎么使用

目前 openai 官方还未开放 sora 灰度,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要升级 GPT Plus 可以看这个教程 :  升级 ChatGPT Plus ,一分钟完成升级

一位OpenAI员工发推表示,现在Sora只会在有限的范围内试用(刚方面的专业用户评判其伦理性),现在放出的demo主要是为了获得社会大众对它能力的反应

现在,标榜要开发负责任AGI的OpenAI,应该不会冒着风险给大众抛出一个潘多拉魔盒。

笔者认为使用Sora前我们需要有一些准备工作

在开始之前,确保您已经拥有了OpenAI账目,并获得了Sora的访问权限。准备好您想要转化成视频的文本描述,记住越详细越好。

   1. Sora使用步骤一:文本描述

   登录您的OpenAI账户,找到Sora的使用界面。在指定区域输入您的文本描述,可以是一个故事概述、场景描述或是具体的动作指令。

   2. Sora使用步骤二:生成视频

   完成文本描述和自定义设置后,点击“生成视频”按钮。Sora将开始处理您的请求,这可能需要几分钟时间。完成后,您可以预览生成的视频。

需要注意的是,截止2024年2月18日,OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。

openai sora如何使用的常见问答Q&A

1.问题:Sora是什么?

Sora是由OpenAI开发的AI视频生成模型。
Sora可以根据用户提供的描述性文字生成长达60秒的高质量视频。
Sora的视频包含精细复杂的场景、生动的角色表情和复杂的镜头运动。

2.问题:Sora怎么使用?

登录OpenAI账户并找到Sora的使用界面。
在指定区域输入您的文本描述,可以是一个故事概述、场景描述或是具体的动作指令。
点击生成按钮,OpenAI Sora会根据您的文本描述生成视频。

3.问题:Sora的优势有哪些?

Sora具有极强的扩展性,基于Transformer架构,可以应用于各种场景。
Sora能够生成高质量、高清的视频,展现复杂场景的光影关系、物体的物理遮挡和碰撞关系。
Sora可以创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。

4.问题:Sora的训练原理是什么?

Sora的训练分为两个阶段。首先,使用一个标注模型为训练集中的视频生成详细描述。
标注模型生成的描述能够更好地指导Sora生成视频。
Sora利用稳定扩散(Stable Diffusion)技术将静态噪声转换为连贯图像。
Sora模型采用初步的扩散模型生成视频长度,并逐步消除噪声完成视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1576264.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 11属性系统初始化流程

在init进程启动的第二阶段,调用PropertyInit 对属性系统进行初始化 int SecondStageMain(int argc, char** argv) {//省略PropertyInit();//省略 }PropertyInit函数在system\core\init\property_service.cpp 中实现 void PropertyInit() {//省略mkdir("/dev/…

《云原生安全攻防》-- 云原生应用风险分析

为了满足每位朋友的学习需求,并且支持课程的持续更新,本系列课程提供了免费版和付费视频版两种方式来提供课程内容。我们会持续更新课程内容,以确保内容的度和实用性。 在本节课程中,我们将一起探讨云原生应用在新的架构模式下可能…

模块化——如何导入模块?(内置模块与自定义模块)

在Node.js中,要导入另一个模块,我们可以使用require函数。这个函数接受一个文件路径参数,并返回导入的模块。 一、require使用注意事项: (1)自己创建的模块,导入时建议写相对路径,不能省略./和../ //我把…

Struts2:Action类的写法,推荐使用继承ActionSupport类的方法

文章目录 方法一:Action类是一个POJO类(简单的Java类)ActionDemo2.javastruts_demo2.xmlstruts.xml运行结果其他strutsz_demo1.xml 方法二:实现一个Action的接口ActionDemo2_2.javastruts_demo2.xml运行结果 推荐!&…

基于视频监管与AI智能识别技术的水利河道综合治理解决方案

一、方案介绍 TSINGSEE青犀视频水利河道综合治理解决方案是依托视频AI智能分析技术,利用水质/水文等传感器、高清摄像机、水利球、无人机、无人船等感知设备实时采集数据,并与视频能力进行联动,达到智能预警的目的。 TSINGSEE青犀方案以信息…

【单源最短路 图论】882. 细分图中的可到达节点

作者推荐 视频算法专题 本文涉及知识点 单源最短路 图论 LeetCode 882. 细分图中的可到达节点 给你一个无向图(原始图),图中有 n 个节点,编号从 0 到 n - 1 。你决定将图中的每条边 细分 为一条节点链,每条边之间…

4月7号总结

java学习 一.正则表达式 定义:正则表达式是一种用于描述字符串模式的表达式,通常被用于文本搜索、匹配和替换。它是一种强大的工具,可以在文本处理和文本分析中进行复杂的匹配和操作。 通过字符串引用里面的方法matches,然后执行…

jupyter python paramiko 网络系统运维

概述 通过使用jupyter进行网络运维的相关测试 设备为H3C 联通性测试 import paramiko import time import getpass import re import os import datetimeusername "*****" password "*****" ip "10.32.**.**"ssh_client paramiko.SSHCli…

相机标定——四个坐标系介绍

世界坐标系(Xw,Yw,Zw) 世界坐标系是一个用于描述和定位三维空间中物体位置的坐标系,通常反映真实世界下物体的位置和方向。它是一个惯性坐标系,被用作整个场景或系统的参考框架。在很多情况下,世界坐标系被认为是固定不变的,即它…

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单视频处理实战案例 之四 简单视频倒放效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单视频处理实战案例 之四 简单视频倒放效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单视频处理实战案例 之四 简单视频倒放效果 一、简单介绍 二、简单视频倒放效果实现原理 三、简单视频倒放效果案例实现…

C++搭建深度学习的推理框架

我们的目的是:借助C++搭建一个类似于pytorch,tensorflow的深度学习框架,对标pytorch,tensorflow实现对应的功能。由于本人能力有限,下面本人将借助C++搭建一个简单的全连接神经网络,并且尝试解释里面的算子定义和计算图构建。 算子定义 回顾pytorch里面搭建的全连接神经网…

探索未来游戏:生成式人工智能AI如何重塑你的游戏世界?

生成式人工智能(Generative AI)正以前所未有的速度改变着各行各业的运作模式。其中,游戏产业作为科技应用的前沿阵地,正经历着前所未有的变革。本文将探讨生成式人工智能如何重塑游戏产业,以及这一变革背后的深远影响。…

Sora是什么?Sora怎么使用?Sora最新案例视频以及常见问题答疑

Sora 是什么? 2024年2月16日,OpenAI 在其官网上面正式宣布推出文本生成视频的大模型Sora 这样说吧给你一段话, 让你写一篇800字的论文,你的理解很可能都有偏差,那么作为OpenAi要做文生视频到底有多难,下面…

Linux设备深探:桥接硬件与软件的秘密通道

在Linux的世界里,"设备"这个词汇比你想象的要丰富和多彩得多。让我们一起来探索Linux设备的奥秘,理解它们是如何在Linux操作系统中发挥作用的。🐧✨ 1. 什么是Linux设备? 在Linux中,设备被看作是一种特殊的…

Day01-SHELL自动化编程-变量与特殊变量

Day01-SHELL自动化编程-变量与特殊变量 1.编程概述2.课程内容3.Shell编程语言必知必会4.编程语言分类(按照执行方式)-了解5.编程环境准备6.Shell脚本执行方式6.1概述6.2详解6.2.1 sh或bash6.2.1 .或source6.2.3 相对或绝对路径6.2.4 使用重定向符号执行脚…

iOS 17.5系统或可识别并禁用未知跟踪器,苹果Find My技术应用越来越合理

苹果公司去年与谷歌合作,宣布将制定新的行业标准来解决人们日益关注的跟踪器隐私问题。苹果计划在即将发布的 iOS 17.5 系统中加入这项提升用户隐私保护的新功能。 科技网站 9to5Mac 在苹果发布的 iOS 17.5 开发者测试版内部代码中发现了这项反跟踪功能的蛛丝马迹…

Spring源码解析-容器基本实现

spring源码解析 整体架构 defaultListableBeanFactory xmlBeanDefinitionReader 创建XmlBeanFactory 对资源文件进行加载–Resource 利用LoadBeandefinitions(resource)方法加载配置中的bean loadBeandefinitions加载步骤 doLoadBeanDefinition xml配置模式 validationMode 获…

海外媒体宣发,穿透与世界的交流 - “保姆级”教程 - 大舍传媒

1. 引言 在当今高度信息化的世界,境外媒体宣发已经成为企业、品牌和政府机构推广自身形象、扩大影响力的重要手段。如何在国际舞台上有效传播信息,提高国际知名度,成为了许多组织面临的重要课题。大舍传媒凭借多年的境外媒体宣发经验&#x…

数据恢复与数据取证的便携工具:PC-3000 Portable III

天津鸿萌科贸发展有限公司从事数据安全业务20余年,在数据恢复、数据取证、数据备份等领域有丰富的案例经验、前沿专业技术及良好的行业口碑。同时,公司面向取证机构及数据恢复同行,提供实验室建设方案,包含数据恢复与数据取证硬件…

elementPlus el-table动态列扩展及二维表格

1、循环列数据源&#xff0c;动态生成列 <template><div><el-table ref"table" :data"pageData.tableData" stripe style"width: 100%"><el-table-column v-for"column in pageData.columns" :key"column.p…