OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?

news2024/10/4 16:27:38

Sora大模型简介

OpenAI 的官方解释了在视频数据基础上进行大规模训练生成模型的方法。

我们下面会摘取其中的关键部分罗列让大家快速get重点。

喜欢钻研的伙伴可以到官网查看技术报告:

https://openai.com/research/video-generation-models-as-world-simulators

技术特点

  • 三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

  • 模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力

  • 长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

  • 与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

强在哪里

  • 文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。

  • 复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。

  • 语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。

  • 多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

  • 从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。

  • 物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。

为什么是可作为世界模拟器的视频生成模型

  • 统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。

  • 视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。

  • 扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

  • 视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。

  • 语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。

  • 图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

  • 模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。

  • 讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

训练过程

Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。Sora实际上是一种扩散型变换器模型(diffusion transformer)。

  • 首先将视频压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

  • 训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

  • 对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

  • 随着 Sora 训练计算量的增加,样本质量有了显著提升。

  • Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

  • 针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

  • 训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

  • 与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。Video generation models as world simulators。

与其他视频大模型的比较分析

绘图能力 - 与MJ6对比

来源:https://twitter.com/doganuraldesign/status/1758444092328194217

视频效果 - 与Runway,Pika,Stable Video对比

去年,Pika Labs发布的文生视频大模型Pika 1.0曾轰动一时。该产品只需某张图片输入所需要的动态指令,或者框选某段视频的某个部位,输入指令,就能生成相应的视频。

当时,有不少网友都表示,该产品生成的视频质量属实很炸裂,但只能生成3秒以内的视频,这点有些影响体验。几个月时间不到,Sora已经能够生产60s级的稳定、连续、模拟真实世界的视频,而且效果上几乎碾压,我们来看看对比:

Sora吊打其他

Sora吊打SD

商业变现场景

Sora可能带来的影响

如果Sora能够真正意义上实现文生视频,可能会带来哪些影响呢?我们来听听Sora发布后业界的声音:

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的“虚拟偶像”,此前的二次元人物并没有真正达到“偶像”的级别。
  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。
  3. Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
  4. OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
  5. 直接的影响是影视行业,特别是特效行业。使用AI来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
  8. 对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
  9. 很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。不过,从Sora官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。

在Sora官网,OpenAI也表示,Sora是能够理解和模拟现实世界的模型的基础,OpenAI相信这一能力将是实现AGI的重要里程碑。

进一步落地后,可能的应用场景:

Sora+广告

  1. 个性化和定制化广告内容:根据目标受众的兴趣、习惯及互动历史,生成个性化的广告内容。例如,为每个观众提供定制的产品展示视频,以提高广告的吸引力和转化率。
  2. 高效率的广告制作:借助Sora的能力,广告制作过程可以大幅简化,从概念到成品的时间大大缩短,同时保持或提高广告的视觉质量。
  3. 虚拟场景和角色的创新应用:创建虚拟的场景和角色参与广告,无需实地拍摄或聘请演员,为广告创意提供几乎无限的可能性。
  4. 动态内容更新:针对不同的广告投放周期和受众反馈,实时更新广告内容和呈现方式,保持广告的新鲜感和相关性。
  5. 交互式和沉浸式广告体验:结合Sora的技术和交互式媒体(如AR/VR),为用户提供沉浸式的广告体验,增强品牌印象和用户参与度。
  6. 广告数据分析和优化:通过分析用户对AI生成广告内容的互动和反馈,优化广告策略和创意设计,实现更高的ROI。
  7. 品牌形象和故事叙述:Sora的出现让企业制作品牌视频的成本大幅下降,会反过来刺激企业品牌视频的需求,只需要一段文字就可以通过Sora生成的内容,塑造和传递品牌故事,加深品牌形象和价值观在目标受众心中的印象。

Sora+教育

  1. 历史和文化重现:通过Sora技术,历史事件、文化遗产和著名地标可以被逼真地重现,提供沉浸式的学习体验,帮助学生更好地理解和感受历史和文化。
  2. 语言学习与文化沉浸:Sora可以生成不同文化背景的虚拟场景和对话,帮助学习者在沉浸式环境中学习新语言,提高语言学习的效率和乐趣。
  3. 远程教育与在线课程:Sora技术可以为远程教育提供高质量的视频内容,使在线学习更加生动和吸引人,提高学习者的参与度和满意度。
  4. 互动式学习游戏和活动:结合游戏化学习理念,Sora可以创建互动式的学习游戏和活动,提高学习的趣味性和有效性。
  5. 特殊教育资源开发:为特殊需要的学生设计定制化的教育内容,例如为视障学生创建音频重点的教育材料,或为听障学生设计带有手语解释的视频。

Sora+大电影

  1. 虚拟演员和虚拟导演:开发虚拟演员和虚拟导演参与电影制作,不仅降低成本,还能创造出超越现实限制的表演和视觉效果。
  2. 个性化和定制电影制作:用户可以根据自己的喜好定制电影内容,包括剧情走向、角色设定甚至是结局。这种个性化服务可以作为高端娱乐产品向市场推出。
  3. 虚拟电影制作服务:为小型电影制作公司或独立电影制作者提供虚拟电影制作服务,包括虚拟场景构建、角色设计等,极大降低电影制作成本,加速电影制作进程。
  4. 电影内容的即时生成:根据观众的反馈和需求,实时调整和生成电影内容,为观众提供更加个性化和互动的观影体验。
  5. 云端电影制作平台:提供云端的电影制作和编辑平台,允许全球的创作者协同工作,共同参与电影项目的制作。
  6. 跨媒体内容创作:结合图书、游戏、虚拟现实(VR)等多种媒介,利用Sora技术创作跨媒体故事内容,吸引更广泛的受众。
  7. 电影营销和宣传新模式:通过Sora技术快速制作电影预告片、角色介绍等宣传材料,提高营销效率和吸引力。
  8. 版权和衍生品开发:AI创作的电影和角色可以开发出新的版权和衍生品市场,包括虚拟商品、角色授权等。
  9. AI影评和内容推荐:利用AI技术分析电影内容和用户偏好,提供个性化的影评和电影推荐服务。
  10. 电影制作教育和培训:制作结合Sora技术的电影制作的在线教育和培训课程,让更多的人学会以较低成本制作影视作品的相关技能。

总之,我们一直说的未来,好像真的要来了!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1457240.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【图论经典题目讲解】CF786B - Legacy 一道线段树优化建图的经典题目

C F 786 B − L e g a c y \mathrm{CF786B - Legacy} CF786B−Legacy D e s c r i p t i o n \mathrm{Description} Description 给定 1 1 1 张 n n n 个点的有向图,初始没有边,接下来有 q q q 次操作,形式如下: 1 u v w 表示…

GO和KEGG富集分析

写在前面 我们《复现SCI文章系列教程》专栏现在是免费开放,推出这个专栏差不多半年的时间,但是由于个人的精力和时间有限,只更新了一部分。后续的更新太慢了。因此,最终考虑后还是免费开放吧,反正不是什么那么神秘的东…

关于数据结构的定义以及基本的数据结构

在计算机科学中,数据结构是指用于组织和存储数据的方式或方法。它涉及到在计算机内存中存储、管理和操作数据的技术和原则。数据结构不仅仅是简单地存储数据,还可以提供高效的数据访问和操作方式,以满足特定的需求。 以下是每个数据结构的详细…

mkcert安装教程

1、下载 官方文档:https://github.com/FiloSottile/mkcert#mkcert 下载链接:https://github.com/FiloSottile/mkcert/releases 2、安装,该文件目录下打开cmd(可以把文件复制到别的文件夹),执行命令 //命令…

开源模型应用落地-工具使用篇-向量数据库进阶(四)

一、前言 通过学习"开源模型应用落地"系列文章,我们成功地建立了一个完整可实施的AI交付流程。现在,我们要引入向量数据库,作为我们AI服务的二级缓存。本文将继续基于上一篇“开源模型应用落地-工具使用篇-向量数据库(三…

FreeRTOS移植到GD32

目录 一、GD32基础工程创建: 1、创建如下文件夹 2、在keil5创建工程 3、在工程添加相关.c文件和头文件路径 4、实例:实现LED闪烁功能 二、在基础工程添加FreeRTOS: 1、FreeRTOS中的文件: 2、添加的源文件: 3、添加的头文件路径: 4、…

机器人常用传感器分类及一般性要求

机器人传感器的分类 传感技术是先进机器人的三大要素(感知、决策和动作)之一。根据用途不同,机器人传感器可以分为两大类:用于检测机器人自身状态的内部传感器和用于检测机器人相关环境参数的外部传感器。 内部传感器 内部传感…

【JavaEE】_HTML常用标签

目录 1.HTML结构 2. HTML常用标签 2.1 注释标签 2.2 标题标签:h1~h6 2.3 段落标签:p 2.4 换行标签:br 2.5 格式化标签 2.6 图片标签:img 2.7 超链接标签:a 2.8 表格标签 2.9 列表标签 2.10 表单标签 2.10…

航班进出港|航班进出港管理系统|基于springboot航班进出港管理系统设计与实现(源码+数据库+文档)

航班进出港管理系统目录 目录 基于springboot航班进出港管理系统设计与实现 一、前言 二、系统功能设计 三、系统实现 5、航班信息管理 (1) 航班信息管理 (2)起飞降落申请管理 (3)公告管理 &…

辽宁博学优晨教育科技有限公司视频剪辑培训专业之选

随着数字时代的到来,视频剪辑技术已成为各行各业不可或缺的一项技能。为了满足市场需求,辽宁博学优晨教育科技有限公司(以下简称“博学优晨”)推出了专业的视频剪辑培训课程,旨在为广大学员提供系统、高效的学习机会。…

AMD FPGA设计优化宝典笔记(4)复位桥

高亚军老师的这本书《AMD FPGA设计优化宝典》,他主要讲了两个东西: 第一个东西是代码的良好风格; 第二个是设计收敛等的本质。 这个书的结构是一个总论,加上另外的9个优化,包含的有:时钟网络、组合逻辑、触…

面试系列之《Spark》(持续更新...)

1.job&stage&task如何划分? job:应用程序中每遇到一个action算子就会划分为一个job。 stage:一个job任务中从后往前划分,分区间每产生了shuffle也就是宽依赖则划分为一个stage,stage这体现了spark的pipeline思…

picker选择器-年月日选择

从底部弹起的滚动选择器。支持五种选择器,通过mode来区分,分别是普通选择器,多列选择器,时间选择器,日期选择器,省市区选择器,默认是普通选择器。 学习一下日期选择器 平台差异说明 日期选择默…

k8s学习(RKE+k8s+rancher2.x)成长系列之简配版环境搭建(三)

3.19.切换RKE用户,并做免密登录(三台机器相互免密) su rke cd~ ssh-keygen[rke@master.ssh]$ssh-copy-id rke@slaver2 [rke@master.ssh]$ssh-copy-id rke@slaver1 [rke@master.ssh]$ssh-copy-id rke@master3.20.搭建RKE集群 为了方便理解,我们把通RKE部署的Kubernetes集群称…

浏览网页记录工具,企业如何查看员工网页浏览记录

随着信息技术的飞速发展,网络已成为企业日常运营和员工工作中不可或缺的一部分。然而,随之而来的是网络安全和员工上网行为管理的挑战。在这种情况下,浏览网页记录工具成为了企业监控员工上网行为的重要手段之一。 一、浏览网页记录工具的重要…

MySQL 基础知识(十)之 MySQL 架构

目录 1 MySQL 架构说明 2 连接层 3 核心业务层 3.1 查询缓存 3.2 解析器 3.3 优化器 3.4 执行器 4 存储引擎层 5 参考文档 1 MySQL 架构说明 下图是 MySQL 5.7 及其之前版本的逻辑架构示意图 MySQL 架构大致可分为以下三层: 连接层:负责跟客户…

unity学习(29)——GameInfo角色信息

1.把GameInfo.cs PlayerModel.cs Vector3.cs Vector4.cs PlayerStateConstans.cs GameState.cs依次粘到model文件夹中,此时项目没有错误,如下图所示; 对应处所修改的代码如下: case LoginProtocol.LOGIN_SRES://1 {Debug.Log(&qu…

软件工程师,AI手机元年到来,我们怎么办

概述 OPPO创始人、总裁、CEO陈明永在2024年2月18日发表了名为《开启AI手机新时代》的内部信。陈明永认为:“2024年是AI手机元年。未来五年,AI对手机行业的影响,完全可以比肩当年智能手机替代功能机”。他预测AI手机时代将成为继功能机、智能手…

docker jenkins 报错:script.sh.copy: 1: mvn: not found

找不到mvn,一般是没配置环境变量的问题。点开系统配置,设置环境变量即可

Python教程(27)——如何使用Python中的上下文管理器

当我们在编写代码时,经常会遇到需要管理资源的情况,比如打开和关闭文件,如果遇到了一些异常情况,我们需要关闭资源,不然会导致资源泄露,虽然我们可以通过手动的方式来关闭,但如果有多个异常情况…