OpenAI文生视频大模型Sora概述

news2024/11/15 9:59:44

Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布。

Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。

行业背景

  • OpenAI在大模型领域的成功

2022年底,OpenAI正式推出ChatGPT,这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT是OpenAI迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后,OpenAI的开发重点逐步过渡到图像的生成,Dall-E模型在生成图像方面也获得了重大突破。

  • 视觉算法的进步

        视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域,由于扩散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D资产和视频生成在数据和算法方面面临的难点更多 。

        尽管如此,考虑到大型语言模型(LLM)对人工智能各领域的加速作用以及已经出现的优秀开源模型,2024年该行业有望实现更大的发展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的视频应用逐渐受到关注,这验证了多模态技术的持续进步与成熟 。但与此同时,民主倡导者和人工智能研究人员警告说,这些工具已经被用来欺骗和欺骗民众。

发展历程

模型发展

2021年1月5日

文生图模型Dall-E发布

Dall-E可以根据简单的描述创建逼真和清晰的图像,精通各种艺术风格,还可以生成文字制作建筑物上的标志,并制作同一场景的草图和全彩图像。

2022年4月

Dall-E 2发布

Dall-E 2不仅可以生成更真实和更准确的画像,而且能够将文本描述中的概念、属性和风格等元素综合起来,生成现实主义的图像和艺术作品。

2022年11月30日

大语言模型ChatGPT发布 

ChatGPT不仅能与人对话,还能编写代码、创作内容等,这一款革命性产品的上线引发全球关注,上线仅5天用户数量就已突破100万。

2023年3月15日

GPT-4正式面世

GPT-4可以更准确地解决用户的难题,多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前代产品。

2023年9月21日

Dall-E 3正式发布

Dall-E 3能够更准确、更优秀地生成效果,可以更准确地呈现用户的想法,用户可以要求ChatGPT提供合适的提示词。

2024年2月16日

Sora问世 

Sora继承了Dall-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

功能特色

优点

  • 功能综述

Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频 (其他AI视频工具还在突破几秒内的连贯性 ),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。

中国龙年舞龙

雨后的东京街头

行驶中的列车窗外

好莱坞大片质感的电影预告片

加州淘金热时期的历史镜头

玻璃球的特写视图

24岁女性眨眼的极端特写

  • 静态图生成视频

Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。

  • 视频扩展与缺失帧填充

Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善 。

  • 连接视频

可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。

  • 其他能力

Sora的其他能力

能力

描述

图像生成

Sora可以生成各种尺寸的图像,分辨率最高达2048×2048。

3D一致

Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动。

远距离连贯性

物体持久性

Sora通常能够有效地对短期和长期依赖关系进行建模,包括人、动物和物体的持久化,即使它们被遮挡或离开框架。同时,它还能在单个样本中生成同一角色的多个镜头,以保持其在整个视频中的外观。

互动性

Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕。

模拟数字世界

Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态 。

多机位

Sora可以生成多机位、多角度的视频 。

缺点

狼在追逐打闹过程中,可能会凭空多出或消失

Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件。

没有正确表示篮球穿过篮筐的过程

例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。

OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。

技术特点

多帧预测生成

Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。

特殊架构

Sora采用与GPT模型相似的Transformer架构,OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础 。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力 。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的状态空间模型(SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像 。

 

重述提示词

Sora借鉴DALL-E 3的“重述提示词技术”,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性。

数据表示

OpenAI将视频和图像表示为Patch,类似于GPT中的token,这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比,有助于模型学习到更丰富的视觉特征,提高生成视频的质量和多样性。

原生规模训练

Sora采用“原生规模训练”,过往的图像和视频生成通常会将视频调整为标准大小,但这样会失去视频的原始长宽比和细节,而原生规模的训练方法可以带来更好的效果。Sora可以对各种尺寸和纵横比的视频进行采样,允许直接为不同尺寸的设备创建内容,并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比,Sora可以生成更完整、更美观的视频 。

 社会影响

价值意义

Sora对于需要制作视频的艺术家、电影制片人或学生来说,都带来了无限可能。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃,也被认为是实现通用人工智能(AGI)的重要里程碑,通过不断深入研究和发展Sora等先进模型,有望在未来实现更加智能、高效和多样化的视频生成与处理技术。

产业格局

  • 估值上涨

Sora发布后,OpenAI的估值迅速上涨(有望超过800亿美元,2023年ChatGPT发布不久时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨 [38]。与此同时,受Sora发布的影响,美国图片供应商Shutterstock的股价大跌。

在中国,龙年开市第一天,Sora相关概念全线“爆发”,会畅通讯、当虹科技、万兴科技、易点天下、因赛集团、东方国信、数码视讯、华扬联众、国脉文化等股票均大幅上涨,多家公司回应称,将根据自身业务特点,在文生视频技术落地、Sora应用等方面寻找突破入口。

  • 生产变革

浙商证券预测,Sora及同类产品将参与到改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用AI工具辅助生产,UGC(用户生成内容)将借助AI工具逐步替代PGC。此间,AI生成视频工具的商业化将提速 。

Sora可生成一段长达60秒的视频,远超市面同类AI产品视频生成时长,60秒的视频时长,已经超过抖音等短视频平台的平均视频时长,Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。 

职业取代

截至2024年2月,已有一些视觉艺术家、设计师和电影制作人以及OpenAI员工获得了Sora访问权限,他们也已开始在社交平台不断晒出使用Sora生成的新作品,为人们展示AI生成视频的创意可能。许多网友称“不少人要丢工作了”,甚至有人开始“悼念”一整个素材行业。

各界评价

各界对Sora的评价/态度

类别

专家

评价

科技界

英伟达科学家

DrJimFan

Sora是一个数据驱动的物理引擎,它是对许多世界的模拟,无论是真实的还是幻想的,模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。

趣丸集团副总裁

庄明浩

Sora的面世影响的不仅是文生视频领域,下一步将是过去一年各家游戏物理引擎厂商们一直在尝试的自然语言改造生产流程,以及3D素材生产这个战场 。

伊利诺伊大学厄巴纳-香槟分校

信息科学教授特德·安德伍德

没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平。

普林斯顿大学计算机科学教授

Arvind Narayanan

根据OpenAI发布的视频,Sora似乎比任何其他视频生成工具都“先进得多”,这可能会导致“深度伪造”视频,人们更难识别出人工智能生成的视频 。

360集团创始人、董事长

周鸿祎

Sora将缩短AGI(通用人工智能)实现时间,从10年缩短到1年。OpenAI训练该模型应该会以视频和摄像头捕捉的画面为主,人工智能通过观看大量视频将对世界有更深入的理解,这离AGI实现不远 。

图灵奖得主、Meta首席AI科学家

杨立昆

根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界,生成视频的过程与基于世界模型的因果预测完全不同 。

影视界

电影导演兼视觉效果专家

迈克尔·格雷西

很快,像Sora这样的人工智能工具将允许电影制作者仔细控制他们的输出,从头开始创建各种视频,当技术剥夺了其他人的创造力、工作、想法和执行力,却没有给予他们应有的荣誉和经济报酬时,不是一件好事情 。

专业摄影师

孟凡

Sora视频帧率较高,说明计算能力比较强,且影片的宽容度更高,如调色、细节表现、高速镜头展现等。在直观感受上,Sora 模型产出的视频运镜自然,物体运动符合规律,镜头间逻辑一致性好,但是Sora视频的逻辑性会差一点 。

中国电影文学学会副秘书长

杜红军

编剧、导演不必因Sora的出现而担心,它是帮助实现影视效果的好工具,能够激发更多人的内容创造力。人类负责创意,AI负责创造,未来的电影创作将是概念片先行,可能不是在写剧本,而是“写”影像 。

社会界

中国社会科学院法学研究所

副研究员唐林垚

相较于其他视频类生成式AI,Sora在画面清晰度、内容流畅度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公布一样强大,且之后可以像ChatGPT一样便捷访问,那么Sora将给广告行业、影视行业和特效行业带来极大的冲击。 

前记者、现斯坦福大学研究员

巴西勒·西蒙

在生成式人工智能方面有了可怕的飞跃,可以快速生成逼真的作品,这些工具可能会在选举中被滥用,公众将可能“不再知道该相信什么” 。

主要竞品

Sora的部分竞品

公司

产品

技术路线

发布时间

英伟达

PYoCo

扩散模型

2023.05

Runway

Gen-2

扩散模型

2023.06

Pika Labs

Pika 1.0

扩散模型

2023.11

Meta

Emu Video

扩散模型

2023.11

Stability AI

Stable Video Diffusion

扩散模型

2023.11

谷歌

Video Poet

Transformer

2023.12

字节跳动

MagicVideo-V2

扩散模型

2024.01

相较于其他模型,Sora的优势主要是三方面:

  • 第一:可以生成长达60秒钟的视频,包括多个角色、特定类型动作和主题背景;

  • 第二:可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格;

  • 第三:能够理解物体在现实世界中的物理规律和存在方式 。

社会争议

虚假信息

        Sora的发布引发了关于虚假信息传播的争议。其强大的图像视频生成能力达到了以假乱真的程度,这不仅改变了人们“眼见为实”的传统观念,还可能带来一系列社会问题,如视频证据真实性和有效性的验证难题。在Sora问世前已有多起利用AI伪造视频进行诈骗的案例,显示了AI生成视频可能被滥用于非法目的的风险。Sora的普及可能会进一步降低制作高质量虚假视频的门槛,加剧虚假信息的传播。尽管互联网平台已有针对特定类型虚假信息的检测机制,但对于复杂难辨的信息仍需加强深度分析和及时阻断。随着AI生成内容的激增,网络上的合成内容将大量存在,这要求不仅在技术上持续改进,还需建立更全面的治理体系来有效应对虚假信息的挑战。

版权问题

        Sora可能引发侵权争议。一方面,Sora生成的视频版权是否受到保护尚不明确,这可能导致使用这些视频的主体面临侵权索赔和版权保护追溯的风险。另一方面,Sora在训练过程中使用了相关素材,即使只是用这些素材进行训练,也可能存在潜在的侵权风险 。

源自:Sora(OpenAI发布的人工智能文生视频大模型)_百度百科

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1464494.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三维测量技术及应用

接触式测量(Contact Measurement): 坐标测量机(CMM, Coordinate Measuring Machine):通过探针直接接触物体表面获取三维坐标数据。优点是精度高,但速度慢,对软质材料测量效果不佳&am…

qt 软件发布(Windows)

1. 开发环境 QtCreator MSVC编译器 2. 源码编译 生成release或者debug版本的exe可执行文件(x64或x86) 3. windeployqt 打包 ①左下角开始菜单栏找到QT的命令交互对话框,如下图MSVC 2017 64-bit(根据第二步编译的类型选择64位或者32位)。 ②cd 切换到第二步可…

igolang学习2,golang开发配置国内镜像

go env -w GO111MODULEon go env -w GOPROXYhttps://goproxy.cn,direct

杂题——1097: 蛇行矩阵

题目描述 蛇形矩阵是由1开始的自然数依次排列成的一个矩阵上三角形。 输入格式 本题有多组数据,每组数据由一个正整数N组成。(N不大于100) 输出格式 对于每一组数据,输出一个N行的蛇形矩阵。两组输出之间不要额外的空行。矩阵三角…

【算法与数据结构】841、LeetCode钥匙和房间

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:   程序如下: 复杂度分析: 时间复杂度: O ( ) O() O()。空间复杂…

VR系统的开发流程

虚拟现实(Virtual Reality,VR)系统是一种通过计算机技术模拟出的具有三维视角和交互性的虚拟环境,使用户能够沉浸在其中并与虚拟环境进行交互。这种技术通常利用头戴式显示器和手柄等设备,使用户能够感觉到仿佛身临其境…

(全注解开发)学习Spring-MVC的第三天

全注解开发 第一部分 : 1.1 消除spring-mvc.xml 这些是原来spring-mvc.xml配置文件的内容 <!--1、组件扫描, 使Controller可以被扫描到--><context:component-scan base-package"com.itheima.controller"/><!--2、非自定义的Bean, 文件上传解析器--&…

mysql优化指南之优化篇

二、优化 现在的理解数据库优化有四个维度&#xff0c;分别是&#xff1a; 硬件升级、系统配置、表结构设计、SQL语句及索引。 那优化的成本和效果分别如下&#xff1a; 优化成本&#xff1a;硬件升级>系统配置>表结构设计>SQL语句及索引。 优化效果&#xff1a;…

编码器AB信号输入脉冲信号测量2路DI高速计数器PNP/NPN转RS-485数据采集模块 YL150-485

特点&#xff1a; ● 编码器解码转换成标准Modbus RTU协议 ● 可用作编码器计数器或者转速测量 ● 支持编码器计数&#xff0c;可识别正反转 ● 也可以设置作为2路独立DI高速计数器 ● 计数值支持断电自动保存 ● DI输入支持PNP和NPN输入 ● 继电器和机械开关输入时可以…

【AI应用】SoraWebui——在线文生视频工具

SoraWebui 是一个开源项目&#xff0c;允许用户使用 OpenAI 的 Sora 模型使用文本在线生成视频&#xff0c;从而简化视频创建&#xff0c;并具有轻松的一键网站部署功能 在 Vercel 上部署 1. 克隆项目 git clone gitgithub.com:SoraWebui/SoraWebui.git 2. 安装依赖 cd Sor…

flutter开发实战-手势Gesture与ListView滚动竞技场的可滑动关闭组件

flutter开发实战-手势Gesture与ListView滚动竞技场的可滑动关闭组件 最近看到了一个插件&#xff0c;实现一个可滑动关闭组件。滑动关闭组件即手指向下滑动&#xff0c;组件随手指移动&#xff0c;当移动一定位置时候&#xff0c;手指抬起后组件滑出屏幕。 一、GestureDetect…

数据安全治理实践路线(上)

基于以上数据安全治理实践理念&#xff0c;可以按照自顶向下和自底向上相结合的思路推进实践过程。一方面&#xff0c;组织自顶向下,以数据安全战略规划为指导,以规划、建设、运营、优化为主线&#xff0c;围绕构建数据安全治理体系这一核心&#xff0c;从组织架构、制度流程、…

这份攻略帮助你分分钟构建出“幻兽帕鲁游戏”极致体验【下】

在上一篇文章这份攻略帮助你分分钟构建出“幻兽帕鲁游戏”极致体验【上】中写了&#xff0c;极狐GitLab 将 terraform state 文件管理了起来。这篇文章将演示如何将所有的 terraform 文件存储到极狐GitLab 中&#xff0c;并且使用 CI/CD 自动实现 terraform 命令的执行。 在 D…

HGAME week2 web

1.What the cow say? 测试发现可以反引号命令执行 ls /f* tac /f*/f* 2.myflask import pickle import base64 from flask import Flask, session, request, send_file from datetime import datetime from pytz import timezonecurrentDateAndTime datetime.now(timezone(…

在word中将latex格式的公式转化为带有编号的mathtype公式

在word中将latex格式的公式转化为带有编号的mathtype公式 1.先在word里面配置好mathtype2.在word中设置mathtype的格式3.先将latex格式的公式转化为mathml格式4.读到这里&#xff0c;是不是觉得这个方法麻烦 1.先在word里面配置好mathtype 注意&#xff1a;1.word的版本应该是 …

关于运行flutter app 运行到模拟器出现异常提示

Exception: Gradle task assembleDebug failed with exit code 1 解决方案&#xff1a; 1.讲当前文件的distributionUrl值改为 https://mirrors.cloud.tencent.com/gradle/gradle-7.4-all.zip

Codeforces Round 928 (Div. 4)

目录 A. Vlad and the Best of Five B. Vlad and Shapes C. Vlad and a Sum of Sum of Digits D. Vlad and Division E. Vlad and an Odd Ordering F. Vlad and Avoiding X G. Vlad and Trouble at MIT A. Vlad and the Best of Five 我们可以使用string中的count函数来…

cmd命令开启windows桌面远程控制并设置防火墙允许远程

cmd命令开启桌面远程控制 1、开启之前&#xff1a; 2、使用管理员身份运行cmd 3、执行cmd命令 reg add "HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlset\Control\Terminal server" /v fDenyTSConnections /t REG_DWORD /d 0 /f4、如果这台电脑的防火墙打开&#xff…

#LLM入门|Prompt#1.8_聊天机器人_Chatbot

聊天机器人设计 以会话形式进行交互&#xff0c;接受一系列消息作为输入&#xff0c;并返回模型生成的消息作为输出。原本设计用于简便多轮对话&#xff0c;但同样适用于单轮任务。 设计思路 个性化特性&#xff1a;通过定制模型的训练数据和参数&#xff0c;使机器人拥有特…

Redis中的AOF重写到底是怎么一回事

首先我们知道AOF和RDB都是Redis持久化的方法。RDB是Redis DB&#xff0c;一种二进制数据格式&#xff0c;这样就是相当于全量保存数据快照了。AOF则是保存命令&#xff0c;然后恢复的时候重放命令。 AOF随着时间推移&#xff0c;会越来越大&#xff0c;因为不断往里追加命令。…