OpenAI文生视频大模型Sora概述

Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器” ），于2024年2月15日（美国当地时间）正式对外发布。

Sora可以根据用户的文本提示创建最长60秒的逼真视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力，能理解用户在提示中提出的要求。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能，其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步，也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

Sora在日语中是“天空”（そら）的意思，引申含义还有“自由”，象征着其无限的创造潜力。

行业背景

OpenAI在大模型领域的成功

2022年底，OpenAI正式推出ChatGPT，这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT是OpenAI迈出的第一步，这款让所有人都能体会到人工智能潜力的现象级产品，展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后，OpenAI的开发重点逐步过渡到图像的生成，Dall-E模型在生成图像方面也获得了重大突破。

视觉算法的进步

视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展，这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域，由于扩散算法的成熟，这些领域受益匪浅。然而，与图像生成相比，3D资产和视频生成在数据和算法方面面临的难点更多。

尽管如此，考虑到大型语言模型（LLM）对人工智能各领域的加速作用以及已经出现的优秀开源模型，2024年该行业有望实现更大的发展。在2023年末至2024年初，Pika、HeyGen等人工智能生成的视频应用逐渐受到关注，这验证了多模态技术的持续进步与成熟。但与此同时，民主倡导者和人工智能研究人员警告说，这些工具已经被用来欺骗和欺骗民众。

发展历程

模型发展

2021年1月5日

文生图模型Dall-E发布

Dall-E可以根据简单的描述创建逼真和清晰的图像，精通各种艺术风格，还可以生成文字制作建筑物上的标志，并制作同一场景的草图和全彩图像。

2022年4月

Dall-E 2发布

Dall-E 2不仅可以生成更真实和更准确的画像，而且能够将文本描述中的概念、属性和风格等元素综合起来，生成现实主义的图像和艺术作品。

2022年11月30日

大语言模型ChatGPT发布

ChatGPT不仅能与人对话，还能编写代码、创作内容等，这一款革命性产品的上线引发全球关注，上线仅5天用户数量就已突破100万。

2023年3月15日

GPT-4正式面世

GPT-4可以更准确地解决用户的难题，多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章，在高级推理方面的表现超过其前代产品。

2023年9月21日

Dall-E 3正式发布

Dall-E 3能够更准确、更优秀地生成效果，可以更准确地呈现用户的想法，用户可以要求ChatGPT提供合适的提示词。

2024年2月16日

Sora问世

Sora继承了Dall-E 3的画质和遵循指令能力，可以根据用户的文本提示创建逼真的视频，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。Sora能够根据提示词生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。

功能特色

优点

功能综述

Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频（其他AI视频工具还在突破几秒内的连贯性），视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。

中国龙年舞龙

雨后的东京街头

行驶中的列车窗外

好莱坞大片质感的电影预告片

加州淘金热时期的历史镜头

玻璃球的特写视图

24岁女性眨眼的极端特写

静态图生成视频

Sora还具备根据静态图像生成视频的能力，能够让图像内容动起来，并关注细节部分，使得生成的视频更加生动逼真，这一功能在动画制作、广告设计等领域具有应用前景。

视频扩展与缺失帧填充

Sora能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域具有应用前景，可以帮助用户快速完成视频内容的补充和完善。

连接视频

可以使用Sora连接两个输入视频，在具有完全不同主题和场景组成的视频之间实现无缝过渡。

其他能力

Sora的其他能力
能力	描述
图像生成	Sora可以生成各种尺寸的图像，分辨率最高达2048×2048。
3D一致	Sora可以生成动态运动的视频，随着相机的移动和旋转，人和场景元素在三维空间中一致移动。
远距离连贯性物体持久性	Sora通常能够有效地对短期和长期依赖关系进行建模，包括人、动物和物体的持久化，即使它们被遮挡或离开框架。同时，它还能在单个样本中生成同一角色的多个镜头，以保持其在整个视频中的外观。
互动性	Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触，并随着时间的推移而持续，或者一个男人可以吃汉堡并留下咬痕。
模拟数字世界	Sora可以模拟人工过程，例如电子游戏，并能够通过基本策略控制玩家，同时高保真地渲染世界及其动态。
多机位	Sora可以生成多机位、多角度的视频。

缺点

狼在追逐打闹过程中，可能会凭空多出或消失

Sora也存有以下弱点：可能难以准确模拟复杂场景的物理原理，无法理解因果关系，混淆提示的空间细节，难以精确描述随着时间推移发生的事件。

没有正确表示篮球穿过篮筐的过程

例如，在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中，狼的数量会变化，一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

OpenAI表示，Sora存在不成熟之处，可能难以理解因果关系，多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路。

技术特点

多帧预测生成

Sora是一种扩散模型，具备从噪声中生成完整视频的能力，它生成的视频一开始看起来像静态噪音，通过多个步骤逐渐去除噪声后，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时仍保持一致。

特殊架构

Sora采用与GPT模型相似的Transformer架构，OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构，提升了原来Diffusion模型在深度和宽度上的可扩展性，为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据，并通过自注意力机制捕捉数据中的依赖关系，从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题，扩散模型采用更可扩展的状态空间模型（SSM）主干替代了传统的注意力机制，从而减少了算力需求，并能够生成高分辨率图像。

重述提示词

Sora借鉴DALL-E 3的“重述提示词技术”，为视觉训练数据生成高度描述性的标注，这使得模型能够更忠实地遵循用户的文本指令，生成符合用户需求的视频内容，同时也提高了模型的灵活性和可控性。

数据表示

OpenAI将视频和图像表示为Patch，类似于GPT中的token，这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练，涵盖不同的持续时间、分辨率和纵横比，有助于模型学习到更丰富的视觉特征，提高生成视频的质量和多样性。

原生规模训练

Sora采用“原生规模训练”，过往的图像和视频生成通常会将视频调整为标准大小，但这样会失去视频的原始长宽比和细节，而原生规模的训练方法可以带来更好的效果。Sora可以对各种尺寸和纵横比的视频进行采样，允许直接为不同尺寸的设备创建内容，并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比，Sora可以生成更完整、更美观的视频。

社会影响

价值意义

Sora对于需要制作视频的艺术家、电影制片人或学生来说，都带来了无限可能。该模型可以深度模拟真实物理世界，标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃，也被认为是实现通用人工智能（AGI）的重要里程碑，通过不断深入研究和发展Sora等先进模型，有望在未来实现更加智能、高效和多样化的视频生成与处理技术。

产业格局

估值上涨

Sora发布后，OpenAI的估值迅速上涨（有望超过800亿美元，2023年ChatGPT发布不久时其估值约为290亿美元），且文生视频大模型将会大幅推动人工智能基础设施的需求，英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局，英伟达也因大模型训练需要GPU算力支持而股价大涨 [38]。与此同时，受Sora发布的影响，美国图片供应商Shutterstock的股价大跌。

在中国，龙年开市第一天，Sora相关概念全线“爆发”，会畅通讯、当虹科技、万兴科技、易点天下、因赛集团、东方国信、数码视讯、华扬联众、国脉文化等股票均大幅上涨，多家公司回应称，将根据自身业务特点，在文生视频技术落地、Sora应用等方面寻找突破入口。

生产变革

浙商证券预测，Sora及同类产品将参与到改变信息生产和分发两大环节的进程中，PGC（专业生产内容）将广泛采用AI工具辅助生产，UGC（用户生成内容）将借助AI工具逐步替代PGC。此间，AI生成视频工具的商业化将提速。

Sora可生成一段长达60秒的视频，远超市面同类AI产品视频生成时长，60秒的视频时长，已经超过抖音等短视频平台的平均视频时长，Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。

职业取代

截至2024年2月，已有一些视觉艺术家、设计师和电影制作人以及OpenAI员工获得了Sora访问权限，他们也已开始在社交平台不断晒出使用Sora生成的新作品，为人们展示AI生成视频的创意可能。许多网友称“不少人要丢工作了”，甚至有人开始“悼念”一整个素材行业。

各界评价

各界对Sora的评价/态度
类别	专家	评价
科技界	英伟达科学家 DrJimFan	Sora是一个数据驱动的物理引擎，它是对许多世界的模拟，无论是真实的还是幻想的，模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。
	趣丸集团副总裁庄明浩	Sora的面世影响的不仅是文生视频领域，下一步将是过去一年各家游戏物理引擎厂商们一直在尝试的自然语言改造生产流程，以及3D素材生产这个战场。
	伊利诺伊大学厄巴纳-香槟分校信息科学教授特德·安德伍德	没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平。
	普林斯顿大学计算机科学教授 Arvind Narayanan	根据OpenAI发布的视频，Sora似乎比任何其他视频生成工具都“先进得多”，这可能会导致“深度伪造”视频，人们更难识别出人工智能生成的视频。
	360集团创始人、董事长周鸿祎	Sora将缩短AGI（通用人工智能）实现时间，从10年缩短到1年。OpenAI训练该模型应该会以视频和摄像头捕捉的画面为主，人工智能通过观看大量视频将对世界有更深入的理解，这离AGI实现不远。
	图灵奖得主、Meta首席AI科学家杨立昆	根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界，生成视频的过程与基于世界模型的因果预测完全不同。
影视界	电影导演兼视觉效果专家迈克尔·格雷西	很快，像Sora这样的人工智能工具将允许电影制作者仔细控制他们的输出，从头开始创建各种视频，当技术剥夺了其他人的创造力、工作、想法和执行力，却没有给予他们应有的荣誉和经济报酬时，不是一件好事情。
	专业摄影师孟凡	Sora视频帧率较高，说明计算能力比较强，且影片的宽容度更高，如调色、细节表现、高速镜头展现等。在直观感受上，Sora 模型产出的视频运镜自然，物体运动符合规律，镜头间逻辑一致性好，但是Sora视频的逻辑性会差一点。
	中国电影文学学会副秘书长杜红军	编剧、导演不必因Sora的出现而担心，它是帮助实现影视效果的好工具，能够激发更多人的内容创造力。人类负责创意，AI负责创造，未来的电影创作将是概念片先行，可能不是在写剧本，而是“写”影像。
社会界	中国社会科学院法学研究所副研究员唐林垚	相较于其他视频类生成式AI，Sora在画面清晰度、内容流畅度、表意深度和精彩程度方面均有大幅提升，如果Sora的能力真如官方公布一样强大，且之后可以像ChatGPT一样便捷访问，那么Sora将给广告行业、影视行业和特效行业带来极大的冲击。
社会界	前记者、现斯坦福大学研究员巴西勒·西蒙	在生成式人工智能方面有了可怕的飞跃，可以快速生成逼真的作品，这些工具可能会在选举中被滥用，公众将可能“不再知道该相信什么” 。

主要竞品

Sora的部分竞品
公司	产品	技术路线	发布时间
英伟达	PYoCo	扩散模型	2023.05
Runway	Gen-2	扩散模型	2023.06
Pika Labs	Pika 1.0	扩散模型	2023.11
Meta	Emu Video	扩散模型	2023.11
Stability AI	Stable Video Diffusion	扩散模型	2023.11
谷歌	Video Poet	Transformer	2023.12
字节跳动	MagicVideo-V2	扩散模型	2024.01

相较于其他模型，Sora的优势主要是三方面：

第一：可以生成长达60秒钟的视频，包括多个角色、特定类型动作和主题背景；
第二：可以在单个生成的视频中创建多个镜头，模拟复杂的摄像机运镜，同时准确地保持角色和视觉风格；
第三：能够理解物体在现实世界中的物理规律和存在方式。

社会争议

虚假信息

Sora的发布引发了关于虚假信息传播的争议。其强大的图像视频生成能力达到了以假乱真的程度，这不仅改变了人们“眼见为实”的传统观念，还可能带来一系列社会问题，如视频证据真实性和有效性的验证难题。在Sora问世前已有多起利用AI伪造视频进行诈骗的案例，显示了AI生成视频可能被滥用于非法目的的风险。Sora的普及可能会进一步降低制作高质量虚假视频的门槛，加剧虚假信息的传播。尽管互联网平台已有针对特定类型虚假信息的检测机制，但对于复杂难辨的信息仍需加强深度分析和及时阻断。随着AI生成内容的激增，网络上的合成内容将大量存在，这要求不仅在技术上持续改进，还需建立更全面的治理体系来有效应对虚假信息的挑战。