一.能力
我们正致力于让 AI 掌握理解和模拟物理世界动态的能力,旨在培养能够协助人们解决现实世界互动问题的模型。
介绍 Sora——我们开发的文本到视频转换模型。Sora 能够根据用户的输入提示,生成最长达一分钟的高质量视频内容。
目前,Sora 正在被红队人员用于评估可能存在的风险和潜在危害。同时,我们也邀请了视觉艺术家、设计师和电影制作人等创意行业的专业人士,通过他们的反馈来进一步完善模型,使其更好地服务于创意产业。
通过提前公开我们的研究进展,我们希望能够与社会各界人士建立合作,收集外部反馈,同时让公众对 AI 技术的未来方向有一个直观的了解。
Sora 能够创建包含多个角色、特定运动类型和详细精确的主题及背景的复杂场景。它不仅能理解用户的文字提示,还能准确捕捉这些元素在现实世界中的表现。
得益于对语言的深入理解,Sora 能够精确解读用户的指令,生成展现丰富情绪的生动角色,并在一个视频中呈现出连贯的视觉风格和角色持续性。
然而,Sora 目前还存在一些局限。比如,在模拟复杂场景的物理动态时可能会遇到难题,或在理解特定因果关系时显得不足。举个例子,视频中的人物可能会咬下饼干一角,但视频中的饼干可能并未显示出相应的咬痕。
此外,Sora 在处理空间细节时也可能出现混淆,如左右方向的错误识别,或在描述一系列随时间展开的事件时,如追踪特定的摄影机动作轨迹时,可能不够精确。
二.安全
在将Sora纳入OpenAI产品之前,我们将采取几个重要的安全措施。我们正在与红队成员合作——在错误信息、仇恨内容和偏见等领域的领域专家——他们将对模型进行敌对测试。
我们还在开发工具来帮助检测误导性内容,比如一个检测分类器,能够识别出视频是由Sora生成的。如果我们在OpenAI产品中部署该模型,我们计划将来包括C2PA元数据。
除了我们开发新技术为部署做准备外,我们还利用了我们为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora。
例如,一旦在OpenAI产品中,我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示,如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人的知识产权的提示。我们还开发了强大的图像分类器,用于审查生成的每个视频帧,以帮助确保它遵守我们的使用政策,然后才向用户显示。
我们将与全球的政策制定者、教育工作者和艺术家进行接触,了解他们的担忧,并为这项新技术识别积极的使用案例。尽管进行了广泛的研究和测试,但我们无法预测人们将以所有有益的方式使用我们的技术,也无法预测人们会以所有的方式滥用它。这就是为什么我们相信,从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的AI系统的一个关键组成部分。
三.研究
Sora是一个扩散模型,通过从看起来像静态噪声的视频开始,逐步通过多个步骤去除噪声来生成视频。
Sora能够一次性生成整个视频,或者扩展生成的视频使其更长。通过让模型一次预见多个帧,我们解决了确保即使主题暂时离开视线也保持不变的挑战性问题。
类似于GPT模型,Sora使用了transformer架构,解锁了卓越的扩展性能能。
我们将视频和图像表示为称为"补丁"的较小数据单位的集合,每个补丁类似于GPT中的一个令牌。通过统一我们表示数据的方式,我们可以在以前不可能的更广泛的视觉数据上训练扩散transformer,涵盖不同的持续时间、分辨率和长宽比。
Sora基于DALL·E和GPT模型的过去研究。它使用了DALL·E 3的重新标注技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,模型能够更忠实地遵循用户在生成的视频中的文本指令。
除了能够仅根据文本指令生成视频外,该模型还能够获取现有的静态图像并从中生成视频,准确地并且注重细节地动画化图像内容。模型还可以取一个现有的视频并扩展它或填充缺失的帧。在我们的技术报告中了解更多信息。
Sora为能够理解和模拟现实世界的模型奠定了基础,我们认为这将是实现AGI的一个重要里程碑。
参考文献
[1] https://openai.com/sora