Runway即将在未来几天推出其更优更快的第三代AI视频模型,这是新一代模型中最小的一个。据公司透露,这款名为Gen-3的模型将带来“在真实度、一致性和动态效果上的重大提升”,同时在速度上也有显著的加快。
去年六月,Runway首次推出了商业化的文本到视频AI模型Gen-2,开启了合成视频技术的全球革命。现在,Runway与Pika Labs、Haiper、Luma Labs以及尚未发布的Sora等公司展开竞争。
第三代模型是Runway以及整个AI视频领域的一次重大进步。该模型从底层完全重建,采用了专为大规模多模式训练而设计的全新基础设施。这一新模型同时在图像和视频上进行训练,极大地提升了真实感。
公众将很快能够体验到Gen-3模型的Alpha版本。Runway的首席技术官兼联合创始人Anastasis Germanidis表示,这是得益于新的训练基础设施而来的新一代前沿AI模型中最小的一个。
Runway第三代带来了哪些惊喜?
Runway Gen-3在视频中控制动作的能力得到了改进,同时它还能更好地理解现实世界的运动和物理法则。结合其接近真实的视觉效果,Gen-3能够创造出几乎无法与现实区分的视频。
团队在第一次使用完成训练的Gen-3时,其场景创作方式带来了一些惊喜,这得益于至少10秒的视频创作时间,而前一代的最长时间仅为四秒。Germanidis透露:“创造不寻常过渡的能力是我们在内部使用Gen-3 Alpha时最有趣和令人惊讶的方式之一。这款模型能够整合并理解环境中的剧烈变化,并取得非常令人满意的结果。”
此外,用户在改变场景和环境时拥有更大的时间控制能力,因为它是通过每个场景多个高度描述性的标题进行训练的,这使得它能够生成具有不寻常且有趣的环境和行动过渡的视频,以及对特定时间元素进行精确的关键帧设置。
Germanidis还指出,这些模型改进与现有的控制模式如运动笔刷、高级相机控制和导演模式相结合,为用户提供了前所未有的控制能力。无论是从图像、文本还是视频开始,Gen-3都支持多种输入方式,而且无论使用哪种方式,Gen-3 Alpha在时间一致性方面都有显著的改进,并且相比Gen-2在形态变化上有了大幅减少。
构建“通用世界模型”
Germanidis还向外界透露,这是Runway从头开始训练的下一代基础模型中的第一个,未来的版本将达到甚至超过大型语言模型的规模。Runway正朝着构建“通用世界模型”迈进,这种模型是AI系统,能够构建环境的内部表现,并使用它来模拟该环境中未来的事件,旨在表现和模拟现实世界中遇到的各种情况和互动。
尽管Gen-3还处于初期阶段,但它已经迈出了构建开放世界模型的第一步。Germanidis提醒,尽管Gen-3在处理复杂的角色和物体互动时可能会遇到挑战,且生成的结果并不总是严格遵循物理定律,但这只是一个开始。
全球AI视频技术突破
全球AI视频生成技术迎来了多项重大突破,其中包括快手的可灵(Kling AI)、以及Luma AI的梦机器(Dream Machine),各自推动了视频内容创造的新高度。这些模型展示了从简短文本到复杂场景生成的惊人能力,标志着AI视频技术的一大飞跃。
由快手推出的可灵AI,能够生成高达两分钟、1080p质量的视频。这个模型特别注重真实模拟和高级视频质量,能够基于简单的文本提示创造出极具现实感的视频。目前,可灵AI处于公开测试阶段。
梦机器(Dream Machine)由Luma AI开发,这款模型能够从文本指令和图片中创建高质量、逼真的视频镜头。它代表了AI视频生成领域的一个重大里程碑,尽管具体的性能细节较少公开,但它被看作是与OpenAI的Sora等竞争产品的重要竞争者 。
这些技术的推出不仅为内容创作者提供了更多工具,还预示着未来视频制作和虚拟现实领域的巨大潜力。随着AI视频模型的不断进步,未来的视频内容创造将更加多元化和生动,为广告、娱乐及教育行业带来前所未有的变革。