论文解读:Pandora: 朝着结合自然语言动作与视频状态的通用世界模型发展

论文《Pandora: 朝着结合自然语言动作与视频状态的通用世界模型发展》探索了构建一个高度集成的AI系统，旨在理解自然语言指令并在视频所代表的视觉环境中执行相应操作，从而推进对复杂动态场景的建模与预测能力。以下是该论文的关键点和贡献的详细解读：

### 核心目标
本文的核心目标是开发一个**通用世界模型**（General World Model），这是一个理论上的框架，能够整合广泛的知识和技能，以理解和预测世界的状态变化。通用性体现在它不仅限于特定任务或环境，而是试图跨越多种情境，实现对现实世界的广泛适用性。

### 关键创新点

#### 1. 自然语言动作（Natural Language Actions）
- 研究引入了一种机制，使得AI系统能够解析和执行用自然语言表达的动作指令。这意味着AI需理解人类语言的微妙含义，并将其转化为可执行的操作，如“拿起红色球并放到桌子上”。

#### 2. 视频状态（Video States）
- 利用视频作为输入，模型能够捕捉连续时间内的视觉信息流，这比静态图像更能体现动态变化和上下文关系。通过先进的计算机视觉技术，论文探讨了如何有效地从视频中抽取状态表示，这些状态包含了物体的位置、动作及环境布局等信息。

### 方法与技术
- **多模态融合**：结合自然语言处理（NLP）和计算机视觉（CV）技术，创建一个能够同时理解和生成语言及视觉信号的模型。
- **时空特征学习**：利用深度学习模型，尤其是针对时序数据设计的网络（如LSTMs或Transformers），来学习视频序列中的时间和空间特征，提取高层次的语义信息。
- **强化学习与交互**：可能采用强化学习方法，让AI通过与环境的交互学习最佳行为策略，逐步优化其对指令的理解和执行能力。

### 实验与评估
- 论文中可能会展示一系列实验，用来评估模型在不同任务上的表现，如指令遵循、场景预测等。评估指标可能包括准确率、响应时间以及在复杂场景下的泛化能力。

### 意义与展望
该研究不仅对基础AI研究有重要意义，还为众多应用领域（如智能家居、自动驾驶、虚拟助理）提供了技术支持。通过建立一个能够理解自然语言指令并基于视频理解采取行动的系统，Pandora项目为实现更加智能、灵活的人机交互界面奠定了基础。未来工作可能聚焦于增强模型的泛化能力、提高交互的自然度，以及探索更多实际场景的应用案例。

论文链接：
https://arxiv.org/abs/2406.09455
项目地址：
https://world-model.maitrix.org/

这才是 AI 视频生成的未来？

随着 OpenAI 今年 2 月发布 Sora，世界模型（World Model）再次成为了 AI 领域的热门。

世界模型，即通过预测未来的范式对数字世界和物理世界进行理解，一直以来被认为是通往通用人工智能（AGI）的关键路径之一，与当前大模型推崇的智能体（Agent）方向互相区分。

世界模型的研究促进了交互式内容的创建，并为有根据的、长期的推理提供了基础。当前的基础模型并不能完全满足通用世界模型的功能——大型语言模型（LLM）受到对语言模态的依赖以及对物理世界有限理解的限制，而视频模型（如 Sora）则缺乏对世界模拟的交互式动作控制。

在 UC San Diego、穆罕默德・本・扎耶德人工智能大学（MBZUAI）等机构的最新研究中，人们通过引入 Pandora 向构建通用世界模型迈出了一步。

MBZUAI 校长邢波（Eric Xing）表示，Pandora 是一个可通过语言命令实时操控的世界模型，能够在视觉空间中实时推理概念层面。是时候超越语言世界中的 LLM，进入物理和感官世界了！

Pandora 是一种混合自回归扩散模型，可通过生成视频来模拟世界状态，并允许通过自由文本动作（free-text action）进行实时控制。Pandora 通过大规模预训练和指令调整实现了领域通用性、视频一致性和可控性。

，时长

01:35

更加重要的是，Pandora 通过集成预训练的 LLM（7B）和预训练的视频模型，绕过了从头开始训练的成本，只需要额外的轻量级微调。作者展示了 Pandora 在不同领域（室内 / 室外、自然 / 城市、人类 / 机器人、2D/3D 等）的广泛输出能力。结果表明，通过更大规模的训练，我们能够构建更强大的通用世界模型。

论文：Pandora : Towards General World Model with Natural Language Actions and Video States
论文地址：https://world-model.maitrix.org/assets/pandora.pdf
项目地址：https://github.com/maitrix-org/Pandora
项目展示页面：https://world-model.maitrix.org/

该研究展示了一系列先前模型不具有的特性：

能模拟广泛领域的视频状态：Pandora 能够生成广泛领域的视频，例如室内 / 室外、自然 / 城市、人类 / 机器人、2D/3D 和其他场景。这种领域的通用性主要归功于大规模视频预训练（继承自预训练视频模型）。
该模型允许通过自由文本动作进行动态控制：Pandora 接受自然语言动作描述作为视频生成期间的输入，以指导未来的世界状态。这与以前的文本到视频模型有很大不同，以前的文本到视频模型仅允许在视频开头出现文本提示。动态控制实现了世界模型的承诺，支持交互式内容生成并增强稳健的推理和规划。该功能是通过模型的自回归架构（允许随时输入文本）、预训练的 LLM 主干（可以理解任何文本表达式）和指令调整（可以大大增强控制的有效性）来实现的。
动作可控性跨域迁移：如前所述，使用高质量数据进行指令调整使模型能够学习有效的动作控制，并迁移到不同的新领域。新模型从特定领域学到的动作可以无缝地应用于不同新领域。
自回归模型主干支持更长的视频：基于扩散架构的现有视频生成模型通常会生成固定长度（例如 2 秒）的视频。通过将预训练视频模型与 LLM 自回归主干集成，Pandora 能够以自回归方式无限延长视频持续时间。结合额外的训练（例如指令调整），作者证明 Pandora 可以生成更高质量的更长视频（可长达 8 秒）。

方法

模型架构

Pandora 是一个自回归世界模型。给定世界先前的状态（例如图像或视频剪辑）和自然语言动作描述，它可以预测世界的下一个状态（以视频剪辑的形式）。

如下图 2 所示，Pandora 的两个核心组件包括自回归主干网络（源自预训练 LLM）和视频生成器（使用预训练视频模型进行初始化）。为了将这两个组件拼接在一起，Pandora 还添加了其他必要的组件，包括视觉编码器，以及分别将视觉编码器连接到 LLM 主干和将 LLM 主干连接到视频生成器的两个适配器。

阶段性训练

通用世界模型需要实现一致性、可控性和通用性，即它需要生成一致的视频来准确描述世界状态，允许在视频生成过程中随时接受自然语言动作描述来进行动态控制，并跨越所有不同的领域执行上述操作（具有不同的场景和动作）。

直接训练世界模型需要大量高质量序列（视频 S1、文本 A1、视频 S2……）作为训练数据，而这在实践中很难获得。

因此，该研究设计了一个两阶段的训练策略，包括预训练和指令调整。

预训练阶段旨在让模型获得一些关键能力，包括：

视频生成器的一致、通用视频生成能力；
自回归主干网络的通用文本理解能力，以处理动作；
两个组件之间的表征空间对齐能力。

表 1 总结了该研究收集到的数据，主要来自公共语料库和数据处理模拟器。

定性结果

研究论文展示了一些定性结果，表明 Pandora 作为世界模拟器的核心功能，未来该研究将提供更多定量结果。

跨域的即时控制

Pandora 是一个通用世界模型，能够生成跨广泛领域的视频。它允许通过自由文本动作进行动态控制，即它可以在视频生成期间随时接受文本动作控制并相应地预测未来的世界状态。

Pandora 模型能够理解现实世界的物理概念，可以生成演示基本物理现象的视频：

动作可控性迁移

虽然一些动作及其相应的运动模式只出现在一些模拟数据中，但 Pandora 可以将动作可控性迁移到不同的未见领域。如下图所示图，Pandora 分别将 Coinrun 的 2D 游戏能力和 HM3D 的 3D 模拟器能力迁移到其他未见领域。

自回归生成更长的视频

借助自回归主干网络，Pandora 能够以自回归方式生成更高质量的更长视频。Pandora 接受最长 5 秒（40 帧）的视频训练，但它能够生成更长的视频。下图显示了生成 8 秒（64 帧）视频的结果。

尽管如此，作者表示 Pandora 很难生成高质量和良好可控的视频。在论文中，作者展示了一些语义理解、运动控制和视频一致性方面的失败案例。

在进行小规模探索实验时，作者发现数据质量，即动力学描述的精度对模型性能有很大影响。在存在高质量仿真数据的领域，模型很容易获得良好的可控性。但在公共视频数据集领域，GPT-4 Turbo 生成的字幕存在噪声，导致模型并没有表现出良好的性能。然而，当增加训练计算量时，模型上就会涌现出跨通用领域的可控性。

Pandora 的探索表明通过更大规模的训练，构建更强大的通用世界模型，这一研究方向具有巨大潜力。