视频作为现实世界决策制定的新语言

人工智能咨询培训老师叶梓转载标明出处

在互联网上，视频和文本数据同样丰富，它们支持通过预测下一个词或帧来进行大规模自监督学习。然而视频数据并没有象文本数据那样被充分利用：语言模型已经在现实世界产生了显著影响，而视频生成大多局限于媒体娱乐领域。而视频数据捕捉了关于物理世界的重要信息，这些信息难以用语言表达。为了弥补这一差距，本论文讨论了将视频生成扩展到解决现实世界任务的被低估的机会。提出了一个问题：能否将视频生成模型提升到与语言模型相当的水平，使其成为自主代理、模拟环境和计算引擎，从而使需要视觉模态的应用（如机器人技术、自动驾驶和科学）能够更直接地从互联网视觉知识和预训练的视频模型中受益。

本论文由来自 Google DeepMind、加州大学伯克利分校和麻省理工学院的研究团队共同撰写，他们观察到视频可以像语言一样，作为一个统一的接口，吸收互联网知识并代表多样化的任务。他们展示了视频生成如何像语言模型一样，通过上下文学习、规划和强化学习等技术，作为规划器、代理、计算引擎和环境模拟器。论文的主要观点如下：

统一表示和任务接口

文本数据虽然在数字或知识领域具有重要价值，但它更擅长于捕捉高层次的抽象概念，而不是物理世界的低层次细节。例如，视觉和空间信息（包括颜色、形状、纹理、照明效果以及物体的空间排列、相对位置、距离、方向和三维信息）自然地以图像或视频格式存在，而不是文本格式。视频同样能够隐式捕捉物理和动态信息（如物体和环境之间的物理交互，例如碰撞、操纵和其他受物理定律影响的运动），以及行为和动作信息（如人类行为和代理动作，描述执行任务的低级细节，如组装家具的具体动作）。

在自然语言处理领域，多种任务（如机器翻译、文本摘要、问题回答、情感分析、命名实体识别、词性标注、文本分类、对话系统）已经统一在语言建模的框架下。计算机视觉领域也拥有广泛的任务集合，包括语义分割、深度估计、表面法线估计、姿态估计、边缘检测和对象跟踪。近期的研究表明，将这些不同的视觉任务转化为视频生成任务是可行的，并且这种方法能够随着模型规模、数据量和上下文长度的增加而表现更佳。

如何将不同的计算机视觉任务，如关节/边缘检测、深度估计和分割，转换为单一的下一帧预测任务。这表明了视频生成任务可以统一处理多种视觉任务

将视觉任务转化为视频生成任务通常包括以下步骤：(1) 将任务的输入和输出（如分割图、深度图）整合到统一的图像/视频空间中；(2) 重新组织图像帧的顺序，使得一个输入图像后面紧跟着特定任务的预期输出图像（例如，一个常规输入图像后面是深度图）；(3) 利用上下文学习，通过提供示例输入-输出对作为条件视频生成模型的输入，以指明所需的任务。

在体现人工智能（Embodied AI）中，数据碎片化是一个长期挑战，不同机器人或任务收集的数据集难以跨领域共享知识。这是因为每种机器人和任务都有其独特的状态-动作空间。为了解决这一问题，作者提倡使用像素空间作为跨任务和环境的统一状态-动作空间。在这个框架下，体现规划可以被视为一个条件视频生成问题，从而利用互联网预训练的视频生成模型。另外可以采用逆动力学模型、目标条件策略、光流网络或密集网格点等模块，从高级视频计划中恢复出低级机器人控制指令。

之前工作生成的机器人视频计划和通过在Open X-Embodiment数据集上训练的单一视频生成模型生成的视频计划。这些视频计划看起来非常逼真，并成功完成了指定的任务

视频生成作为模拟

游戏长期以来一直是人工智能算法的测试平台，例如，Arcade Learning Environment 促进了深度 Q 学习的发展，这是第一个在玩Atari游戏中达到人类水平的人工智能代理。游戏可以作为测试生成性模拟器质量的手段，通过与游戏引擎的地面真实模拟进行比较。

模拟复杂游戏：作者训练了一个基于transformer的架构，该架构在时间上是自回归的，可以预测基于剧集历史的未来的代理动作和观察结果。使用的“承包商数据”由Baker等人（2022年）提供，包括人类与游戏互动时收集的轨迹。模型能够生成与复杂策略相对应的动作和转换，例如使用镐打破石头块。证明了行动条件视频生成可能模拟像Minecraft这样的复杂电脑游戏的环境动态。

生成新游戏环境：利用生成模型为游戏设计生成新内容和关卡在游戏AI社区是一个活跃的研究领域，已被证明对训练和评估RL代理都有用。论文提到了使用生成模型通过直接预测帧或修改背景来生成新游戏关卡的尝试，但这些工作依赖于特权模拟数据，并且只在小规模上尝试，限制了生成全新游戏环境的潜力。

论文还讨论了视频生成在模拟机器人动作空间SE(3)方面的应用，以及它如何帮助解决仿真到真实世界的转移问题（sim-to-real transfer）。

模拟SE(3)动作空间：关于在真实机器人视频数据上学习动作条件的下一帧预测模型的可能性，作者展示了如何使用生成模拟器来评估机器人策略，并训练在Language Table环境中使用生成模拟器的rollout的RL策略。作者提出了使用Dyna风格算法从模拟rollout和真实环境中学习策略的可能性。

领域随机化：生成模拟器在引入训练环境的自然随机性方面具备一定的优势，这有助于提高在模拟中训练的策略在现实世界中的转移能力。与硬编码渲染规则的领域随机化相比，生成模拟器能够引入不同的驾驶条件，例如晴天、雾天、雪天、雨天和夜晚，从而能够在模拟器中训练具有多样化位置和天气条件的自动驾驶策略。

使用互联网知识模拟特定地点的不同驾驶条件，例如“金门大桥上的雨”、“优胜美地的黎明”和“去优胜美地的路上的雪”

作者还探讨了视频在科学和工程领域作为统一表示的潜力，以及它如何影响医学成像、计算机图像处理和计算流体动力学等研究领域。

原子级下一帧预测：图10展示了原子级下一帧预测的能力，其中使用了扫描透射电子显微镜（STEM）收集的数据。通过视频生成模型，能够以高保真度模拟硅原子在单层碳原子上受电子束刺激时的运动动态。生成的帧、真实的下一帧以及条件帧共同反映了硅原子在石墨烯片上的视觉动态变化。这表明视频生成模型在模拟复杂科学现象方面具有巨大潜力。

使用扫描透射电子显微镜（STEM）的电子束刺激石墨烯上的硅原子时，硅原子在单层碳原子上的转移动态。展示了生成模型能够以高保真度模拟视觉动态

科学过程的模拟：使用高度逼真的视觉模拟器响应控制输入可以减少对专业设备的硬件访问限制，这在需要操作如电子显微镜等专业设备的科学研究中非常有用。然而，将视觉生成模拟器用于控制输入优化还需要进一步研究以确保其有效性。

传统计算方法的替代：生成模拟器的另一个好处是它们具有固定的计算开销，这在传统计算方法变得不切实际时非常有用。例如，模拟量热计淋浴需要计算电子之间的成对交互，当电子数量很大时，这种复杂性很快变得不切实际。而模拟电子淋浴的视频则具有与模拟分辨率成比例的固定计算开销。

挑战

数据集局限性

在语言建模中，用于解决特定下游任务的语言数据分布通常在互联网文本数据的分布之内。然而，视频数据并非如此。互联网上发布的视频往往针对人类兴趣，并不一定适用于下游任务。例如，计算流体动力学模型可能需要许多长时间关注流体运动的视频，这些视频对人类来说可能并不有趣，因此在互联网上很少见。同样，也很少在互联网上找到特定类型的机器人（例如，Franka Emika Panda机器人）执行特定任务（例如，叠衣服）的视频。这就需要更好地促进收集和分发特定领域的视频数据。例如，机器人学的Open-X Embodiment数据集就是一个例子。

视频建模的另一个挑战是缺乏标注视频。例如，MineDojo数据集拥有超过30万小时的人类玩Minecraft游戏的视频，但数据集仅有语言转录，没有游戏动作标签，这使得使用该数据集训练策略或环境模型变得困难。同样，在最大的开源机器人数据集中，许多机器人轨迹没有对正在执行的任务进行语言注释，或者仅有通用标签，如“与任何对象交互”。

为了标注更多的视频数据，以前的工作使用了图像/视频字幕模型提供额外的文本标签，这些标签可以进一步用于训练文本到图像/视频的模型。另一种可能性是利用从视频中推断出的潜在动作/技能，尽管学到的潜在动作是一致的，但这种方法是否能够扩展到更复杂和多样化的动态仍然是一个开放的问题。

模型异质性

与语言模型已经趋于自回归架构不同，视频生成尚未确定最佳方法。自回归模型、扩散模型和掩蔽模型各自都有优势和劣势。

扩散模型可以轻松地对连续输出空间进行建模，而无需标记化，这可以带来更好的生成质量。此外，可以并行采样多个帧。然而，扩散模型的采样速度仍然相当慢，限制了其在实时模拟中的应用。另外如何使用扩散模型生成长视频序列还不清楚。扩散模型对超参数（如噪声计划）也很敏感，这使得训练和扩展变得困难。

具有标记化输出空间的自回归模型比扩散模型更容易训练。标记化还允许视频生成与文本或离散动作生成集成，为需要多模态生成的应用打开了更多可能性。另外自回归模型可以很好地适应上下文长度，使它们能够潜在地对非常长的视频帧序列进行建模。然而，自回归解码在计算上很昂贵，因为每个标记都必须顺序预测。另外自回归引导的视频可能会受到漂移效应的影响。

基于掩蔽重建的模型可以通过并行采样图像标记的批次来利用扩散的一些优势，并减轻一些标记自回归建模的问题。这允许由数千个标记组成的图像仅通过几十次模型调用进行采样。然而，这种方法引入了挑战，例如由于各个采样步骤中独立性假设引入的采样偏差。

解决模型异质性的潜在解决方案可能需要结合不同模型的优势，例如结合自回归和掩蔽模型，或者结合自回归和扩散模型。另外视频数据可能在空间和时间上都包含冗余信息。未来的模型可能需要考虑学习潜在空间以减少冗余。更好的视频生成模型还应该解决现有模型在生成速度和长期一致性方面的当前挑战。

幻觉问题

视频生成中的幻觉问题普遍存在。例如，物体可能随机出现或消失，这可能是由于物体的损失权重通常不如背景的损失权重高，因为物体通常较小。另一种常见的幻觉涉及不切实际的动态，例如，一个杯子“跳入”机器人手中，而不是机器人抓住杯子。这可能是由于视频的粗略时间频率没有捕捉到确切的运动关键帧。此外，同时对行为和动态进行建模的生成模型可能无法区分由动作或动态引起视觉变化。幻觉也可能发生在用户输入在特定场景中不现实时，例如，给桌面机器人输入“洗手”。尽管如此，视频生成模型尝试通过使用自我中心运动来实现语言指令，以生成现实的视频。可以应用如外部反馈的强化学习方法来进一步减少视频生成模型中的幻觉。