MineWorld，微软研究院开源的实时交互式世界模型

news2026/2/16 20:08:38

MineWorld是什么

MineWorld是微软研究院开发并开源的一个基于《我的世界》（Minecraft）的实时互动世界模型。该模型采用了视觉-动作自回归Transformer架构，将游戏场景和玩家动作转化为离散的token ID，并通过下一个token的预测进行训练。MineWorld具备并行解码算法，能够以每秒4到7帧的速度生成画面，支持实时互动，提供高质量的游戏体验。

MineWorld的主要功能

优质生成效果：依托视觉-动作自回归Transformer架构，MineWorld能够生成连贯且高保真的游戏帧，提升视觉体验。
卓越的可控性：通过动作跟随能力的评估，MineWorld展现出精确且一致的反应，能够根据玩家的输入生成准确的场景变化。
迅速的推理速度：得益于并行解码算法，MineWorld能以每秒4至7帧的速度生成图像，确保实时互动的流畅性。
游戏代理：MineWorld在训练时可同时预测游戏状态和动作，具备作为游戏代理进行自主游戏的能力。
实时互动功能：用户能够通过网络演示或本地运行与模型进行实时互动，选择初始画面、控制视角移动并执行游戏动作。

MineWorld的技术原理

视觉-动作自回归Transformer：MineWorld通过将游戏场景和玩家动作转化为离散的token序列，实现视觉与动作的联合建模。具体而言：
- 图像标记器（Visual Tokenizer）：采用VQ-VAE架构，将游戏场景分割为离散的视觉标记，并在Minecraft数据集上进行微调，以实现高质量的图像重建。
- 动作标记器（Action Tokenizer）：将玩家的连续动作（如鼠标移动）转化为离散标记，并将不同的动作（如前进、攻击）归类，每类由唯一标记表示。
- Transformer解码器：基于LLaMA架构，接收交错拼接的视觉标记和动作标记序列作为输入，通过下一个标记的预测进行训练，从而学习游戏状态的丰富表示及其与动作之间的关系。
并行解码算法：为实现实时互动，MineWorld研发了一种并行解码算法，利用相邻图像标记之间的空间依赖性，能够同时预测每帧中的空间冗余标记，大幅提升生成速度。
训练过程：模型通过下一个标记的预测进行训练，学习游戏状态的动态演变规律及动作与状态之间的关联。
推理阶段：在推理时，模型根据当前游戏状态和动作生成后续场景，并利用并行解码算法快速生成高质量游戏帧。
评估标准：MineWorld提出新的评估指标，用于评估生成场景的视觉质量和动作跟随能力，通过比较生成场景中预测的动作与真实动作的准确性来量化模型的可控性。

MineWorld的项目官网

Github仓库：https://github.com/microsoft/MineWorld
HuggingFace模型库：https://huggingface.co/microsoft/mineworld
arXiv技术论文：https://arxiv.org/pdf/2504.08388

MineWorld的应用场景

具身智能研究：MineWorld提供了一个高保真且可交互的虚拟环境，适合用于具身智能的研究。研究人员可以利用该模型训练智能体，学习如何在虚拟环境中执行任务，如物体定位和环境探索。
强化学习训练：凭借其实时互动能力和高生成质量，MineWorld成为强化学习训练的理想平台。研究人员可以快速生成大量训练数据，帮助智能体在模拟环境中学习最佳策略。
游戏代理开发：由于MineWorld在训练过程中同时预测游戏状态和动作，具备作为游戏代理的潜力。给定初始状态和动作，模型可以迭代生成未来的状态和动作，模拟长时间的游戏过程。
实时交互模拟：MineWorld的快速推理速度（每秒4至7帧）支持与玩家的实时互动，提升游戏体验。
视频生成与编辑：MineWorld能够生成高质量且连贯一致的游戏视频，适用于视频内容创作，如游戏预告片和教学视频等。