PointVLA：将 3D 世界注入视觉-语言-动作模型

25年3月来自美的集团、上海大学和华东师大的论文“PointVLA: Injecting the 3D World into Vision-Language-Action Models”。

视觉-语言-动作 (VLA) 模型利用大规模 2D 视觉语言预训练，在机器人任务方面表现出色，但它们对 RGB 图像的依赖，限制对现实世界交互至关重要的空间推理。使用 3D 数据重训练这些模型在计算上是无法承受的，而丢弃现有的 2D 数据集会浪费宝贵的资源。为了弥补这一差距，PointVLA，使用点云输入增强预训练 VLA，无需重训练。其方法冻结原始动作专家并通过轻量级模块化块注入 3D 特征。为了确定集成点云表示的最有效方法，进行跳-块分析，以精确定位原始动作专家中不太有用的块，确保仅将 3D 特征注入这些块中，从而最大限度地减少对预训练表示的干扰。

大量实验表明，在模拟和现实世界的机器人任务中，PointVLA 的表现都优于最先进的 2D 模仿学习方法，例如 OpenVLA [25]、Diffusion Policy [9] 和 DexVLA [46]。具体来说，强调点云集成带来的 PointVLA 的几个关键优势：（1）少样本多任务处理，PointVLA 成功执行四种不同的任务，每种任务仅使用 20 次演示；（2）真实-与-照片区分，PointVLA 可以区分真实物体与其图像，利用 3D 世界知识提高安全性和可靠性；（3）高度适应性，与传统的 2D 模仿学习方法不同，PointVLA 使机器人能够适应训练数据中未见过的不同桌子高度物体。此外，PointVLA 在长距离任务中表现出色，例如从移动的传送带上拾取和包装物体，展示其在复杂动态环境中泛化的能力。

机器人基础模型，特别是视觉-语言-动作 (VLA) 模型 [4, 5, 25, 45, 46]，在使机器人能够感知、理解和与物理世界交互方面表现出色。这些模型利用预训练的视觉语言模型 (VLM) [3, 8, 20, 30, 42] 作为处理视觉和语言信息、将它们嵌入到共享表示空间中，然后将它们转化为机器人动作的主干。此过程使机器人能够以有意义的方式与其环境交互。VLA 模型的强度在很大程度上取决于其训练数据的规模和质量。例如，Open-VLA [25] 是在 4000 小时的开源数据集上训练的，而更先进的模型（如 π0）则利用 10000 小时的专有数据，从而显著提高性能。除了这些大规模基础模型外，许多项目还贡献了大量数据集，这些数据集是从现实世界中人类在物理机器人上的演示中收集的。例如，AgiBot-World [6] 发布包含数百万条轨迹的庞大数据集，展示复杂的人形交互。这些预训练的 VLA 模型以及开源机器人数据集通过提供大量多样化和高质量的训练数据，显著提高机器人学习能力。

尽管取得了这些进步，但大多数现有的机器人基础模型 [4、5、21、25、46] 都是基于 2D 视觉输入进行训练的 [23、35]。这是一个关键的限制，因为人类以三维方式感知世界并与世界交互。训练数据中缺乏全面的 3D 空间信息，阻碍了机器人对其环境形成深刻理解的能力。这对于需要精确空间-觉察、深度感知和物体操控的任务尤其重要。许多组织已经在基础 VLA 模型和大规模 2D 机器人数据集上投入大量资金。使用 3D 数据从头开始重训练这些模型在计算上是无法承受的，而丢弃有价值的 2D 机器人数据是不切实际的。因此，探索能够将额外的 3D 输入集成到现有基础机器人模型中的新框架至关重要，这是以前的文献中尚未充分探索的研究领域。

视觉-语言-动作模型。最近的研究越来越关注开发在大规模机器人学习数据集上训练的通用机器人策略 [11、14、23、27、35]。视觉-语言-动作 (VLA) 模型已成为训练此类策略的一种有前途的方法 [4、9、12、13、24、33、36、40、45、46、48、54、55]。VLA 将视觉语言模型 (VLM)（在大规模互联网规模的图像和文本数据集上进行预训练 [1、8、20、28-30、42、53、58、59]）扩展到机器人控制 [44]。这种方法有几个关键优势：利用具有数十亿个参数的大规模视觉-语言模型主干，可以从庞大的机器人数据集中有效学习，同时重用来自互联网规模数据的预训练权重，可以增强 VLA 解释各种语言命令和推广到新目标和环境的能力，使其高度适应现实世界的机器人应用。

使用 3D 模态的机器人学习。在 3D 场景中学习稳健的视觉运动策略 [7、15-17、19、22、37、39、41、49-52] 是机器人学习中的一个重要领域。现有的方法（如 3DVLA [17]）已提出综合框架，将各种 3D 任务（如泛化、视觉问答 (VQA)、3D 场景理解和机器人控制）集成到统一的视觉-语言-动作模型中。然而，3DVLA 的一个局限性是它依赖于机器人控制实验的模拟，这带来巨大的模拟与现实之间的差距。其他研究（如 3D 扩散策略 [51]）已证明使用外部 3D 输入（例如来自外部摄像头）可以提高模型对不同光照条件和物体属性的泛化能力。 iDP3 [50] 进一步增强了 3D 视觉编码器并将其应用于人形机器人，在以自我为中心和外部摄像机视角的各种环境中实现稳健的性能。然而，丢弃现有的 2D 机器人数据或完全重训练基础模型并添加 3D 视觉输入将耗费大量计算资源。一个更实用的解决方案是开发一种方法，将 3D 视觉输入作为补充知识源，集成到经过良好预训练的基础模型中，从而在不影响训练模型性能的情况下获得新模态的好处。

PointVLA，就是一种将点云集成到预训练的视觉-语言-动作模型中的框架。如图所示：

请添加图片描述

视觉-语言-动作模型

视觉-语言-动作 (VLA) 模型正在推动现实世界机器人学习的重大转变。它们的力量源自底层的视觉-语言模型 (VLM)，这是一个在庞大的互联网数据集上训练的强大主干。这种训练能够在共享的嵌入空间内有效地对齐图像和文本表示。VLM 充当模型的“大脑”，处理指令和当前视觉输入以了解任务状态。随后，“动作专家”模块将 VLM 的状态信息转化为机器人动作。这项工作建立在 DexVLA [46] 的基础上，它采用 20 亿参数的 Qwen2-VL [2, 43] VLM 作为其主干，采用 10 亿参数的 ScaleDP [57]（扩散策略变型）作为其动作专家。 DexVLA 经历三个训练阶段：100 小时的跨具身训练阶段（第 1 阶段），随后是具身训练（第 2 阶段），以及针对复杂任务的可选任务特定训练（第 3 阶段）。所有三个阶段都使用 2D 视觉输入。

将点云注入 VLA

动机。如前所述，视觉-语言-动作 (VLA) 模型通常在大型 2D 机器人数据集上进行预训练。现有 2D 预训练语料库和新兴 3D 机器人数据集之间的数据规模存在固有差异。具体而言，假设 3D 传感器数据（例如点云、深度图）的体量比 2D 视觉语言数据集小几个数量级，这是由于机器人研究历史上广泛关注 2D 感知。这种差异需要一种方法来保留从 2D 预训练中学到的丰富视觉表征，同时有效地集成稀疏的 3D 数据。

解决这一挑战的一个简单策略，是将 3D 视觉输入直接转换为 3D 视觉 token，并将它们混合到大语言模型 (LLM) 中 - 一种流行的方法，已被许多 3DVLM（例如 LLaVA-3D [56]）所利用。然而，当前的视觉语言模型在小规模 3D 数据集上进行微调时表现出有限的 3D 理解能力，这一限制因两个因素而加剧：（1）2D 像素和 3D 几何结构之间存在巨大的域差距，（2）与丰富的图像文本和纯文本语料库相比，高质量 3D 文本配对数据稀缺。为了规避这些问题，提出一种范式，将 3D 点云数据视为互补的调节信号而不是主要输入模态。该策略将 3D 处理与核心 2D 视觉编码器分离，从而保留预训练 2D 表示的完整性，同时使模型能够利用几何线索。通过设计，该方法可以减轻 2D 知识的灾难性遗忘，并降低对有限的 3D 数据过拟合的风险。如图（左）所示 PointVLA 框架：

请添加图片描述

点云注入器的模型架构。点云注入器的整体架构如上图（右）所示。具体来说，对于传入的点云嵌入，首先转换通道维度以匹配原始动作专家的通道维度。由于来自点云的动作嵌入可能很大（具体取决于块大小），设计一个动作嵌入颈来压缩来自动作专家的信息，同时将其与 3D 点云嵌入对齐。对于动作专家中选定的块，首先应用 MLP 层作为每个块的适配器，然后执行加法操作将点云嵌入注入模型。

注：避免将 3D 特征注入动作专家的每个块，主要有两个原因。首先，由于所需的调节块，计算成本会过高。其次，注入不可避免地会改变受影响块的模型表示。鉴于目标是尽量减少有限的 3D 视觉知识对从 2D 视觉输入中得出的预训练动作嵌入干扰，分析确定在推理过程中可以跳过而不会影响性能的块。随后，仅将 3D 特征注入这些不太关键的块中。

点云编码器。与 DP3 [51] 和 iDP3 [50] 中的观察结果一致，预训练的 3D 视觉编码器会阻碍性能，通常会阻止机器人在新环境中成功学习行为。因此，采用简化的分层卷积架构。上层卷积层提取低级特征，而下层卷积块学习高级场景表示。层间采用最大池化以逐步降低点云密度。最后，将每个卷积块的特征嵌入连接成一个统一的嵌入，封装多级 3D 表示知识。保留提取的点云特征嵌入以供后续使用。该架构类似于 iDP3 编码器。注：采用更先进的点云编码器可以进一步提高模型性能。

将点云注入哪些块？跳-块分析

如前所述，将点云注入动作专家的每个块并不理想，因为它会增加计算成本并破坏从大量基于 2D 视觉的机器人数据中学习的原始动作表示。因此，分析动作专家中哪些块不太重要 - 即那些可以在推理过程中跳过而不会影响性能的块。这种方法在概念上与图像生成、视觉模型和大语言模型中使用的技术一致 [10, 18, 26, 38]。具体来说，用 DexVLA [46] 中的衬衫折叠任务作为分析的案例研究。回想一下，DexVLA 配备 10 亿参数动作专家和 32 个扩散Transformer块。评估遵循相同的指标——平均分数，这是长期任务的标准衡量标准 [4, 31, 46]——将任务分为多个步骤，并根据步骤完成情况评估性能。从一次跳过一个块开始，并在下图中总结规律。

请添加图片描述

在上图（上部分）中说明结果。实验表明，前 11 个块对模型至关重要——跳过其中任何一个都会导致性能显着下降。具体而言，当跳过第 11 层之前的块时，夹持器无法紧密闭合，这使得模型难以完成任务。但是，从第 11 个块开始，跳过单个块变得可以接受，直到最后一个块。这表明训练后第 11 到第 31 个块对性能的贡献较小。为了进一步研究哪些块适合点云注入，从第 11 个块开始进行多块跳分析，如上图（下部分）所示。在模型完成任务之前，最多可以跳过五个连续的块，否则模型会失败。这表明，可以通过特定块选择性地将 3D 表示注入到动作专家中，从而优化效率，而不会显著影响性能。因此，将所有 3D 条件块设置为在引入新数据时可训练。冻结原始动作专家中的所有模块，但最后的层除外，这些层会进行调整以适应具体化的输出。最终，只训练五个额外的注入块，它们在推理过程中重量轻且速度快，使方法具有很高的成本效益。

在这项工作中，在两种具身中进行真实的机器人实验：
• 双手 UR5e。两个 UR5e 机器人，每个机器人都配有 Robotiq 平行钳口夹持器和腕式摄像头。两个手臂之间放置了一个自上而下的摄像头。此设置共有三个摄像头视图和一个 14 维配置和动作空间。数据以 15Hz 的频率收集。用 RealSense D435i 摄像头作为腕式摄像头。
• 双手 AgileX。两个 6-DoF AgileX 手臂，每个手臂都配有一个腕式摄像头和一个底座摄像头。此设置具有 14 维配置和动作空间，总共由三个摄像头支持。数据以 30Hz 的频率收集。用 RealSense D435i 摄像头作为腕式摄像头。

用 RealSense L515 摄像头收集点云。将 VLM 模型设置为可训练，因为模型需要学习新的语言指令。对于这两个实验，使用 DexVLA [46] 中第 1 阶段预训练的权重，并对模型进行微调。用与 DexVLA 第 2 阶段训练相同的训练超参，并使用最后一个检查点进行评估以避免挑选。将所有任务的块大小设置为 50。

在实验中，与许多最先进的模型进行比较，包括扩散策略 (DP) [9]、3D 扩散策略 (DP3) [51]、ScaleDP-1B [57]（将扩散策略扩展为 1B 参数的变型）、Octo [34]、OpenVLA [25] 和 DexVLA [46]。注：由于 PointVLA 建立在 DexVLA 之上，因此 DexVLA 可以看作是提出的 PointVLA 的消融，而无需结合 3D 点云数据。

对 PointVLA 进行微调，使其适应长距离包装任务，如图所示。这是一项极具挑战性的任务，原因如下。首先，装配线处于运动状态，需要机器人快速准确地抓取物体。其次，此场景中的实施与预训练数据中的实施不同，需要快速适应全新的设置。第三，作为一项长距离任务，机器人必须依次拾取和放置两袋洗衣粉，然后密封包装箱。这些复杂性使得任务要求极高。

请添加图片描述

关于传统的多任务处理任务，如图所示，为真实世界实验设计四个小样本任务：充电手机、擦拭盘子、放置面包、运输水果。物体被随机放置在一个小范围内，报告每种方法的平均成功率。1）充电手机：机器人拿起智能手机并将其放在无线充电器上。手机的大小考验动作的精确度，而它的易碎性需要小心处理。2）擦拭盘子：机器人同时拿起海绵和盘子，用海绵擦拭盘子，评估双手操作技能。3）放置面包：机器人拿起一块面包并将其放在盘子上。面包下面的薄泡沫层确保高度泛化测试。4）运输水果：机器人拿起一根随机放置的香蕉并将其放在位于中心位置的盒子里。

请添加图片描述