DataPlatter：利用最少成本数据提升机器人操控的泛化能力

25年3月来自中科院计算所的论文“DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data”。

视觉-语言-动作 (VLA) 模型在具身人工智能中的应用日益广泛，这加剧对多样化操作演示的需求。然而，数据收集的高成本往往导致所有场景的数据覆盖不足，从而限制模型的性能。大型工作空间中的空间推理阶段 (SRP) 占主导地位，导致失败的情况居多。幸运的是，这些数据可以以低成本收集，凸显利用廉价数据来提高模型性能的潜力。本文介绍 DataPlatter 方法，这是一种将训练轨迹分解为不同任务阶段的框架，并利用大量易于收集的 SRP 数据来增强 VLA 模型的泛化能力。通过分析，使用适当比例的额外 SRP 数据进行子任务特定训练可以作为机器人操作的性能催化剂，最大限度地利用昂贵的物理交互阶段 (PIP) 数据。

随着多模态大语言模型 (MLLM) 的理解和推理能力快速发展，它们在现实世界交互中的应用，即具身人工智能 (EAI)，已成为研究的焦点 [4, 14, 27]，而利用视觉-语言-动作 (VLA) 模型的方法是一种常见的选择 [5, 16, 47, 53]。与 MLLM 类似，训练 VLA 的空间理解和物理交互推理能力，需要大量跨各种任务的演示轨迹。尽管人们付出了大量的努力和高昂的成本来收集机器人演示，无论是在模拟 [10, 11, 30] 中还是在现实世界 [3, 35, 41] 中，但将特定智体的轨迹泛化到新智体配置仍然是一个关键挑战。因此，特定智体可用的训练数据仍然有限，远远不足以涵盖多样化的现实场景，从而限制 VLA 模型能力的提升。

为了解决这个问题，提高数据利用效率，研究人员正致力于探索跨智体训练 [6, 23, 35, 44, 47]、空间认知增强 [12, 25, 51] 和通过思维链进行任务逻辑提取 [38]。值得注意的是，最近的研究 [24, 41] 证明了一种规模化定律，它控制着操作工作空间的空间体积、训练数据的数量和 VLA 模型的泛化性能之间的关系。所有这些方法都有一个共同的前提：理解具身任务的组合性质。

大部分任务处理过程一般可以分为两个阶段：空间推理阶段（SRP）和物理交互阶段（PIP），如图所示。前一个阶段与目标无关，因为智体会探索广阔的工作空间，而不需要与目标进行任何密切交互，比如在操作前接近目标，这使得数据收集相对简单。相比之下，在后期阶段，需要根据物理定律对目标采取精确的动作，并预见到物体的反应，这对于人类或算法专家来说都是极其耗费人力的。这引发了一个核心问题：廉价的 SRP 数据能否放大稀缺的 PIP 数据的价值，从而减少数据收集所需的工作量？

请添加图片描述

目前，大多数 EAI 模型仅限于执行它们在训练期间明确遇到的任务。例如，即使一个模型被训练来捡起瓶子，它也不能将其泛化到捡起可乐罐。虽然这个问题已经通过从早期的域随机化 [13]、元学习 [8] 和数据增强 [17] 到最近在世界模型构建 [5, 27] 和空间推理 [12, 25] 方面的进展进行研究，但对分布外 (OOD) 新目标的泛化性能仍然显示出有限的提升。[5, 53] 尝试将使用互联网规模数据训练的大模型中世界知识迁移到机器人动作推理中，但来自“练习”的 OOD 目标操作经验无法从“阅读”中有效获得，而 [27, 38, 38] 则试图直接使用通用能力来指导智体的动作逻辑。 [12, 25, 51] 致力于通过理解工作空间中的空间信息来提高动作性能。Zhu [52] 通过文本-图像对将目标知识迁移到相似的物体上，但在推理过程中仍然需要辅助信息才能获得更好的性能。

本文提出一种端到端的训练方法，可以大幅度提高 OOD 目标的泛化性能。本文关键见解源于两个关键的观察结果：（1）与 PIP 相比，SRP 所需的空间理解能力表现出更高的环境可变性，因为对特定目标的操作阶段相对固定，与周围场景的关联性较小； (2) 神经网络在不同任务阶段表现出不同的注意模式，例如在 SRP 中关注目标的位置和空间占有以避免碰撞，而在 PIP 中则转移到目标占比。这些发现表明，针对子任务的训练策略可以更好地与模型的学习特性相匹配，在子任务中使用这些数据段的不同占比。

Tan [41] 和本文实验（见下表 SRP 阶段对模型性能的影响）都表明，较小的工作空间可以显著提高操作任务的成功率。这表明将操作阶段与不同的注意中心解耦，可以提高泛化性能。此外，子任务难度的这种变化，可能导致模型在更简单的小工作空间阶段过拟合，而在大工作空间阶段欠拟合，这需要每个阶段使用不同的数据量。

请添加图片描述

本文提出 DataPlatter 方法，将训练数据从不同的操作阶段中分离出来，构建一个隐式的子任务特定训练程序，并利用大量易于收集的 SRP 数据来训练此阶段，以提高 VLA 模型的性能。

如图所示，DataPlatter 根据智体与环境中物体的交互程度将机器人操作轨迹分为空间推理阶段和物理交互阶段。通过采用适当比例的两阶段数据混合，目标是实现与使用完整数据进行模型训练相当的泛化性能。这种方法有效地减少对昂贵的 PIP 数据依赖。

请添加图片描述

重点关注利用行为克隆的 VLA 模型，这是 IL 方法的一类。考虑一个机器人操作轨迹数据集 D^F = {τ_i^F}，其中每个全阶段轨迹 τ_i^F = {l^i, o_1^i, a_1^i, o_2^i, · · · , a_T-1^i, o_T^i} 由任务的语言指令 l、智体在每个时间步 t 的观察 o_t^i 以及智体采取的动作 a_t^i 组成。具有参数 θ 的 VLA 模型 Ψ_θ 将任务指令和一段长度为 L 的观察历史 O_t,Lⁱ = {o_t−L+1, · · · , o_t} 作为输入，并预测智体在过去 L 个时间步和接下来的 H 个时间步中应执行的如下动作块以完成任务 A_t,L,H^i = {a_t−L+1 , · · · , a_t+H }。

通常，像 CLIP [36] 这样的视觉编码器使用图像-文本对进行预训练，以提供对齐的视觉-纹理语义，从而促进与 LLM 的无缝集成，并且通常在训练 VLA 模型期间保持冻结状态。GPT [1] 或 LLaMA [32] 等 LLM 因其强大的通用推理能力而成为模型的核心，并且通常使用适配器 [20, 26] 来集成多模态输入tokens。动作解码器通常由几个轻量级神经网络层组成，这些神经网络层解释 LLM 输出的动作 token 块并将其转换为具有物理意义的动作，例如末端执行器的 6-DoF 姿势。

模型优化的目标是尽量减少预测动作序列和演示动作序列之间的差异。

为了利用数据集中不同子任务的轨迹，首先根据末端执行器 G 和目标物体 T 之间的距离以及目标在腕部相机 C_w 中的可见性，将给定的全阶段轨迹 τ_i 分割为 SRP 和 PIP。假设场景中有一个腕部相机和一个静态相机，这是大多数数据集中的常见配置。更正式地说，对于位置 p_T 处的目标物体 T、位置 p_G 处的末端执行器 G 和在 OpenCV 框架下定义的姿势 P_C = (p_C,R_C) 处腕式摄像机 C_w，如果满足以下条件，则 PIP 开始：

请添加图片描述

一旦完成富有交互的操作阶段，PIP 就会停止，例如在拾取和放置任务中抓取目标或在开关操作任务中触发按钮之后。除 PIP 之外，轨迹的其余部分被称为 SRP。按照这样的程序，轨迹可以分为几个段 τ_i^F = { τ_i,1^SRP, τ_i,1^PIP, τ_i,2^SRP, ···}。相应地，数据集可以分为两个子数据集：D^F = D^SRP ∪ D^PIP ，其中 D^SRP = {τ_i,j^SRP} 包含轨迹中的所有 SRP 段，D^PIP = {τ_i,j^PIP} 包含操作段。注：目标是使用大量易于收集的 SRP 数据（而不是昂贵的 PIP 数据）来训练 VLA 模型，因此在实践中，可以将独立收集的 SRP 数据集 D_ind^SRP 纳入训练中。

在 VLA 模型的训练阶段之前，分别在 D 和 D_ind^SRP 中采样 N_1 和 N_2 个段，并构建一个新的数据集 D^Mix 来训练模型，本文称其为 DataPlatter，即

请添加图片描述

在实践中，为了达到最佳模型能力，通常使用整个全阶段轨迹数据集 D^F，即 N_1 = ｜D^F｜，并选择适当的 N_2 来提高在新场景上的泛化性能。通过这种方法，构建一个隐式的子目标特定训练，子任务数据集 D^PIP 和 D^SRP ∪ D_ind^SRP，提供一种灵活的方式来控制每个子任务的性能。通过改变两个子数据集之间的数据比例，可以观察任务成功率相对于 SRP 数据量的变化趋势，由此可以得出在保持 VLA 模型性能的同时节省 PIP 数据的原则。

本文使用 RoboMM [47] 作为基线，这是一个多模态 VLA 模型，利用 UVFormer [25] 以低成本的方式通过带有相机参数的 RGB 图像帮助实现空间感知。在训练过程中，将语言指令和来自静态相机和腕式相机的 RGB 图像以及它们的内和外参输入模型，并使用带有动作块的深度图像作为监督。

在 Isaac-Sim 的模拟环境中，生成一个涉及各种类别和几何形状目标物体的“物体拾取”任务数据集。对于仅 SRP 轨迹，为了在现实世界的机器人中提供可实现的管道，没有直接从模拟中读取物体信息，而是应用前面提供的检测采样方法。

数据集是在 IsaacSim 的模拟环境中收集的，该环境使用与Zheng [50] 类似的算法自动收集。每个场景都用 4 到 6 个物体随机放置在桌子上进行初始化，包括位置和方向。配备两指夹持器的 Franka-Panda 7-DoF 机械臂以随机末端执行器姿势初始化。放置在桌子前面的静态摄像机以及安装在夹持器上的腕式摄像机用于捕捉场景的 RGB 和深度观察。在收集过程中，从桌子上的物体中抽取一个目标并指定为目标，并使用预定义模板生成语言指令。在每个步骤中，都会记录夹持器的姿势、算法生成的动作目标、机器人关节信息、夹持器状态、来自摄像机的图像、任务指令以及场景中所有物体的状态信息，以供训练和重现。在生成相机图像和评估时使用光线追踪渲染器。在实验中使用的目标物体如图所示。

请添加图片描述

对于全阶段轨迹，首先在目标上采样无碰撞抓取标签，使用 Fang [7] 的方法，采用物体的碰撞模型对其进行密集标记。然后，智体使用 CuRobo [39] 执行 6-DoF 路径规划并执行生成的路径。对于仅涉及 SRP 阶段的轨迹，为了在现实世界的机器人中提供可实现的管道，没有直接从模拟器中读取目标信息。实际上，首先从静态摄像机捕获的 RGB 图像中定位目标，然后将其输入到 CNN 以检测目标边框。利用边框可以从深度图像中获取目标的平均深度，并使用摄像机的内外参计算其位置。然后在接近姿势采样阶段，只需在距离目标位置 10 厘米的范围内采样末端执行器姿势，确保夹持器朝向目标，然后使用深度图像提供的空间占用信息规划路径，最后由智体执行路径。

在轨迹生成过程中，仅 SRP 轨迹的生成速度比使用全阶段数据的轨迹快 2.5 倍，而全阶段数据的长度仅为 SRP 数据的 1.4 倍。在现实世界的数据收集中，这种差异只会更大。在实验中使用的其他数据集使用前面 PIP 开始的条件所提供的方法进行划分，其中 d_th = 0.2 m 和 α_fov = π/3。

模型在配备 8 个 Nvidia A100 GPU 的服务器上进行训练，每个 GPU 具有 80GB 的 CUDA 内存。SRP 段通常比 PIP 段长，数据集 D^M⟩§ 包含的 SRP 轨迹是 PIP 轨迹的几倍。在训练期间，形成混合数据集 D^Mix，其中独立 SRP 段的比例各不相同。

为了防止 SRP 特征主导模型对操作的理解，在训练期间，PIP 轨迹 τ^PIP 被复制 [N_2/N_1] 次。使用前 10 个epochs 内零样本环境中性能最佳的检查点进行评估。