PointVLA 论文
现有的 VLA 基于 2D 视觉-语言数据表现良好但缺乏 3D 几何先验导致空间推理缺陷。传统方案:1)3D->2D 投影,造成几何信息损失;2)3D 数据集少。PointVLA 保留原有 VLA,提取点云特征,向 Action Expert 的非关键层注入几何特征(跳连分析)。“分治”。
选择性三维注入:
- 全模块注入会导致大量额外计算,选择性注入在少数层增加 MLP + 特征加和
- 保持实时性
- 盲目注入 3D 特征会破坏 2D 的预训练知识
- 全模块注入可能导致过拟合
DP3 与 iDP3 中发现预训练的 3D 视觉编码器阻碍性能提升,采用层级卷积。
通过平均分数(长期任务的评定标准)对跳过块进行分析,以 DexVLA 为例:前 11 个块很重要,跳过任何一个都会导致性能显著下降,即 11-31 块对性能贡献度较小。
只训练 5 个额外的注入块,性价比最高。
实验结果
在模拟和真实世界环境中的实验证明了PointVLA的有效性,它实现了少样本多任务学习(每个任务仅用20个演示样本完成4个任务),并在动态物品包装等长视野任务中表现卓越。在双手机器人(UR5e和AgileX机械臂)上的真实世界测试进一步验证了其实用性和安全性。