OpenVLA: An Open-Source Vision-Language-Action Model

news2024/9/20 16:49:26

发表时间：13 Jun 2024

作者单位：Stanford University

Motivation: the potential to change how we teach robots new skills。然而，VLA 对机器人技术的广泛采用具有挑战性，因为 1）现有的 VLA 在很大程度上是封闭的并且公众无法访问的，以及 2）先前的工作未能探索为新任务有效地微调 VLA 的方法，这是采用的关键组成部分。

解决方法：OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations（模仿学习）。OpenVLA 采用更端到端的方法，直接微调 VLM 通过将机器人视为语言模型词汇表中的token来生成机器人动作。我们的实验评估表明，这种简单但可扩展的pipline大大提高了先前generalist策略的性能和泛化能力。

实现方式：

模型结构：With a 600M-parameter visual encoder, a small 2-layer MLP projector, and a 7B-parameter Llama 2 language model backbone.

Notably, Prismatic uses a two-part visual encoder, consisting of pretrained SigLIP and DinoV2 models.与更常见的视觉编码器(如CLIP-[78]或仅SigLIP编码器)相比，DinoV2特征的添加已被证明有助于提高空间推理[44]，这对机器人控制特别有帮助。 OpenVLA Training Procedure：fine-tune a pretrained Prismatic-7B VLM backbone for robot action prediction。我们将动作预测问题制定为“视觉语言”任务，其中输入观察图像和自然语言任务指令被映射到一系列预测的机器人动作。

Training Data：我们利用 Open X-Embodiment 数据集 [1] (OpenX) 作为基础来管理我们的训练数据集。在撰写本文时，完整的 OpenX 数据集由 70 多个单独的机器人数据集组成，具有超过 2M 机器人轨迹，这些轨迹被汇集成一个连贯且易于使用的数据格式，以巨大的社区努力。（同时对这些数据集进行了一定的处理，详见原文）

OpenVLA Design Decisions（介绍了OPENVLA是为什么这么设计的）：

试验了多个VLM主干，发现 IDEFICS 最牛逼。
尝试了224 × 224px and 384 × 384px inputs分辨率的图像，发现都一样，就使用了224 × 224px。
我们发现在 VLA 训练期间微调视觉编码器对于良好的 VLA 性能至关重要。跟有利于场景理解和空间细节

实验：

Direct Evaluations on Multiple Robot Platforms：on two robot embodiments: the WidowX robot from the BridgeData V2 evaluations。

Data-Efficient Adaptation to New Robot Setups：我们还研究了 VLA 的有效微调策略，这是先前工作中没有探索的新贡献，跨越 7 个不同的操作任务，跨越来自对象拾取和放置的行为以清理桌子。

将VLA模型有效地微调到新任务和机器人设置在很大程度上还没有被探索，但这是它们广泛采用的关键。在本节中，我们研究了 OpenVLA 快速适应新机器人设置的能力。我们为 OpenVLA 模型测试了一个简单的微调方法：对所有模型参数进行完全微调，使用目标任务的 10-150 个演示的小型数据集。

使用的10–150 demonstrations of a target task，非常少！！！

这里的任务是跨机器人任务，我的 few-shot action learning 也可以使用这种任务设定！！！！

Parameter-Efficient Fine-Tuning：尝试了不同的参数高效微调的方式。

full finetuning
last layer only
frozen vision，sandwich fine-tuning unfreezes the vision encoder, token embedding matrix, and last layer
LoRA：all linear layers of the model.

最后，LoRA 在性能和训练内存消耗之间取得了最好的结果，优于“三明治微调”并匹配完整的微调性能，同时仅微调 1.4% 的参数。

结论：Secondly, improving the inference throughput of OpenVLA is critical to enable VLA control for high-frequency control setups such as ALOHA [88 ], which runs at 50Hz。This will also enable testing VLAs on more dexterous, bi-manual manipulation tasks than what we investigated in this work.

由于计算限制，许多 VLA 设计问题仍未得到充分探索：

基础 VLM 的大小对 VLA 性能的影响有多大。

机器人动作预测数据和互联网规模的视觉语言数据的联合训练是否大大提高了VLA的性能。

哪些视觉特征最适合 VLA 模型。

我们希望 OpenVLA 模型和代码库的发布将使社区能够共同调查这些问题。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2042767.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！