OpenVLA: An Open-Source Vision-Language-Action Model

news2024/9/20 16:49:26

发表时间:13 Jun 2024

作者单位:Stanford University

Motivation: the potential to change how we teach robots new skills。然而,VLA 对机器人技术的广泛采用具有挑战性,因为 1)现有的 VLA 在很大程度上是封闭的并且公众无法访问的,以及 2)先前的工作未能探索为新任务有效地微调 VLA 的方法,这是采用的关键组成部分。

解决方法:OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations(模仿学习)。OpenVLA 采用更端到端的方法,直接微调 VLM 通过将机器人视为语言模型词汇表中的token来生成机器人动作。我们的实验评估表明,这种简单但可扩展的pipline大大提高了先前generalist策略的性能和泛化能力。

实现方式

模型结构:With a 600M-parameter visual encoder, a small 2-layer MLP projector, and a 7B-parameter Llama 2 language model backbone.

Notably, Prismatic uses a two-part visual encoder, consisting of pretrained SigLIP and DinoV2 models.与更常见的视觉编码器(如CLIP-[78]或仅SigLIP编码器)相比,DinoV2特征的添加已被证明有助于提高空间推理[44],这对机器人控制特别有帮助。 OpenVLA Training Procedure:fine-tune a pretrained Prismatic-7B VLM backbone for robot action prediction。我们将动作预测问题制定为“视觉语言”任务,其中输入观察图像和自然语言任务指令被映射到一系列预测的机器人动作。

Training Data我们利用 Open X-Embodiment 数据集 [1] (OpenX) 作为基础来管理我们的训练数据集。在撰写本文时,完整的 OpenX 数据集由 70 多个单独的机器人数据集组成,具有超过 2M 机器人轨迹,这些轨迹被汇集成一个连贯且易于使用的数据格式,以巨大的社区努力。(同时对这些数据集进行了一定的处理,详见原文)

OpenVLA Design Decisions(介绍了OPENVLA是为什么这么设计的):

  1. 试验了多个VLM主干,发现 IDEFICS 最牛逼。

  2. 尝试了224 × 224px and 384 × 384px inputs分辨率的图像,发现都一样,就使用了224 × 224px。

  3. 我们发现在 VLA 训练期间微调视觉编码器对于良好的 VLA 性能至关重要。 跟有利于场景理解和空间细节

实验

Direct Evaluations on Multiple Robot Platforms:on two robot embodiments: the WidowX robot from the BridgeData V2 evaluations。

Data-Efficient Adaptation to New Robot Setups:我们还研究了 VLA 的有效微调策略,这是先前工作中没有探索的新贡献,跨越 7 个不同的操作任务,跨越来自对象拾取和放置的行为以清理桌子。

将VLA模型有效地微调到新任务和机器人设置在很大程度上还没有被探索,但这是它们广泛采用的关键。在本节中,我们研究了 OpenVLA 快速适应新机器人设置的能力。 我们为 OpenVLA 模型测试了一个简单的微调方法:对所有模型参数进行完全微调,使用目标任务的 10-150 个演示的小型数据集。

使用的10–150 demonstrations of a target task,非常少!!!

这里的任务是跨机器人任务,我的 few-shot action learning 也可以使用这种任务设定!!!!

Parameter-Efficient Fine-Tuning:尝试了不同的参数高效微调的方式。

  1. full finetuning

  2. last layer only

  3. frozen vision,sandwich fine-tuning unfreezes the vision encoder, token embedding matrix, and last layer

  4. LoRA:all linear layers of the model.

最后,LoRA 在性能和训练内存消耗之间取得了最好的结果,优于“三明治微调”并匹配完整的微调性能,同时仅微调 1.4% 的参数。

结论:Secondly, improving the inference throughput of OpenVLA is critical to enable VLA control for high-frequency control setups such as ALOHA [88 ], which runs at 50Hz。This will also enable testing VLAs on more dexterous, bi-manual manipulation tasks than what we investigated in this work.

由于计算限制,许多 VLA 设计问题仍未得到充分探索:

基础 VLM 的大小对 VLA 性能的影响有多大。

机器人动作预测数据和互联网规模的视觉语言数据的联合训练是否大大提高了VLA的性能。

哪些视觉特征最适合 VLA 模型。

我们希望 OpenVLA 模型和代码库的发布将使社区能够共同调查这些问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2042767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux: 进程概念详解

目录 1. 冯诺依曼体系结构 2. 操作系统(Operator System) 1. 概念 2. 设计OS的目的 3. 任务 (定位) 4. 理解管理 3. 进程 1. 基本概念 2. 描述进程-PCB 3. 进程状态 4. 创建进程 fork 5. (Zombie)-僵尸进程 6. 孤儿进程 7. 进程优先…

[卷积神经网络]YOLOv10论文解读

原文地址: YOLOv10: Real-Time End-to-End Object Detectionhttps://arxiv.org/pdf/2405.14458 项目地址: yolov10https://github.com/THU-MIG/yolov10 一、概述 YOLOv10的改进点主要由两点:①提出一种基于无NMS的一致的双重训练策略&…

构建高效外贸电商系统的技术探索与源码开发

在当今全球化的经济浪潮中,外贸电商作为连接国内外市场的桥梁,其重要性日益凸显。一个高效、稳定、功能全面的外贸电商系统,不仅能够助力企业突破地域限制,拓宽销售渠道,还能提升客户体验,增强品牌竞争力。…

Web网站的授权oAuth2.0 单点登录

1.Web网站的授权(oAuth2.0) Client 第三方应用(需要做鉴权的业务网站、业务系统)UserAgent 用户代理(浏览器)Resource Owner 用户授权(用户手动点击【同意】按钮,授权使用第三方登录渠道)&#…

CPU飙升 怎么定位问题

传统的方法 【top】 查看所有进程占系统CPU的排序,定位是哪个进程搞的鬼。PID那一列就是进程号。 【top -Hp pid】 定位进程中使用 CPU 最高的线程tid 【printf ‘0x%x’ tid】 线程 tid 转化 16 进制,例如printf ‘0x%x’ 11882 得到16进制的 0x2e6a 【jstack…

Spring——IOC/DI思想

1、IOC(Inversion of Control)控制反转 何为控制反转? 在业务层中我们如果要调用数据层的方法那么必然牵扯到对象的创建,如果我想要改变上述数据层的方法中的内容,那么我就要改变业务层的代码,重新创建对…

R语言的矩阵运算

下面内容摘录自《R 语言与数据科学的终极指南》专栏文章的部分内容,每篇文章都在 5000 字以上,质量平均分高达 94 分,看全文请点击下面链接: 3章4节:R的逻辑运算和矩阵运算-CSDN博客文章浏览阅读165次。在 R 语言的丰…

PHP概述、环境搭建与基本语法讲解

目录 【学习目标、重难点知识】 什么是网站? 1. PHP 介绍 1.1. PHP 概述 1.1.1. PHP 是什么? 1.1.2. PHP 都能做什么? 1.2. PHP 环境搭建 1.2.1. PhpStudy 2. PHP 基本语法 2.1. PHP 语法入门 2.1.1. 第一个 PHP 程序 2.1.2. PHP …

Postman入门指南

前言 当前最为主流的开发模式:前后端分离 在这种模式下,前端技术人员基于"接口文档",开发前端程序;后端技术人员也基于"接口文档",开发后端程序。 由于前后端分离,对我们后端技术人…

PHP 无参数RCE总结

在这篇文章中,我总结了在参与CTF比赛过程中积累的关于PHP无参数远程代码执行(RCE)的经验。由于一直以来时间有限,今天终于有机会整理这些知识点。 可能用到的函数(PHP的内置函数) localeconv() 函数返回一…

String 事务

目录 一、什么是事务 二、Spring事务的实现方式 1、编程式事务 2、声明式事务 三、自动操作事务的注解的三个属性 1、rollbackFor 2、isolation 3、propagation 前言:本文所见围绕的主题是事务,所以笔者先讲解什么是事务,先让大家了解…

Selenium + Python 自动化测试15(模块化测试)

我们的目标是:按照这一套资料学习下来,大家可以独立完成自动化测试的任务。 上一篇我们讨论了使用SMTP 对象的sendmail 发送HTML报告的方法。 本篇文章我们接着讲测试代码的一些优化,提高我们测试代码的易读性,维护方便性。大家也…

ZooKeeper 集群的详细部署

ZooKeeper 集群部署 一、ZooKeeper 简介1.1 什么是 ZooKeeper1.2 ZooKeeper 特点 二 ZooKeeper 的架构和设计4.1 ZooKeeper 数据模型4.1.1 Znode 节点特性 三、ZooKeeper 的集群安装前准备工作3.1 需要的准备工作3.2 Linux 系统 3 个节点准备3.2.1 克隆3.2.2 配置另外两台服务器…

评论系统如何不崩溃?揭开海量评论背后的技术秘密

我是小米,一个喜欢分享技术的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号“软件求生”,获取更多技术干货! 大家好,我是小米!今天我们来聊聊一个非常实际的场景:海量新闻评论的入库问题。假设你在某个新闻平台工作,某条热门新闻突然火爆,用户的评论量如潮水…

SpringBoot Web开发(请求,响应,分层解耦)

Author_T17🥥 目录 一.请求响应概述 1.Servlet 2.DispatcherServlet 3.请求响应工作概图 4.BS/CS架构 二.API测试工具 三.请求 1.简单参数 (1)原始方式(不推荐) ​编辑 (2)Spring Boo…

【剑指 offer】删除链表中重复的结点

目 录 描述: 在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针。 例如,链表 1->2->3->3->4->4->5 处理后为 1->2->5 思路: 通过快慢…

2024年阳光电源社招校招入职测评:前程无忧智鼎题库全解析

在职场竞争日益激烈的今天,企业对人才的选拔标准越来越高。阳光电源,作为行业的领军企业,采用了前程无忧智鼎题库进行社招校招入职测评,旨在通过科学的方法选拔出与企业文化和价值观高度契合的人才。 测评概览 测评名称&#xff1…

大模型RAG企业级项目实战:Chatdoc智能助手文档(从零开始,适合新手)

大模型RAG企业级项目实战:Chatdoc智能助手文档(从零开始,适合新手) 大模型RAG企业级项目实战完整链接 LLM模型缺陷: ​ 知识是有局限性的(缺少垂直领域/非公开知识/数据安全) ​ 知识实时性(训练周期长、成本高) …

5计算机网络全面解析

网络功能和分类 计算机网络是计算机技术与通信技术相结合的产物,它实现了远程通信、远程信息处理和资源共享。 计算机网络的功能:数据通信、资源共享、管理集中化、实现分布式处理、负载均衡。 网络性能指标:速率、带宽(频带宽…

1.微服务发展阶段

单体应用阶段 简介 系统业务量很小的时候我们把所有的代码都放在一个项目中,然后将这个项目部署在一台服务器上,整个项目所有的服务都由这台服务器去提供 优点 1.展现层、控制层、持久层全都在一个应用里面,调用方便、快速,单个请…