[EAI-034] 通过在线强化学习改进VLA模型

news2025/4/21 18:46:05

Paper Card

论文标题:Improving Vision-Language-Action Model with Online Reinforcement Learning
论文作者:Yanjiang Guo, Jianke Zhang, Xiaoyu Chen, Xiang Ji, Yen-Jen Wang, Yucheng Hu, Jianyu Chen
论文链接:https://arxiv.org/abs/2501.16664v1
项目主页:/
论文出处:/
论文被引:/

Abstract

最近的研究成功地将大型视觉-语言模型 (VLMs) 集成到低层次机器人控制中,方法是使用专家机器人数据集进行监督微调 (SFT),从而构建视觉-语言-动作 (VLA) 模型。尽管 VLA 模型功能强大,但如何在与环境交互过程中改进这些大型模型仍然是一个悬而未决的问题。本文探讨了如何通过强化学习 (RL)——一种常用的大型模型微调技术——进一步改进这些 VLA 模型。然而,将在线 RL 直接应用于 VLA 模型会带来重大挑战,包括训练不稳定性(严重影响大型模型的性能)和计算负担(超过大多数本地机器的能力)。为了应对这些挑战,提出了 iRe-VLA 框架,该框架在RL和监督学习之间迭代,有效地改进 VLA 模型,利用 RL 的探索优势,同时保持监督学习的稳定性。 在两个模拟基准和一个真实世界操作套件中的实验验证了方法的有效性。

Summary

研究背景

VLA 模型的微调通常采用SFT,该方法的优点是稳定性和可扩展性。但是,SFT 以来高质量的专家数据集,而这些数据集在机器人领域成本高昂且难以获取。由于分布偏移,监督学习无法完全使 VLA 模型与物理环境对齐。受 RLHF 的启发,尝试使用在线 RL 改进 VLA 模型,使其与物理环境更好地对齐。机器人需要在线探索具有长程任务和稀疏奖励的任务。之前的研究表明,在线 RL 应用于大型神经网络时训练极其不稳定,并且性能会下降,如图1右侧所示。
在这里插入图片描述

方法介绍

为了稳定 RL 过程并有效增强 VLA 模型,提出了 iRe-VLA 方法,该方法在在线 RL 阶段和 SFT 阶段之间 迭代。在 RL 阶段,冻结VLM参数,只训练轻量级的动作头以保持训练稳定性。在随后的 SFT 阶段,对成功的轨迹进行全参微调,以充分利用大型模型的表达能力。根据经验,这种两阶段方法提高了VLA的性能,稳定了训练,并且计算效率更高。通过全面的实验验证了iRe-VLA方法,包括模拟的MetaWorld [21]、Franka-Kitchen [22]和真实世界的Panda操作任务集。在这些领域,iRe-VLA 不仅更好地将VLA模型与原始任务对齐,而且还能自主解决未见过的任务。此外,VLA模型的泛化能力也通过与环境的在线交互得到了提高。

本文尝试使用 RL 直接改进由 VLA策略输出的低层次控制信号,该策略在稀疏奖励的物理环境中具有更长的范围(数百或数千个步骤)。目标是开发一种学习方法,该方法能够通过在线交互有效地改进VLA模型,同时保持机器人系统能够承受的计算成本。

前置知识

在这里插入图片描述

模型架构

在这里插入图片描述

使用BLIP-2 3B模型作为主干VLM。 由于预训练的VLM在语言空间中输出文本token,因此设计了一个动作头来产生低级的控制动作。 这些动作通常包括末端执行器姿态和夹爪状态的变化。 遵循[11, 34]中提出的设计,将VLM的全连接层替换为一个新初始化的动作头。

遵循[47]中描述的方法,利用 LoRA 微调 VLM。 可训练参数总数包括 LoRA 参数 θ 和动作头参数ϕ。

训练流程

首先,对VLA模型进行了基于机器人数据集的监督微调(阶段0),然后迭代进行在线RL(阶段1)和监督学习(阶段2)。

阶段0:基于专家数据集的监督学习

首先使用专家机器人数据集 De={(o1,l1,a1),(o2,l2,a2),…,(oi,li,ai)} 对VLA模型 πθ 进行标准的监督微调。损失函数为 MSE:
在这里插入图片描述
阶段1:使用冻结VLM的在线RL

引入了一个与动作头结构相同的 critic 头,但输出维度设置为1。 为了防止模型崩溃并加速学习过程,在这一阶段冻结了VLM参数 θ。 因此,只有动作头的参数ϕ被优化:
在这里插入图片描述
在线RL后,机器人可能会发现新的轨迹 xi 来解决新任务。然后将这些成功的轨迹收集到一个在线数据集 DRL = DRL ∪ xi 中。

阶段2:基于专家数据和在线收集数据的监督学习

第一阶段,当智能体对新任务进行RL时,它有可能会忘记先前学习的任务。 因此,在第二阶段,使用新收集的在线数据DRL和原始专家数据集De来监督整个模型,以减轻灾难性遗忘[49]。 目标可以写成:
在这里插入图片描述
迭代阶段1和阶段2。
阶段1中的智能体探索新任务的新解决方案,而在阶段2中,它模仿所有可用的成功轨迹。 通过在阶段1和阶段2之间交替,大型VLA模型逐渐解决更广泛的任务,同时也能防止在已知任务上发生灾难性遗忘。整个流程在算法1中概述。

在这里插入图片描述

消融实验

在两个模拟基准Metaworld和FrankaKitchen以及现实世界的 Panda 操作任务中进行实验,以验证iRe-VLA框架的有效性。目标是回答以下问题:

  • 为什么采用两阶段迭代RL过程而不是标准RL?
  • iRe-VLA能否稳定训练过程并有效改进VLA模型在专家任务和未见任务中的表现?
  • iRe-VLA能否实现VLA模型更好的泛化能力?

实验设置

使用单个文本条件VLA模型来解决一个领域中的所有任务。每个领域都涉及分为三组的任务:演示数据集观察到的专家任务、通过在线RL增强的RL训练任务以及在先前训练中未见过的保留任务。
在这里插入图片描述

Metaworld 包含25个任务,每个任务包含50条轨迹。第二类和第三类任务引入了新的任务,这些任务的特点是物体形状、颜色和位置的变化。

Franka 遵循[47]中的设置,专家数据集包含5个任务,而第二类和第三类任务包含物体外观和位置的未见变化。

现实世界中的任务,通过遥操作和脚本收集了2000条轨迹,用于 抓取、放置、按下按钮、电缆布线和打开抽屉。现实世界实验中未见的任务包括拾取未见过的物体。

使用单个 NVIDIA 4090 进行第一阶段(RL),并用 4 个 NVIDIA A100 进行第二阶段(SFT)。

仿真环境中的操作实验

在这里插入图片描述

在模拟的Metaworld和Franka Kitchen基准测试中进行了实验,其中VLA模型分别在25个任务和5个任务上进行了监督学习。 如图4所示,VLA模型可以为token任务提供一个有效的起点,与从零开始学习的方法相比,可以加速RL过程。 随后,采用iRe-VLA方法逐一学习RL任务,这不断改进VLA模型。我们将我们的方法与标准PPO算法[51]进行了比较。 还对PPO进行了逐任务执行,并在每个任务后采用了相同的专家数据回放策略,即PPO-Replay。
在这里插入图片描述

结果如表I所示。标准PPO算法在引入RL任务时往往表现出不稳定性。这种不稳定性不仅影响RL任务的性能,而且还会降低先前学习的任务的性能,即使使用了经验回放。这种下降可能是由于噪声RL梯度对VLA模型中预训练的表示造成了不利影响。相反,两阶段iRe-VLA方法稳定了RL过程,并有效地提高了已见和未见任务的性能。iRe-VLA方法的优势:

  • 1)原有任务性能提升。通过在线交互,可以继续提高在已知专家任务中的性能。例如,在Franka-kitchen基准测试中,由于演示有限,监督式VLA模型在专家任务left-door-open中取得了适度的成功率。iRe-VLA方法将此任务的成功率从0.43提高到0.83。
  • 2)RL任务性能改进。对于智能代理来说,自主适应专家数据中排除的任务至关重要。探索了各种RL任务(详见图3的第二列),并应用了迭代RL算法来解决这些任务。如表3所示,iRe-VLA方法成功地解决了每个领域中的新任务,而没有发生灾难性遗忘[49]。
  • 3)未见任务泛化能力改进。除了通过在线迭代提高RL训练任务的性能外,还在未见任务中观察到成功率提高,这表明泛化能力增强。 随着智能体自动处理越来越多的任务,其泛化能力也相应增强。 例如,在掌握了Metaworld中的四种类型的任务后,智能体有效地泛化到颜色和形状未知的任务。
    在这里插入图片描述

在iRe-VLA方法中,VLM在第二个监督学习阶段是可训练的。在两个阶段都冻结VLM进行消融研究,iRe-VLA-freeze。在线迭代数据不会影响VLM潜在变量。 图5所示的结果表明,永久冻结VLM会导致性能下降。这可能是因为与完整的VLA模型相比,动作头的表达能力有限。此外,在线机器人动作数据可以增强上层VLM中的表示,从而增强VLA模型在未见任务中的泛化能力,而两个阶段都冻结VLM则无法改进VLM的表示

真实世界中的操作实验

实世界实验遵循SERL中描述的设置,这是一个用于真实世界RL的有用软件套件。首先在一个包含2000条人类收集的专家数据(涵盖各种任务类别,包括 抓取、放置、按下按钮、电缆布线和打开抽屉的集合上训练了一个VLA模型。

由于VLA模型的泛化能力,学习到的VLA模型在未见物体上显示出确定的成功率。然后采用在线RL来进一步提高在未见物体上的成功率。在 VLA 模型的背景下,实施了一些关键的设计选择,以提高样本效率并确保计算的可负担性。为了提高样本效率,采用了SACfD算法。具体来说,当引入一项新任务时,最初利用零样本迁移的VLA模型来收集一个包含 20 条成功轨迹的演示缓冲区。在训练过程中,从演示缓冲区和在线缓冲区分别采样50%的转移,如[52]中所述。为了控制计算成本,每个图像观察只由VLM处理一次,并将生成的潜在输出存储在缓冲区中。随后,在该潜在空间中实现SACfD算法。
在这里插入图片描述

专家选择的演示仅限于四种颜色的块,将在线RL扩展到具有不规则形状的物体,例如茄子和胡萝卜。每个新任务的真实世界RL训练过程大约需要一个小时,与SERL中的时间成本相似。RL过程前后成功率如图6所示,iRe-VLA将采摘茄子或胡萝卜的成功率从0.35提高到0.80。此外,原始任务的成功率保持稳定,未见物体的采摘成功率也从0.37提高到0.61。

实验结论

本文探索了通过在线RL进一步增强VLA模型的方法。微调大型VLA模型存在一些挑战,但iRe-VLA方法使训练过程稳定,并显著降低了计算需求。在模拟和真实世界的操作任务上的实验都证实了iRe-VLA的有效性。局限性是它只能改进已见类型的技能,而不能在稀疏奖励在线RL条件下学习全新的技能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295799.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日学习 设计模式 五种不同的单例模式

狮子大佬原文 https://blog.csdn.net/weixin_40461281/article/details/135050977 第一种 饿汉式 为什么叫饿汉,指的是"饿" 也就是说对象实例在程序启动时就已经被创建好,不管你是否需要,它都会在类加载时立即实例化,也就是说 实例化是在类加载时候完成的,早早的吃…

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之上传头像和新增收货地址

🧸安清h:个人主页 🎥个人专栏:【Spring篇】【计算机网络】【Mybatis篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🚀1.上传头像 -持久…

SSM仓库物品管理系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.用户登录代码:2.保存物品信息代码:3.删除仓库信息代码: 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SSM框架开发的仓库…

模型压缩 --学习记录2

模型压缩 --学习记录2 如何找到更好的权衡方式(模型量化)方法一:寻找更好的 range方法二:寻找更好的 X-fp32(浮点数)方法三:寻找更好的 scale 和 zp方法四:寻找更好的 roundPTQ 后训练量化(离线量化)QAT 量化感知训练(在线量化)量化为什么会带来加速?三、模型稀疏技…

车载诊断工具技巧 --- CAPL Debug 功能使用介绍

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…

<论文>DeepSeek-R1:通过强化学习激励大语言模型的推理能力(深度思考)

一、摘要 本文跟大家来一起阅读DeepSeek团队发表于2025年1月的一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | Papers With Code》,新鲜的DeepSeek-R1推理模型,作者规模属实庞大。如果你正在使用Deep…

萌新学 Python 之字符串及字符串相关函数

字符串:单引号、双引号、三个单引号、三个双引号 字符串属于不可变的数据类型,一旦被定义,内存地址不变 name 张三 # 字符串赋值给name后,内存地址存储张三,地址不变 username 张三 # 张三去内存中找…

系统思考—自我超越

“人们往往认为是个人的能力限制了他们,但事实上,是组织的结构和惯性思维限制了他们的潜力。”—彼得圣吉 最近和一家行业隐形冠军交流,他们已经是领域第一,老板却依然要求:核心团队都要自我超越,攻坚克难…

redis高级数据结构Stream

文章目录 背景stream概述消息 ID消息内容常见操作独立消费创建消费组消费 Stream弊端Stream 消息太多怎么办?消息如果忘记 ACK 会怎样?PEL 如何避免消息丢失?分区 Partition Stream 的高可用总结 背景 为了解决list作为消息队列是无法支持消息多播问题,Redis5.0…

day44 QT核心机制

头文件&#xff1a; #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QLabel> //标签类头文件 #include<QPushButton> //按钮类头文件 #include<QLineEdit> //行编辑器类头文件QT_BEGIN_NAMESPACE namespace Ui { class Widget; } …

打家劫舍3

今天和打家讲一下打家劫舍3 题目&#xff1a; 题目链接&#xff1a;337. 打家劫舍 III - 力扣&#xff08;LeetCode&#xff09; 小偷又发现了一个新的可行窃的地区。这个地区只有一个入口&#xff0c;我们称之为root。 除了 root 之外&#xff0c;每栋房子有且只有一个“父“…

2024中国行政区划多边形矢量数据(含有十段线)仅供学习

中国标准行政区划数据GS&#xff08;2024&#xff09;0650号&#xff0c;包括&#xff1a; 分省市县 省内分市 省内分县 南海十段线与岛屿区域 全国市级行政区划 通过网盘分享的文件&#xff1a;中国标准行政区划数据GS&#xff08;2024&#xff09;0650号.rar等4个文件 链接…

给底部导航栏添加图形

文章目录 1. 概念介绍2. 修改方法2.1 修改属性2.2 包裹容器2.3 剪裁形状3. 代码与效果3.1 示例代码3.2 运行效果4. 内容总结我们在上一章回中介绍了"NavigationBar组件"相关的内容,本章回中将介绍如何修改NavigationBar组件的形状.闲话休提,让我们一起Talk Flutter…

#渗透测试#批量漏洞挖掘#WookTeam searchinfo SQL注入漏洞

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停止本文章读。 目录 一、漏洞概述 二、漏洞成因分析 1. 代码…

HarmonyOS Next 方舟字节码文件格式介绍

在开发中&#xff0c;可读的编程语言要编译成二进制的字节码格式才能被机器识别。在HarmonyOS Next开发中&#xff0c;arkts会编译成方舟字节码。方舟字节码长什么样呢&#xff1f;我们以一个demo编译出的abc文件&#xff1a; 二进制就是长这样&#xff0c;怎么去理解呢&…

WPS如何接入DeepSeek(通过JS宏调用)

WPS如何接入DeepSeek 一、文本扩写二、校对三、翻译 本文介绍如何通过 WPS JS宏调用 DeepSeek 大模型&#xff0c;实现自动化文本扩写、校对和翻译等功能。 一、文本扩写 1、随便打开一个word文档&#xff0c;点击工具栏“工具”。 2、点击“开发工具”。 3、点击“查看代码”…

【课程设计参考】迷宫小游戏 :基于 Python+Pygame+AI算法

一、内容 实现走迷宫 &#xff08;1&#xff09;游戏界面显示&#xff1a;迷宫地图、上下左右移动的特效。 &#xff08;2&#xff09;动作选择&#xff1a;上下左右键对应于上下左右的移动功能&#xff0c;遇到障碍的处理。 &#xff08;3&#xff09;得分统计功能&#xff…

sa8295 qnx ais_camare如何支持一个摄像头两路vc输出?

当一个摄像头有两个vc输出的时候&#xff0c;如何更改驱动配置呢&#xff1f; 当一个摄像头可以输出两路vc&#xff0c;并且格式不同。根据每一路的vc图像数据格式修改串行器中maxxxx_mode_t里面的数组mode参数&#xff08;以下仅为例子&#xff09; struct maxxxx_mode_t ma…

Coze(扣子)+ Deepseek:多Agents智能体协作开发新范式

前言 在当今数字化浪潮中&#xff0c;人工智能&#xff08;AI&#xff09;技术的迅猛发展正深刻改变着我们的生活和工作方式。从智能语音助手到自动化流程机器人&#xff0c;AI 的应用无处不在&#xff0c;为我们提供了更加便捷、高效的服务。然而&#xff0c;对于非专业人士来…

浅析Ruby类污染及其在Sinatra框架下的利用

和JavaScript中的原型链污染类似&#xff0c;Ruby中也存在类似的概念——类污染&#xff0c;两者都是对象进行不安全的递归合并导致的。 网上也没有相关的分析文章&#xff0c;只有下面这篇文章应该是第一次谈到这个问题 Class Pollution in Ruby: A Deep Dive into Exploiti…