LCB模型引领机器人进入端到端新维度

news2025/1/23 6:04:54

论文标题:

From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control

论文作者:

Yide Shentu,Philipp Wu,Aravind Rajeswaran,Pieter Abbeel

项目地址:

https://fredshentu.github.io/LCB_site/

导读:

Pieter Abbeel提出可学习的潜在代码层LCB连接低频大语言模型推理端和高频的机器人控制端,能够灵活地传达任务计划中的目标,而不会受到语言限制的约,同时支持端到端微调。实验评估在LangTable和CALVIN的基准测试中表明,该模型在解释和执行各种推理和长期目标方面表现出色。LCB层次结构的灵活性和有效性为现实世界的机器人应用带来了希望。©️【深蓝AI】编译

1. 摘要

机器人分层控制需要定义一个明确的接口层在高级任务规划器和低级策略之间进行通信。随着大语言模型(Large Language Model,LLM)的出现,语言已经成为一种非常有前景的接口层。但并不是所有的任务都可以分解为容易用自然语言表达的步骤(比如表演舞蹈动作等),且存在跨领域学习和灾难性遗忘的挑战。所以伯克利的Pieter Abbel团队提出一种可学习的潜在代码作为克服这些限制的桥梁(Latent Codes as Bridges,LCB)。LCB作为一种可学习的潜在代码能够灵活地传达任务计划中的目标,而不会完全受到语言限制的约束。另外,它还支持端到端微调,且不会破坏在预训练期间学习到的单词标记的嵌入空间。通过对语言表和Clavin(两种常见的基于语言的具身代理基准)的实验,作者发现LCB的表现优于只利用纯自然语言作为推理和多步骤行为的Baseline。

2. 工作概述

机器人领域有两种主要的架构范式:一是模块化分层策略,包括符号规划,轨迹生成和跟踪,二是端到端策略,直接将感官观察数据映射到动作。LLM的出现使得分层控制研究愈发火热,尽管利用LLM和多模态大语言模型代替高级符号规划器的方法取得了较好的结果,但是分层体系结构的核心缺陷仍然存在——即需要一组明确定义的控制语言和各层接口。举个例子,LLM利用一些动词表示低级的控制语言,比如go-to, pick, place等,但还是有很多人类动作是很难用语言来表述的。

所以Pieter Abbeel等人提出LCB的控制策略架构,它将模块化分层架构的优势与端到端学习相结合,如图1所示。具体来说,LCB不仅可以直接利用LLM进行高级推理,利用预先训练的技能/策略进行低级控制,并通过端到端学习改进这些组件,这些都可以通过在界面层学习一个可以调节低级策略的标记来实现。LCB可以克服仅依赖语言作为接口层的局限性,其次,通过利用单独的标记,开发者不会在微调期间破坏LLM的核心语言生成和推理能力。LCB模型实例建立在LLaVA之上,并在具身推理和长远任务的模拟数据集上对模型进行微调。

在这里插入图片描述
图1|LCB结构概述©️【深蓝AI】编译

团队的研究目标是希望开发一种分层策略架构,当提供自由格式的语言描述时,该架构可以使机器人执行各种操作任务。它可以处理细粒度或接触类型丰富的低级操作任务,同时还具有推理和规划能力,且无需任何外部声明。

在介绍LCB之前,分别先介绍另外两类方法的不足之处,这为LCB方法提供了想法和基础,如图2所示。

在这里插入图片描述
图2|基于LLM的分层策略的高级架构比较©️【深蓝AI】编译

2.1 使用预定义技能的LLMs

LLM通过调用一组预定义的技能或API来执行高级任务规划,这些API(例如go-to, push)作为提示描述需要提供给LLM。这种方法有2个主要缺点:首先,对于LLM来说,规划技能需要附加语义;其次,这将技能集限制在一个封闭的词汇表中,并阻止任何形式的新技能的推广。此外,代码编写能力要求高质量的LLM,这一标准主要由GPT-4等专有商业模型满足,而且端到端的微调会比较难。

2.2 语言作为接口

以语言引导的低级策略,可以将简单的语言命令作为输入(例如,拿起红色积木),并产生完成任务的操作。由于这些策略可以接受自由格式的文本作为输入,因此至少在理论上,它们具有推广到新指令的能力。此外,它们可进行端到端的微调:从高级指令、通过LLM、到语言调节策略、最终到动作。然而,这类方法也存在关键限制——首先并非所有高级任务都可以用简单的语言分解为子任务,例如,想象一下尝试描述让机器人随着歌曲跳舞的分步说明。其次,使用这类架构进行端到端微调可能会破坏LLM最初具有的规划和推理能力。

3. 关键技术

研究员们为了克服上述方法的缺点,引入一个额外的潜在代码作为高级LLM和低级语言条件策略之间的桥梁。通过添加专门的标记来增强LLM的标记器,提示模型预测响应。然后,标记的最后一层嵌入被用作下游策略网络的潜在目标。这个可学习的标记的嵌入有助于将具体的目标差别传输到低级策略。此外,通过使用这个额外的可学习标记,保留了语言标记的嵌入空间,从而防止在端到端微调期间发生任何灾难性遗忘。

3.1 LCB的架构和实现细节

LCB将速度慢但功能强大的预训练多模态大语言模型与快速但简单的决策策略相结合。LCB模型将视觉和语言作为输入,低级操作作为输出。这种集成涉及一个双组件系统,一个预训练的LLM,表示为 f ϕ f_{\phi} fϕ,一个预训练的策略,表示为 π θ \pi_{\theta} πθ。LLM由纯文本大语言模型和视觉编码器组成,后者将图像投影到纯文本LLM嵌入空间中,实现文本和视觉输入的多模态理解。在这些工作中,作者团队使用LLaVA作为预先训练的LLM。 f ϕ f_{\phi} fϕ接受文本标记 x t x t x_{txt} xtxt和图像 x i m g x_{img} ximg,并输出文本标记。预训练的策略 π θ \pi_{\theta} πθ接受当前时间步的环境观测结果 o t o_t ot和隐式条件 z z z作为输入,输出当前时间步下的动作 a t a_t at

在语言模型的词汇表中引入一个额外的标记,使语言模型能够生成动作嵌入来控制较低级别的动作策略。当向模型提供可执行请求时,该模型经过训练以输出标记。研究团队按照语言指导助手(Language Instructed Segmentation Assistant, LISA)中使用的方法,从标记的模型中提取出最后一层嵌入特征,该嵌入特征通过线性层投影到策略隐条件空间中提取隐特征 z A C T z_{ACT} zACT

3.2 数据处理

LCB框架需要丰富的数据,研究团队创建了一个小型指令调整数据集。
将文本领域的policy数据转换为和LLM助手的聊天数据。典型的用自然语言创建的轨迹数据集包含一个语言指令和一个由“(观察,动作)对" 组成的列表数据。研究员使用模板以编程方式生成聊天交互格式的文本数据,举个例子:

“用户:你能帮我?

助手:好的”。

这些数据可以训练模型识别和响应动作请求,形成一个从对话过渡到行动的界面。

3.3 训练

LCB的训练采用了多种技术整合LLM和策略组件。利用LoRA(Low Rank Adaptation)微调LLM,从而实现更高效的训练。研究团队使用冷启动方法进行策略训练,首先固定动作解码器,仅微调语言模型。这个初步阶段的重点时将LLM生成的嵌入特征与策略的特征空间对齐。添加额外的CLIP损失规范隐式嵌入,确保语言模型中的嵌入与较低级别的真实描述对齐。总结来说,损失函数包含以下三个部分:

L = λ 1 L p o l i c y ( π θ , o t , a t , z A C T ) + λ 2 L L M ( f ϕ , x t x t , x i m g ) + λ 3 L C L I P ( z A C T , g t x t ) L=\lambda_{1}L_{policy}(\pi_{\theta},o_{t},a_{t},z_{ACT})+\lambda_{2}L_{LM}(f_{\phi},x_{txt},x_{img})+\lambda_{3}L_{CLIP}(z_{ACT},g_{txt}) L=λ1Lpolicy(πθ,ot,at,zACT)+λ2LLM(fϕ,xtxt,ximg)+λ3LCLIP(zACT,gtxt)

4. 实验效果

研究团队在一系列不同的环境和任务中系统地评估LCB,以证明将预训练的大语言模型(LLM)与特定领域的预训练低级策略相结合的有效性。这一操作的主要目标就是研究该策略的能力,特别是高级语言理解能力和低级控制能力,包括以下三点:

●LCB是否能够比纯语言学习更有效地结合LLM和policy?

●LCB是否能够利用LLM的预训练功能,通过将高级目标分解为逐步的隐式命令来解决长期任务?

●LCB的表现能否超过其他基于LLM的baselines方法?

4.1 LangTable评估

使用与原始语言表模型训练相同的数据集来应用LCB方法,如表1所示。通过使用预训练的LLM进行端到端优化,基准测试的成功率达到或超过了基于LLM的baseline方法。这表明LCB能够无缝衔接预训练的LLM和policy。

在这里插入图片描述
表1|在原始语言表基准任务上进行比较©️【深蓝AI】编译

4.2 CALVIN评估

CALVIN是一个开源模拟基准,旨在学习受语言制约的长期任务。该环境采用配备平行夹抓器的7自由度Franka机械臂,并与桌子上摆放的物体进行交互。在每个实验中,机器人都需要解决一系列复杂的6D操作任务,这些任务由现实世界的物理控制并由一系列语言引导。每个子任务都与特定的语言指令配对。成功完成后,机器人将继续执行下一个子任务并附带新指令。CALVIN包含四个不同的环境A/B/C/D,具有一组共享的语言指令和子任务。

在这里插入图片描述
表2|CALVIN各种方法的任务完成率©️【深蓝AI】编译

●RoboFlamingo (RF):通过微调交叉注意力层直接输出动作,从而保持其语言理解能力。然而,这种方法要求每次进展到后续状态时重新执行LLM,从而导致效率低下;

●3D Diffusion Actor (3DDA):将扩散策略与3D场景表示和CLIP结合起来作为语言嵌入,3DDA在提供标准语言教学输入的情况下,在CALVIN基准上设置了当前SOTA。然而,一个明显的限制源于它所采用的CLIP文本模型的限制,3DDA无法在其训练分布之外很好地推广到语言学习;

●LCB:CALVIN的LCB集成了预先训练的LLaVA作为多模态大型语言模型主干,以预先训练的3DDA作为行动策略。这种组合利用3DDA的SOTA功能来实现协同效应。CALVIN的LCB在语言理解和低级操作方面都表现出色。

5. 总结与未来展望

这项工作引入一种新的方法LCB将大语言模型的抽象推理能力与低级行动策略相结合。该方法不仅仅是像以前的工作一样堆叠这些能力,而是通过学习到的隐式接口以端到端的方法将它们集成在一起。实验评估在LangTable和CALVIN的基准测试中表明,该模型在解释和执行各种推理和长期目标方面表现出色。LCB层次结构的灵活性和有效性为现实世界的机器人应用带来了希望。

编译|xlh

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WDF驱动开发-计时器

WDF可以使用框架的内置计时器支持。 它适用于 Kernel-Mode Driver Framework (KMDF) 驱动程序,以及从版本 2 开始的 User-Mode Driver Framework (UMDF) 驱动程序。 框架提供了一个 计时器对象 ,使驱动程序能够创建计时器。 在驱动程序创建计时器对象并…

北斗高精度定位终端的应用领域和作用

北斗高精度定位终端的技术进步不仅体现在硬件设备的优化上,还深入到软件算法的革新。采用先进的实时动态差分技术(RTK),结合地面增强基站网络,能够大幅度提高定位解算的精度和速度,即使在复杂的城市峡谷或茂…

哪些好用的AI绘画生成软件?建议你试试这四款

哪些好用的AI绘画生成软件?随着人工智能技术的飞速发展,AI绘画生成软件逐渐走入大众的视野,为艺术创作领域带来了革命性的变革。今天,就让我们一起探索四款备受推崇的AI绘画生成软件,看看它们如何以独特的魅力&#xf…

2024-05-31T08:36:09.000+00:00 转换 YYYY-MM-DD HH-MM-SS

function formatDate(date) {// 处理ISO 8601字符串if (typeof date string) {date new Date(date);}// 处理时间戳else if (typeof date number) {date new Date(date * 1000); // 假设后端时间戳为秒,需要乘以1000转换为毫秒}// 自定义格式化,例如…

教你python自动识别图文验证码的解决方案!

验证码识别解决方案 对于web应用程序来讲,处于安全性考虑,在登录的时候,都会设置验证码,验证码的类型种类繁多,有图片中辨别数字字母的,有点击图片中指定的文字的,也有算术计算结果的&#xff0…

HTML(11)——CSS三大特性

CSS拥有三大特性&#xff0c;分别是&#xff1a;继承性&#xff0c;层叠性&#xff0c;优先级 继承性 说明&#xff1a;子级标签默认继承父级标签的文字控制属性。 如果子级自己有样式&#xff0c;则父级的属性不生效 例如&#xff1a; <style> body{ font-size:30px;…

第十五章 观察者模式

目录 1 观察者模式介绍 2 观察者模式原理 3 观察者模式实现 4 观察者模式应用实例 5 观察者模式总结 1 观察者模式介绍 观察者模式的应用场景非常广泛&#xff0c;小到代码层面的解耦&#xff0c;大到架构层面的系统解耦&#xff0c;再或者 一些产品的设计思路&#xff0c…

“AI引擎”澎湃动力!深圳机场携手实在智能打造民航财务数字员工

近日&#xff0c;深圳机场集团&#xff08;000089&#xff09;与实在智能达成合作&#xff0c;引入了业内领先的平台级自动化产品——实在RPA数字员工&#xff0c;部署实在智能集“自动化平台开箱即用解决方案咨询”为一体的数字员工解决方案&#xff0c;实现纳税申报、报表制作…

一键简易桌签(带背景)-Word插件-大珩助手

问题整理&#xff1a; 如何Word中设计简易桌签&#xff1f;如何设置带背景图的桌签&#xff1f; Word大珩助手是一款功能丰富的Office Word插件&#xff0c;旨在提高用户在处理文档时的效率。它具有多种实用的功能&#xff0c;能够帮助用户轻松修改、优化和管理Word文件&…

3ds Max软件下载安装:3D建模软件 轻松开启你的建模之旅!

3ds Max&#xff0c;在建模过程中&#xff0c;网格建模和NURBS建模两大技术发挥着不可或缺的作用。网格建模允许用户通过顶点、边和面等元素的调整&#xff0c;精确地塑造出模型的形态&#xff1b;而NURBS建模则以其优秀的曲线和曲面处理能力&#xff0c;为设计师们提供了更为平…

el-table动态表头 浏览器大小改变产生表格错位问题

问题描述 使用element-ui的table组件时,表头由前端发送请求后动态更新,左侧编号列设定为fixed:left左侧固定定位;在改变屏幕大小(主副屏互转)时出现表格错位问题. 问题分析 element-ui的官方文档对该情况提供了一个doLayout方法来解决该问题; doLayout:对 Table 进行重新布局。…

ICMAN触摸芯片——大金属触摸

ICMAN触摸芯片之大金属触摸 按照工业级别设计 稳定性与抗干扰能力强 单颗芯片支持 1~12按键 可以轻松实现 金属灯触摸方案的触摸开关&#xff0b;无极调光 高性能ICMAN触摸芯片在金属LED触摸台灯的应用

PDF为何成为职场必备?编辑不求人,这几款工具助你一臂之力

不管是工作和学习&#xff0c;我们使用PDF文档的频率非常高&#xff0c;但是说起为什么要用PDF&#xff0c;却又只知其一不知其二。 为什么我们需要PDF&#xff1f; PDF&#xff0c;全称为Portable Document Format&#xff08;可移植文件格式&#xff09;&#xff0c;是一种…

网络校时服务器:铁路对时有妙招

在信息高速发展的今天&#xff0c;铁路作为国家的经济大动脉&#xff0c;与广大市民生活息息相关&#xff0c;担负着运送大流量乘客、保证交通畅通的重任&#xff0c;为了保证列车的正点运行和乘客的行程&#xff0c;对时间精准度的要求是非常严格的。随着我国铁路的发展速度和…

LSM-Tree数据结构原理

LSM-Tree树原理 什么是LSM-Tree LSM-Tree 即 Log Structrued Merge Tree&#xff0c;这是一种分层有序&#xff0c;硬盘友好的数据结构。核心思想是利用磁盘顺序写性能远高于随机写。 LSM-Tree 并不是一种严格的树结构&#xff0c;而是一种内存磁盘的多层存储结构。HBase、L…

newtonsoft.json动态读取json以及动态生成

问题 同一个接口返回不同类型的json&#xff0c;json结构相差比较大转换为C#对象不太合适&#xff0c;想着是否可以动态解析。 newtonsoft类 JTokenType类型 namespace Newtonsoft.Json.Linq {/// <summary>/// Specifies the type of token./// </summary>publ…

快速学习 JavaFX 进行 GUI 应用开发

JavaFX是Java的一个用于构建丰富图形用户界面的框架。通过JavaFX&#xff0c;开发者可以创建功能强大、交互性强且美观的桌面应用程序。 一、JavaFX简介 1. JavaFX的历史和现状 JavaFX最初作为Java的一部分发布&#xff0c;旨在替代Swing作为Java的主要GUI工具包。JavaFX提供…

uni-app中使用富文本rich-text个人经验

rich-text是在uni-app一个内置组件&#xff0c;用于高性能地渲染富文本内容。先贴一下官方的属性列表&#xff1a; 先说一下“selectable” 长按选择区域复制&#xff0c;这个我在APP项目中 不起作用&#xff0c;可能像文档说的&#xff0c;只支持“百度小程序”吧。在APP端起作…

为数据安全护航,袋鼠云在数据分类分级上的探索实践

在大数据时代&#xff0c;数据具有多源异构的特性&#xff0c;且价值各异&#xff0c;企业需依据数据的重要性、价值指数等予以区分&#xff0c;以利采取不同的数据保护举措&#xff0c;避免数据泄露。故而&#xff0c;数据分类分级管理属于数据安全保护中极为重要的环节之一。…

正则表达式写起来不简单,但用起来真香

说在前面 &#x1f388;整理一些常见常用的正则表达式。 常见的正则表达式 1、手机号码 /^[1][3456789][0-9]{9}$/这个正则表达式 /^[1][3456789][0-9]{9}$/ 用于匹配中国的手机号码的一部分&#xff0c;但不包括全部有效的手机号码格式。下面是对它的详细解释&#xff1a; ^…