论文标题:
From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control
论文作者:
Yide Shentu,Philipp Wu,Aravind Rajeswaran,Pieter Abbeel
项目地址:
https://fredshentu.github.io/LCB_site/
导读:
Pieter Abbeel提出可学习的潜在代码层LCB连接低频大语言模型推理端和高频的机器人控制端,能够灵活地传达任务计划中的目标,而不会受到语言限制的约,同时支持端到端微调。实验评估在LangTable和CALVIN的基准测试中表明,该模型在解释和执行各种推理和长期目标方面表现出色。LCB层次结构的灵活性和有效性为现实世界的机器人应用带来了希望。©️【深蓝AI】编译
1. 摘要
机器人分层控制需要定义一个明确的接口层在高级任务规划器和低级策略之间进行通信。随着大语言模型(Large Language Model,LLM)的出现,语言已经成为一种非常有前景的接口层。但并不是所有的任务都可以分解为容易用自然语言表达的步骤(比如表演舞蹈动作等),且存在跨领域学习和灾难性遗忘的挑战。所以伯克利的Pieter Abbel团队提出一种可学习的潜在代码作为克服这些限制的桥梁(Latent Codes as Bridges,LCB)。LCB作为一种可学习的潜在代码能够灵活地传达任务计划中的目标,而不会完全受到语言限制的约束。另外,它还支持端到端微调,且不会破坏在预训练期间学习到的单词标记的嵌入空间。通过对语言表和Clavin(两种常见的基于语言的具身代理基准)的实验,作者发现LCB的表现优于只利用纯自然语言作为推理和多步骤行为的Baseline。
2. 工作概述
机器人领域有两种主要的架构范式:一是模块化分层策略,包括符号规划,轨迹生成和跟踪,二是端到端策略,直接将感官观察数据映射到动作。LLM的出现使得分层控制研究愈发火热,尽管利用LLM和多模态大语言模型代替高级符号规划器的方法取得了较好的结果,但是分层体系结构的核心缺陷仍然存在——即需要一组明确定义的控制语言和各层接口。举个例子,LLM利用一些动词表示低级的控制语言,比如go-to, pick, place等,但还是有很多人类动作是很难用语言来表述的。
所以Pieter Abbeel等人提出LCB的控制策略架构,它将模块化分层架构的优势与端到端学习相结合,如图1所示。具体来说,LCB不仅可以直接利用LLM进行高级推理,利用预先训练的技能/策略进行低级控制,并通过端到端学习改进这些组件,这些都可以通过在界面层学习一个可以调节低级策略的标记来实现。LCB可以克服仅依赖语言作为接口层的局限性,其次,通过利用单独的标记,开发者不会在微调期间破坏LLM的核心语言生成和推理能力。LCB模型实例建立在LLaVA之上,并在具身推理和长远任务的模拟数据集上对模型进行微调。
图1|LCB结构概述©️【深蓝AI】编译
团队的研究目标是希望开发一种分层策略架构,当提供自由格式的语言描述时,该架构可以使机器人执行各种操作任务。它可以处理细粒度或接触类型丰富的低级操作任务,同时还具有推理和规划能力,且无需任何外部声明。
在介绍LCB之前,分别先介绍另外两类方法的不足之处,这为LCB方法提供了想法和基础,如图2所示。
图2|基于LLM的分层策略的高级架构比较©️【深蓝AI】编译
2.1 使用预定义技能的LLMs
LLM通过调用一组预定义的技能或API来执行高级任务规划,这些API(例如go-to, push)作为提示描述需要提供给LLM。这种方法有2个主要缺点:首先,对于LLM来说,规划技能需要附加语义;其次,这将技能集限制在一个封闭的词汇表中,并阻止任何形式的新技能的推广。此外,代码编写能力要求高质量的LLM,这一标准主要由GPT-4等专有商业模型满足,而且端到端的微调会比较难。
2.2 语言作为接口
以语言引导的低级策略,可以将简单的语言命令作为输入(例如,拿起红色积木),并产生完成任务的操作。由于这些策略可以接受自由格式的文本作为输入,因此至少在理论上,它们具有推广到新指令的能力。此外,它们可进行端到端的微调:从高级指令、通过LLM、到语言调节策略、最终到动作。然而,这类方法也存在关键限制——首先并非所有高级任务都可以用简单的语言分解为子任务,例如,想象一下尝试描述让机器人随着歌曲跳舞的分步说明。其次,使用这类架构进行端到端微调可能会破坏LLM最初具有的规划和推理能力。
3. 关键技术
研究员们为了克服上述方法的缺点,引入一个额外的潜在代码作为高级LLM和低级语言条件策略之间的桥梁。通过添加专门的标记来增强LLM的标记器,提示模型预测响应。然后,标记的最后一层嵌入被用作下游策略网络的潜在目标。这个可学习的标记的嵌入有助于将具体的目标差别传输到低级策略。此外,通过使用这个额外的可学习标记,保留了语言标记的嵌入空间,从而防止在端到端微调期间发生任何灾难性遗忘。
3.1 LCB的架构和实现细节
LCB将速度慢但功能强大的预训练多模态大语言模型与快速但简单的决策策略相结合。LCB模型将视觉和语言作为输入,低级操作作为输出。这种集成涉及一个双组件系统,一个预训练的LLM,表示为 f ϕ f_{\phi} fϕ,一个预训练的策略,表示为 π θ \pi_{\theta} πθ。LLM由纯文本大语言模型和视觉编码器组成,后者将图像投影到纯文本LLM嵌入空间中,实现文本和视觉输入的多模态理解。在这些工作中,作者团队使用LLaVA作为预先训练的LLM。 f ϕ f_{\phi} fϕ接受文本标记 x t x t x_{txt} xtxt和图像 x i m g x_{img} ximg,并输出文本标记。预训练的策略 π θ \pi_{\theta} πθ接受当前时间步的环境观测结果 o t o_t ot和隐式条件 z z z作为输入,输出当前时间步下的动作 a t a_t at。
在语言模型的词汇表中引入一个额外的标记,使语言模型能够生成动作嵌入来控制较低级别的动作策略。当向模型提供可执行请求时,该模型经过训练以输出标记。研究团队按照语言指导助手(Language Instructed Segmentation Assistant, LISA)中使用的方法,从标记的模型中提取出最后一层嵌入特征,该嵌入特征通过线性层投影到策略隐条件空间中提取隐特征 z A C T z_{ACT} zACT。
3.2 数据处理
LCB框架需要丰富的数据,研究团队创建了一个小型指令调整数据集。
将文本领域的policy数据转换为和LLM助手的聊天数据。典型的用自然语言创建的轨迹数据集包含一个语言指令和一个由“(观察,动作)对" 组成的列表数据。研究员使用模板以编程方式生成聊天交互格式的文本数据,举个例子:
“用户:你能帮我?
助手:好的”。
这些数据可以训练模型识别和响应动作请求,形成一个从对话过渡到行动的界面。
3.3 训练
LCB的训练采用了多种技术整合LLM和策略组件。利用LoRA(Low Rank Adaptation)微调LLM,从而实现更高效的训练。研究团队使用冷启动方法进行策略训练,首先固定动作解码器,仅微调语言模型。这个初步阶段的重点时将LLM生成的嵌入特征与策略的特征空间对齐。添加额外的CLIP损失规范隐式嵌入,确保语言模型中的嵌入与较低级别的真实描述对齐。总结来说,损失函数包含以下三个部分:
L = λ 1 L p o l i c y ( π θ , o t , a t , z A C T ) + λ 2 L L M ( f ϕ , x t x t , x i m g ) + λ 3 L C L I P ( z A C T , g t x t ) L=\lambda_{1}L_{policy}(\pi_{\theta},o_{t},a_{t},z_{ACT})+\lambda_{2}L_{LM}(f_{\phi},x_{txt},x_{img})+\lambda_{3}L_{CLIP}(z_{ACT},g_{txt}) L=λ1Lpolicy(πθ,ot,at,zACT)+λ2LLM(fϕ,xtxt,ximg)+λ3LCLIP(zACT,gtxt)
4. 实验效果
研究团队在一系列不同的环境和任务中系统地评估LCB,以证明将预训练的大语言模型(LLM)与特定领域的预训练低级策略相结合的有效性。这一操作的主要目标就是研究该策略的能力,特别是高级语言理解能力和低级控制能力,包括以下三点:
●LCB是否能够比纯语言学习更有效地结合LLM和policy?
●LCB是否能够利用LLM的预训练功能,通过将高级目标分解为逐步的隐式命令来解决长期任务?
●LCB的表现能否超过其他基于LLM的baselines方法?
4.1 LangTable评估
使用与原始语言表模型训练相同的数据集来应用LCB方法,如表1所示。通过使用预训练的LLM进行端到端优化,基准测试的成功率达到或超过了基于LLM的baseline方法。这表明LCB能够无缝衔接预训练的LLM和policy。
表1|在原始语言表基准任务上进行比较©️【深蓝AI】编译
4.2 CALVIN评估
CALVIN是一个开源模拟基准,旨在学习受语言制约的长期任务。该环境采用配备平行夹抓器的7自由度Franka机械臂,并与桌子上摆放的物体进行交互。在每个实验中,机器人都需要解决一系列复杂的6D操作任务,这些任务由现实世界的物理控制并由一系列语言引导。每个子任务都与特定的语言指令配对。成功完成后,机器人将继续执行下一个子任务并附带新指令。CALVIN包含四个不同的环境A/B/C/D,具有一组共享的语言指令和子任务。
表2|CALVIN各种方法的任务完成率©️【深蓝AI】编译
●RoboFlamingo (RF):通过微调交叉注意力层直接输出动作,从而保持其语言理解能力。然而,这种方法要求每次进展到后续状态时重新执行LLM,从而导致效率低下;
●3D Diffusion Actor (3DDA):将扩散策略与3D场景表示和CLIP结合起来作为语言嵌入,3DDA在提供标准语言教学输入的情况下,在CALVIN基准上设置了当前SOTA。然而,一个明显的限制源于它所采用的CLIP文本模型的限制,3DDA无法在其训练分布之外很好地推广到语言学习;
●LCB:CALVIN的LCB集成了预先训练的LLaVA作为多模态大型语言模型主干,以预先训练的3DDA作为行动策略。这种组合利用3DDA的SOTA功能来实现协同效应。CALVIN的LCB在语言理解和低级操作方面都表现出色。
5. 总结与未来展望
这项工作引入一种新的方法LCB将大语言模型的抽象推理能力与低级行动策略相结合。该方法不仅仅是像以前的工作一样堆叠这些能力,而是通过学习到的隐式接口以端到端的方法将它们集成在一起。实验评估在LangTable和CALVIN的基准测试中表明,该模型在解释和执行各种推理和长期目标方面表现出色。LCB层次结构的灵活性和有效性为现实世界的机器人应用带来了希望。
编译|xlh
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。