FLTRNN:基于大型语言模型的机器人复杂长时任务规划

news2024/9/20 20:36:21

目录

  • 一、引言
  • 二、FLTRNN框架
      • 2.1 任务分解
      • 2.2 基于语言的递归神经网络(Language-Based RNNs)
        • 长期记忆(Long-Term Memory, Ct):
        • 短期记忆(Short-Term Memory, Ht):
      • 2.3 增强推理能力的机制
  • 参考文献

一、引言

  随着人工智能技术的快速发展,机器人在现实生活中的应用越来越广泛。然而,在日常家庭场景中,机器人需要面对一些复杂的长时任务,例如餐具摆放、食物准备等,这些任务通常包含多个步骤,且需要机器人遵循特定的规则才能顺利完成。在这种情况下,如何让机器人正确规划并执行这些任务成为了一个重要的技术挑战。

  近年来,大型语言模型(Large Language Models,LLM)凭借其强大的推理和逻辑能力,已被应用于多种任务规划场景。然而,现有的方法在应对复杂的长时任务时往往存在一定的局限性——LLM有时会忽视任务中的关键规则,从而生成不准确甚至危险的任务计划。针对这一问题,来自浙江大学的研究团队提出了一种全新的框架FLTRNN(Faithful Long-Horizon Task Planning for Robotics with Large Language Models),旨在提高LLM在复杂长时任务中的忠实性和成功率。

在这里插入图片描述

二、FLTRNN框架

  FLTRNN(Faithful Long-Horizon Task Planning for Robotics with Large Language Models)是一个旨在解决大型语言模型(LLM)在复杂长时任务规划中忠实性问题的框架。该框架的设计核心是通过将复杂任务分解为多个简单子任务,并结合递归神经网络(RNN)和长短期记忆(LSTM)机制进行计划推理,确保任务执行过程中能够遵循所有规则和约束条件。下面将详细介绍FLTRNN框架的技术路线。
在这里插入图片描述

2.1 任务分解

  在面对复杂的长时任务时,任务通常由多个步骤组成,这些步骤可能涉及不同的环境和对象交互。直接处理这些复杂任务会使LLM难以兼顾所有规则和约束。因此,FLTRNN首先通过任务分解技术将复杂任务分解为多个简单的子任务。每个子任务都可以相对独立地解决,极大地减轻了LLM在推理过程中的负担。

  • 首先,框架使用LLM对全局任务目标进行分解,这一步骤生成了一个初步的抽象任务计划(Initial Plan)。这类分解类似于人类在面对复杂问题时,将其划分为若干更容易处理的子问题的过程。

  • 任务分解的关键在于确保每个子任务独立且易于解决,并且分解后的子任务可以组合成完整的计划,最终达成全局任务目标。

  任务分解的结果是一个有序的初步计划P_init,它由一系列可执行的子任务组成。每个子任务在独立执行时,只需关注当前任务相关的局部规则,而无需顾及全局任务的所有复杂性。

2.2 基于语言的递归神经网络(Language-Based RNNs)

  FLTRNN框架的核心部分是基于语言的递归神经网络(RNN),该网络通过长短期记忆机制管理任务的执行。在每个子任务的执行过程中,RNN能够保持长时任务中的关键信息,并进行推理,使LLM能够更忠实地执行任务中的规则和指令。

  1. 长短期记忆管理(Long-Short Term Memory)

  在复杂任务执行过程中,LLM需要同时处理长时信息(如任务目标、初始计划等)和短时信息(如当前子任务的具体规则和状态)。FLTRNN采用了长短期记忆管理机制,分别管理这两类信息。

长期记忆(Long-Term Memory, Ct):

  长期记忆主要用于存储全局任务相关的信息,包括全局规则、全局任务目标、初步计划以及任务的总结。它记录了任务执行到当前为止的重要进展。这些信息在整个任务过程中不会改变,确保模型能够全局把握任务的方向和目标。

  具体来说,长期记忆包含以下信息:

  • 全局规则(R_global):适用于整个任务的约束规则,如任务中的物理限制。

  • 全局任务目标(G_global):任务最终需要完成的全局目标。

  • 初步计划(P_initial):由任务分解阶段生成的子任务序列。

  • 任务总结(S_t):当前执行过的子任务的进展总结。

短期记忆(Short-Term Memory, Ht):

  短期记忆用于存储当前子任务相关的局部信息,包括当前子任务的规则、示例演示以及当前需要完成的子目标。短期记忆随着每个子任务的执行进行更新,使模型在每个子任务中只需关注与当前任务相关的信息。

  短期记忆包含以下信息:

  • 局部规则(R_t):与当前子任务相关的局部规则和限制。

  • 示例演示(D_t):针对当前子任务的操作示例,用于指导模型如何执行特定任务。

  • 子目标(G_t):当前子任务需要实现的具体目标,通常是从初步计划和任务总结中提取。

  通过长短期记忆管理机制,FLTRNN能够确保每个子任务的执行既遵循全局目标,又能在细节上严格遵循局部规则和约束。

  1. 递归推理机制

  在每个子任务的执行过程中,FLTRNN使用基于语言的RNN进行推理。每个子任务的输入包括当前环境的观测信息、长期和短期记忆状态,输出则是具体的任务计划步骤和更新后的记忆状态。

  RNN的核心推理过程可以表示为:

  • 输入:当前环境状态( x t x_{t} xt)、之前的输出( o t − 1 o_{t-1} ot1)、前一时间步的隐藏状态( h t − 1 h_{t-1} ht1)和单元状态( c t − 1 c_{t-1} ct1)。

  • 输出:当前子任务的执行计划( o t o_{t} ot),并更新隐藏状态和单元状态 ( h t , c t ) (h_{t}, c_{t}) ht,ct

  通过递归推理,FLTRNN可以在每个时间步处理子任务的局部信息,并保证当前子任务的计划生成与全局任务保持一致性。递归的设计能够有效地利用长期和短期记忆,使LLM能够同时考虑全局和局部任务目标,从而提高计划的忠实性。

2.3 增强推理能力的机制

  为了进一步提升FLTRNN在长时任务中的推理能力,框架引入了两项关键技术:规则思维链(Rule Chain of Thought,Rule-CoT)和记忆图(Memory Graph)。

  1. 规则思维链(Rule-CoT)

  Rule-CoT是一种引导LLM在任务执行过程中进行规则推理的机制。通过反复推敲和应用上下文中的规则,LLM可以在执行每个步骤时持续关注任务中的约束条件。这种机制能够帮助模型在复杂环境中更加稳定地推理,从而增强计划的忠实性。

Rule-CoT的作用机制如下:

  • LLM在每个子任务执行过程中,除了使用短期记忆中的局部规则外,还会回顾全局规则,确保当前行动不会违反任务的整体约束。

  • 在任务执行的每一步,模型会根据上下文中的规则不断进行推理和验证,从而确保每个动作都符合任务的约束条件。

  1. 记忆图(Memory Graph)

  记忆图是一种用于推测任务环境状态的外部推理模块,特别适用于开放式规划场景。在开放式规划中,任务的执行过程中可能无法直接获取环境的反馈,LLM需要不断推测环境的变化状态。记忆图通过存储任务中涉及的物体及其状态(如位置、状态变化等),帮助模型推测环境状态并确保任务计划的一致性。

  记忆图由节点(V)和关系(R)组成:

  • 节点(V):表示任务中涉及的物体,如厨房中的冰箱、微波炉等。

  • 关系(R):表示物体之间的关系(如“在某物之上”或“在某物之内”),用于推测物体的状态变化。

  通过使用记忆图,FLTRNN可以有效地推测任务环境中的变化,减轻LLM的推理负担,使模型能够更加专注于当前子任务的执行。

参考文献

[1] Zhang J, Tang L, Song Y, et al. FLTRNN: Faithful Long-Horizon Task Planning for Robotics with Large Language Models[C]//2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024: 6680-6686.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2108569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GAMES104:12 游戏引擎中的粒子和声效系统-学习笔记

文章目录 一,粒子基础Particle System二,粒子渲染三,GPU粒子及生命周期控制四,粒子应用五,声音基础5.1 Sound System5.2 Digital Sound5.3 Audio Rendering QA 一,粒子基础Particle System 网游里你的付费…

[数据结构]红黑树之插入操作(RBTree)

这里只着重介绍插入操作的实现:) 一、红黑树的概念和性质 红黑树(Red Black Tree)是一种自平衡的二叉搜索树。红黑树最初在1972年由Rudolf Bayer发明,当时被称为平衡二叉B树(symmetric binary B-trees)。随…

2024 年高教社杯全国大学生数学建模竞赛B题解题思路(第一版)

原文链接:https://www.cnblogs.com/qimoxuan/articles/18399372 赛题: 问题 1:抽样检测方案设计 分析: 抽样检测方案需要在保证决策准确性的同时,尽量减少检测成本。需要考虑抽样误差对决策的影响,以及如…

OCR经典神经网络(一)文本识别算法CRNN算法原理及其在icdar15数据集上的应用

OCR经典神经网络(一)文本识别算法CRNN算法原理及其在icdar15数据集上的应用 文本识别是OCR(Optical Character Recognition)的一个子任务,其任务为:识别一个固定区域的的文本内容。 在OCR的两阶段方法里,文本识别模型接…

若依框架登录鉴权详解(动态路由)

若依框架登录鉴权:1.获取token(过期在响应拦截器中实现),2.基于RBAC模型获取用户、角色和权限信息(在路由前置守卫),3.根据用户权限动态生成(从字符串->组件,根据permission添加动…

linux搭建深度学习平台

linux搭建深度学习平台(Ubuntu) /home/guangyao/anaconda3 我服务器的anaconda地址 ~/anaconda3 1 首先就是打开浏览器,我实验室的是火狐,搜索anaconda下载,找到下载目录,cd进去, 2安装 bas…

【佳学基因检测】在bagisto中,grouped products(同组产品)和bundled products(打包产品)有什么不同?

【佳学基因检测】在bagisto中,grouped products(同组产品)和bundled products(打包产品)有什么不同? 在Bagisto电商平台中,**grouped products(同组产品)和bundled prod…

iceberg存储结构详解

iceberg底层组织方式 下图是Iceberg中表格式,s0、s1代表的是表Snapshot信息,每个表示当前操作的一个快照,每次commit都会生成一个快照Snapshot,每个Snapshot快照对应一个manifest list 元数据文件,每个manifest list …

2024国赛数学建模预测算法-BP神经网络模型的预测精度分析(MATLAB 实现)

人工神经网络 第一节 人工神经网络概述 在您阅读这本书的时候,大约有个相互连接的神经元在帮助您阅读、呼吸、思考,以及完成各种各样的动作。这些神经元中,有些有着与生俱来的功能,比如呼吸、吮吸,有些则是由后天训练…

动态规划DP--背包问题

文章目录 0-1背包问题 -- 问题定义动态规划解法代码题目:分割等和子集题解 0-1背包问题 – 问题定义 在 0-1 背包问题中,给定一个背包的最大容量 W,以及 n 个物品,每个物品有两个属性: 重量:第 i 个物品的…

[数据集][目标检测]电动车入梯进电梯电单车入梯检测数据集VOC+YOLO格式7106张3类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):7106 标注数量(xml文件个数):7106 标注数量(txt文件个数):7106 标注…

广义回归神经网络(GRNN)

一、简介 广义回归神经网络 (General Regression Neural Network , GRNN) 的概念是由德 国科学家多纳德提出的,是径向基网络的其中一种 。因为其是以数理统计为基 础的,因此 GRNN 可以依据样本数据逼近其中包含的非线性映射关系。即使样本 数…

家里有猫用宠物空气净化器有用吗?希喂、米家、有哈哪款更好

在快节奏的现代生活中,越来越多的人选择宠物作为心灵的慰藉与生活的伴侣。起初,这份陪伴的需求简单而纯粹,但随着日子一天天过去,那份简单的情感逐渐生根发芽,成长为深厚的责任与爱。我在前两年养了两只猫,…

一款云笔记支持在线协同文档,脑图,白板演示的工具,多个设备同步,让灵感与你同行(附源码)

前言 在快节奏的工作环境中,如何高-效地记录、整理并分享工作笔记已经成为了一项重要的技能。传统的笔记方式往往难以满足跨设备、即时同步以及团队协作的需求,导致信息孤岛和工作效率低下。面对这样的挑战,我们迫切需要一种全新的工具来改变…

【ArcGIS Pro原理第一期】各种空间插值原理:GPI、LPI、IDW等

ArcGIS Pro原理第一期:空间插值原理 空间插值方法概述1.1 全局多项式(global polynomial interpolation, GPI)方法原理使用范围 1.2 局部多项式(local polynomial interpolation, LPI)方法原理精度测量(Mea…

echarts进度

echarts图表集 let numdata["I级",II级,III级,IV级,V级,劣V级] let pricedata40 option {backgroundColor: #0f375f,title: {show: false,text: ,left: center,top: 30%,textStyle: {color: #00D5FF,fontSize: 16,},},tooltip: {show: false},grid: {// show: true,…

鸿蒙界面开发——组件(5):菜单Menu 绑定菜单

菜单组件Menu Menu组件需和bindMenu或bindContextMenu方法配合使用,不支持作为普通组件单独使用。 Menu 以垂直列表形式显示的菜单。包含MenuItem、MenuItemGroup子组件。 Menu()作为菜单的固定容器,无参数。 MenuItem(value?: MenuItemOptions| Cust…

DC-DC开关稳压电路

前面所讲的线性稳压电路具有结构简单、调节方便、输出电压稳定性强、纹波电压小等优点。但是,由于调整管始终工作在放大状态,自身功耗较大,故效率较低,甚至仅为30%~40%。而且,为了解决调整管散热问题,必须安…

Linux-(系统启动、用户管理)

目录 前言 关机&重启命令 基本介绍 注意细节 用户登录和注销 注意: 用户管理 基本介绍 添加用户 指定/修改密码 删除用户 查询用户信息 切换用户 查看当前用户登录用户 用户组 新增组 删除组 查看所有组 修改用户所属组 创建用户时指定用户…

如何在车载中控上进行UI自动化测试

说到车载测试,很多人都很好奇,车载中控是否需要UI自动化测试,从市场反馈来说,在6-7年之前的车载中控测试就已经介入UI自动化测试,那时候还是使用javaUIautomator框架。现在大部分都已经更新为PythonAppium框架进行自动…