【无标题】ICCV 2023 | CAPEAM:基于上下文感知规划和环境感知记忆机制构建具身智能体

news2025/1/18 11:07:14

文章链接: https://arxiv.org/abs/2308.07241

2023年,大型语言模型(LLMs)以及AI Agents的蓬勃发展为整个机器智能领域带来了全新的发展机遇。一直以来,研究者们对具身智能(Embodied Artificial Intelligence)的要求就是通过创建软硬件结合的智能体(例如不同形态的机器人),使其在各种真实物理环境中来执行各种各样的复杂任务,完成人工智能的进化过程。依靠LLMs强大的语言理解和推理能力,可以极大的提升具身智能机器人的工作效率。

本文介绍一篇被计算机视觉顶会ICCV 2023录用的论文,针对现有机器人在环境导航以及与环境目标交互时经常犯错的问题,提出了一种上下文感知规划和环境感知记忆(Context-Aware Planning and Environment-Aware Memory)的具身智能框架CAPEAM,CAPEAM通过设计一系列的代理来将语义上下文(语言指令、交互的对象信息等)纳入机器人的规划序列中,同时考虑交互物体的空间布局和状态变化(例如,物体已移动到的位置),以推断后续行动。基于这样的设计,CAPEAM的代理程序可以在标准的机器人交互指令基准上达到SOTA性能。

01. 介绍

具身智能机器人在工业制造、快递物流、智能家居、高危环境救援等多种场景中都具有良好的应用前景,为了进一步提高工作效率,研究者们开始思考能否制造一种可以精确理解人类语言指令,同时具有自我路径规划和动作执行能力的具身智能机器人呢。为了完成用户指定的各种特定任务,机器人代理首先需要对任务指令进行拆分,并规划出完整的行动序列,其中涉及到与任务特定的相关对象进行交互。然而难点在于,简单的代理程序可能会规划出一些错误行动,例如与任务无关的对象进行交互。例如,如果用户指定任务“把苹果切片放在桌子上”,普通的代理可能会驱动机器人拿起面包片放到桌子上,本文作者认为,出现这种现象的主要原因是这种代理缺乏对任务指令以及当前环境的上下文记忆。

为了解决这个问题,本文作者提出了一种新的CAPEAM方法,将任务规划过程分为两个不同的阶段,首先对任务指令进行拆解并构建上下文信息(指令中涉及到需要交互的对象),随后再根据上下文记忆进行详细行动规划。如上图所示,CAPEAM首先提取任务指令中的上下文对象,随后以这些对象为中心组合出各种可能的子行动目标,再根据细节规划器(Detailed Planners)得到最终的行动序列

此外作者还考虑到交互对象的状态变化对于任务的正确完成也至关重要,如果代理程序不能及时的跟踪目标的状态(例如,对象是否已被移动),就会导致后续错误的交互。例如上图所示的“将苹果和盘子放在柜子里”任务中,如果代理首先移动了苹果,但是没有记录苹果的新位置信息,在移动盘子时有可能将盘子直接放在苹果上而导致任务失败。因此作者引入了一个环境感知存储器来存储有关对象状态的信息,这种方法允许代理随着时间的推移与处于适当状态的对象进行交互。通过跟踪对象状态和外观,代理可以确保与正确的对象进行交互并执行适当的操作,最终成功地完成任务。

02. 本文方法

本文提出的CAPEAM框架主要由两个关键模块构成,其整体框架如下图所示,作者分别引入了上下文感知规划模块和环境感知记忆模块,前者可以根据用户指令对任务有关的对象进行上下文建模,后者通过将目标对象状态和环境信息存储在对象掩码和空间记忆池中,实现更加高效的场景导航和物体交互。

2.1 上下文感知规划模块

在接收到用户指定的自然语言指令后,代理程序需要快速的理解和推断出给定任务的要求(例如抓取用户感兴趣的目标对象),随后制定出一个完整的动作序列。为此,作者提出了一种新颖的规划方案,即先将指令拆分成多个“子目标”集合,再在每个子目标的基础上扩展成可以执行的“详细动作序列”。为了保证最终动作序列的合理性,作者在拆分子目标时加入了纠错机制。例如通过上下文预测器(Context Prediction)预测得到当前任务共享的一组任务相关对象,随后与指令拆解得到的上下文信息联合生成子目标集合。随后再通过细节规划器为每个子目标制定结束动作和交互对象。

2.1.1 子目标规划器

2.1.2 细节规划器

2.2 环境感知记忆模块

下图展示了环境感知记忆模块的构成细节,代理程序首先根据输入的RGB图像预测得到的深度图像和语义分割图像来构建语义空间图(Semantic Spatial Map),使用深度信息可以更全面的探索周围环境状态,例如障碍物区域、物体位置和类别等。

在一些任务中,机器人可能需要在多个不同的时间步中与同一对象进行交互,在这期间,对象的视觉外观可能由于各种原因(例如遮挡)而改变,因此作者设计了物体回顾识别操作(Retrospective Object Recognition)来对每一时刻的物体mask进行更新,保证多次交互顺利进行。与该操作协同工作的还有对象重定位跟踪(Object Relocation Tracking)操作,其对每个已被移动的目标坐标进行动态更新,这保证代理程序不会对同一目标做出重复的子目标规划。为了减少代理程序对周围环境执行全局扫描的次数,作者使用对象位置缓存操作(Object Location Caching)对每个发生状态变化的对象都进行了空间信息缓存,这使得代理可以记忆每个目标的实际位置,从而实现更加高效的导航和交互。

03. 实验效果

本文的实验在一个极具挑战性的交互式指令基准ALFRED[2]上进行,ALFRED分为训练集、验证集和测试集三部分,为了评估本文方法的泛化能力,作者将验证集和测试集进一步划分为两个部分:可见环境(seen)和不可见环境(unseen)。模型的评价指标遵循ALFRED的标准评估协议。主要指标是成功率,用SR表示,主要衡量模型完成任务的百分比,另一个指标是目标条件成功率,用GC表示,用于衡量满足目标条件的百分比

作者首先将本文提出的CAPEAM方法与现有的SOTA方法进行对比,对比结果如下表所示,为了对比公平,作者选取了一些同样构建语义空间表征和进行深度估计的方法,其中一些方法使用了高级的任务指令(✗ Low Inst.),并且使用了环境的先验信息和动作模板(✓ Tem. Act.)来生成动作序列。

从上表可以看出,CAPEAM方法在unseen测试中的成功率优于其他所有对比方法,这表明本文方法具有更强的新环境适应能力。在seen测试中,CAPEAM的表现略逊色于Prompter方法[3],作者认为,这是由于Prompter方法中加入了更加精确的空间感知模型来对每个目标的姿态进行了精确估计,这使得模型在训练可见的场景中有更好的表现能力。但是这一现象也侧面展示了本文方法在seen和unseen测试环境之间具有更小的性能差距,表示本文方法可以更好地泛化到未见环境中。

04. 总结

本文提出了一种新型的具身智能代理框架CAPEAM,其中设置了上下文感知规划模块和环境感知记忆模块来将语言任务指令中涉及到的上下文对象纳入动作规划操作中,并且对关键的目标对象进行外观、空间位置等信息的动态更新。通过这些操作,CAPEAM有效的避免了不必要的空间搜索,并且设计了一种从粗到细的子目标动作序列生成机制来改进机器人的整体导航和交互效果。作者通过一系列的实验表明,CAPEAM方法可以有效地提升具身智能代理在不同环境中的快速适应能力,这应该是当前具身智能领域所关注的研究热点。

参考

[1] Alexander Katrompas and Vangelis Metsis. Enhancing lstm models with self-attention and stateful training. In IntelliSys, 2022.

[2] Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, and Dieter Fox. Alfred: A benchmark for interpreting grounded instructions for everyday tasks. In CVPR, 2020.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1052063.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

macOS 14 Sonoma 如何删除不需要的 4k 动态壁纸

概览 在升级到 macOS 14(Sonoma)之后,小伙伴们惊喜发现  提供了诸多高清(4k)动态壁纸的支持。 现在,从锁屏到解锁进入桌面动态到静态的切换一气呵成、无比丝滑。 壁纸显现可谓是有了“天水相连为一色&…

卷发棒上架亚马逊美国销售需要做什么认证?卷发棒UL859测试报告

卷发棒是一种美发DIY工具,目前美发沙龙和发廊的的美发师都会使用一套卷发棒工具。卷发棒可以造出各种卷发。如:大波浪卷发、下垂自然卷发、垂至肩头卷发、碎卷、麦穗烫、内翻式卷发、外翻式卷发。目前很多家庭会自己备有这样的产品DIY。 什么是UL检测报告…

脉冲法和方向盘转角法计算车辆位置不同应用工况

1 脉冲法计算车辆位置 在定义下的世界坐标系中,车辆运动分为右转后退、右转前进、左转后退、左转前进、直线前进、直线后退和静止七种工况,因此需要推倒出一组包含脉冲、车辆运动方向和车辆结构尺寸参数的综合方程式进行车辆轨迹的实时迭代计算。由于直…

源码编译tcpreplay,及使用方法

编译步骤: 下载源码 解压 ./configure make sudo make install 使用方法: tcpreplay --loop1 --intf1网卡名 -x1 pcap文件名 实测结果: 左边是输入的tcpreplay命令 右边是tcpdump截获的udp包

你熟悉Docker吗?

你熟悉Docker吗? 文章目录 你熟悉Docker吗?快速入门Docker安装1.卸载旧版2.配置Docker的yum库3.安装Docker4.启动和校验5.配置镜像加速5.1.注册阿里云账号5.2.开通镜像服务5.3.配置镜像加速 部署MySQL镜像和容器命令解读 Docker基础常用命令数据卷数据卷…

Linux常见指令(1)

Linux常见指令[1] 一.前言1.操作系统简述 二.Linux常见指令1.登录Xshell2.Linux下的常见命令1.pwd2.ls1.ls -a2.ls -d3.ls -l 3.cd Linux中的文件系统1.文件的相关知识2.Linux下目录结构的认识1.什么叫做路径?2.Linux的整体目录结构3.为什么要有路径呢?4.绝对路径与相对路径 …

2023彩虹全新SUP模板,知识付费模板,卡卡云模板

源码介绍: 2023彩虹全新SUP模板/知识付费模板/卡卡云模板,首页美化,登陆页美化,修复了pc端购物车页面显示不正常的问题。 请自行查毒。感觉彩虹不少源码可能都有不干净的东西 安装教程: 1.将这俩个数据库文件导入数据…

队列的各个函数的实现

1.第一个结构是存放链表的数据,第二个结构体是存放头节点和尾节点的以方便找到尾节点,存放头节点的是phead,尾节点的是ptail typedef struct QueueNode {struct QueueNode* next;//单链表QDataType data;//放数据 }QNode;typedef struct Queu…

使用U3D、pico开发VR(二)——添加手柄摇杆控制移动

一、将unity 与visual studio 相关联 1.Edit->Preference->External tool 选择相应的版本 二、手柄遥控人物转向和人物移动 1.添加Locomotion System组件 选择XR Origin; 2.添加Continuous Move Provider(Action-based)组件 1>…

26962-2011 高频电磁场综合水处理器技术条件

声明 本文是学习GB-T 26962-2011 高频电磁场综合水处理器技术条件. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本标准规定了高频电磁场综合水处理器(以下简称处理器)的术语和定义、分类和型号、结构型式、 要求及检验、标志、包装和贮运…

Opengl之抛光物

我们目前使用的光照都来自于空间中的一个点。它能给我们不错的效果,但现实世界中,我们有很多种类的光照,每种的表现都不同。将光投射(Cast)到物体的光源叫做投光物(Light Caster) 平行光 当一个光源处于很远的地方时,来自光源的每条光线就会近似于互相平行。不论物体和/或…

基于Java的会员管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

【李沐深度学习笔记】图片分类数据集

课程地址和说明 图片分类数据集p3 本系列文章是我学习李沐老师深度学习系列课程的学习笔记,可能会对李沐老师上课没讲到的进行补充。本文还参考了【李沐3】3.5、图像分类数据集 图片分类数据集 MNIST数据集是图像分类中广泛使用的数据集之一,但作为基…

C语言——动态内存管理详解(内存结构、动态内存函数、易错题、柔性数组)

本篇概要 本篇文章从基本出发讲述为什么要存在动态内存分配,动态内存函数有哪些,常见的动态内存错误,一些关于内存分配的练习题以及柔性数组的相关知识。 文章目录 本篇概要1.为什么存在动态内存分配1.1为什么要动态分配内存1.2内存结构 2.常…

Unity实现设计模式——状态模式

Unity实现设计模式——状态模式 状态模式最核心的设计思路就是将对象的状态抽象出一个接口,然后根据它的不同状态封装其行为,这样就可以实现状态和行为的绑定,最终实现对象和状态的有效解耦。 在实际开发中一般用到FSM有限状态机的实现&…

idea Springboot 教师标识管理系统开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 springboot 教师标识管理系统是一套完善的信息系统,结合springboot框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用springboot框架(MVC模式开发),系统 具有完整的源代码和数据库&…

8个居家兼职,帮助自己在家搞副业

越来越多的人开始追求居家工作的机会,无论是为了获得更多收入以改善生活质量,还是为了更好地平衡工作和家庭的关系,居家兼职已成为一种趋势。而在家中从事副业不仅能够为我们带来额外的收入,更重要的是,它可以让我们在…

c#中的接口

使用IEnumerable统一迭代变量类型 class Program {static void Main(string[] args){int[] nums1 new int[] { 1, 2, 3, 4, 5 };ArrayList nums2 new ArrayList { 1, 2, 3, 4, 5 };Console.WriteLine(Sum(nums1));Console.WriteLine(Sum(nums2));Console.WriteLine(Avg(nums…

ConcurrentHashMap 并发

1 ConcurrentHashMap 并发 1.1 减小锁粒度 减小锁粒度是指缩小锁定对象的范围,从而减小锁冲突的可能性,从而提高系统的并发能力。减小锁粒度是一种削弱多线程锁竞争的有效手段,这种技术典型的应用是 ConcurrentHashMap(高性能的 HashMap)类的…

【分布式计算】二、架构 Architectures

1.中心化架构(Centralized Architectures) 1.1.经典C/S模型 服务器:一个或多个进程提供服务 客户端:一个或多个进程使用服务 客户端和服务器可以在不同的机器上 客户端遵循请求/回复模型 1.2.传统三层视图 用户界面层&#x…