一个BLIP2加两个ChatGPT就能造一个机器人?KAUST提出具身智能框架LLM-Brain

news2024/11/24 1:21:38

最近,来自阿卜杜拉国王科技大学(KAUST)的研究团队开发了一种基于现有LLMs的机器人交互框架LLM-Brain,LLM-Brain可以直接将LLM作为机器人的大脑,并以此来构建一个以自我为中心的记忆和控制框架。

论文链接:

https://arxiv.org/abs/2304.09349

随着ChatGPT、GPT-4等大模型逐渐进入大众视野,大家开始想象如果将这些大语言模型(LLMs)接入到实实在在的物理机器人中,能否使机器人获得自主的智能感知决策能力呢?例如电影《星际穿越》中的飞船辅助机器人塔斯(TARS)就具有感知外界并进行自主决策的能力,塔斯在电影中多次做出非常智能的决策,力挽狂澜。

最近,来自阿卜杜拉国王科技大学(KAUST)的研究团队开发了一种基于现有LLMs的机器人交互框架LLM-Brain,LLM-Brain可以直接将LLM作为机器人的大脑,并以此来构建一个以自我为中心的记忆和控制框架。作者团队提到,对物理机器人开发能够与环境动态交互的智能系统,需要重点从机器人系统的记忆能力和控制能力两方面入手。LLM-Brain可以通过zero-shot学习方法为机器人集成多个多模态语言模型,这些模型可以实现像ChatGPT一样使用自然语言进行闭环的多轮对话,包括感知、规划、控制和记忆,以达到使机器人能够自行维护一套记忆并自行控制的效果。作者团队通过主动探索(active exploration)和具身问答(embodied question answering)这两个机器人领域的下游任务来评估LLM-Brain框架的性能。其中主动探索任务要求机器人在有限的动作范围内实现对未知环境的感知。而具身问答任务则要求机器人能够根据先前探索中获得的观察结果来回答具体的问题。

一、LLM-Brain的构建过程

1.1机器人子任务分解

为了使机器人能够达到自主感知环境并进行自主决策的效果,作者团队首先将LLM-Brain框架的构建过程分解为三个子任务:

1.首先机器人通过查看视觉传感器捕获的以自我为中心的视频关键帧,并对该帧进行理解和回答与当前场景有关的一系列问题。

2.LLM-Brain通过进一步提问来获取场景中的详细信息,使机器人更加全面的了解环境。

3.LLM-Brain对机器人所观察的历史帧以及执行过的历史动作进行记忆,以达到3D场景和机器人历史轨迹的掌握。随后结合这些历史信息和人类给出的指令来规划和控制机器人。

1.2 眼睛-神经-大脑(Eye-Nerve-Brain)三代理设计

针对上述三个子任务,作者在LLM-Brain中设计了三个关键代理模块分别进行对应,如下图所示。

1. 眼睛代理

眼睛代理是机器人感知外界的工具,为了能够对场景图像进行精确的识别和理解,作者在眼睛代理中设置了规模较大的视觉语言模型(Vision Language Model,VLM)[1]。VLM的输入可以是一幅观察图像和与该图像相关的问题,输出是模型根据给定问题使用自然语言做出的回答。但是目前通用的VLM大多都是在高质量图像上训练的,而机器人捕获到的以自我为中心的视频帧通常会遇到由于周围成像环境以及传感器误差而引起的低质量问题,这会大大影响VLM对周围环境的理解效果。作者参考ChatCaptioner[2]中的设计,通过将VLM和LLM连接起来以迭代问答的形式来理解环境。

2. 神经代理

神经代理可以理解为是机器人的中枢控制系统,它首先会解析眼睛代理传回的图像内容,并根据图像内容向眼睛提出多个问题并构成多轮对话,并且结合机器人做出动作来详细总结当前的环境情况。随后将这些信息转发给等级更高的大脑代理。

3. 大脑代理

大脑作为最高等级的信息处理和决策代理,仅与来自中枢系统的神经代理进行环境感知通信。由于机器人整体会处于一个移动的状态,大脑会同时得到神经代理和机器人自身运动的反馈信息。大脑需要同时整合这两者的信息来维护一个机器人的场景记忆库,它可以在没有人为干预的情况下根据历史信息以及从神经代理传回的环境感知信息来推断出下一步的合理动作。作者为大脑设计了一些行动上下文:move_forward、turn_left、turn_right和stop。大脑可以使用这些基本的文本命令来控制机器人。当然,大脑代理也支持接受人类的指令。

在具体操作时,作者分别为眼睛代理设置了一个BLIP2模型[1],这是一个大规模预训练的VQA模型,此外分别为神经和大脑代理设置了两个ChatGPT text-davinci-003模型[3]。对于机器人,作者使用Habitat[4]平台来模拟视觉环境和机器人行动,Habitat可以模拟生成机器人的第一视角与俯视图视角视频。

二 、实验效果

为了对LLM-Brain进行性能评估,作者选取了目前具身智能领域较为流行的Matterport 3D 数据集,Matterport 3D中包含各种室内场景,通过多个RGBD相机扫描真实环境得到,作者团队重点评估了LLM-Brain在主动探索(active exploration)和具身问答(embodied question answering)这两个机器人下游子任务上的效果。

2.1主动探索

在主动探索子任务中,作者对LLM-Brain设置了”尽可能完整地探索当前这所房子“的指令。下图展示了LLM-Brain根据眼睛-神经-大脑三个代理对环境的理解效果。

在上图(a)中,LLM-Brain对所捕获到的图像分析得到:”这是一个走廊,右边有一扇窗户。房间里没有家具。房间中间有一扇门。房间的大小和形状未知。“ 并且根据这些信息得出下一步的动作是”move_forward(前进)“。

主动探索任务可以通过探索面积与房间总面积的比率来定量评估,如下图所示,LLM-Brain可以有效地驱使机器人来自主的探索环境。并且需要注意的是,LLM-Brain完全是零样本设计的,没有在与当前环境相关的数据集上进行微调训练。

2.2 具身问答

下图展示了LLM-Brain在具身问答任务上的效果,LLM-Brain首先通过以环境感知信息以及运动轨迹等历史信息维护一个机器人自身的记忆库。

随后可以对其进行提问,例如可以询问它”这件房子里有电视机吗?“ LLM-Brain会立马回答道:”是的,这所房子有一台电视。它位于客厅里,在房间的左边。“

可以看到LLM-Brain不仅能够理解问题本身的含义并作出回答,甚至还能够准确理解相关目标在房间中的3D位置关系。

三 、总结

本文基于现有的大型语言模型(ChatGPT)和大型视觉语言模型(BLIP-2)以zero-shot的形式构建了一个多功能多任务的机器人控制框架LLM-Brain。通过引入自然语言交流和闭环对话,LLM-Brain可以有效地对齐不同模态之间的差距,进一步增强了机器人感知、计划、控制和保留记忆的能力。此外,LLM-Brain还具有很强的扩展能力,它可以轻松的集成到各种机器人下游任务中,例如主动探索和具身问题回答。LLM-Brain的出现可以说是提高了嵌入式人工智能系统在现实世界场景中的适应性和适用性,展示了智能机器人在新一轮人工智能大模型变革浪潮中的巨大潜力。

参考文献

[1] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language- image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597, 2023.

[2] Jun Chen, Deyao Zhu, Kilichbek Haydarov, Xiang Li, and Mohamed Elhoseiny. Video chatcaptioner: Towards the enriched spatiotemporal descriptions. arXiv preprint arXiv:2304.04227, 2023.

[3] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.

[4] Manolis Savva, Abhishek Kadian, Oleksandr Maksymets, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian Straub, Jia Liu, Vladlen Koltun, Jitendra Malik, et al. Habitat: A platform for embodied ai research. In Proceedings of the IEEE/CVF international conference on computer vision, pages 9339–9347, 2019.

作者:seven_

Illustration by IconScout Store from IconScout

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/559115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【笔试强训选择题】Day18.习题(错题)解析

作者简介:大家好,我是未央; 博客首页:未央.303 系列专栏:笔试强训选择题 每日一句:人的一生,可以有所作为的时机只有一次,那就是现在!!! 文章目录…

红队工具合集

一个 Red Team 攻击的生命周期,整个生命周期包括: 信息收集、攻击尝试获得权限、持久性控制、权限提升、网络信息收集、横向移动、数据分析(在这个基础上再做持久化控制)、在所有攻击结束之后清理并退出战场。 相资 信息搜集 http…

自信裸辞:一晃 ,失业都3个月了.....

最近,找了很多软测行业的朋友聊天、吃饭 ,了解了一些很意外的现状 。 我一直觉得他们技术非常不错,也走的测开/管理的路径;二三月份裸辞的,然后一直在找工作,现在还没找到工作 。 经过我的分析&#xff0…

OpenVINO 2022.3实战三:POT API实现图像分类模型 INT8 量化

OpenVINO 2022.3实战三:POT API实现图像分类模型 INT8 量化 1 准备需要量化的模型 这里使用我其他项目里面,使用 hymenoptera 数据集训练好的 MobileNetV2 模型,加载pytorch模型,并转换为onnx。 import os from pathlib import…

鸿蒙Hi3861学习十八-DevEco Device Tool环境搭建

一、简介 在之前的文章中,我们是通过在windows下烧录,在ubuntu下编译的方式进行开发。今天我们同样是采用windowsubuntu混合环境进行开发。为什么要采用这种方式呢?因为就目前而言,大部分的开发板还不支持在Windows环境下进行编译…

典型的高可用设计(二):MySQL

一、高可用模式 MySQL数据库提供了数据库建的复制能力,做到了多个数据库同时拥有同一个数据副本,保证了数据的安全性,一台数据库服务器出现问题,其他数据库可以做到数据不丢失。MySQL的服务高可用设计也是以数据库复制能力为基础&…

云计算专业怎么样,大学应届生学的话难不难?

云计算专业学起来挺难的,一般人建议不要轻易尝试!!! 虽然IT行业一直以来发展前景、技术更新、新领域的开发或者新概念的提出等各方面都还不错,云计算也是当下非常火的一个就业方向,很多人也非常想进入云计…

IT系统方案大纲模版,以智慧工地系统为例

# 咖米智慧工地解决方案 ## 第1章 智慧工地系统概述 ### 1.1应用背景 ### 1.2需求分析 ### 1.3总体目标 ## 第2章 系统总体设计 ### 2.1设计理念 ### 2.2设计依据 ### 2.3设计架构 ### 2.4系统描述 ### 2.5系统特点 ## 第3章 详细设计 ### 3.1工地远程监控子系统 #### 3.1.1需求…

一分钟了解乐观锁、悲观锁、共享锁、排它锁、行锁、表锁以及使用场景

大家好,我是冰点,今天给大家带来,关于MySQL中的锁的使用。 我首先提个问题,大家知道什么是 乐观锁、悲观锁、共享锁,、排它锁、行锁、表锁,以及每种锁的使用场景吗? !! 背景:最近在各…

Unity 使用 VSCode 作为默认编辑器,解决没有代码提示,智能补全功能

文章目录 删除现有编辑器配置选择 VSCode 作为代码编辑器代码补全和智能提示 删除现有编辑器配置 首先打开你的项目文件夹,需要把这几个文件删掉,稍后重新生成~ 选择 VSCode 作为代码编辑器 打开 Edit - Preference: 选择 External Script…

【bsauce读论文】2023-SP-内核Use-After-Cleanup漏洞挖掘与利用

本文参考G.O.S.S.I.P 阅读推荐 2023-01-06 UACatcher做一些补充。 1. UAC漏洞介绍 UAC漏洞介绍:Use-After-Cleanup (UAC)漏洞类似UAF,本文主要检测Linux内核中UAC漏洞。UAC基本原理参见图Fig-1。首先,UAC漏洞和系统中…

众多行业适用的这款Lighthouse Apex Z便携粒子计数器有什么优势

Lighthouse Apex Z粒子计数器围绕易用性和可靠性进行构建。是建立在Lighthouse洁净室行业 40 多年的基于问题的学习基础上的解决方案。 采样设置 ApexZ易于使用的样品设置,可以匹配当前的sop,减少丢失位置或采样错误参数的风险。 用户管理 为了提高效…

ES6:var 、const、let的使用和区别

前言 本文主要介绍了ES6中var、const、let的使用和区别 基本介绍 let let声明变量 const const :声明常量const声明的常量可以修改,但不能重新赋值 如:以下代码是正确的: //引用数据类型 const info {name:Candy }; info.nameJune;而下面的代码是…

GPT-4国内有免费平替吗?

免费/平替永远是最贵的 就如同我们生活中买口红一样,总想找到平替,但永远比不上看中的那只! 但在寻找平替过程中 花出去的时间、金钱成本都是翻倍的。 那么GPT-4呢? GPT-4优于GPT-3.5闪光点,想必大家都十分清楚 不…

基于springboot自动排课系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SpringBoot 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:…

云计算安全

前言 什么是云计算? 云计算就是一种新兴的计算资源利用方式,云计算的服务商通过对硬件资源的虚拟化,将基础IT资源变成了可以自由调度的资源池,从而实现IT资源的按需分配,向客户提供按使用付费的云计算服务。用户可以…

帽子设计作品——蒸汽朋克的乌托邦,机械配件的幻想世界!

蒸汽朋克是由蒸汽steam和朋克punk两个词组成, 蒸汽代表着以蒸汽机作为动力的大型机械,而朋克则代表一种反抗、叛逆的精神。 蒸汽朋克的作品通常以蒸汽时代为背景,通过如新能源、新机械、新材料、新交通工具等新技术,使画面充满想…

基于OpenCV和PyQt5的跳远成果展示程序

基于OpenCV和PyQt5的跳远成果展示程序 近年来,体育运动越来越受到人们的关注,其中跳远是一项备受瞩目的运动项目。为了更好地展示运动员的跳远成果,本文将介绍一种基于OpenCV和PyQt5的跳远成果展示程序实现方法。 本文的跳远成果展示程序主…

基于SSM的校园办公管理系统的设计与实现(源码完整)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据你想解决的问题,今天给…

【TES641】基于VU13P FPGA的4路FMC接口基带信号处理平台

板卡概述 TES641是一款基于Virtex UltraScale系列FPGA的高性能4路FMC接口基带信号处理平台,该平台采用1片Xilinx的Virtex UltraScale系列FPGA XCVU13P作为信号实时处理单元,该板卡具有4个FMC子卡接口(其中有2个为FMC接口)&#xf…