具身智能综述:鹏城实验室中大调研近400篇文献,深度解析具身智能

news2024/11/18 21:36:05

具身智能是实现通用人工智能的必经之路,其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员,对具身智能的最新进展进行了全面解析,推出了多模态大模型时代的全球首篇具身智能综述。
在这里插入图片描述

该综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了全面解析。该综述首先介绍了一些具有代表性的具身机器人和具身仿真平台,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1) 具身感知,2) 具身交互,3) 具身智能体和 4) 虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身智能体面临的挑战,强调其在动态数字和物理环境中主动交互的重要性。最后,该综述总结了具身智能的挑战和局限,并讨论了其未来的潜在方向。本综述希望能够为具身智能研究提供基础性参考,并推动相关技术创新。此外,该综述还在 Github 发布了具身智能 paper list,相关的论文和代码仓库将持续更新,欢迎关注。

论文地址: https://arxiv.org/pdf/2407.06886
具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

  1. 具身智能的前世今生

具身智能的概念最初由艾伦・图灵在 1950 年建立的具身图灵测试中提出,旨在确定智能体是否能显示出不仅限于解决虚拟环境(数字空间)中抽象问题的智能(智能体是具身智能的基础,存在于数字空间和物理世界中,并以各种实体的形式具象化,这些实体不仅包括机器人,还包括其他设备。),还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指令中的人类意图,积极主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计,使具身模型能够全面感知复杂和动态的环境。强大的大语言模型使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知复杂环境,自然地与人类互动,并可靠地执行任务。下图展示了具身智能体的典型架构。

在这里插入图片描述

具身智能体框架

在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人 —— 具身智能在物理世界中的硬件方案;(2)具身仿真平台 —— 高效且安全地训练具身智能体的数字空间;(3)具身感知 —— 主动感知 3D 空间并综合多种感官模态;(4)具身交互 —— 有效合理地与环境进行交互甚至改变环境以完成指定任务;(5)具身智能体 —— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;(6)虚拟到现实的迁移 —— 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。

在这里插入图片描述

本综述整体架构

  1. 具身机器人

具身智能体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如下图所示,具身机器人一般可分为:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;(4)四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用。(5)人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用。(6)仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。

在这里插入图片描述

不同形态的具身机器人

  1. 具身智能仿真平台

具身智能仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验手段,能够通过模拟潜在的危险场景来确保安全,具有在多样环境中进行测试的可扩展性,具备快速原型设计能力,能够为更广泛的研究群体提供便利,提供用于精确研究的可控环境,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行分析:基于底层仿真的通用平台和基于真实场景的仿真平台。

在这里插入图片描述

通用仿真平台

在这里插入图片描述

基于真实场景的仿真平台
4. 具身感知

未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如下图所示,不同于仅仅识别图像中的物体,具有具身感知能力的智能体必须在物理世界中移动并与环境互动,这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和执行复杂任务。该综述从主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知(触觉传感器)等方面进行介绍。

在这里插入图片描述

主动视觉感知框架

  1. 具身交互

具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示,在具身问答任务中,智能体需要从第一人称视角探索环境,以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境,还需决定何时停止探索以回答问题,如下图所示。

在这里插入图片描述

具身问答框架

除了与人类进行问答交互外,具身交互还涉及基于人类指令执行操作,例如抓取和放置物体,从而完成智能体、人类和物体之间的交互。如图所示,具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。

在这里插入图片描述

语言引导的交互式抓取框架

  1. 具身智能体

智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理世界,从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行,它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示,为了完成任务,具身智能体通常涉及以下过程:

(1)将抽象而复杂的任务分解为具体的子任务,即高层次的具身任务规划。
(2)通过有效利用具身感知和具身交互模型,或利用基础模型的策略功能,逐步实施这些子任务,这被称为低层次的具身行动规划。

值得注意的是,任务规划涉及在行动前进行思考,因此通常在数字空间中考虑。相比之下,行动规划必须考虑与环境的有效互动,并将这些信息反馈给任务规划器以调整任务规划。因此,对于具身智能体来说,将其能力从数字空间对齐并推广到物理世界至关重要。

在这里插入图片描述

基于多模态大模型的具身智能体框架

  1. 虚拟到现实的迁移

具身智能中的虚拟到现实的迁移(Sim-to-Real adaptation)指的是将模拟环境(数字空间)中学习到的能力或行为转移到现实世界(物理世界)中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应,具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素,下图展示了五种不同的 Sim-to-Real 范式。

在这里插入图片描述

五种虚拟到现实的迁移方案

  1. 挑战与未来发展方向

尽管具身智能发展迅速,但它面临着一些挑战,并呈现出令人兴奋的未来方向:

(1)高质量机器人数据集。获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。单纯依靠模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各个机构之间紧密且广泛的合作。此外,开发更真实和高效的模拟器对于提高模拟数据的质量至关重要。为了构建能够在机器人领域实现跨场景和跨任务应用的通用具身模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助真实世界的数据。

(2)人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从大规模、高质量的数据集中学习,其中人类执行机器人需要学习的任务。因此,重要的是有效利用大量非结构化、多标签和多模态的人类演示数据结合动作标签数据来训练具身模型,使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据,机器人系统可以实现更高水平的性能和适应性,使其更能在动态环境中执行复杂任务。

(3)复杂环境认知。复杂环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。对于非结构化的开放环境,目前的工作通常依赖预训练的 LLM 的任务分解机制,利用广泛的常识知识进行简单任务规划,但缺乏具体场景理解。增强知识转移和在复杂环境中的泛化能力是至关重要的。一个真正多功能的机器人系统应该能够理解并执行自然语言指令,跨越各种不同和未见过的场景。这需要开发适应性强且可扩展的具身智能体架构。

(4)长程任务执行。执行单个指令通常涉及机器人执行长程任务,例如 “打扫厨房” 这样的命令,包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务需要机器人能够规划并执行一系列低级别动作,且持续较长时间。尽管当前的高级任务规划器已显示出初步的成功,但由于缺乏对具身任务的调整,它们在多样化场景中往往显得不足。解决这一挑战需要开发具备强大感知能力和大量常识知识的高效规划器。

(5)因果关系发现。现有的数据驱动的具身智能体基于数据内部的相关性做出决策。然而,这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏差。这使得它们难以在现实世界环境中以可解释、稳健和可靠的方式运行。因此,具身智能体需要以世界知识为驱动,具备自主的因果推理能力。

(6)持续学习。在机器人应用中,持续学习对于在多样化环境中部署机器人学习策略至关重要,但这一领域仍未被充分探索。虽然一些最新研究已经探讨了持续学习的子主题,如增量学习、快速运动适应和人机互动学习,但这些解决方案通常针对单一任务或平台设计,尚未考虑基础模型。开放的研究问题和可行的方法包括:1) 在最新数据上进行微调时混合不同比例的先前数据分布,以缓解灾难性遗忘,2) 从先前分布或课程中开发有效的原型,用于新任务的推理学习,3) 提高在线学习算法的训练稳定性和样本效率,4) 确定将大容量模型无缝集成到控制框架中的原则性方法,可能通过分层学习或慢 - 快控制,实现实时推理。

(7)统一评估基准。尽管有许多基准用于评估低级控制策略,但它们在评估技能方面常常存在显著差异。此外,这些基准中包含的物体和场景通常受到模拟器限制。为了全面评估具身模型,需要使用逼真的模拟器涵盖多种技能的基准。在高级任务规划方面,许多基准通过问答任务评估规划能力。然而,更理想的方法是综合评估高级任务规划器和低级控制策略的执行能力,特别是在执行长时间任务和衡量成功率方面,而不仅仅依赖于对规划器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。

总之,具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向,这对沿着促进具身智能的发展具有重要意义。

关于鹏城实验室多智能体与具身智能研究所

隶属鹏城实验室的多智能体与具身智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 基础设施,致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2178394.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis-常见数据类型(修改ing)

1. 预备知识 redis按照键值对的方式存储数据 1.1 基本全局命令 KEYS 返回所有满⾜样式(pattern)的key,⽀持如下统配样式: h?llo 匹配hello,hallo,hxlloh*llo 匹配hllo,heeeelloh[ae]llo 只匹配hallo helloh[^e]llo 匹配除hello,heee..llo以外的h[a…

【笔记】数据结构12

文章目录 2013年408应用题41方法一方法二 看到的社区的一个知识总结,这里记录一下。 知识点汇总 2013年408应用题41 解决方法: 方法一 (1)算法思想 算法的策略是从前向后扫描数组元素,标记出一个可能成为主元素的元…

Learn OpenGL In Qt之炫酷进度条

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生~ 公众号: C学习与探索 | 个人主页: rainInSunny | 个人专栏: Learn OpenGL In Qt 文章目录 设计实现目录结构需要哪些类接口设计关键函数 实现效果Shader解析GLSL基本函数clampsmoothstep 实现分析效…

【Python】Beaker:轻量级缓存与会话管理的解决方案

Beaker 是一个简单、灵活的 Python 库,主要用于缓存管理和会话管理。作为一个开源项目,Beaker 提供了多种缓存存储后端,帮助开发者在应用中高效管理缓存数据,同时支持会话存储,适合 Web 应用中的用户状态管理。其轻量级…

WebAPI编程(第一天,第二天)

WebAPI编程(第一天,第二天) day01 - Web APIs1.1. Web API介绍1.1.1 API的概念1.1.2 Web API的概念1.1.3 API 和 Web API 总结 1.2. DOM 介绍1.2.1 什么是DOM1.2.2. DOM树 1.3. 获取元素1.3.1. 根据ID获取1.3.2. 根据标签名获取元素1.3.3. H5…

端侧多模态 | 不到10亿参数的端侧Agent竟媲美GPT-4V?AI手机不远了!

引言 简介 相关工作 模型 编码视觉信息 函数token 多阶段训练 模型评估 发送邮件 发送短信 Google搜索 Amazon购物 智能回收 失物招领 室内设计 Instacart购物 DoorDash(外卖平台)示例 动物护理 总结 引言 青山一道同云雨,明月何曾是两乡。 小伙…

王道-数据结构

1 设数组data[m]作为循环队列的存储空间,front为队头指针,rear为队尾指针,则执行出队操作后其头指针front值为____ 答案:D 解析:队列的头指针指向队首元素的实际位置,因此出队操作后,头指针需向上移动一个元素的位置。循环队列的容量为m,所以头指针front加1以后,需…

CVPR论文《DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets》

1、整体思维导图 2、个人收获 这篇论文在理论上对于我来说可能就是让我大致了解了这个领域(因为我的研究方向不是这方面),看完以后也没有看得特别懂(说实话)。 更多的收获应该是在论文的写作思路上吧 3、下面欣赏论…

分享几个可以免费使用GPT的网站【2024年必备】

1、ChatGPT 链接:点击直达 这个网站可以免费使用GPT4.0和GPT-4o模型,反应速度也很快,还有AI绘画可以体验喔~ 推荐指数:⭐⭐⭐⭐⭐ 2、AI智慧岛 链接:点击直达 推荐指数:⭐⭐⭐⭐⭐ 这个网站可以免费使…

Linux基础(四):文件权限与目录配置

1.使用者、群组、其他人概念 linux下每个文件都有三种权限类别,分别为使用者(User)、群组(Group)、其他人(Others)。这三种权限类别针对的是账号,也就是登录这个Linux系统的用户的账…

告别盲目推广!Xinstall为社交App带来精准流量

在移动互联网时代,社交类App如雨后春笋般涌现,但如何在众多竞争者中脱颖而出,成为用户首选?这不仅是开发者们面临的难题,也是推广者必须攻克的难关。今天,我们就来揭秘一种全新的社交类App推广策略&#xf…

64.【C语言】再议结构体(下)(未完)

本文衔接第63篇 目录 6.复习 7.修改默认对齐数 8.结构体传参 01.传递非指针参数 02.传递指针参数(传递地址) 03.对比 9.结构体实现位段 01.位段的定义 02.格式 03.例题 答案速查 分析 前置知识:位段的内存分配 解析 若按浪费空间处理 验证 6.复习 20.【C语言…

《OpenCV 计算机视觉》—— Harris角点检测、SIFT特征检测

文章目录 一、Harris 角点检测1.基本思想2.检测步骤3.OpenCV实现 二、SIFT特征检测1. SIFT特征检测的基本原理2. SIFT特征检测的特点3. OpenCV 实现 一、Harris 角点检测 OpenCV中的Harris角点检测是一种基于图像灰度值变化的角点提取算法,它通过计算每个像素点的响…

vue2 自定义empty指令

主要思路 定义一个echarts图标,数据为空,image采用base64编码图标宽高根据父宽高自适应渲染echarts函数,切换清除图例定义暂无数据指令 定义option /*** 暂无数据* param {number} width* param {number} height* returns option*/ functi…

全局思维下的联合创新:华为携手ISV伙伴助推银行核心平稳升级

文 | 螳螂观察 作者 | 李永华 随着数字金融快速发展,对核心系统提出了“海量、高效、弹性、扩展、敏捷”等新需求,区域性银行面临核心系统升级的迫切需要,对金融科技厂商而言也催生了庞大的机遇和空间。 只是,银行核心系统是金…

深度学习|求导公式:梯度逆传播规律

文章目录 引言基础函数的求导常数函数幂函数指数函数对数函数三角函数反三角函数双曲函数 复合函数的梯度逆传播链式法则函数相加函数相乘函数相除 结语 引言 我们知道,神经网络的能够学习处理任务的核心是计算损失的梯度,而误差逆传播算法是求梯度的一…

基于OpenCV的实时年龄与性别识别(支持CPU和GPU)

关于深度实战社区 我们是一个深度学习领域的独立工作室。团队成员有:中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等,曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万粉丝,拥有2篇国家级人工智能发明专利。 社区特色…

842真题上的各种简答题

线性表 1. 应选用链式存储结构,因为链式存储结构采取动态内存分配,可以在操作过程中增加或减少线性表的长度,且插入删除操作更方便 2应该选用顺序存储结构,因为顺序存储结构的访问和存取,都是按照元素序号的随机访问…

VisualGLM-6B——原理与部署

VisualGLM-6B技术原理介绍 VisualGLM-6B 是一种多模态预训练模型,它旨在将视觉和语言模型进行结合,使得语言模型能够理解图像信息并与文本对话无缝结合。为了更好地理解 VisualGLM-6B 的内容,我们可以从以下几个方面来解析它的原理、结构、训…

基于springboot+小程序的自习室选座与门禁管理系统(自习室1)(源码+sql脚本+视频导入教程+文档)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 1、管理员实现了首页、基础数据管理、论坛管理、公告信息管理、用户管理、座位管理等 2、用户实现了在论坛模块通过发帖与评论帖子的方式进行信息讨论,也能对账户进行在线充值…