EmbodiedGPT|具身智能或将成为实现AGI的最后一公里

news2024/11/25 14:41:17

卷友们好,我是穆尧。

最近由Chatgpt所引爆的新一代人工智能的革命正在如火如荼的进行,几乎重塑了所有的互联网产品,如办公软件、浏览器插件、搜索引擎、推荐系统等。这样巨大的改变,让大家对通用人工智能又燃起了新的希望,而可能成为我们通往通用人工智能(AGI)的最后一公里。具身智能将AI从基于互联网的虚拟领域转化为具有实体形态和与物理世界实时交互能力的实体,这对于达到或超越人类智能的实现至关重要。构建具备第一视角认知、决策规划、运动交互能力的智能体,以更好地模拟人类的具身智能,逐渐成为研究热点。

早在1950年,图灵首次提出了具身智能的概念。具身智能是指通过自身身体体验来产生智能的能力。它以第一视角为基础,使个体能够理解环境、制定决策规划,并真正与环境进行互动执行底层动作。同时,具身智能还能够从自身的探索经验或他人传授的经验中总结教训,并提升自身策略的能力。这种能力使得个体能够通过感知、运动和互动与环境紧密联系,从中获取信息和经验,不断学习和适应环境,以实现更高效的智能表现。

然而,要实现真正的具身智能仍然面临着许多挑战:

1)建立第一视角下灵活的具身认知系统,使智能体能够以第一人称视角准确地感知和理解周围的物理环境。与传统CV任务不同的是,除了像detection 和segemntation 这样关于位置和语义的理解外,具身认知系统更强调对物体可操作性的理解,比如在开抽屉这样一个例子当中,它会更关注抽屉可操纵的部分如把手等信息。另一个例子是组装问题,以Metaworld中的一个任务举例,环境中包含一个带手柄的圆环和一个楔子,任务的需求是将圆环装配到楔子上,这就要求感知模型能够捕捉圆环的中心和手柄的位置,而在一般的预训练视觉模型中,这些信息并不容易获得。

1e40defe485d2fd98e051bcb4cde69a0.jpeg

f9aeb7743f40900dbbc135866255bb5e.jpeg

96bb1f6a201f45ddd82ff305e5b615f8.jpeg

2)实现高度自主的决策规划能力。具身智能需要智能体能够根据环境的变化和任务的要求,灵活地制定决策和行动计划。这需要智能体具备推理、推断和规划的能力,做出环境适应性强的决策。比如橱柜的门可能是可以拉开的,也可能是可以向右滑开的,这需要智能体将自身的知识和当前的观测和认知结果做强有力的结合,来判断具体怎么才能够打开柜门。这是仅根据现成的caption模型+Chatgpt组合起来也很难做到的事情。

3)实现目标驱动的与物理世界的精确运动交互。智能体需要具备精细的运动控制能力,能够在复杂的物理环境中执行各种任务和动作。这涉及到机器人技术、传感器融合和动作规划等领域的研究,需要解决动作规划、路径规划、运动控制和力触觉等方面的问题。而现实世界的任务千变万化,传统的机器人运动学难以满足AGI的要求,目前学术界解决该问题大概有三条路径,其一是利用强化学习通过大量的交互来学习精确地运动交互,其二是采用少量的示范数据fewshot的快速学习该技能,其三是采用目标驱动的生成模型直接以AIGC的范式来做Motion的生成。第一条路线是学界已经研究数十年的路线,但由于该方法交互的代价昂贵每一个技能都进行大量探索很难适应于AGI的发展,第二条路线,目前包括Meta 和谷歌等公司都在建立基于模仿学习的通用技能体,该路线的核心问题是对未曾见过的任务,如何只通过非常少的人类示范数据来即能学到对应的技能。路线三希望使motion生成能够像目前图像生成一样,能够灵活的针对prompt的要求,生成准确的actions,十分具有前景,但这样的生成模型要求任务的种类非常丰富,而目前并没有能够覆盖如此全面的机器人数据集。

要做到能够在环境中实际交互级别的高质量规划,只依靠如GPT4等语言模型基于大模型内置的知识库是完全不够的,具身智能要求:

  1. 视觉观测和语言的alignment能够达到把手、按钮这样的Part级别的对准

  2. 拥有对一个action(如抓住把手)第一视角的理解,怎么算抓住了?抓住之后怎么拉,拉动把手和向右推动把手机械臂的抓手和橱柜把手之间的位置关系是怎么样的?

针对上述三大难题,香港大学MMLAB联合上海人工智能实验室OpenGVLab构建了EmbodiedGPT大模型,具有具身认知,具身规划和具身执行能力。 

论文链接:https://arxiv.org/abs/2305.15021

2e5423043ad58a72d0917596b1d49407.png

1)通过构建具备多模态思维链的人类操纵视频文本数据集EgoCOT, 将视觉信息与具体操纵任务中的sub-goal相关联在一起。

首先我们需要一个大规模的第一视角的视觉+详细规划的视频文本数据集,在第一视角的视频数据中, Ego4D具有7T的超大体量和规模,且包含超级丰富的hand-object interaction数据,美中不足的是caption没有具体到细致的part级别,针对此问题我们通过具身思维链,通过设计合理的Prompt模版,利用Chatgpt对Ego4D数据集进行了有效的扩充,并通过后处理过滤保障了数据的对准质量。下面是一个例子:

54d1412f733cddf7f29b6732610f18e3.png

2)提出了基于多模态思维链的视觉语言预训练方法,使模型具备根据视觉输入做出强相关的可执行性强的决策规划的能力,具备图像、视频理解和基于视觉的规划能力。且能够通过观看自身第一视角操作的视频,认知到自己的执行与实际规划的偏差在哪,以及如何更正规划的偏差。

基于此技术构造出了大规模的视频-具身思维链数据集,以支持具身大模型认知能力的学习。针对具身大模型的训练,我们与谷歌PALM-E的方法有所不同。首先,在选择和训练基础模型方面,我们采用了对高校和非超级大厂更友好的视觉和语言模型,其中视觉模型为ViT-Large,语言模型为7B的LaMMA。网络结构如下图所示:

1032441c147f2098c1e43a3f9aa914c5.png

3)基于自注意力机制,提取出当前视觉观测和planning中的具体sub-goal高度相关的特征,使模型具备仅通过少量示范数据即能够学会执行底层控制。

我们设计了Embodied-former作为视觉和语言规划之间的桥梁。通过可学习的Embodied Queries和视觉特征以及文本特征之间的attention机制,我们能够提取出与具身规划控制任务最相关的特征信息,并将其传递给语言模型通过language mapping layer。这样的设计使得语言模型能够更好地理解具身规划任务的视觉输入。

在训练过程中,为了降低训练成本,我们将视觉基础模型和语言模型冻结。我们使用prefix adapter在锁定大语言模型的基础上,在EGOCOT数据集上进行训练,以引导Embodied-former和language mapping layer实现视觉观测和语言的Part级别对齐。通过adapter的引入,语言模型还能够生成一系列子目标的规划,从而避免了语言模型过于散漫地回答问题,同时提高了语言模型对第一视角的具身视觉输入生成结构化规划的能力。

那么上层的规划如何与底层的动作执行链接起来呢?这里Embodied-former再一次的派上了用场,Embodied-former的职能是对可学习的Embodied Queries,视觉特征和文本特征之间的attention机制进行建模,我们将EmbodiedGPT所输出的对任务的step by step的详细规划作为文本输入到Embodied-former当中,从而提取出与当前任务关系最为密切的特征, 并通过轻量级的policy network映射到底层的action输出。

基于这样任务高度相关的特征,我们只需要利用很少的demonstration demos 即可学会完成任务。同时,EmbodiedGPT强大的第一视角下的认知能力,能够通过自己在底层执行时的历史观测形成的视频输入,知道自己实际的执行情况与demonstration是否一致,以及自己当前具体执行到了所制定的Planning的哪一步。如果执行任务不成功,EmbodiedGPT通过自己执行过程中的视频输出文本形式的经验总结,也可以作为Prompt来辅助Planning的重新制定,这样的良性循环也是具身智能的提现所在。

总结

虽然挑战诸多,但具身智能在这个大模型时代机遇无限,大模型对学术界的诸多研究方向都产生了剧烈的打击,而在具身智能上却带来了勃勃的生机,利用强大的视觉模型和语言模型,构建第一视角下灵活的具身认知,高度自主的具身决策规划和目标驱动的具身交互系统是实现AGI的最后一公里。

c09044aafc56b19ef575b389c2240f98.png

8ea4fe9dcd9663e3f1b0a2acf08a7860.jpeg


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/630150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CTPN文本检测详解 面试版本

二.关键idea 1.采用垂直anchor回归机制,检测小尺度的文本候选框 2.文本检测的难点在于文本的长度是不固定,可以是很长的文本,也可以是很短的文本.如果采用通用目标检测的方法,将会面临一个问题:**如何生成好…

Autosar诊断实战系列01-手把手教你增加一路31Routine服务

本文框架 1.系列概述2. UDS Routine服务添加3. DcmDspRoutine配置3.1 DcmDspRoutineInfos配置3.2 DcmDspRoutines配置1.系列概述 在本系列笔者将结合工作中对诊断实战部分的应用经验进一步介绍常用UDS服务的进一步探讨及开发中注意事项, Dem/Dcm/CanTp/Fim模块配置开发及注意…

编译tolua——2、基础编译tolua

目录 1、编译工具和环境说明 2、基础编译tolua 大家好,我是阿赵。 继续来讲tolua的各个常用平台的编译。 这里使用官方的tolua_runtime-master项目来做编译 具体需要的编译软件和源码地址,在上一篇文章已经介绍过了,先把环境准备好&#xff…

飞桨AI4S污染物扩散快速预测模型,亮相全国数据驱动计算力学研讨会

5月19-21日,第一届全国数据驱动计算力学研讨会在大连召开。本次研讨会由中国力学学会主办,大连理工大学运载工程与力学学部承办,北京理工大学先进结构技术研究院协办。 会议共吸引了400多位来自全国各地高校与企业的老师与学生参会&#xff0…

DNSPod十问林洪祥:顶级带货主播,其实是数字人?

本期嘉宾 林洪祥 风平智能CEO 林洪祥,风平智能CEO。风平智能拥有全球领先的数字人AIGC预训练大模型技术,利用数字人AI知识大模型打造视频版ChatGPT,实现数字人名师、数字人医生、数字人保险客服、数字广告模特、数字人AI直播等,…

百度大模型算法实习岗上岸经验!

Datawhale干货 作者:J同学,学校:天津大学 写在前面 大家好,我是天大J同学,2023找暑期实习期间也算是历经坎坷,最后去了百度做大模型相关工作,虽然本硕均为计算机科班但本身实力尚浅&#xff0c…

全景浏览技术在虚拟现实中的应用

随着虚拟现实技术的发展,全景浏览技术越来越受到人们的关注。全景浏览技术是一种可以将场景全方位呈现给用户的虚拟现实技术,可以为用户带来身临其境的视觉和听觉体验。本文将介绍全景浏览技术在虚拟现实中的应用以及如何利用代码实现这些应用。 一、全…

报名 | 2023中国高校计算机大赛—大数据挑战赛火热开启!

2016年,教育部高等学校计算机类专业教学指导委员会、教育部高等学校软件工程专业教学指导委员会、教育部高等学校大学计算机课程教学指导委员会、全国高等学校计算机教育研究会联合创办了“中国高校计算机大赛”(China Collegiate Computing Contest&…

2023最新SpringCloud Alibaba全彩版笔记开源,阿里大牛带你手撸微服务结构项目实战

Spring Cloud Alibaba 致力于提供微服务开发的一站式解决方案。此项目包含开发分布式应用微服务的必需组件,依托Spring Cloud Alibaba,只需要添加一些注解和少量配置,就可以将Spring Cloud 应用接入阿里微服务解决方案,通过阿里中…

迅捷pdf实现多页插入

之前我们使用福昕阅读器实现了在每一页插入logo 这里我们用迅捷pdf再来一次,别问,问就是公司买了会员 首先声明,这里已经有会员了,所以不知道别人操作是不是需要会员,担心的话可以看看上一篇福昕阅读器版本 打开编辑…

3 年换了 6 份工作,失业了!

见字如面,我是军哥! 我 4 月份的时候写过一篇文章《三年换 3 份工作,再也找不到工作了!》如下图,有读者留言,三年换了六家公司,我是惊呆了! 但凡看过我之前文章的,也不至…

chatgpt赋能python:Python如何保存文件到桌面

Python如何保存文件到桌面 在编程中,常常需要将程序生成的文件保存到指定的位置。当然,最常见的目标就是桌面。本文将介绍如何在Python中将文件保存到桌面,以及可能出现的错误及解决方法。 保存文件到桌面 首先,我们需要导入Py…

Grafana Node Graph 使用教程

Grafana 可以显示图数据,例: 依赖 Grafana > 7.5.0 下载地址 https://grafana.com/grafana/download # 启动 Grafana $ ./grafana-severGrafana Node Graph API Plugin # 安装插件 $ grafana-cli plugins install hamedkarbasi93-nodegraphapi-d…

mybatis-plus用法(二)

(5条消息) mybatis-plus用法(一)_渣娃工程师的博客-CSDN博客 AR模式 ActiveRecord模式,通过操作实体对象,直接操作数据库表。与ORM有点类似。 示例如下 让实体类User继承自Model package com.example.mp.po; import com.bao…

爱奇艺大数据加速:从Hive到Spark SQL

01 导语 爱奇艺自2012年开展大数据业务以来,基于大数据开源生态服务建设了一系列平台,涵盖了数据采集、数据处理、数据分析、数据应用等整个大数据流程,为公司的运营决策和各种数据智能业务提供了强有力的支持。随着数据规模的不断增长和计算…

Java程序员春招面试宝典,结合了30多家大厂面试难点的Java面试

先进的技术-般都诞生于顶尖的公司(一般互联网人称这样的公司为“大厂”),如Dubbo由阿里巴巴开源, CAT由美团开源,等等。那么除了培训/沙龙这种烧钱的方式外,去“大厂”面试也是一种既省时又省钱的汲取先进技术的方式。因此笔者就养成了每隔一段时间就去大…

国产数据库突围:道阻且长,行则将至

“西风烈,长空雁叫霜晨月。霜晨月,马蹄声碎,喇叭声咽。雄关漫道真如铁,而今迈步从头越。从头越,苍山如海,残阳如血。” 这首《忆秦娥娄山关》,写于红军取得娄山关战斗胜利之后。娄山关战斗是红军…

小程序底层架构剖析

当我们前端切图崽网上冲浪的时候,会发现有很多技术文章都在分析vue框架,react框架,显少有分析小程序框架的。那今天就通过这篇短小精悍的文章带大家了解一下微信小程序的底层架构。(如无特殊说明,下文中提到的小程序都…

STM32F4_通过RS232实现和PC端通讯

目录 1. RS232通讯 2. 实验程序 2.1 main.c 2.2 RS232.c 2.3 RS232.h 通过上一节的学习,已经基本了解了RS232的通讯过程,实际上,不管是RS485还是RS232都是基于串口的一种通讯方式! STM32F4_RS485、RS232_light_2025的博客-CS…

[opencv]opencv-python环境搭建

删除源信息 conda config --remove-key channels 添加源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/ conda config --add chan…