Embodied AI 具身智能

news2025/2/24 18:48:01

大模型的时代的到来，现在的大模型的参数几乎是几何级数的上升。

谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E：An Embodied Multimodal Language Model。通才大模型PaLM-E，什么是通才模型，就是多任务统一学习范式的成果。尤其在GPT3.5的巨大成功后，大家都不甘落后。

文章目录

具身智能概述
一、难点解析
二、如何实现更加便利的人机交互？
- 1. 问题
- 2.对环境的模拟Sim2Real
总结

具身智能概述

具身智能定义：智能体通过与环境产生交互后，通过自身的学习，产生对于客观世界的理解和改造能力。
具身智能假设：智能行为可以被具有对应形态的智能体，通过适应环境的方式学习到。因此，地球上所有的生物，都可以说是具身智能。
具身智能是能够提升当前的“弱人工智能”认知能力的重要方式。人工智能可以通过与环境交互的渠道，从真实的物理或虚拟的数字空间中学习和进步。同时，具身智能是产生超级人工智能的一条可能路径。
具身AI对立的词是Internet AI，指通过互联网上的数据进行学习，比如我们一直在做的CV、NLP。而Embodied AI是指从与环境的交互中学习。

Embodied AI = Embodied Intelligence = 具象AI = 具身智能Internet AI = Disembodied AI = 非具身智能

一、难点解析

如何通过互联网上丰富的多模态数据，训练一个通用模型，可以根据指令在环境中执行各种任务。
有以下两个难点：

如何提升学习效率：通过与环境交互学习有很大风险，效率也低(正向奖励太少)，而通过观察(observation)，利用现有数据学习效率才更高，这样也可以延续预训练-精调/Prompt的范式，把更多的知识迁移到下游。
复杂的输入输出和环境：在最复杂的情况下，模型的输入是多模态指令，输出是可以在真实环境执行的动作。其实针对Embodied AI的评估有多种任务，比如Navigation、Manipulation、Instruction following，但指令是可以描述所有任务的，需要更高维的理解。同时，输出的动作空间大小、环境是模拟的还是真实的，都会带来不同的挑战。
一些机构的进展如下：

二、如何实现更加便利的人机交互？

1. 问题

具身智能机器人：首先，要能够听懂人类语言，然后，分解任务，规划子任务，移动中识别物体，与环境交互，最终完成相应任务。
GPT等大模型的出现提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来，通过将图像、文字、具身数据联合训练，并引入多模态输入，增强模型对现实中对象的理解，帮助机器人处理具身推理任务。

谷歌、微软的AI团队走在前列，试图以大模型为机器人注入灵魂。

3月8日，谷歌和柏林工业大学的团队重磅推出了史上最大的视觉-语言模型——PaLM-E，参数量高达5620亿（GPT-3的参数量为1750亿）。具体来说， PaLM-E-562B 集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer（ViT），作为一种多模态具身视觉语言模型（VLM），PaLM-E不仅可以理解图像，还能理解、生成语言，可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用，例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。
在这里插入图片描述
https://arxiv.org/abs/2303.03378
作为一种多模态具身视觉语言模型 (VLM)，PaLM-E不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿。
PaLM-E，全称Pathways Language Model with Embodied，是一种具身视觉语言模型。它的强大之处在于，能够利用视觉数据来增强其语言处理能力。

据论文介绍，PaLM-E是一个仅有解码器的LLM，在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。研究人员则观察到了一个显著的优势。语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强。从模型规模来看，5620亿参数的PaLM-E几乎保持了它所有的语言能力。
比如，「从抽屉里拿出薯片」这类指令中，就包括了多个计划步骤，以及来自机器人摄像头的视觉反馈。经过端到端训练的PaLM-E，可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中，所以机器人在拿薯片的过程中，对途中的干扰都有鲁棒性。

人类：给我来点薯片。
机器人：

走到抽屉旁
打开最上面的抽屉
从最上面的抽屉里拿起绿色的薯片
放在柜台上。

最后，研究结果还表明，冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。但同时，研究人员还发现了一条解冻模型的替代路线，即扩大语言模型的规模可以显著减少灾难性遗忘。

在最近的一项研究中，微软团队在探索如何将 OpenAI研发的ChatGPT扩展到机器人领域[8]，从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。研究人员展示了多个 ChatGPT 解决机器人难题的示例，以及在操作、空中和导航领域的复杂机器人部署。
在这里插入图片描述
很明显，谷歌和微软对具身AI有高度相似的期许：人类操作机器人，不需要学习复杂的编程语言或机器人系统的细节，“言出”（向机器人口述/比划需求）即“法随”（机器人完成任务）[2]，达到“得心应手，如臂使指“的境界。可以预见，基于自然语言控制的机器人控制，将成为未来热门的研究方向。
在使用ChatGPT几个月后，我仍觉得其有很大的探索空间，基于GPT开发的插件在提高工作效率上有很大的潜力，比如ChatPaper可以帮助快速阅览论文；EditGPT可以帮忙润色英文写作。体验下来，大语言模型对数据的归纳梳理能力毫无疑问早已超越人类，理解、逻辑推理能力也是出乎意料的强大，黄仁勋将ChatGPT的问世称之为AI界的“iPhone时刻”。在某些问题上，向ChatGPT提问比向百度、Google等搜索引擎提问更加快速且有效。GPT-4相比于GPT-3.5，增加了理解图像的能力；基本没有误解问题的情况，甚至能够去处理更复杂的任务。简而言之，它的可靠性更好。例如，GPT-4能够写诗，可以写押头韵的诗，也能写押尾韵的诗。甚至它能去理解笑话，能明白笑话背后的意思。还有一个例子体现出GPT-4的理解能力得到了进一步的进化。
ChatGPT等先进的大语言模型对实现具身智能中便利的人机交互有着至关重要的作用。

2.对环境的模拟Sim2Real

训练具身智能的一种直接方法是将它们直接放置在物理世界中。这很有价值，但在现实世界中训练机器人速度慢、危险（机器人可能会摔倒并摔坏）、资源密集型（机器人和环境需要资源和时间）并且难以重现（尤其是罕见的边缘情况）。另一种方法是在逼真的模拟器中训练具身代理，然后将学到的技能转移到现实中。模拟器可以帮助克服物理世界的一些挑战。模拟器可以比实时运行快几个数量级，并且可以在集群上并行化；模拟培训安全、便宜。一旦在模拟中开发和测试了一种方法，就可以将其转移到在现实世界中运行的物理平台。

很大概率，具身智能是通向通用人工智能的更Promising的一条路。