具身智能，是机器人的“冷饭热炒”吗？

大模型正如火如荼，下一个AI风口就来了。

如果你关注2023世界人工智能大会等行业峰会，以及英伟达、微软、谷歌、特斯拉和国內科技大厂的最新发布会，除了“大模型”，应该会听到另一个高频词——具身智能。

所谓具身智能Embodied AI ，指的是有身体并支持物理交互的智能体。

简单来说，就是让AGI从数字世界走向实体世界，落地在机器人、机械臂、无人车、无人机，让实体世界中的机器人/仿真人具有智能，像人一样与环境交互感知，执行各种各样的任务。

从这个角度看，其实很多人都已经见过或者玩过具身智能产品了。索尼的机器狗AIBO，软银的服务机器人pepper，还有波士顿动力的人形机器人和机器狗……这些具身智能产品，曾是不少人的童年回忆，或者科幻恐惧。

虽然技术概念很超前，但这些产品的市场表现，其实并不太理想，技术落地难、产品被停产、企业被转卖，都不算新闻。

因此也有人认为，具身智能作为AI的终极形态之一，只是一些大厂推动的营销概念。

我们今天就来聊聊，具身智能的这一波热度，是机器人的“冷饭热炒”吗？

下一个AI风口

古话说得好，遇到问题，先问是不是，再问为什么。

有必要先探讨一下，具身智能真的火了吗？

目前来看，AI学术界和工业界，确实已经将“具身智能”，作为下一个风口。

学术层面，不少科学家提出推论，大模型的技术路径打通之后，下一个突破是具身智能。

图灵奖得主、上海期智研究院院长姚期智认为，人工智能领域下一个挑战将是实现“具身通用人工智能”，即如何构建能够通过自我学习掌握各种技能并执行现实生活中的种种通用任务的高端机器人。清华大学计算机系教授张钹院士，也在某产业智能论坛上提出，随着基础模型的突破，通用智能机器人（具身智能）是未来的发展方向。

（张钹院士的公开发言现场）

产业层面，谷歌、微软、特斯拉等科技公司近日都相继公布了自家的具身智能产品，国內头部科技大厂如华为、京东，也开始将自身在具身智能领域的相关布局，向大众布道。前不久印发的《北京市机器人产业创新发展行动方案（2023-2025年）（征求意见稿）》，也提出发展机器人“1+4”产品体系，加紧布局人形机器人研发与应用。具身智能的产业化、市场化潜力，正在加速积累。

如前所说，无论是现实生活中的机器狗、机械臂、无人车，还是科幻电影中的人形机器人，具身智能产品早已为大众所熟悉，但市场表现一直不温不火。为什么一夜之间成为风口了？

和大模型“两开花”

这一波具身智能的热潮，让我想起了这张梗图。AGI起于大模型，终于具身智能。

具身智能的概念，可以追溯到1950年，图灵在论文《Computing Machinery and Intelligence》中，提出机器像人一样能和环境交互感知，自主规划、决策、行动，并具备执行能力，是AI的终极形态。

历史上的两次人工智能浪潮，AI智能水平都达不到大众的预期，具身智能虽然诞生了波士顿动力这样的“炸裂”，但是作为一种未来概念和独特案例，并没有取得有成效的产业化进展。

当下正在第三次人工智能浪潮，具身智能的希望重燃，就在于跟大模型“两开花”。

具体来说，大语言模型让人们看到了AGI通用智能的希望，而这也让具身智能有了几个方面突破的可能性：

1.大模型——更厉害的“大脑”

我们知道，大语言模型和传统机器学习的区别，就在于泛化能力强，在复杂任务理解、连续对话、零样本推理等方向有了突破进展。这一突破，让机器人的理解力、连续决策力、人机交互能力，有了全新的解决思路。

微软研究院发布“ChatGPT for Robotics” 文章中提到，大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码，从而控制机械臂、无人机等机器人。

以前，由于传统AI不具备先验知识，理解力和泛化能力不足，机器人就无法像人一样拥有常识，必须要将一个指令由人类工程师分解成一连串简短的程式化程序，然后机器人（机械臂）再一步一步去完成每个动作。

这也使得高级别的具身智能，比如L5自动驾驶、人形机器人、机器狗等，人机交互无法满足现实中通用智能的需求，广泛应用的主要是机械臂、履带式搬运机器人等这类比较机械化的具身智能，只适应某一类设计好的特定任务。

有了大模型之后，机器人终于有了一个强大的“大脑”。

LLM可以帮助机器人更好理解运用到高级语义知识，自动化地分析自己的任务并拆分成具体的动作，这样与人类、与物理环境的互动更加自然，机器人也就显得更加智能了。

举个例子，让机器人倒一杯水，人类自动就会绕开室内的障碍物，但传统方式下，机器人并不具备“遇到障碍物水会打翻”这样的常识，经常会做错事，而大模型驱动的具身智能，就可以更好地理解这些知识，自动分解任务，不再需要工程师或者主人一步步地指导。

2.多模态——更丰富的“小脑”

“具身”所相对的概念是“离身”（Disembodiment），从中可以看到，具身智能的实现依赖于身体的感知，不能脱离身体而单独存在。

人类具有眼耳鼻舌身意，说明对于物理世界的充分感知和理解，是意识和智慧的来源。而传统AI更多的是被动观测，主要是“看”（计算机视觉）和“读”（文本NLP），这就使得智能体Agent缺乏对外部环境的通用感知能力。

以自动驾驶为例，无人车也是具身智能的载体，需要通过传感器、机器视觉、激光雷达等多种方式来感知物理世界的变化，成本昂贵，效果也不是很理想，至今依然没能实现L3级别的自动驾驶量产。

多模态大模型，可以积累和分析2D&3D视觉、LiDAR激光、Voice声音等多维信息，基于真实交互，为具身大模型积累高质量数据数据，深度理解并转化为机器指令，来控制机器人的行为。

有了感知能力更丰富的“小脑”，具身智能自然也就能更好的理解物理世界。

3.精准决策——更灵活的躯干。

试想一下，如果一辆无人车，行驶过程中道路上突然冲出一个物体，它只能等着人类来判断“当前是什么情况”，下达指令“应该干什么”，那黄花菜都凉了，万一冲出来的是人，那实在是太危险太不可靠了。

传统的机器人训练往往采取pffline离线模式，一旦遇到训练环境中没有出现过的问题，就可能掉链子，需要收集数据再重新迭代优化，这个过程的效率很低，也减慢了具身智能在现实中落地的速度。

大模型时代，具身智能模型的训练与测试，与云服务相结合，可以在云上虚拟仿真场景下，进行端到端的实时训练与测试，快速完成端侧迭代与开发，这就大大加速了具身智能体的进化速度。

具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代，积累对物理世界的深度理解，产生大量交互数据，再通过与真实环境的不断交互积累经验，全面提升在复杂世界的自动移动、复杂任务的泛化能力，展现在具身载体上，就是机器人可以更好地适应环境，更灵活地运用机械“躯干”来进行人机交互。

一句话总结，和大模型“两开花”，将通用人工智能落地（Embodiment物理身体），为具身智能打开了新的想象空间。

能抓老鼠才是好猫

理论归理论，实践归实践。我们总说能抓住老鼠的才是好猫，那么实现具身智能，究竟有几种“抓老鼠”的方式呢？

目前，主要以两种路线为主：

一种是谷歌、伯克利等为代表的“未来派”，主打的是“一步到位”。

具体来说，这类研发机构是从具身智能的终极目标出发，希望从当下到终点，寻找一个端到端的技术路径，所给出的方案，往往采取“紧耦合”的方式，希望一个大模型就能包办所有，让机器人完成识别环境、分解任务、执行操作等所有工作，非常难，也非常有未来感。

比如今年三月谷歌推出的PaLM-E，就是一种多模态具身视觉语言模型（VLM），让机器人可以基于大模型，来理解图像、语言等数据，执行复杂的指令，而无需重新训练。

加州大学伯克利分校的LM Nav，则通过视觉模型、语言模型、视觉语言模型 CLIP等三个大模型，让机器人在不看地图的情况下按照语言指令到达目的地。Koushil Sreenath教授的工作，就是推动硬件本体、运动小脑、决策大脑三部分逐渐融合，让各种四足、双足，以及人形机器人在真实世界中灵活地运动。

另一种，是英伟达及大量工业机器人厂商为代表的“务实派”，主打的是“马上见效”。

“未来派”一步到位的路线虽然看起来很酷，但耗时漫长，距离产业可用还比较遥远，成本昂贵，产业客户未必能够接受。在种种不确定之夏，满足工业界需求，就出现了以松耦合来实现具身智能的技术路线。

简单来说，就是不同任务通过不同模型来实现，分别让机器人学习概念并指挥行动，把所有的指令分解执行，通过大模型来完成自动化调度和协作，比如语言大模型来学习对话、视觉大模型来识别地图、多模态大模型来完成肢体驱动。

这种方式虽然底层逻辑上看还是比较机械，不像人一样有综合智能，但成本和可行性上，能让具身智能更快落地。

哪种路线更优？坦率地说，我们认为都有其局限性。

紧耦合的“未来派”，硬科技的含量显然更高，在突破后很容易和LLM一样给产业带来颠覆式的变革，让此前的大量工作成为无用功，但问题是商业化的周期很长，谷歌此前就曾将一门心思在人形机器人的波士顿动力出售，这一轮能坚持多久还是未知数。

松耦合的“务实派”，确实能很快落地产业应用，但技术壁垒相对不高，随着AI玩家增多，存量市场逐渐被开发，毛利率必然会在同质化激烈竞争中受到挤压，商业前景会很快到达天花板。此前国內某机器人龙头企业，就因为技术含量不高而折戟科创板，这说明具身智能产业还是要笃定远一点的未来，积累硬核科技。

星辰大海与商业赚钱之间的沟壑，是每一个AI企业都要穿越的“死亡之谷”。

我们对机器人还有哪些期待？

LLM方兴未艾，距离通用智能只是理论可行，究竟如何实现，还有很长的路要探索。从这个角度看，被大模型带火的具身智能，目前也还留在语言、视觉这两个经典的AI任务领域，能否进一步突破，前途也很朦胧。

既然如此，为什么学术界和产业界依然将其作为下一个AI风口来布道呢？原因或许在于以下两点：

从学术上看，具身智能是行为主义的极致。人工智能的两大门派：符号主义和联接主义。联接主义也叫行为主义，不追求意识的本质，希望用人工神经网络模拟人的行为，让机器“看起来像人”，让人形机器人成为现实，具身智能就是行为主义发展到极致的表现之一。所以，从学术上倡导向具身智能发展，是符合技术向前演进的路线的。

从产业上看，产业智能化的浪潮，确实让物理世界和数字世界的交互增多了，只有AI软件是不够的，必须要能驱动物理实体，比如工业场景下的抓拿放，可以取代人工操作的繁琐和危险，在煤矿井下作业、港口仓库搬卸、搬家快递服务、清理事故现场和救灾等领域，由机器人来代替人类，完成一些危重工作。同时，大模型、云计算、边缘计算等技术相结合，有望大大降低具身智能的研发和应用成本，这对于机器人产业的推动作用是巨大的，这时候探索和占坑也有其战略意义。

当然，现在就投入具身智能，有没有风险呢？

也是有的。说一个最恐怖的，我们都知道人工智能产业的发展，是在符号主义和联接主义之间做钟摆运动，如果有一天，钟摆向另一方摆动，那么已经投入到行为主义这一技术路线的大量市场资源、基础设施投资、人才储备等，又该何去何从呢？

更加具体的挑战也有不少。

比如数据的挑战，具身智能的数据，不同于“纸上谈兵”的算法，只能从与物理世界的交互中获得，具有很大的隐私性、高成本、敏感性，不能批量生产，这就对能力优化迭代造成了限制。

再比如，收集来的数据一般是不能直接拿来训练的，要整理转换成有意义的语料库，再让大模型学习，这个开发过程是非常繁琐的，又增加了研发的成本。

此外，广大用户对于具身智能的机器人的安全性要求非常高，如果家政服务机器人将水倒在了插电孔，机器狗摔倒压住了小朋友，这些故障都是商业上不可能被接受的，可靠、可用、可市场化的具身智能，目前看还比较遥远，需要长期投入。这意味着具身智能目前看来依然是大厂的游戏。