【AI学习】[2024北京智源大会]具身智能：具身智能关键技术研究：操纵、决策、导航

news2026/2/16 12:43:04

具身智能关键技术研究：操纵、决策、导航
董豪 | 北京大学助理教授

依然是边看边做些记录
在这里插入图片描述
这张图的重点是在说，我们的大脑，也是不同的部分处理不同的功能。这里面有些功能，比如视觉、听觉理解等功能，LLM已经具备，而有些功能没有具备，这些就是具身智能的重点

在这里插入图片描述
这就是具身智能的三个关键研究点。

在这里插入图片描述
仿真是方便的数据来源。通过已有的3D数据，合成数据。
通过数据，训练抓取功能。还有目标姿态估计，这样才能放置物体，这也是可以通过仿真获得海量数据进行训练的。
有了抓取和姿态估计，就可以完成很多任务。

在这里插入图片描述

灵巧手也可以通过合成数据训练。这里先要回答，灵巧手和二指等有什么区别？区别在于人的手有一个预抓取动作。
具体的训练，通过强化学习。因为这不是一个静态的抓取，是连续的动作

在这里插入图片描述
抓取之后，然后是操纵。这里是通过强化学习训练。

在这里插入图片描述
探索仿真的边界。通过探索，仿真是有边界的。

在这里插入图片描述
然后这里是探索双手的操作。

准备开源的平台：OmniSim
实现仿真到仿真。比如一个开门，不可能在真实环境去开一千个门吧，需要利用仿真

在这里插入图片描述
那仿真的边界在哪呢？目前最好的是视觉。
对于一个门，没有把手，即使是人，也需要尝试。这里就是交互式的尝试，这些都需要机器人在真实世界，交互后，才能提升。
我们也希望机器人能在真实世界学习提升，而不是固化了。
在这里插入图片描述
这个就是在真实世界里学习。

在这里插入图片描述
柔性物体的操作，是比较难的！通过强化学习，一个方法解决多种任务

在这里插入图片描述
这是机械臂的操作

在这里插入图片描述

这是通过在大淘宝买的东西做的机械臂。虽然误差大，但是通过视觉的闭环，依然可以工作。

如果仿真中没有的物体这么办？通过借助大模型，因为大模型见多识广，可以举一反三。
将仿真的操作能力，注入大模型，最后部署的是大模型。
具体的方式，就是通过问大模型，让大模型告诉如何操作。

在这里插入图片描述
然后发现，即使比较差的仿真，加上大模型，也可以比较好的工作。大模型可以做到新类别的泛化。

在这里插入图片描述
那接下来，就需要把长长的动作，进行任务分解。
上面这个图，就是大模型把一个任务，分解为一系统API。

在这里插入图片描述
接下来，是通过视觉的问题任务，经过数据集、微调环节，解决机器人的视觉问答任务。

任务编排不是瓶颈，大模型都可以实现。难点还是机械臂的操作。

在这里插入图片描述
然后是收纳，这个需要机器人自动完成。方法是从网络上获取大量图片，比如获取什么是整洁的样子，通过网上的几千张样例图片，获得分布的知识。

最后是具身导航，这个现在提的不多，但是未来可能有大用处。

在这里插入图片描述
物体导航。比如在屋里找，相应的东西。

这个也可以通过多模态的视觉语言大模型完成。

这是另外一个导航任务。视觉语言导航，跟随人的指令

这是一个真实世界部署的大模型，而不是仿真。方法是通过多专家讨论的方式，并不需要训练什么模型。
在这里插入图片描述
这是提出的第三种导航范式，需求驱动导航，因为前两种对人并不友好。

在这里插入图片描述
这个是把之前的所有导航方式进行集成。前面的三种导航范式可以覆盖所有的各种任务。

最后总结一下具身智能的关键点。过去是通过仿真实现基本的操作和导航技能，包括自监督的学习；现在是通过大模型，解决仿真到真实世界的gap，利用大模型的知识；那接下来，还是要利用真实世界的数据。

备：

下面视频链接的第3个演讲，大约在视频的1小时25分钟开始
https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=986224b0c4e79ec28556778dc7d42405

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1989661.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！