近期英国爱丁堡大学发表Nature Machine Intelligence研究工作,提出了一种名为ELLMER(具身大型语言模型支持机器人)的创新框架,通过整合大型语言模型(如GPT-4)、检索增强生成(RAG)、视觉和力反馈,使机器人能够在动态环境中完成复杂的长期任务。
https://www.nature.com/articles/s42256-025-01005-x
为了让机器人执行高阶抽象指令(如“制作咖啡并装饰盘子”),通过分解任务、适应环境变化和实时反馈完成任务,该研究工作提出框架的核心组件包括:
大型语言模型(LLM)
:GPT-4用于理解指令并生成任务计划。
检索增强生成(RAG)
:从知识库中动态检索相关代码示例,增强生成代码的准确性和适应性。
视觉模块
:检测物体姿态(如杯子的位置)。
力反馈模块
:调整动作的力度(如倒水的精确控制)。
机器人控制系统
:通过ROS(机器人操作系统)执行生成的代码。
- 实现步骤
(1)指令解析与任务分解:
输入:用户的高阶自然语言指令(如“我累了,请给我一杯热饮”)。
LLM处理:GPT-4将指令分解为子任务序列(如找杯子、倒咖啡、倒水等)。
知识库检索:通过RAG从预定义的代码库中检索相关动作示例(如“如何倒水”)。
(2)代码生成与执行:
视觉反馈:Azure Kinect相机检测物体姿态,实时更新目标位置。
力反馈:ATI力传感器监控末端执行器的力,调整动作(如倒水时控制流量)。
动态代码生成:LLM结合检索到的示例生成可执行的Python代码,适配当前环境(如杯子的位置)。
反馈集成:任务执行与适应性调整。ROS控制:生成的代码通过ROS发送控制指令,驱动机械臂执行动作。动态调整:若环境变化(如杯子被移动),视觉模块更新姿态,LLM重新规划路径。
- 关键技术细节
RAG的应用:知识库构建:包含已验证的代码示例(如开门、倒水、绘图),每个示例标注了适用场景和不确定性。语义检索:根据任务相似度检索最相关的示例,避免LLM的“幻觉”错误。
示例:当需要“倒水”时,检索并调整参数(如容器高度、流速)。视觉与力的融合:零样本物体检测:使用Grounded-Segment-Anything模型识别新物体。力控制:通过静力学模型估计倒水量(如力变化ΔF ≈ 流速Δm·g),确保精确操作。安全与边界
速度与力限制:末端执行器速度限制为0.05 m/s,力限制为20N,防止过载。
工作空间约束:机械臂活动范围限定在预设区域(如x∈[0,1.1]米)。
- 实验结果
任务成功率:在咖啡制作和盘子装饰任务中,ELLMER成功完成多步骤操作(如打开抽屉、倒水、绘图)。
适应性:能处理动态干扰(如杯子移动),通过实时反馈调整动作。
与基线对比:相比VoxPoser,ELLMER的忠实度(任务执行准确性)从0.74提升至0.88。 - 创新与贡献
具身认知的实践:将LLM的抽象推理与机器人感觉运动结合,模拟人类“手脑协同”能力。
动态代码生成:通过RAG实现任务代码的灵活生成,无需预编程所有可能场景。
多模态反馈闭环:视觉与力反馈的集成提高了复杂操作的鲁棒性。 - 局限与未来方向
局限性:视觉模块对遮挡敏感,复杂物体识别有待提升。动态任务切换能力有限(如中途更改任务目标)。
未来方向:集成触觉传感器和软体机器人技术。优化动力学模型以处理高速动作(如快速倒水)。
总结
ELLMER框架通过LLM的规划能力、RAG的知识检索、多模态反馈的闭环控制,为机器人在动态环境中执行复杂任务提供了新思路。其核心在于将语言模型的“智能”与机器人的“身体”无缝结合,推动了具身智能的发展。