RSS 2024 清华大学交叉院高阳提出高效的机器人操作技能学习方法

机器人掌握一项新技能需要几步？

一般来说，在传统机器学习方法中，通常使用演示学习的方式教会机器人掌握新技能，然而，收集高质量的演示数据成本高且耗时，一定程度上影响了机器人技能学习进度。尽管视频作为一种包含丰富行为、物理和语义知识的数据源，能够为机器人提供原始的学习资料，但由于视频通常缺乏动作标签，直接从视频中提取用于策略学习的控制信息非常困难。虽然目前Sim to Real可以利用模拟环境生成的大量数据来训练模型，但依旧难以解决模型在真实环境中的泛化能力。

近日，清华大学交叉信息研究院高阳研究组针对传统方法收集演示数据成本高、耗时长，以及视频数据缺乏动作标签难以直接用于策略学习的问题，提出了一种创新的Any-point Trajectory Model（ATM）框架。

该框架通过预训练一个轨迹模型，来预测视频中任意点的未来轨迹，这些预测轨迹作为详细的控制指导，进而在策略学习中发挥重要作用。与传统方法相比，ATM框架仅需少量标注数据即可完成训练，并展现出强大的鲁棒性。高阳团队主导的ATM框架，为小样本和跨具身（cross-embodied）机器人学习领域提供了新的理论支撑，并且极大地拓宽了数据源的利用范围。该研究成果已被国际机器人顶级会议RSS 2024接收，并获得了全数审稿人的满分评价。

7月15日-19日，荷兰代尔夫特理工大学举办的第20届RSS 2024（Science and Systems）大会上，高阳受邀对其论文《Any-point Trajectory Modeling for Policy Learning》进行主题分享。作为机器人领域的国际顶级会议，RSS吸引来自世界各地的众多学者、研究人员和行业专家参与。而每年RSS大会主题分享环节，也是该会议备受关注的地方，主办方将邀请行业领域具备广泛影响力和深厚学术造诣的专家学者，分享他们的最新研究成果或行业见解。

▍完美复刻人类复杂动作！ATM框架如何助力技能学习？

在视频中可以看到，借助ATM框架的强大助力，机器人仅需通过观察人类执行如叠衣服、将番茄放入盘子、用刷子整理玩具等无动作标签的视频数据集，学习其中任意2D点的轨迹建议，便能实现样本高效的策略学习，并具备跨具体任务的迁移能力，从而完美复刻人类的复杂动作！

那么，这一框架是如何助力机器人实现快速学习“新技能”的呢？

鉴于此前基于视频推理图像的策略学习工作，存在需耗费大量计算资源，且容易产生幻觉的问题，

研究人员采用了基于粒子轨迹进行建模的方式，该方法不仅可提供对物理动力学更为精确的抽象，并自然地融入了物体永久性等归纳偏差。ATM首先在视频数据上预训练一个语言条件轨迹预测模型，以预测视频帧内任意点的未来轨迹，而后，ATM框架通过利用视频中的轨迹信息，引导机器人学会执行一系列复杂的操作和任务，包括空间推理、物体操作、目标理解、长时视野规划以及跨形态和跨域的技能迁移。

在这里插入图片描述

具体来讲，ATM框架能够接收建模视频当前帧中点的位置作为输入，并准确输出它们未来的轨迹。研究人员在相机坐标系中进行轨迹预测，从而最大程度地减少对相机校准的依赖。这些2D点轨迹与3D空间中粒子的轨迹相对应，构成了一种通用的运动表示，可以轻松迁移到不同的域和任务中。

为了进一步提升模型的泛化能力，研究人员首先在无动作标签的视频数据集上对轨迹模型进行了预训练。预训练完成后，预测的轨迹将作为策略的详细指导，其功能类似于子目标，为后续的策略学习提供了有力的支持。

最后，研究人员仅需使用极少量的带有动作标记的演示数据，即可训练出轨迹引导策略。同时，为了训练ATM模型，研究人员还充分利用视觉模型的最新研究成果，生成了自监督训练数据，以实现精确的点跟踪。这一创新的方法不仅提高了轨迹预测的准确性，还为机器人的策略学习提供了更为丰富和有效的指导。

▍优于现有视频预训练方法？ATM框架有何核心优势？

在训练过程中，研究人员发现ATM框架在利用未标注视频数据进行策略预训练方面展现出了巨大的潜力。在多个基准测试任务上，ATM框架的表现显著优于现有的视频预训练方法，即使在标注数据有限的情况下，也能实现较高的成功率。

折叠布料并将其拉向右侧：跟踪模型的变形变化

将西红柿放入锅中并关上柜门：轨道有效地引导了长远行为

使用扫帚将玩具扫入簸箕并将其放在簸箕前面：轨道可以进行关于工具的推理

拿起罐子并放入垃圾箱：轨道在机器人之间转移

为了进一步验证ATM框架的性能，研究人员在模拟和现实世界中对涵盖了130多个语言条件任务进行了全面评估。结果显示，ATM的表现显著超越了视频预训练中的各种强基线方法，平均成功率高达63%，而以往方法的最高成功率仅为37%，提升幅度超过了80%。

而ATM框架能实现如此巨大提升的根源，在于其独特的核心优势：

结构化表示与高效计算

与传统的视频预测模型相比，ATM模型采用了全新的结构化表示方法，它ATM模型直接预测视频帧中任意点的未来轨迹，而非整个像素级别的图像变化。这种表示方法不仅自然融入了如物体恒存性等物理归纳偏置，还降低了计算复杂度。在训练和推理阶段，ATM模型仅需要处理点轨迹而非全帧图像，使得模型能够更高效地运行，尤其适合资源受限的环境下。此外，通过预测未来轨迹作为子目标，ATM模型能够为策略学习提供密集的指导，使策略学习变得更加高效。

跨领域学习与泛化能力

通过预训练轨迹模型来预测视频帧中任意点的未来轨迹，ATM模型能够利用未标注的视频数据，这些数据来源广泛且易于获取。更重要的是，ATM模型除了机器人自身的视频数据，还能有效利用人类操作视频或其他形态机器人的视频数据。这种跨领域学习的能力极大地扩展了数据源的可用性，使得模型能够学习到更通用、更鲁棒的运动先验。

指导策略学习与提高数据效率

在策略学习阶段，ATM模型预测的轨迹作为子目标输入到策略中，使得策略学习转变为一个更容易的子目标跟随问题。这不仅减少了策略学习所需的标注数据量，还提高了策略学习的成功率。

▍全面揭示潜力与局限，ATM框架性能实验与效果验证

为了全面评估ATM框架在多个关键方面的性能与效果，研究人员进行了一系列测试实验。

这些实验重点聚焦于ATM在无动作视频学习方面的能力，探究其是否具备从更广泛、演示数据分布之外的视频数据中学习的能力，以进一步拓展其应用场景，并深入研究了ATM的工作机制。

基准测试任务

为了验证ATM框架的表现，研究人员在多个基准测试任务上进行实验，其中包括空间推理、对象推理、任务理解和长时程任务等。基准测试任务包括LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-Long等套件。
在这里插入图片描述

LIBERO-Long主要评估机器人在执行长期复杂任务时的性能
在这里插入图片描述

LIBERO-Spatial主要评估机器人在处理不同空间布局时的操作性能
在这里插入图片描述

LIBERO-Object主要评估机器人在执行与对象相关的操作任务时的性能
在这里插入图片描述

LIBERO-Goal主要评估机器人在理解和实现特定目标方面的能力

实验结果显示，ATM框架在所有测试任务上均取得了显著优于现有视频预训练方法的结果。

在这里插入图片描述

ATM的平均成功率达到了63%，相比之前方法的最高成功率37%，提高了超过80%。这表明ATM框架在利用未标注视频数据指导策略学习方面具有明显优势。

少量数据标注下高效学习

数据标注的多少直接影响投入成本，如何有效减少数据标注量十分重要，实验结果显示，即使是使用少量标注数据的情况下，ATM框架依然能够学习到鲁棒的策略。
在这里插入图片描述

使用4%的标注数据时，ATM框架的表现与使用20%标注数据的基线方法相当，甚至在某些任务上表现更好。这表明ATM框架通过利用未标注视频数据中的运动先验信息，提高了数据利用效率，使得在有限标注数据下也能学习到有效的策略。

跨领域学习验证

实验通过利用人类操作视频和其他形态机器人的视频数据来训练轨迹模型，并将学到的技能成功转移到目标机器人上。

在这里插入图片描述

这种跨领域学习的能力得益于点轨迹的通用表示，使得模型能够学习到更通用、更鲁棒的运动先验。

实时性与效率计算

相比于传统的视频预测模型，ATM框架通过预测点轨迹而非完整的未来图像帧，有效降低了计算复杂度。

在这里插入图片描述

结果显示，ATM在单个任务上的计算成本远低于基于视频预测的方法。这使得ATM框架在实际应用中更具可行性，能够满足实时控制的需求。

▍结语与未来

ATM框架将视频预训练与策略学习有效结合，通过预训练的点轨迹模型提供详细的运动先验知识，显著降低了对大量标签数据的依赖，从而大幅降低了数据收集的成本和难度。这一点在实际应用中对于机器人学习尤为重要，因为它能够有效促进从有限标签数据中学习出鲁棒的控制策略。此外，ATM框架展现出良好的泛化能力与可迁移学习能力，这一点体现在无论是处理不同的操作任务还是适应不同形态的机器人上面。

高阳团队提出的ATM框架，作为一种创新的策略学习方法，不仅克服了传统策略学习方法对数据量的高度依赖，还通过其独特的点轨迹建模方式有效提升了模型的泛化能力。该框架不仅能够从机器人视频中学习技能，同时实现了从人类视频到机器人技能的跨域迁移，这在机器学习和机器人领域具有重要意义。ATM框架在多个基准测试和实际任务中的卓越表现，还验证了其策略的有效性，展现了其广泛的适用性和强大的泛化能力，为未来的机器人学习和控制策略开辟了新的研究方向。