RoboTAP：由 Google DeepMind 开发的一款机器人操作系统

news2026/2/14 1:11:29

Google DeepMind 开发的一款机器人操作系统RoboTAP。该系统能够通过只需几分钟的示范，就能让机器人学会新的视觉运动任务。你只需要给它展示几次如何做某件事，比如拿起一个苹果放到果冻上，它就能学会这个动作。

工作原理

该系统能够通过视觉伺服控制器来解决多种视觉运动任务。RoboTAP的核心是一个通用控制器，该控制器能够对场景中的点进行对齐。系统通过密集跟踪来解决多任务操作问题，包括什么（what）、在哪里（where）以及如何（how）进行操作。RoboTAP能够在几分钟内通过少量的示范来学习这些行为。它使用摄像头或其他视觉传感器来获取环境信息，并根据这些信息来控制机器人或其他自动化设备的动作。

控制器不仅能识别目标物体，还能识别物体上的特定点或特征，并据此进行操作。这种能力使得 RoboTAP 能够执行多种复杂的视觉运动任务，例如拾取和放置、插入和堆叠等。这种精确的控制也意味着 RoboTAP 可以在多变的环境中工作，包括那些物体姿态和位置不断变化的环境。

主要组件

通用控制器：这是系统的核心，负责执行所有任务。

视觉伺服控制器：用于跟踪和对齐场景中的特定点。

密集跟踪：系统使用密集跟踪技术来解决多任务操作问题。

功能和应用

快速学习：只需几分钟的示范，RoboTAP 就能学习新的视觉运动任务。
多任务操作：能够解决拾取和放置、插入、堆叠等多种任务。
环境适应性：能够适应不同的环境和物体姿态。
局限性：在需要极高精度或多模态（视觉+力量）输入的任务中可能不适用。

项目及演示：robotap.github.io

论文：arxiv.org/abs/2308.15975

视频演示

RoboTAP 利用 DeepMind 开发的先进点追踪算法 TAPIR（Tracking Algorithm for Point Inference and Recognition）来解决模板插入和其他多种任务。

这个系统不需要 CAD 模型或与目标物体的先前经验。它能够在每一时刻检测对动作最重要的物体上的点（标记为红色），推断这些点应该移动到哪里（标记为青色），并计算一个将它们移动到那里的动作（标记为橙色箭头）。

这种方法的优势在于它能够从少于或等于 6 次的示范中快速学习和解决任务，这大大减少了训练时间和复杂性。