NOIR脑机接口机器人——让脑机接口通过少样本学习实现做家务的能力

news2025/4/17 0:23:52

一、概述

大脑与机器人接口（BRI）是人类艺术、科学和工程的集大成之作，其影响已经贯穿于无数科幻作品和创意艺术之中，如《黑客帝国》和《西部世界》等。然而，要真正实现BRI并创造出能够与人类完美协同运作的机器人系统，却是一项非常艰巨的任务，需要进行突破性的科学研究。
在这个系统中，机器与人类通信的能力是至关重要的一环。在人机协作和机器人学习的过程中，人类传达意图的方式多种多样，包括动作、按按钮、注视、面部表情、语言等等。然而，通过神经信号直接与机器人通信，则是最令人激动却也最具挑战性的前景。

通过这一接口，人们能够更直接地将自己的思想和意愿传达给机器人，为机器人赋予更为智能化和人性化的特质。这种通信方式的实现不仅需要对神经科学的深入理解，还需要先进的工程技术来解读和应用这些神经信号。在这一充满未知的领域，科学家和工程师们正共同努力，推动着人机交互技术的飞速发展。BRI的成功将为人类与机器人之间的互动带来翻天覆地的变革，成为科技发展史上的一座新的里程碑。

最近，斯坦福大学的吴佳俊和李飞飞团队提出了NOIR系统，用户通过非侵入式脑电图装置即可控制机器人执行日常任务。NOIR系统能够将你的脑电图信号解码为机器人的技能库。它目前已经能够完成一系列任务，包括烹饪寿喜烧、熨烫衣物、磨碎奶酪、玩井字游戏，甚至抚摸机器狗等。这个模块化的系统具备强大的学习能力，可以应对日常生活中复杂多变的任务。

NOIR，这是一个通用的智能脑-机器人界面系统，使人类能够通过脑信号命令机器人执行日常活动。通过这个界面，人类使用脑电图（EEG）向机器人传达他们感兴趣的对象和行动意图。NOIR系统在包括烹饪、清理、个人护理和娱乐在内的20项具有挑战性的日常家务活动中取得了成功。系统的有效性得到了机器人学习算法的协同集成的改善，使NOIR能够适应个体用户并预测其意图。NOIR改善了人类与机器人互动的方式，用直接的神经通信取代了传统的互动渠道。

脑机机器人实现做家务的能力

论文地址：https://openreview.net/pdf?id=eyykI3UIHa
项目网站：https://noir-corl.github.io/

二、NOIR 系统

NOIR有两个主要组成部分，一个是模块化管道，用于解码来自人脑信号的目标。这个管道的设计使其能够有效地处理并解释由脑电图（EEG）等脑信号源产生的信息。
另一个主要组成部分是机器人系统，它包括一个原始技能库。这个技能库赋予机器人执行各种任务的基本能力，例如烹饪、清理、个人护理等。这使得机器人能够在执行任务时展现出一定的智能和独立性。

一个关键的特征是机器人系统的学习能力，它具有预测人类预期目标的能力。通过对人类行为和偏好的学习，机器人能够更好地理解用户的意图，减少人类解码所需的工作量。这种学习和适应性使得NOIR系统能够更好地与个体用户互动，提高系统的实用性和用户体验。整合了这两个组成部分，NOIR展现了在神经信号操作的智能机器人领域的前沿技术和创新。
在这里插入图片描述

1. 基于脑电信号的人类意图解码

NOIR使用模块化管道来从脑电图（EEG）信号中解码人类预期目标：

(a) 操作哪个对象： 通过采用光刺激诱发电位（SSVEP）信号，使用典型相关分析（CCA）分类器来解码应操作的对象。

(b) 如何与对象互动： 通过运动意向（MI）信号，采用共享子空间（CSP）和二次判别分析（QDA）算法，解码与对象互动的方式。

为了确认或拒绝解码结果，NOIR还使用了一个安全机制，该机制通过捕捉颌部咬紧引起的肌肉张力来执行。这种安全机制有助于验证从脑电信号中解码的结果，以确保对机器人的指令准确性和安全性。这种方法的整合使得NOIR系统能够更加全面地理解和响应用户的意图，提高了系统的可靠性和实用性。
在这里插入图片描述

2.具有参数化原始技能的机器人

人类意图可以映射到14个参数化的机器人技能，例如Pick(x, y, z)、Place(x, y, z)和Push(x, y, z, d)。人类可以发现这些技能的新颖用途，并将它们组合起来以完成复杂的任务。

Pick(x, y, z): 指示机器人在坐标(x, y, z)处拾取物体。
Place(x, y, z): 指导机器人将物体放置到指定坐标(x, y, z)。
Push(x, y, z, d): 引导机器人将物体从当前位置推到新位置，其中距离参数(d)决定推动的范围。

这种参数化的技能集使得机器人能够更灵活地响应人类的意图，并通过结合不同技能来解决具有挑战性的任务。这种方法允许机器人适应不同的情境，因为通过调整参数，它们可以在不同的位置、方向和距离上执行相似的任务。

3. 使用机器人学习实现高效的 BRI

解码人类意图耗时且成本高昂。机器人以少量示例学习人类对象、技能和参数选择，因此当它们在类似环境中执行相同任务时，可减少人类的工作和时间。
NOIR 系统检索式少样本对象和技能选择模型如下所示。它为观察结果学习了潜在表示。对于新的观察结果，它在记忆中寻找最相关的经验，并选择相应的技能和对象。
在这里插入图片描述
单样本技能参数学习算法如图所示。它在训练图像中给定一个参考点的情况下，在测试图像中找到一个语义对应的点。特征可视化展示了 DINOv2 使用的 768 个令牌中的其中 3 个。

在任务执行期间，NOIR 系统记录了由图像和人类选择的“物品 - 技能”对构成的数据点。这些图像首先经过预训练的 R3M 模型编码，以提取对机器人操控任务有用的特征。接着，这些特征通过一些可训练的全连接层，使用带有三元组损失的对比学习进行训练，这样可以鼓励具有相同“物品 - 技能”标签的图像在隐藏空间中靠近彼此。

训练得到的图像嵌入和“物品 - 技能”标签会被存储到内存中。在测试期间，模型会检索隐藏空间中最近的数据点，并向人类建议与该数据点关联的“物品 - 技能”对。

单样本技能参数学习通常需要人类大量参与，因为它需要精确的运动意象（MI）来进行光标操作。为了减少人类的工作量，团队提出了一种学习算法，能够根据给定的“物品 - 技能”对来预测参数。假设用户已经成功定位了拿起杯子把手的精确关键点，那么未来是否还需要再次指定这个参数呢？最近的基础模型（例如 DINOv2）取得了很大进展，已经可以找到相应的语义关键点，从而无需再次指定参数。

相较于之前的工作，这里提出的新算法是单样本的，并且预测的是具体的 2D 点，而不是语义片段。如图 4 所示，给定一张训练图像（360 × 240）和参数选择 (x, y)，模型可以预测出不同测试图像中对应的语义点。团队具体使用的是预训练的 DINOv2 模型来提取语义特征。

4. 实验结果

使用NOIR系统，3名人类参与者（2男1女）完成了20个长期任务（4-15项技能），这些任务是日常活动。其中16项活动（No.2 - No.17）是使用Franka进行的桌面操作任务，另外4项（No.18 - No.21）是使用Tiago进行的移动操作任务。这些任务包括8项餐饮准备任务，6项清洁任务，3项个人护理任务和3项娱乐任务。
在这里插入图片描述
实验视频（加快了8倍）：

脑机接口机器人实现结果

5. 量化结果

平均而言，每项任务需要 1.8 次尝试才能成功，任务完成时间为 20.3 分钟。任务视角是执行的基本技能的平均数量。# 尝试表示直到第一次成功所需的平均尝试次数（1 表示第一次尝试成功）。时间表示成功试验中的任务完成时间。人类时间表示人类用户总共花费的时间百分比，这包括决策时间和解码时间。
在这里插入图片描述
在实验的不同阶段的解码准确率。解码时间和准确性，就像几乎所有的BRI（脑机接口）研究一样，是关键挑战。

通过机器人学习算法，对象和技能选择学习可以将解码时间减少60％，参数学习可以减少光标移动距离41％。
在这里插入图片描述