一、概述
大脑与机器人接口(BRI)是人类艺术、科学和工程的集大成之作,其影响已经贯穿于无数科幻作品和创意艺术之中,如《黑客帝国》和《西部世界》等。然而,要真正实现BRI并创造出能够与人类完美协同运作的机器人系统,却是一项非常艰巨的任务,需要进行突破性的科学研究。
在这个系统中,机器与人类通信的能力是至关重要的一环。在人机协作和机器人学习的过程中,人类传达意图的方式多种多样,包括动作、按按钮、注视、面部表情、语言等等。然而,通过神经信号直接与机器人通信,则是最令人激动却也最具挑战性的前景。
通过这一接口,人们能够更直接地将自己的思想和意愿传达给机器人,为机器人赋予更为智能化和人性化的特质。这种通信方式的实现不仅需要对神经科学的深入理解,还需要先进的工程技术来解读和应用这些神经信号。在这一充满未知的领域,科学家和工程师们正共同努力,推动着人机交互技术的飞速发展。BRI的成功将为人类与机器人之间的互动带来翻天覆地的变革,成为科技发展史上的一座新的里程碑。
最近,斯坦福大学的吴佳俊和李飞飞团队提出了NOIR系统,用户通过非侵入式脑电图装置即可控制机器人执行日常任务。NOIR系统能够将你的脑电图信号解码为机器人的技能库。它目前已经能够完成一系列任务,包括烹饪寿喜烧、熨烫衣物、磨碎奶酪、玩井字游戏,甚至抚摸机器狗等。这个模块化的系统具备强大的学习能力,可以应对日常生活中复杂多变的任务。
NOIR,这是一个通用的智能脑-机器人界面系统,使人类能够通过脑信号命令机器人执行日常活动。通过这个界面,人类使用脑电图(EEG)向机器人传达他们感兴趣的对象和行动意图。NOIR系统在包括烹饪、清理、个人护理和娱乐在内的20项具有挑战性的日常家务活动中取得了成功。系统的有效性得到了机器人学习算法的协同集成的改善,使NOIR能够适应个体用户并预测其意图。NOIR改善了人类与机器人互动的方式,用直接的神经通信取代了传统的互动渠道。
脑机机器人实现做家务的能力
论文地址:https://openreview.net/pdf?id=eyykI3UIHa
项目网站:https://noir-corl.github.io/
二、NOIR 系统
NOIR有两个主要组成部分,一个是模块化管道,用于解码来自人脑信号的目标。这个管道的设计使其能够有效地处理并解释由脑电图(EEG)等脑信号源产生的信息。
另一个主要组成部分是机器人系统,它包括一个原始技能库。这个技能库赋予机器人执行各种任务的基本能力,例如烹饪、清理、个人护理等。这使得机器人能够在执行任务时展现出一定的智能和独立性。
一个关键的特征是机器人系统的学习能力,它具有预测人类预期目标的能力。通过对人类行为和偏好的学习,机器人能够更好地理解用户的意图,减少人类解码所需的工作量。这种学习和适应性使得NOIR系统能够更好地与个体用户互动,提高系统的实用性和用户体验。整合了这两个组成部分,NOIR展现了在神经信号操作的智能机器人领域的前沿技术和创新。
1. 基于脑电信号的人类意图解码
NOIR使用模块化管道来从脑电图(EEG)信号中解码人类预期目标:
(a) 操作哪个对象: 通过采用光刺激诱发电位(SSVEP)信号,使用典型相关分析(CCA)分类器来解码应操作的对象。
(b) 如何与对象互动: 通过运动意向(MI)信号,采用共享子空间(CSP)和二次判别分析(QDA)算法,解码与对象互动的方式。
© 在何处互动: 同样是通过运动意向(MI)信号,解码在何处与对象互动。
为了确认或拒绝解码结果,NOIR还使用了一个安全机制,该机制通过捕捉颌部咬紧引起的肌肉张力来执行。这种安全机制有助于验证从脑电信号中解码的结果,以确保对机器人的指令准确性和安全性。这种方法的整合使得NOIR系统能够更加全面地理解和响应用户的意图,提高了系统的可靠性和实用性。
2.具有参数化原始技能的机器人
人类意图可以映射到14个参数化的机器人技能,例如Pick(x, y, z)、Place(x, y, z)和Push(x, y, z, d)。人类可以发现这些技能的新颖用途,并将它们组合起来以完成复杂的任务。
-
Pick(x, y, z): 指示机器人在坐标(x, y, z)处拾取物体。
-
Place(x, y, z): 指导机器人将物体放置到指定坐标(x, y, z)。
-
Push(x, y, z, d): 引导机器人将物体从当前位置推到新位置,其中距离参数(d)决定推动的范围。
这种参数化的技能集使得机器人能够更灵活地响应人类的意图,并通过结合不同技能来解决具有挑战性的任务。这种方法允许机器人适应不同的情境,因为通过调整参数,它们可以在不同的位置、方向和距离上执行相似的任务。
3. 使用机器人学习实现高效的 BRI
解码人类意图耗时且成本高昂。机器人以少量示例学习人类对象、技能和参数选择,因此当它们在类似环境中执行相同任务时,可减少人类的工作和时间。
NOIR 系统检索式少样本对象和技能选择模型如下所示。它为观察结果学习了潜在表示。对于新的观察结果,它在记忆中寻找最相关的经验,并选择相应的技能和对象。
单样本技能参数学习算法如图所示。它在训练图像中给定一个参考点的情况下,在测试图像中找到一个语义对应的点。特征可视化展示了 DINOv2 使用的 768 个令牌中的其中 3 个。
在任务执行期间,NOIR 系统记录了由图像和人类选择的“物品 - 技能”对构成的数据点。这些图像首先经过预训练的 R3M 模型编码,以提取对机器人操控任务有用的特征。接着,这些特征通过一些可训练的全连接层,使用带有三元组损失的对比学习进行训练,这样可以鼓励具有相同“物品 - 技能”标签的图像在隐藏空间中靠近彼此。
训练得到的图像嵌入和“物品 - 技能”标签会被存储到内存中。在测试期间,模型会检索隐藏空间中最近的数据点,并向人类建议与该数据点关联的“物品 - 技能”对。
单样本技能参数学习通常需要人类大量参与,因为它需要精确的运动意象(MI)来进行光标操作。为了减少人类的工作量,团队提出了一种学习算法,能够根据给定的“物品 - 技能”对来预测参数。假设用户已经成功定位了拿起杯子把手的精确关键点,那么未来是否还需要再次指定这个参数呢?最近的基础模型(例如 DINOv2)取得了很大进展,已经可以找到相应的语义关键点,从而无需再次指定参数。
相较于之前的工作,这里提出的新算法是单样本的,并且预测的是具体的 2D 点,而不是语义片段。如图 4 所示,给定一张训练图像(360 × 240)和参数选择 (x, y),模型可以预测出不同测试图像中对应的语义点。团队具体使用的是预训练的 DINOv2 模型来提取语义特征。
4. 实验结果
使用NOIR系统,3名人类参与者(2男1女)完成了20个长期任务(4-15项技能),这些任务是日常活动。其中16项活动(No.2 - No.17)是使用Franka进行的桌面操作任务,另外4项(No.18 - No.21)是使用Tiago进行的移动操作任务。这些任务包括8项餐饮准备任务,6项清洁任务,3项个人护理任务和3项娱乐任务。
实验视频(加快了8倍):
脑机接口机器人实现结果
5. 量化结果
平均而言,每项任务需要 1.8 次尝试才能成功,任务完成时间为 20.3 分钟。任务视角是执行的基本技能的平均数量。# 尝试表示直到第一次成功所需的平均尝试次数(1 表示第一次尝试成功)。时间表示成功试验中的任务完成时间。人类时间表示人类用户总共花费的时间百分比,这包括决策时间和解码时间。
在实验的不同阶段的解码准确率。解码时间和准确性,就像几乎所有的BRI(脑机接口)研究一样,是关键挑战。
通过机器人学习算法,对象和技能选择学习可以将解码时间减少60%,参数学习可以减少光标移动距离41%。