“首创”的机器人 AI 模型能够识别垃圾并执行复杂的动作。
上周五,谷歌 DeepMind 宣布了机器人变形器 2(RT-2),这是一种“首次推出”的视觉-语言-行动(VLA)模型,利用从互联网上抓取的数据,通过简单的语言命令实现更好的机器人控制。最终目标是创建能够在人类环境中导航的通用型机器人,类似于虚构的机器人 WALL-E 或 C-3PO。
当人类想要学习一项任务时,我们通常会阅读和观察。类似地,RT-2利用了一个大型语言模型(ChatGPT技术背后的技术),该模型经过在在线文本和图像上的训练。RT-2利用这些信息来识别模式并执行动作,即使机器人没有被专门训练执行这些任务,这个概念被称为泛化。
例如,谷歌表示RT-2可以使机器人识别和丢弃垃圾,即使没有被专门训练执行此操作。它利用对垃圾是什么以及如何处置垃圾的理解来指导其行动。RT-2甚至将废弃的食品包装或香蕉皮视为垃圾,尽管存在潜在的歧义。
在另一个例子中,纽约时报援引一位谷歌工程师下达指令:“拿起灭绝的动物”,然后RT-2机器人从一张桌子上的三个仿真动物中定位并拿起了一只恐龙。
这种能力非常值得注意,因为机器人通常需要从大量手动获取的数据点中进行训练,这使得该过程由于需要涵盖每种可能的情况而变得困难和耗时。简而言之,现实世界是一个动态的混乱,存在着不断变化的情况和物体配置。一款实用的机器人助手需要能够以不可能通过显式编程的方式即时适应,这就是RT-2的作用所在。
表象之后
RT-2是基于转换器AI模型的优势而制定的战略。转换器AI模型以广泛泛化信息的能力而闻名。RT-2借鉴了谷歌早期的AI工作,包括Pathways语言和图像模型(PaLI-X)和Pathways语言模型体系(PaLM-E)。此外,RT-2还在前任模型(RT-1)的数据上进行了联合训练,该数据由13台机器人在“办公厨房环境”中收集了长达17个月。
RT-2的结构包括对机器人和网页数据进行预先训练的VLM模型的微调。产生的模型处理机器人摄像机图像并预测机器人应该执行的操作。
Google对VLM模型进行了机器人和Web数据的微调,生成的模型可以接收机器人摄像头图像并预测机器人执行的操作。
由于RT-2使用语言模型来处理信息,Google选择将动作表示为token,这些token通常是一个单词的片段。Google写道:“要控制机器人,必须训练它输出动作。我们通过在模型输出中将动作表示为类似于语言token的token来解决这个挑战,并将动作描述为可以被标准自然语言分词器处理的字符串。”
在开发 RT-2 时,研究人员采用了拆分机器人动作为更小部分的相同方法,就像他们在第一个版本的机器人 RT-1 中所做的一样。他们发现,通过将这些动作转化为一系列符号或代码("字符串"表示),他们可以使用与处理网络数据相同的学习模型来教导机器人新技能。
该模型还利用了链式思维推理的能力,使它能够执行多阶段推理,例如选择一种替代工具(如用石头代替锤子)或为疲惫的人选择最好的饮料(例如能量饮料)。
根据 Google 的说法,链式思维推理使得机器人控制模型能够在指令下执行复杂的动作
Google 表示,在超过 6,000 次测试中,RT-2 在它接受训练的任务中(称为“seen tasks”)的表现与其前身 RT-1 相当。然而,在新的“未知”情境下进行测试时,RT-2 的表现几乎翻倍,达到了 62%,而 RT-1 的表现仅为 32%。
虽然 RT-2 表现出了很好的适应能力,可以将其所学习的知识适用于新的情境,但 Google 认识到它并不完美。在 RT-2 技术论文的“限制”部分中,研究人员承认,虽然将 Web 数据包含在训练材料中“提高了对语义和视觉概念的泛化”,但这并不能使机器人在没有从其前身的机器人训练数据中学到的物理动作上获得新的能力。换言之,它无法执行它以前未曾练习过的动作,但它可以更好地运用它已经学过的动作来完成新的任务。
虽然 Google DeepMind 的最终目标是创建通用机器人,但公司知道在实现这一目标之前还有大量的研究工作要做。但像 RT-2 这样的技术似乎是朝着这个方向迈出的坚实一步。