【谷歌新作】Transformer杀入机器人领域,RT-1:97%成功率,轻松完成700多条控制指令

news2025/1/11 22:56:49

谷歌机器人团队等在机器人领域构建了一个多任务 transformer 模型,显著改进了对新任务、环境和对象的零样本泛化。

我们知道,机器学习(ML)多个子领域(如 NLP 和 CV)的最新重大进展通过一种共享的通用方法实现,该方法充分利用大规模、多样化数据集以及有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应用于机器人技术,但机器人还没能利用到高性能模型。

构成挑战的因素有几个。首先缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说成本高昂且具有挑战性,这是因为数据集管理需要工程量大的自主操作或者使用人类远程操作收集的演示。其次缺乏可以从此类数据集中学习并有效泛化的高表达性、可扩展且速度足够快的实时推理模型。

为了解决这些挑战,谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。

RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。

RT-1: Robotics Transformer for Real-World Control at Scale

  • 论文地址:https://robotics-transformer.github.io/assets/rt1.pdf

  • 项目地址:https://github.com/google-research/robotics_transformer

该团队对模型和训练集中的许多设计选择进行了仔细评估和消融实验,分析了 tokenization、动作表示和数据集组合的影响。与现有技术相比,RT-1 可以显著改进对新任务、环境和对象的零样本泛化。RT-1 可以以 97% 的成功率执行 700 多个训练指令,并且可以泛化到新的任务、干扰因素和背景。

RT-1 吸收了大量数据,包括涉及多任务、对象和环境的机器人轨迹,实现了更好性能和泛化能力。

最后,该团队将 RT-1 代码开源,希望为未来扩大机器人学习的研究提供宝贵的资源。

RT-1 模型概览

RT-1 建立在一个 transformer 架构上,该架构从机器人相机中获取瞬时图像以及以自然语言表达的任务描述作为输入,并直接输出 tokenized 动作。RT-1 的架构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的 decoder-only 序列模型。RT-1 的主要功能包括图像和动作 tokenization 以及 token 压缩。

图像 tokenization。该团队通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为 81 个 tokens。图像 tokenizer 以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。

动作 tokenization。机器人的动作维度包括手臂运动的 7 个变量(x、y、z、翻转、俯仰、摇摆、打开夹具)、3 个基本运动变量(x、y、摇摆)以及一个在控制臂、控制 base 或终止 episode 三种模式之间切换的额外具体变量。每个动作维度被离散化为 256 个 bins。

Token 压缩。RT-1 自适应地选择图像 tokens 的软组合,这些组合根据它们对使用元素级注意力模块 TokenLearner 学习的影响进行压缩,使推理速度提升 2.4 倍以上。

RT-1 架构、数据集和评估概览图。

实验和结果

为了更好地理解 RT-1 的泛化能力,该团队在三个基准上进行了实验:Gato、BC-Z(与 RT-1 参数量相同)和 BC-Z XL,并通过四个类别进行比较。

  • 在所见到的任务上的表现;

  • 在没见过任务上的表现:在训练集中,机器人的技能和对象是分开看到的,但以新颖的方式结合在一起;

  • 鲁棒性:在有干扰(有 9 个干扰,此外还有遮挡情况)、改变背景(换个新厨房、光照不同等)上的任务表现;

  • 长情景:在真实厨房中执行 SayCan 类型的自然语言指令。

RT-1 在四个类别的比较中都大大超过基线,表现出极强的泛化性和鲁棒性。

RT-1 与基线性能对比。

整合异构数据源

为了进一步挖掘 RT-1 的性能,该团队还将训练另一个机器人的数据用来训练 RT-1,目的有两个:(1) 测试模型在新数据上是否保持其在原始任务上的性能;(2) 观察模型在新的以及不同数据上泛化能力。

从多个机器人那里收集数据,用来训练 RT-1。

结果表明,RT-1 能够通过观察其他机器人的经验来获得新技能。特别是,当 RT-1 同时使用来自 Kuka bin-picking 数据和 EDR 数据进行训练时,准确率达到 39%。比仅使用 EDR 数据训练时的 22% 准确率提高了近 2 倍。

当 RT-1 仅在 Kuka bin-picking 数据上进行训练,然后在 EDR robot bin-picking 数据上评估时,准确率为 0。

SayCan 任务

RT-1 的高性能和泛化能力可以通过 SayCan 实现远距离、移动操作任务。SayCan 算法是谷歌在今年提出的,在这个算法中,谷歌让机器人充当语言模型的「手和眼睛」,而语言模型提供有关任务的高级语义知识。

该团队在两个真实的 Kitchen 中进行了评估,Kitchen2 构成了一个比 Kitchen1 更具挑战性的泛化场景。由结果可得,SayCan 与 RT-1 在 Kitchen1 中实现了 67% 的执行成功率,优于其他基线。在 Kitchen2 中,SayCan 与 Gato 以及 SayCan 与 BCZ 的性能下降,而 RT-1 没有出现明显的下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/97323.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ZYNQ之FPGA学习----SPI协议驱动模块仿真实验

1 SPI通信协议简介 SPI通信协议基础知识学习:硬件设计基础----通信协议SPI 2 实验任务 设计SPI驱动模块,并进行仿真验证,观察仿真波形 3 实验设计 3.1 创建工程 新建工程,操作如图所示: 输入工程名和路径&#x…

m基于K-means聚类算法和神经网络的模糊控制器设计matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一…

React学习23(redux基本使用)

理解 1)学习文档 英文文档:https://redux.js.org/ 中文文档:https://www.redux.org.cn/ github:https://github.com/react.js/redux 2)redux是什么 redux是一个专门用于状态管理的JS库(不是react插件库) …

JavaScript中的4种for循环

这里介绍了4中for循环的方法。 注&#xff1a;这里不介绍do while循环。 普通for循环 这个应该是最常规的for循环了&#xff0c;按照数组下标遍历。 for (var i 0; i < 3; i) {console.log(i); }var arr [{"text":"text2","key":1},{&q…

IIS 使用 office365 SMTP relay

IIS上设置smtp 代理不是难事&#xff0c;但是如果使用office365就比较复杂点&#xff0c;弄不好会陷在里面。 一.office365 SMTP的选项 先了解一下office365对于smtp的三个选项&#xff0c;对应三张图及对比。 第一种方式&#xff0c;是使用office365的邮箱账号&#xff0c;通…

《小白WEB安全入门》02. 开发篇

开发篇初识HTML潜在漏洞初识CSS潜在漏洞初识JS潜在漏洞初识后端潜在漏洞后端能做什么后端种类后端框架潜在漏洞本系列文章只叙述一些超级基础理论知识&#xff0c;极少有实践部分 本文涉及到的语言需自行掌握 初识HTML潜在漏洞 HTML指的是超文本标记语言&#xff08;Hyper Tex…

math_基本导数公式@积分公式@部分推导

文章目录导数积分公式表&#x1f388;积分计算器pictures versionmarkdown Table version&#x1f388;&#x1f388;&#x1f388;&#x1f388;Notes补充几个积分公式的推导和记忆方法&#x1f388;x2a2x^2\pm{a^2}x2a2a2−x2\sqrt{a^2-{x^2}}a2−x2​x2−a2\sqrt{x^2-a^2}x2…

【C++天梯计划】1.13 广搜(BFS)(search widely)

文章目录什么是广搜?与深搜的对比实际应用例题1&#xff1a;快乐的马里奥题目描述输入输出样例代码1代码2例题2&#xff1a;迷宫出口题目描述输入输出样例思路代码&#x1f386;&#x1f389;&#x1f389;&#x1f389;&#x1f389;&#x1f389;&#x1f389;&#x1f389;…

解释最小二乘法(最小平方法)?

Reference: https://blog.csdn.net/Rosie9/article/details/119717881 &#xff08;二乘 aa 平方&#xff09; 最小化误差平方和残差平方和最小&#xff0c;是一种数学优化技术。 问题&#xff1a;对于一元线性回归模型, 假设从总体中获取了n组观察值&#xff08;X1&#x…

【财务】FMS财务管理系统---应收管理

笔者前面介绍了FMS财务管理系统相关逻辑结构&#xff0c;本篇文章继续对应收管理进行了系统的介绍&#xff0c;希望通过此文能够加深你对FMS财务管理系统的认识。 上一篇主要介绍了财务进销存系统的数据流与模块组成&#xff0c;知道了FMS系统中数据的来源并从系统结构上说明了…

SAP Gateway Foundation Client Proxy 的使用方法

根据实际使用场景&#xff0c;SAP OData 客户端代理配置有多种消费类型和 OData 版本。 OData Client Proxy是ABAP中OData服务消费中客户端&#xff08;服务的消费者&#xff09;和服务实现&#xff08;数据提供&#xff09;之间的接口。 这使 ABAP 开发人员能够创建 OData 客…

Android核心技术——Coil 解析与使用

概述 Coil 是一个非常年轻的图片加载库&#xff0c;在 2020 年 10 月 22 日才发布了 1.0.0 版本&#xff0c;但却受到了 Android 官方的推广&#xff0c;在 Android Developers Backstage 这个博客中专门聊过一期。推广的原因比较简单&#xff1a;一方面是这个库确实做得很好&…

双机高速互联

双机高速互联 配置ip[非必须] 配置ip步骤是可以省略的, 但是如果你希望每次重新连接时候不用反复为新识别的网络配置成特定专用网络然后共享, 或者是每次为共用网络开启网络发现, 可以固定下网络ip, 这样每次网络发现都是不用重新设置的 配置如下 192.168.1.1 主机配置 19…

演讲类或观点类的爆款短视频脚本是怎样写出来的?模板分享

演讲类或观点类的爆款短视频脚本是怎样写出来的&#xff1f;模板分享 今天刷到一个讲全职妈妈价值的短视频&#xff0c;点赞量近千万&#xff0c;拆解分析了一下。 加上最近在我赢助手小禾呈序学到的观点类短视频脚本文案的模板&#xff0c;分析给大家看看&#xff1a; 第一部…

初探React环境搭建与运行

在家看React 知识&#xff0c;在本地环境搭建&#xff0c;记录下来&#xff0c;方便查看。 环境前置&#xff1a;Nodejs 14 及以上 网站地址&#xff1a;React中文官网 一、方式一命令生成项目 通过 create-react-app脚手架 来创建 React项目&#xff0c;其中 npx 是 npm5.2 …

68、4K-NeRF:高分辨率重建

简介 官网&#xff1a;https://github.com/frozoul/4K-NeRF 基于nerf方法的渲染过程通常依赖于一种像素方式&#xff0c;在这种方式中&#xff0c;射线(或像素)在训练和推断阶段都是独立处理的&#xff0c;这限制了其描述微妙细节的表示能力&#xff0c;特别是当提升到极高分…

机器学习——04朴素贝叶斯

机器学习——04朴素贝叶斯 参考资料 AIlearningMachine-Learning-in-Action庞善民.西安交通大学机器学习导论2022春PPT 更多原理请参考本人另一篇博客&#xff1a;[机器学习导论]——第六课——贝叶斯分类器 使用Jupyter进行练习&#xff0c;python3 一、知识准备 贝叶斯…

【算法技术专题】如何用Java实现一致性 hash 算法( consistent hashing )(上)

一致性hash的历史 【Consistent Hashing算法】早在 1997 年就在论文 Consistent hashing and random trees 中被提出&#xff0c;目前在 cache 系统中应用越来越广泛&#xff1b; 一致性hash的目的 一致性哈希算法是分布式系统中常用的算法&#xff0c;一致性哈希算法解决了…

[附源码]Nodejs计算机毕业设计基于社区疫情防控管理系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置&#xff1a; Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分…

猿如意中的【DBeaver】工具详情介绍,包含下载安装使用保姆级教程

猿如意中的【DBeaver】工具一、 猿如意工具介绍二、 工具名称2.1 下载安装渠道2.2 如何在载猿如意中下载DBeaver工具&#xff1f;2.3 安装流程2.4 安装完成的打开界面2.6 DBeaver使用步骤使用感受一、 猿如意工具介绍 打开猿如意程序工具。猿如意下载地址&#xff1a;猿如意官…