GPT3动口,RT-1动手,智能机器人开卷; 代码开源!

news2025/1/16 14:42:09

在这里插入图片描述

机器学习 (ML) 研究的多个子领域(例如计算机视觉和自然语言处理)的最新重大进展是通过一种共享的通用方法实现的,该方法利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应于机器人技术,但机器人尚未利用高性能模型以及其他子领域。

有几个因素促成了这一挑战。首先,缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说特别昂贵且具有挑战性,因为数据集管理需要工程量大的自主操作,或使用人类远程操作收集的演示。第二个因素是缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。

为了应对这些挑战,我们(谷歌)提出了Robotics Transformer 1 (RT-1),这是一种多任务模型,可以标记机器人输入和输出动作(例如,相机图像、任务指令和电机命令)以在运行时实现高效推理,它使实时控制成为可能。该模型在包含 130k 集的大规模、真实世界的机器人数据集上进行训练,该数据集涵盖 700 多项任务,使用来自Everyday Robots的 13 个机器人组成的车队收集(EDR) 超过 17 个月。我们证明,与现有技术相比,RT-1 可以显着改进对新任务、环境和对象的零样本泛化。此外,我们仔细评估和消融了模型和训练集中的许多设计选择,分析了标记化、动作表示和数据集组成的影响。最后,我们将RT-1 代码开源,希望它能为未来扩大机器人学习的研究提供宝贵的资源。

RT-1

RT-1 建立在一个转换器架构 (transformer)上,该架构从机器人的相机中获取图像的简短历史以及以自然语言表达的任务描述作为输入,并直接输出标记化的动作。

RT-1 的体系结构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的当代仅解码器序列模型。其主要功能包括:图像标记化、动作标记化和标记压缩,如下所述。

图像标记化:我们通过在ImageNet上预训练的EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图扁平化为 81 个标记。图像分词器以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。

动作标记化:机器人的动作维度是手臂运动的 7 个变量(x、y、z、滚动、俯仰、偏航、夹具打开),3 个基本运动变量(x、y、偏航),以及一个额外的离散变量来切换在三种模式之间:控制臂、控制基地或终止剧集。每个动作维度被离散化为 256 个 bin。

令牌压缩:该模型自适应地选择图像令牌的软组合,这些组合可以根据它们对使用元素注意模块TokenLearner进行学习的影响进行压缩,从而使推理速度提高 2.4 倍以上。

在这里插入图片描述

为了构建一个可以泛化到新任务并显示出对不同干扰因素和背景的鲁棒性的系统,我们收集了一个大型、多样化的机器人轨迹数据集。我们使用了 13 个 EDR 机器人操纵器,每个都带有 7 个自由度的手臂、一个 2 指夹持器和一个移动底座,在 17 个月内收集了 13 万集。我们使用人类通过远程操作提供的演示,并用机器人刚刚执行的指令的文本描述对每一集进行注释。数据集中表示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、将物体打翻、拉餐巾和打开罐子。生成的数据集包括 130k+ 集,涵盖使用许多不同对象的 700 多个任务。

实验和结果

为了更好地理解 RT-1 的泛化能力,我们研究了它针对三个基线的性能:Gato、BC-Z 和 BC-Z XL(即具有与 RT-1 相同数量的参数的 BC-Z),分为四个类别:

1.Seen tasks performance:在训练期间 看到的任务表现

  1. 看不见的任务表现:在看不见的任务上的表现,其中技能和对象在训练集中是分开看到的,但以新颖的方式组合在一起

3.稳健性(干扰因素和背景):干扰因素(最多 9 个干扰因素和遮挡)的性能和背景变化(新厨房、照明、背景场景)的性能

  1. 长期场景:在真实厨房中执行SayCan类型的自然语言指令

RT-1 在所有四个类别中都大大优于基线,表现出令人印象深刻的泛化和鲁棒性。

在这里插入图片描述

合并异构数据源

为了进一步推动 RT-1,我们使用从另一个机器人收集的数据对其进行训练,以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据,这两者对于通用机器人学习模型都是可取的。具体来说,我们使用在QT-Opt 项目的固定底座Kuka 手臂上自主收集的 209k 次不加区别的抓握事件. 我们转换收集的数据以匹配我们使用 EDR 收集的原始数据集的动作规范和边界,并用任务指令“选择任何东西”标记每一集(Kuka 数据集没有对象标签)。然后在每个训练批次中将 Kuka 数据与 EDR 数据以 1:2 的比例混合,以控制原始 EDR 技能的回归。

我们的结果表明 RT-1 能够通过观察其他机器人的经验来获得新技能。特别是,当 RT-1 在 Kuka 的垃圾箱拣选数据和机器人教室的现有 EDR 数据上进行训练时,仅使用 EDR 数据进行训练时的 22% 准确率跃升了近 2 倍,达到 39%,我们在机器人教室收集了大部分 RT- 1 数据。当单独使用来自 Kuka 的拣选数据训练 RT-1,然后使用来自 EDR 机器人的拣选数据对其进行评估时,我们看到准确率为 0%。另一方面,混合来自两个机器人的数据允许 RT-1 在面对 Kuka 观察到的状态时推断 EDR 机器人的动作,而无需在 EDR 机器人上明确展示拾取箱子,并利用经验库卡收集。这为未来的工作提供了一个机会,可以结合更多的多机器人数据集来增强机器人的能力。

在这里插入图片描述

长期 SayCan 任务

RT-1 的高性能和泛化能力可以通过 SayCan 实现远距离、移动操作任务。SayCan 的工作原理是将语言模型置于机器人可供性中,并利用少量提示将以自然语言表达的长期任务分解为一系列低级技能。

SayCan 任务提供了一个理想的评估设置来测试各种功能:

长期任务成功率随任务长度呈指数下降,因此高操作成功率很重要。

移动操作任务需要在导航和操作之间进行多次切换,因此对初始策略条件(例如,基本位置)变化的鲁棒性至关重要。

可能的高级指令的数量随着操作原语的技能广度组合增加。

我们在两个真实厨房中使用 RT-1 和其他两个基线(SayCan with Gato 和 SayCan with BC-Z)评估 SayCan。下面,“Kitchen2”构成了比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是在 Kitchen1 之后建模的。

SayCan with RT-1 在 Kitchen1 中的执行成功率为 67%,优于其他基线。由于新的看不见的厨房带来的泛化困难,SayCan with Gato 和 SayCan with BCZ 的性能下降明显,而 RT-1 没有表现出明显的下降。

在这里插入图片描述

结论

RT-1 Robotics Transformer 是一种简单且可扩展的动作生成模型,适用于现实世界的机器人任务。它对所有输入和输出进行标记,并使用具有早期语言融合的预训练 EfficientNet 模型和用于压缩的标记学习器。RT-1 在数百个任务中显示出强大的性能,以及广泛的泛化能力和在现实世界设置中的鲁棒性。

在探索这项工作的未来方向时,我们希望通过开发允许非专家通过定向数据收集和模型提示来训练机器人的方法来更快地扩展机器人技能的数量。我们还期待通过可扩展的注意力和记忆力来提高机器人变压器的反应速度和上下文保留。要了解更多信息,请查看论文、开源RT-1 代码和项目网站。

代码
文末代码链接

最后一个问题: 现在AI这么牛,自己如何搞得定?万丈高楼拔地起来。首先找一本AI基本的原理和实践书籍入手。比如下面这本,来自小编的书:
北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理

人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

绘制雪夜圣诞树并封装为小程序

绘制雪夜圣诞树并封装为小程序 使用turtle绘制一颗雪夜圣诞树,然后封装成exe小程序送给你的朋友吧! PS:只能在windows运行。 转载注明本文链接和作者 先看效果图: 绘制雪夜圣诞树 由于代码有三百多行,我放在下面的两…

Web前端105天-day45-DOM

DOM01 目录 前言 一、DOM 二、DOM树 三、class 总结 前言 DOM01学习开始 一、DOM DOM: Document Object Model 文档 : HTML代码 -- 超文本标记语言对象 : 网页真正显示的是 HTML 转换出来的 对象类型 -- document模型 : 固定的规则 -- 代表把 HTML代码 转 JS对象网页真…

Jmeter(十七):利用jmeter插件收集性能测试结果汇总报告和聚合报告,利用PerfMon插件收集监控服务器资源指标

利用jmeter插件收集性能测试结果 汇总报告(Summary Report ) 用来收集性能测试过程中的请求以及事务各项指标。通过监听器--汇总报告 可以添加该元件。界面如下图所示 汇总报告界面介绍: 所有数据写入一个文件:保存测试结果到本地…

全产业链落实循环减碳实践 宝马在华持续推进绿色转型

作为率先推出“循环减碳”理念的汽车企业,宝马集团将循环经济理念贯彻到产品生命周期的各个阶段,并以“再思考、再精减、再利用、再回收”为指导原则,在产业链上下游不断壮大“循环减碳朋友圈”。“可持续发展是宝马集团的战略支点之一”&…

【爬虫】JS调试解决反爬问题系列1

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者:秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据…

AlibabaP8,耗时182天肝出来1015页分布式全栈手册

前言 到底什么是分布式?这个话题一直以来就在各大平台论坛上被热议。一千个读者里面就有一千个哈姆雷特。官方这边给出的结论是:分布式就是将相同或相关的程序运行在多台计算机上,从而实现特定目标的一种计算方式。而从分布式技术的起源来看…

这可能是2022最全的Java面试八股文!共计1658页,Java技术手册的天花板

前两天有个小伙伴在后台留言,最近的面试越来越难了,尤其是技术面,考察得越来越细,越来越底层,庆幸的是最终顺利找到了工作。 一般技术面试官都会通过自己的方式去考察程序员的技术功底与基础理论知识 比如果这样的问题…

mitmproxy 抓包神器-1.环境准备与抓取浏览器请求

前言 常见的抓包工具有fiddler 和 charles, 这些工具都是需要安装本地客户端,python 版的抓包工具可以用 mitmproxy。 mitmproxy 相比Charles、fiddler的优点在于,它可以命令行方式或脚本的方式进行mock 简介 mitmproxy(man-in-the-middle…

阿里云效产品【流水线Flow】企业项目代码一件发布各个云服务器

文章目录前言一、准备项目代码1.默认的项目2.浏览器访问二、使用步骤1.进入工作台2.创建流水线3.代码源4.代码扫描5.单元测试6.代码构建7.主机部署8.部署脚本三、运行测试1.运行流水线2.测试报告3.访问项目总结前言 「流水线」,又名「Flow」,是一款企业…

二、Qt定时器与文本编辑器制作《QT 入门到实战》

学习目标 了解 qt 的 pixmap了解 qt 的 label 如何显示图片了解定时器的开启了解定时器的关闭了解文件如何进行读取了解 QFileDialog 的使用了解了一个文本编辑器的基本编写巩固了 connect 的使用 一、制作一个图片浏览器 1.1 Pixmap 在 Qt 中使用 Label 可以显示文本&…

加密市场的「五维投资法」

一. 投资决策三要素 投资方法纷繁庞杂,但万变不离其宗,影响最终收益的因素,脱不开三个方面:胜率、赔率、仓位,通俗来说: 胜率:这一项投资,赢面有多大?有多大的把握盈利…

毕业设计-基于大数据招聘岗位可视化系统-python

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

【学习笔记】JDK源码学习之ArrayList(附带面试题)

【学习笔记】JDK源码学习之ArrayList(附带面试题) 引言: 什么是 ArrayList ?它和 List 又有什么关系?两者又有什么区别? 带着以上问题让我们来深入走进 ArrayList 。 1、ArrayList的使用 demo&#xf…

动态照片怎么制作?推荐几种操作简单的制作方法

动态照片应该怎么弄呢?不知道大家的家里有没有那种家庭相册,里面会有一些爷爷奶奶、爸爸妈妈们以前的照片,翻看这些照片的时候,就会想到那个时候的他们。不过相册里的照片基本上是一成不变的,有时候我会想,…

手写Spring6(实现应用上下文)

文章目录目标设计流程项目结构一、实现1、定义实例化前-BeanFactoryPostProcessor2、定义初始化前后-BeanPostProcessor3、定义上下文接口--ApplicationContext4、应用上下文抽象类实现--AbstractBeanFactory5、获取Bean工厂和加载资源--AbstractRefreshableApplicationContext…

webpack学习-cdn加速,使用 Tree Shaking,提取公共代码,分割代码按需加载 使用 Prepack开启 Scope Hoisting

4-9 CDN 加速 什么是 CDN 虽然前面通过了压缩代码的手段来减小网络传输大小,但实际上最影响用户体验的还是网页首次打开时的加载等待。 导致这个问题的根本是网络传输过程耗时大,CDN 的作用就是加速网络传输。 CDN 又叫内容分发网络,通过把资源部署到世界各地,用户在访问…

Mentor-dft 学习笔记 day43-Power-Aware DRC and ATPG

Power-Aware DRC and ATPG 本章介绍用于ATPG工具的power-aware DRC和ATPG流程。Power-Aware Overview 电子行业在设计连续体的主要方面采用了低功耗特性。EDA供应商和主要半导体公司定义了常用的电力数据标准格式来描述电力需求:UPF和CPF。Tessent Shell supports t…

Centos7迁移Anolis OS7系统

2020年12月08日CentOS官方宣布CentOS项目将停止,并推出CentOS Stream项目,详见公告 CentOS未来将会从 RedHat Enterprise Linux(RHEL) 复刻版本的 CentOS Linux 转向 CentOS Stream。 对处于生命周期中的 CentOS 版本后续影响: • CentOS Lin…

Codeforces Round #838 (Div. 2) A-C题解

cf比赛链接 目录 A. Divide and Conquer 题意: 思路: 代码: B. Make Array Good 题意: 思路: 代码: C. Binary Strings are Fun(什么疑惑题面) 题意:首先的两个…

PG::Sumo

nmap -Pn -p- -T4 --min-rate1000 192.168.170.87 nmap -Pn -p 22,80 -sCV 192.168.170.87 查看80端口的页面,没有什么有用的信息 尝试路径爆破,发现了/cgi-bin目录,就想到了HTB中的Shocker靶机。 继续爆破 wfuzz -c -z file,/usr/share/…