Transformer17

news2025/2/4 14:58:30

还是transformer 这次还是谷歌哈 又在机器人领域发力

谷歌机器人团队等在机器人领域构建了一个多任务 transformer 模型,显著改进了对新任务、环境和对象的零样本泛化。轻松完成700多条指令、成功率达97%!谷歌开源机器人领域

我们知道,机器学习(ML)多个子领域(如 NLP 和 CV)的最新重大进展通过一种共享的通用方法实现,该方法充分利用大规模、多样化数据集以及有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应用于机器人技术,但机器人还没能利用到高性能模型。

构成挑战的因素有几个。首先缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说成本高昂且具有挑战性,这是因为数据集管理需要工程量大的自主操作或者使用人类远程操作收集的演示。其次缺乏可以从此类数据集中学习并有效泛化的高表达性、可扩展且速度足够快的实时推理模型。

为了解决这些挑战,谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。

RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。

  • 论文地址:https://robotics-transformer.github.io/assets/rt1.pdf

  • 项目地址:https://github.com/google-research/robotics_transformer

该团队对模型和训练集中的许多设计选择进行了仔细评估和消融实验,分析了 tokenization、动作表示和数据集组合的影响。与现有技术相比,RT-1 可以显著改进对新任务、环境和对象的零样本泛化。RT-1 可以以 97% 的成功率执行 700 多个训练指令,并且可以泛化到新的任务、干扰因素和背景。

 

RT-1 吸收了大量数据,包括涉及多任务、对象和环境的机器人轨迹,实现了更好性能和泛化能力。

最后,该团队将 RT-1 代码开源,希望为未来扩大机器人学习的研究提供宝贵的资源。

RT-1 模型概览

RT-1 建立在一个 transformer 架构上,该架构从机器人相机中获取瞬时图像以及以自然语言表达的任务描述作为输入,并直接输出 tokenized 动作。RT-1 的架构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的 decoder-only 序列模型。RT-1 的主要功能包括图像和动作 tokenization 以及 token 压缩。

图像 tokenization。该团队通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为 81 个 tokens。图像 tokenizer 以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。

动作 tokenization。机器人的动作维度包括手臂运动的 7 个变量(x、y、z、翻转、俯仰、摇摆、打开夹具)、3 个基本运动变量(x、y、摇摆)以及一个在控制臂、控制 base 或终止 episode 三种模式之间切换的额外具体变量。每个动作维度被离散化为 256 个 bins。

Token 压缩。RT-1 自适应地选择图像 tokens 的软组合,这些组合根据它们对使用元素级注意力模块 TokenLearner 学习的影响进行压缩,使推理速度提升 2.4 倍以上。

实验和结果

为了更好地理解 RT-1 的泛化能力,该团队在三个基准上进行了实验:Gato、BC-Z(与 RT-1 参数量相同)和 BC-Z XL,并通过四个类别进行比较。

  • 在所见到的任务上的表现;

  • 在没见过任务上的表现:在训练集中,机器人的技能和对象是分开看到的,但以新颖的方式结合在一起;

  • 鲁棒性:在有干扰(有 9 个干扰,此外还有遮挡情况)、改变背景(换个新厨房、光照不同等)上的任务表现;

  • 长情景:在真实厨房中执行 SayCan 类型的自然语言指令。

RT-1 在四个类别的比较中都大大超过基线,表现出极强的泛化性和鲁棒性。

RT-1 与基线性能对比。

整合异构数据源

为了进一步挖掘 RT-1 的性能,该团队还将训练另一个机器人的数据用来训练 RT-1,目的有两个:(1) 测试模型在新数据上是否保持其在原始任务上的性能;(2) 观察模型在新的以及不同数据上泛化能力。

从多个机器人那里收集数据,用来训练 RT-1。

结果表明,RT-1 能够通过观察其他机器人的经验来获得新技能。特别是,当 RT-1 同时使用来自 Kuka bin-picking 数据和 EDR 数据进行训练时,准确率达到 39%。比仅使用 EDR 数据训练时的 22% 准确率提高了近 2 倍。

当 RT-1 仅在 Kuka bin-picking 数据上进行训练,然后在 EDR robot bin-picking 数据上评估时,准确率为 0。


whaosoft aiot http://143ai.com

SayCan 任务

RT-1 的高性能和泛化能力可以通过 SayCan 实现远距离、移动操作任务。SayCan 算法是谷歌在今年提出的,在这个算法中,谷歌让机器人充当语言模型的「手和眼睛」,而语言模型提供有关任务的高级语义知识。

该团队在两个真实的 Kitchen 中进行了评估,Kitchen2 构成了一个比 Kitchen1 更具挑战性的泛化场景。由结果可得,SayCan 与 RT-1 在 Kitchen1 中实现了 67% 的执行成功率,优于其他基线。在 Kitchen2 中,SayCan 与 Gato 以及 SayCan 与 BCZ 的性能下降,而 RT-1 没有出现明显的下降。

 

参考链接:

https://ai.googleblog.com/2022/12/rt-1-robotics-transformer-for-real.html

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/103419.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker搭建MySQL主从集群

使用Docker搭建一主一从的MySQL集群,使用的是8版本的MySQL镜像不是8的版本部分命令会无效,宿主机任意 规划 端口角色3307master3308slave 思路 事先准备 要确保linux宿主机已经安装上Docker。然后将MySQL镜像下载到本地 ,可以先去Docker Hu…

ssm java mysql_医院门诊管理系统_

息化不断建设发展的今天,医院看病预约,医生的挂号等,已经十分方便,通过在线挂号,医生的查看,就能够了解到医院的门诊基本信息,并且可以在线进行门诊的医生查看,医院最新的资讯等&…

Golang 【basic_leaming】切片

阅读目录1、为什么要使用切片2、切片的定义3、关于nil 的认识4、切片的循环遍历5、基于数组定义切片6、切片再切片7、关于切片的长度和容量8、切片的本质9、使用 make() 函数构造切片10、切片不能直接比较11、切片是引用数据类型 -- 注意切片的赋值拷贝12、append() 方法为切片…

Mycat(10):分片详解之固定分片hash算法

1 找到conf/schema.xml并备份 2 固定分片hash算法 本条规则类似于十进制的求模运算,区别在于是二进制的操作,是取id的二进制低10位,即id二进制 。 此算法的优点在于如果按照 10进制取模运算,在连续插入1-10 时候1-10会被分到1-10个分片&…

手机号格式检查系统(Java)

本系统支持的手机号检查如下所示: /** * 中国移动,中国联通,中国电信都为11位的手机号 * 中国"移动"前三位: * 135、136、137、138、139、147、150、151、152、157、 * 158、159、172、178、182、183、184、187、188、195、197、19…

铝网初效过滤器及金属网过滤器的区别

广州特耐苏净化设备有限公司详细介绍:粗效过滤器主要技术参数 什么叫铝网初效过滤器及金属网过滤器?铝网初效过滤器也叫金属网过滤器也可叫GH金属孔网过滤器只是人们的叫法不同。 铝网初效过滤器均具安全,坚固,耐高温,耐酸碱,之特性.一般应…

WebDAV之葫芦儿•派盘+Obsidian笔记

Obsidian 支持WebDAV方式连接葫芦儿派盘。 还在为大量的日记、笔记管理而烦恼?推荐一款可以作为第二大脑、支持双向链接、基于Markdown文件的本地知识管理软件。 Obsidian是一款全设备端的笔记软件,让用户能够非常方便的进行笔记上面的记录,纸张无限边界,想到哪,写到哪,不…

点成分享 | 蛋白质浓度测定之BCA法

蛋白质浓度的测定是常见的生物实验之一。本文介绍的是使用BCA法(二辛可酸法或二喹啉甲酸法)进行蛋白质浓度的测定。 BCA分子式 1 实验原理 BCA是一种稳定的碱性水溶性复合物。在碱性条件下,蛋白质可以将BCA试剂中的二价铜离子Cu2还原成一价…

C++类和对象(上)

学习“类”不“类”,有“对象”了吗? 目录 面向过程和面向对象 类的引入 类的定义 访问限定符 封装 类的作用域 类的实例化 类对象的存储方式 计算类对象的大小 this指针 this指针的特性 this指针两问 面向过程和面向对象 ●C语言是面向过程的…

【Javassist】快速入门系列03 使用Javassist实现方法异常处理

系列文章目录 01 在方法体的开头或结尾插入代码 02 使用Javassist实现方法执行时间统计 03 使用Javassist实现方法异常处理 文章目录系列文章目录前言引入Javassist jar包使用Javassist实现方法异常处理总结说明前言 上一章我们介绍了使用使用Javassist实现了对方法执行时间的…

07_哈希表

哈希表 1.为什么需要构建哈希表 现在有一组数据,我们想查找一个值(x)是否在这组数据中,通常来说,我们需要把这组数据遍历一遍,来看看有没有x这个值。 这时,我们发现这样查找数据要花费的时间…

C++ 类和对象

C认为万事万物都皆为对象,对象上有其属性和行为,C面向对象的三大特性为:封装、继承、多态。 一. 封装 封装是C面向对象三大特性之一。 封装的意义: 将属性和行为作为一个整体,表现生活中的事物将属性和行为加以权限控…

【数据库】时间戳并发控制

Timestamp ordering(T/O) 根据事务的时间戳来决定顺序。 如果T1 的时间戳小于T2 的时间戳,那么执行的结果要等价于T1 执行早于T2 的执行。 时间戳的实现策略: 系统时钟 逻辑计数 混合方法 Basic Timestamp Ordering(T/O)Prtot…

【WPF绑定2】 ComboBox MVVM SelectedValue复杂数据类型绑定

前言 这次绑定是一次非常痛苦的经历,因为SelectedValue总是不能生效!我一度怀疑是wpf的Bug。其实还是自己没搞清楚。 在之前的一篇文章中: http://t.csdn.cn/A4W6Ahttp://t.csdn.cn/A4W6A我也写个ComboBox的绑定,但是当时没有指…

【实时数仓】DWM层订单宽表之实现基本的维度查询、加入旁路缓存模式

文章目录一 DWM层-订单宽表1 维表关联代码实现(1)首先实现基本的维度查询功能a 封装Phoenix查询的工具类PhoenixUtilb 封装查询维度的工具类DimUtil(2) 优化1:加入旁路缓存模式a 缓存策略的几个注意点b 缓存的选型c 在…

AnimateGAN 迁移部署

文章目录1. 模型概述2. 迁移过程2.1 将ckpt的权重文件转换为pb的权重文件。2.2 将pb的权重文件迁移为 BM1684 bmodel模型2.3 迁移后pipeline搭建2.4 使用streamlit部署3. 效果展示AnimateGAN 是一个基于 GAN 的动漫生成模型,可以将真实的场景照片转换成动漫形式。本…

CASA(Carnegie-Ames-Stanford Approach)模型

植被作为陆地生态系统的重要组成部分对于生态环境功能的维持具有关键作用。植被净初级生产力(Net Primary Productivity, NPP)是指单位面积上绿色植被在单位时间内由光合作用生产的有机质总量扣除自养呼吸的剩余部分。植被NPP是表征陆地生态系统功能及可…

设计模式之美总结(创建型篇)

title: 设计模式之美总结(创建型篇) date: 2022-11-03 13:58:36 tags: 设计模式 categories:技术书籍及课程 cover: https://cover.png feature: false 文章目录1. 单例模式(Singleton Design Pattern)1.1 为什么要使用单例&…

如何在高密度的IB学习中杀出重围?

建议选择IB所需具备的能力/特点 ▣ 敢于挑战自我,愿意通过努力换取个人能力的飞跃 ▣ 如果擅长或喜欢写作(中英文),IB对于你来说可能不会那么难。 ▣ 有自主学习、自主研究的能力。有些老师可能教的并不太让人满意,因此…

OpenTelemetry系列 (三)| 神秘的采集器 - Opentelemetry Collector

前言 上个篇章中我们主要介绍了OpenTelemetry的客户端的一些数据生成方式,但是客户端的数据最终还是要发送到服务端来进行统一的采集整合,这样才能看到完整的调用链,metrics等信息。因此在这个篇章中会主要介绍服务端的采集能力。 客户端数…