谷歌DeepMind最新成果:机器人灵巧操作服务我们日常生活

news2024/11/14 15:20:48

谷歌DeepMind最新成果:机器人灵巧操作服务我们日常生活
CAAI认知系统与信息处理专委会 2024-01-13 00:00 发表于北京
几乎是和斯坦福“炒虾洗碗”机器人同一时间,谷歌DeepMind也发布了最新具身智能成果。

并且是三连发:

先是一个主打提高决策速度的新模型,让机器人的操作速度(相比原来的Robotics Transformer)提高了14%——快的同时,质量也没有下滑,准确度还上升了10.6%。
在这里插入图片描述

然后再来一个专攻泛化能力的新框架,可以给机器人创建运动轨迹提示,让它面对41项从未见过的任务,取得了63%的成功率。
在这里插入图片描述

别小看这个数组,对比之前的29%,进步可谓相当大。

最后是一个机器人数据收集系统,可以一次管理20个机器人,目前已从它们的活动中收集了77000次实验数据,它们将帮助谷歌更好地完成后续训练工作。
在这里插入图片描述

那么,这三个成果具体是什么样?我们一个一个来看。

机器人日常化第一步:没见过的任务也能直接做
谷歌认为,要生产出真正可进入现实世界的机器人,必须要解决两个基本挑战:

1、新任务推广能力

2、提高决策速度

本次三连发的前两项成果就主要在这两大领域作出改进,且都建立在谷歌的基础机器人模型Robotics Transformer(简称RT)之上。

首先来看第一个:帮助机器人泛化的RT-Trajectory。

对于人类来说,譬如完成擦桌子这种任务简直再好理解不过了,但机器人却不是很懂。

不过好在我们可以通过多种可能的方式将这一指令传达给它,让它作出实际的物理行动。

一般来说,传统的方式就是将任务映射为一个个特定的动作,然后让机械臂完成,例如对于擦桌子,就可以拆解为“合上夹具、向左移动、向右移动”。

很明显,这种方式的泛化能力很差。

在此,谷歌新提出的RT-Trajectory通过给机器人提供视觉提示的方法来教它完成任务。

在这里插入图片描述

具体而言,由RT-Trajectory控制的机器人在训练时会加入2D轨迹增强的数据。

这些轨迹以RGB图像的形式呈现,包括路线和关键点,在机器人学习执行任务时提供低级但非常实用的提示。

有了这个模型,机器人执行从未见过的任务的成功率直接提高了1倍之多(相比谷歌的基础机器人模型RT-2,从29%=>63%)。

更值得一提的是,RT-Trajectory可以用多种方式来创建轨迹,包括:
通过观看人类演示、接受手绘草图,以及通过VLM(视觉语言模型)来生成。

在这里插入图片描述

机器人日常化第二步:决策速度一定要快
泛化能力上来以后,我们再来关注决策速度。

谷歌的RT模型采用的是Transformer架构,虽然Transformer功能强大,但严重依赖于有着二次复杂度的注意力模块。

因此,一旦RT模型的输入加倍(例如给机器人配上更高分辨率的传感器),处理起来所需的计算资源就会增加为原来的四倍,这将严重减慢决策速度。

为了提高机器人的速度,谷歌在基础模型Robotics Transformer上开发了SARA-RT。

SARA-RT使用一种新的模型微调方法让原来的RT模型变得更为高效。

这种方法被谷歌称之为“向上训练”,它主要的功能就是将原来的二次复杂度转换为线性复杂度,同时保持处理质量。

将SARA-RT应用于具有数十亿参数的RT-2模型时,后者可以在各种任务上实现更快的操作速度以及更高的准确率。

同样值得一提的是,SARA-RT提供的是一种通用的加速Transformer的方法,且无需进行昂贵的预训练,因此可以很好地推广开来。

数据不够?自己创造
最后,为了帮助机器人更好地理解人类下达的任务,谷歌还从数据下手,直接搞了一个收集系统:AutoRT。

这个系统将大模型(包括LLM和VLM)与机器人控制模型(RT)相结合,不断地指挥机器人去执行现实世界中的各种任务,从而产生数据并收集。

具体流程如下:

让机器人“自由”接触环境,靠近目标。

然后通过摄像头以及VLM模型来描述眼前的场景,包括具体有哪些物品。

接着,LLM就通过这些信息来生成几项不同的任务。

注意了,生成以后机器人并不马上执行,而是利用LLM再过滤一下哪些任务可以独立搞定,哪些需要人类远程控制,以及哪些压根不能完成。

像不能完成的就是“打开薯片袋”这种,因为这需要两只机械臂(默认只有1只)。
在这里插入图片描述

再然后,做完这个筛选任务以后,机器人就可以去实际执行了。

最后由AutoRT系统完成数据收集并进行多样性评估。

据介绍,AutoRT可一次同时协调多达20个机器人,在7个月的时间内,一共收集了包括6650个独特任务在内的77000次试验数据。

最后,对于此系统,谷歌还特别强调了安全性。

毕竟AutoRT的收集任务作用于现实世界,“安全护栏”不能少。

具体而言,基础安全守则由为机器人进行任务筛选的LLM提供,它的部分灵感来自艾萨克·阿西莫夫的机器人三定律——首先也是最重要的是“机器人不得伤害人类。

其次还包括要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。

但这还远远不够。

因此AutoRT还配有常规机器人技术中的多层实用安全措施。

例如,机器人在其关节上的力超过给定阈值时自动停止、所有行动都可由保持在人类视线范围内的物理开关停止等等。

在这里插入图片描述

还想进一步了解谷歌的这批最新成果?

好消息,除了RT-Trajectory只上线论文以外,其余都是代码和论文一并公布,欢迎大家进一步查阅~

One More Thing
说起谷歌机器人,就不得不提RT-2(本文的所有成果也都建立之上)。

这个模型由54位谷歌研究员耗时7个月打造,今年7月底问世。

嵌入了视觉-文本多模态大模型VLM的它,不仅能理解“人话”,还能对“人话”进行推理,执行一些并非一步就能到位的任务,例如从狮子、鲸鱼、恐龙这三个塑料玩具中准确捡起“已灭绝的动物”,非常惊艳。

在这里插入图片描述

如今的它,在短短5个多月内便迎来了泛化能力和决策速度的迅速提升,不由地让我们感叹:不敢想象,机器人真正冲进千家万户,究竟会有多快?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1381530.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FPGA(基于xilinx)中PCIe介绍以及IP核XDMA的使用

Xilinx中PCIe简介以及IP核XDMA的使用 例如:第一章 PCIe简介以及IP核的使用 文章目录 Xilinx中PCIe简介以及IP核XDMA的使用一、PCIe总线概述1.PCIe 总线架构2.PCIe 不同版本的性能指标及带宽计算3.PCIe 接口信号 二、XDMA1.XDMA 与其它 PCIe IP 的区别2.XDMA简介 三…

用Kimi chat识别并整理图片里面的文字

Kimi chat是有OCR功能的,可以识别图片中的文字。 下面这张图片是一本书的注释,里面提到有不少图书,利用Kimi chat就可以轻松完成提取其中图书书名的任务。 先拿一张图片来做实验。Kimichat的回复: 在您提供的文件内容中&#xf…

【重学C语言】二、前期准备和第一个C程序

【重学C语言】二、前期准备和第一个C程序 1. VS 项目1.1 创建项目 2. Clion 项目(本博主主用)2.1 创建项目2.2 Clion 配置 3. 构建类型4. 构建模式5. 注释6. 第一个 C 程序7. 程序闪退8. 新手遇到的问题 1. VS 项目 1.1 创建项目 打开 VS 创建新项目 创建 main.c 书写以下…

如何提高比例阀控制精度效率速度解决电磁阀线圈老化提供电磁阀速度柱塞检测电磁阀过流保护电磁阀菊花链控制MAX22216

越来越多的场合需要对进气量液压量进行精确控制,比例阀被大量采用,如何提高比例阀的控制精度和效率,本文介绍螺线管驱动芯片MAX22216MAX22217的12位PI电流闭环控制以及其他性能,可以提升比例阀的控制精度。提高电磁阀速度精度解决…

oracle—IMU机制

正常的情况下,当事务需要回滚块的时候,是去undo表空间找 现在是在sharepool中分一个IMUbuffer,将所有的回滚信息写入。直接就可以从中取。减少了物理IO 同时这个过程也产生redo,直接就是图中红色的,不防止崩溃 优点 1…

竞赛保研 基于计算机视觉的身份证识别系统

0 前言 🔥 优质竞赛项目系列,今天要分享的是 基于机器视觉的身份证识别系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-sen…

U盘安装XP纯净版系统教程软件安装教程(附软件下载地址)

软件简介: 软件【下载地址】获取方式见文末。注:推荐使用,更贴合此安装方法! U盘安装XP纯净版系统是一种便捷且快速的方式,以实现系统重装或升级的需求。这篇教程将为您详细介绍如何使用U盘来安装XP纯净版系统。XP纯…

JVM基础(7)——ParNew垃圾回收器

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 学习必须往深处挖&…

stable-diffusion 学习笔记

从效果看Stable Diffusion中的采样方法 参考:Ai 绘图日常 篇二:从效果看Stable Diffusion中的采样方法_软件应用_什么值得买 大概示例:

从零开始的源码搭建:详解连锁餐饮行业中的点餐小程序开发

时下,点餐小程序成为了许多餐饮企业引入的一种创新工具,不仅方便了顾客的用餐体验,同时也提高了餐厅的运营效率。本文将详细探讨如何从零开始搭建一个源码,并深入解析连锁餐饮行业中的点餐小程序开发过程。 一、需求分析与规划 在…

数据结构——排序算法之快速排序

个人主页:日刷百题 系列专栏:〖C/C小游戏〗〖Linux〗〖数据结构〗 〖C语言〗 🌎欢迎各位→点赞👍收藏⭐️留言📝 ​ ​ 前言: 快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法。 基本思想&…

7. 分页插件

对于分页功能,MyBatisPlus 提供了分页插件,只需要进行简单的配置即可实现: Configuration public class MybatisPlusConfig {// 旧版 // Bean // public PaginationInterceptor paginationInterceptor() { // PaginationIntercept…

SECS/GEM的变量SVID是什么?JAVA SECS通信 JAVA与SECS集成资料大全JAVA开发SECS快速入门资料

Java与SECS基础通信 Java实现SECS指令S2F17获取时间 Java实现SECS指令 S10F3 终端单个显示例子 工艺配方管理S7FX Java实现SECS指令 S5F1报警/取消报警上传 实例源码及DEMO请查阅 变量可以是设备的状态信息 定义: 此功能允许主机查询设备数据变量&#x…

抓交通肇事犯(python)

问题描述: 一辆卡车违反交通规则,撞人后逃跑。现场有三人目击该事件,但都没有记住车号,只记下了车号的一些特征。甲说:牌照的前两位数字是相同的;乙说:牌照的后两位数字是相同的,但…

【SpringBoot3】实现自定义配置——以静态资源自定义配置为例(源码+代码示例)

这里写目录标题 1 配置类位置2 静态资源配置方式3 整体配置示例3.1 创建配置类3.2 实现配置方法3.3 指定配置文件属性 1 配置类位置 在左侧搜索autoconfigure可以找到spring-boot-autoconfigure包,打开其下的META-INF -> spring -> AutoConfiguration.import…

面向对象的三大特性

个人主页:告别,今天 个人专栏:java趣味之旅 ​​​​​​​本专栏旨在分享学习网络编程的学习心得和复习总结,欢迎大家在评论区交流讨论 1. 封装 1.1 封装的概念 面向对象程序三大特性:封装、继承、多态。而类和对象…

RibbonGroup添加QAction

实际项目中,group中需要添加按钮与点击事件: 添加实例如下: if (Qtitan::RibbonGroup* groupClipboard pageHome->addGroup(tr("Clipboard"))) { //右下角按钮显示 groupClipboard->setO…

xtu oj 1329 连分式

题目描述 连分式是形如下面的分式,已知a,b和迭代的次数n,求连分式的值。 输入 第一行是一个整数T(1≤T≤1000),表示样例的个数。 每行一个样例,为a,b,n(1≤a,b,n≤9) 输出 每行输出一个样例的结果,使用x/y分式表达…

BUUCTF--get_started_3dsctf_20161

这题我本来以为是简单的ret2text.结果还是中了小坑。 先看保护: 32位程序,接下来测试下效果: 看看IDA中逻辑: 题目一进来有很多函数,盲猜是静态编译了。而且在函数堆中发现了个get_flag。信心慢慢的直接写代码返回get…

Qt点击按钮在附近弹出下拉框

效果 MainWindow.h #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include"toollayout.h" QT_BEGIN_NAMESPACE namespace Ui { class MainWindow; } QT_END_NAMESPACEclass MainWindow : public QMainWindow {Q_OBJECTpublic:MainWindow…