机器人“瓦力”近在咫尺?谷歌最新的RT-2 AI模型简介

news2024/11/15 21:42:18

由 RT-2 控制的谷歌机器人。

“首创”的机器人 AI 模型能够识别垃圾并执行复杂的动作。

上周五,谷歌 DeepMind 宣布了机器人变形器 2(RT-2),这是一种“首次推出”的视觉-语言-行动(VLA)模型,利用从互联网上抓取的数据,通过简单的语言命令实现更好的机器人控制。最终目标是创建能够在人类环境中导航的通用型机器人,类似于虚构的机器人 WALL-E 或 C-3PO。

当人类想要学习一项任务时,我们通常会阅读和观察。类似地,RT-2利用了一个大型语言模型(ChatGPT技术背后的技术),该模型经过在在线文本和图像上的训练。RT-2利用这些信息来识别模式并执行动作,即使机器人没有被专门训练执行这些任务,这个概念被称为泛化。

例如,谷歌表示RT-2可以使机器人识别和丢弃垃圾,即使没有被专门训练执行此操作。它利用对垃圾是什么以及如何处置垃圾的理解来指导其行动。RT-2甚至将废弃的食品包装或香蕉皮视为垃圾,尽管存在潜在的歧义。
RT-2可以执行的广义机器人技能示例,这些技能不在机器人数据中,而是从网络上的抓取中学习到的。

在另一个例子中,纽约时报援引一位谷歌工程师下达指令:“拿起灭绝的动物”,然后RT-2机器人从一张桌子上的三个仿真动物中定位并拿起了一只恐龙。

这种能力非常值得注意,因为机器人通常需要从大量手动获取的数据点中进行训练,这使得该过程由于需要涵盖每种可能的情况而变得困难和耗时。简而言之,现实世界是一个动态的混乱,存在着不断变化的情况和物体配置。一款实用的机器人助手需要能够以不可能通过显式编程的方式即时适应,这就是RT-2的作用所在。

表象之后

RT-2是基于转换器AI模型的优势而制定的战略。转换器AI模型以广泛泛化信息的能力而闻名。RT-2借鉴了谷歌早期的AI工作,包括Pathways语言和图像模型(PaLI-X)和Pathways语言模型体系(PaLM-E)。此外,RT-2还在前任模型(RT-1)的数据上进行了联合训练,该数据由13台机器人在“办公厨房环境”中收集了长达17个月。

RT-2的结构包括对机器人和网页数据进行预先训练的VLM模型的微调。产生的模型处理机器人摄像机图像并预测机器人应该执行的操作。

Google对VLM模型进行了机器人和Web数据的微调,生成的模型可以接收机器人摄像头图像并预测机器人执行的操作。
Google对VLM模型进行了机器人和Web数据的微调,生成的模型可以接收机器人摄像头图像并预测机器人执行的操作。

由于RT-2使用语言模型来处理信息,Google选择将动作表示为token,这些token通常是一个单词的片段。Google写道:“要控制机器人,必须训练它输出动作。我们通过在模型输出中将动作表示为类似于语言token的token来解决这个挑战,并将动作描述为可以被标准自然语言分词器处理的字符串。”

在开发 RT-2 时,研究人员采用了拆分机器人动作为更小部分的相同方法,就像他们在第一个版本的机器人 RT-1 中所做的一样。他们发现,通过将这些动作转化为一系列符号或代码("字符串"表示),他们可以使用与处理网络数据相同的学习模型来教导机器人新技能。

该模型还利用了链式思维推理的能力,使它能够执行多阶段推理,例如选择一种替代工具(如用石头代替锤子)或为疲惫的人选择最好的饮料(例如能量饮料)。

根据 Google 的说法,链式思维推理使得机器人控制模型能够在指令下执行复杂的动作。

根据 Google 的说法,链式思维推理使得机器人控制模型能够在指令下执行复杂的动作

Google 表示,在超过 6,000 次测试中,RT-2 在它接受训练的任务中(称为“seen tasks”)的表现与其前身 RT-1 相当。然而,在新的“未知”情境下进行测试时,RT-2 的表现几乎翻倍,达到了 62%,而 RT-1 的表现仅为 32%。

虽然 RT-2 表现出了很好的适应能力,可以将其所学习的知识适用于新的情境,但 Google 认识到它并不完美。在 RT-2 技术论文的“限制”部分中,研究人员承认,虽然将 Web 数据包含在训练材料中“提高了对语义和视觉概念的泛化”,但这并不能使机器人在没有从其前身的机器人训练数据中学到的物理动作上获得新的能力。换言之,它无法执行它以前未曾练习过的动作,但它可以更好地运用它已经学过的动作来完成新的任务。

虽然 Google DeepMind 的最终目标是创建通用机器人,但公司知道在实现这一目标之前还有大量的研究工作要做。但像 RT-2 这样的技术似乎是朝着这个方向迈出的坚实一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/834670.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

理解 CSS 中的 Containing Block

前言 在开始本文之前先来看一个例子&#xff0c;下面一段简单的 html 代码&#xff0c;布局很简单&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"w…

clickhouse调研报告2

由Distributed表发送分片数据 clickhouse分区目录合并 clickhouse副本协同流程 clickhouse索引查询逻辑 clickhouse一级索引生成逻辑(两主键) clickhouse的data目录下包含如下目录: [root@brfs-stress-01 201403_10_10_0]# ll /data01/clickhouse/data total 4 drwxr-x---…

【Linux操作系统】网络配置详解:从原理到实践(详细通俗讲明DNS)

导语&#xff1a;网络配置是Linux系统中的一项重要任务&#xff0c;合理的网络配置可以保证计算机与其他设备的正常通信。本文将详细介绍Linux网络配置的原理和实践&#xff0c;包括网络配置原理、查看网络IP和网关、测试网络连通性、网络环境配置、设置主机名和hosts映射以及主…

获取全部的地区并生成表格

思路 写文章的时间2023-8-4&#xff0c;大部分网页设置的区域都是先是省&#xff0c;然后通过省获取对应的市&#xff0c;再通过市获取对应的区&#xff0c;以此类推。所以模拟的请求也是按照这个逻辑&#xff0c;先获取所有的省&#xff0c;再获取所有的市&#xff0c;最后获取…

【2023华数杯全国大学生数学建模竞赛】C题 母亲身心健康对婴儿成长的影响第一、二问

第一问部分截图 第二问部分截图 参考文献 理论和可直接运行代码获取参见&#xff1a;理论和可直接运行代码获取参见&#xff1a;理论和可直接运行代码获取参见&#xff1a;理论和可直接运行代码获取参见&#xff1a; 有人看的话更新后续问题思路。

【项目经验】产研流程(超级详细的步骤)

一、产研流程简述 项目立项-——定需求——Sprint需求宣讲会——技术方案——技术方案评审会——开发及单元测试——测试用例评审会——提测——测试——Sprint评审会——发版——Sprint复盘会 二、产研流程详情 以下部分根据Sprint里程碑节点进行循环&#xff08;sprint周期…

Java8实战-总结12

Java8实战-总结12 Lambda表达式Lambda 和方法引用实战第1步&#xff1a;传递代码第2步&#xff1a;使用匿名类第3步&#xff1a;使用Lambda表达式第4步&#xff1a;使用方法引用 复合Lambda表达式的有用方法比较器复合逆序比较器链 函数复合 Lambda表达式 Lambda 和方法引用实…

【C++】从无到有了解并掌握C++面向对象编程的三大特性——封装、继承、多态

前置知识&#xff1a;类和对象 参考书籍&#xff1a;《C Primer 第五版》 目录 什么是面向过程&#xff1f;什么是面向对象&#xff1f; 一、封装 1、封装的含义以及如何实现封装 1.1 访问限定符&#xff08;访问说明符&#xff09; 1.2 什么是封装&#xff1f; 2、封装的优点…

2023年华数杯选题人数发布!!

该选题人数&#xff0c;主要基于根据各个平台开赛后12小时各项数据统计&#xff0c;进行评估&#xff08;方法见注释&#xff09;&#xff0c;最终得出2023年华数杯选选题人数&#xff0c;大致为 题号选题人数A120B159C420 注释&#xff1a;选题人数来源&#xff1a;源自各个平…

Java字符串常量池以及new String(“abc“)到底创建了几个对象?各种字符串到底相不相等?

new String(“abc”)到底创建了几个对象&#xff1f; 字符串常量池 是 JVM 为了提升性能和减少内存消耗针对字符串&#xff08;String 类&#xff09;专门开辟的一块区域&#xff0c;主要目的是为了避免字符串的重复创建。 1.如果字符串常量池中不存在“abc”的引用&#xff…

GD32F103VE外部中断

GD32F103VE外部中断线线0~15&#xff0c;对应外部IO口的输入中断。它有7个中断向量&#xff0c;外部中断线0 ~ 4分别对应EXTI0_IRQn ~ EXTI4_IRQn中断向量&#xff1b;外部中断线 5 ~ 9 共用一个 EXTI9_5_IRQn中断向量&#xff1b;外部中断线10~15 共用一个 EXTI15_10_IRQn中断…

深入探索Vue.js核心技术与跨平台开发uni-app实战

&#x1f482; 个人网站:【工具大全】【游戏大全】【神级源码资源网】&#x1f91f; 前端学习课程&#xff1a;&#x1f449;【28个案例趣学前端】【400个JS面试题】&#x1f485; 寻找学习交流、摸鱼划水的小伙伴&#xff0c;请点击【摸鱼学习交流群】 前言 在当今Web应用不断…

小程序商城免费搭建之java商城 电子商务Spring Cloud+Spring Boot+二次开发+mybatis+MQ+VR全景+b2b2c bbc

​ 1. 涉及平台 平台管理、商家端&#xff08;PC端、手机端&#xff09;、买家平台&#xff08;H5/公众号、小程序、APP端&#xff08;IOS/Android&#xff09;、微服务平台&#xff08;业务服务&#xff09; 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、Redis 3. 前…

7、Kubernetes核心技术 - Secret

目录 一、Secret概述 二、Secret 三种类型 2.1、Opaque 2..2、kubernetes.io/dockerconfigjson 2.3、kubernetes.io/service-account-token 三、Secret创建 3.1、命令行方式创建 Secret 3.2、yaml方式创建 Secret 四、Secret解码 五、Secret使用 5.1、将 Secret 挂载…

Mybatis实现JsonObject对象与JSON之间交互

项目中使用PostGresql数据库进行数据存储&#xff0c;表中某字段为Json类型&#xff0c;用于存储Json格式数据。PG数据库能够直接存储Json算是一大特色&#xff0c;很多特定情境下使用直接存储Json字段数据能够大量节省开发时间&#xff0c;提高后台数据查询和转换效率。 1、基…

第三章 图论 No.1单源最短路及其综合应用

文章目录 1129. 热浪1128. 信使1127. 香甜的黄油1126. 最小花费920. 最优乘车903. 昂贵的聘礼1135. 新年好340. 通信线路342. 道路与航线341. 最优贸易 做乘法的最短路时&#xff0c;若权值>0&#xff0c;只能用spfa来做&#xff0c;相等于加法中的负权边 1129. 热浪 1129.…

Spring接口ApplicationRunner的作用和使用介绍

在Spring框架中&#xff0c;ApplicationRunner接口是org.springframework.boot.ApplicationRunner接口的一部分。它是Spring Boot中用于在Spring应用程序启动完成后执行特定任务的接口。ApplicationRunner的作用是在Spring应用程序完全启动后&#xff0c;执行一些初始化任务或处…

W6100-EVB-PICO做DNS Client进行域名解析(四)

前言 在上一章节中我们用W6100-EVB-PICO通过dhcp获取ip地址&#xff08;网关&#xff0c;子网掩码&#xff0c;dns服务器&#xff09;等信息&#xff0c;给我们的开发板配置网络信息&#xff0c;成功的接入网络中&#xff0c;那么本章将教大家如何让我们的开发板进行DNS域名解…

python二级用哪个版本的软件,二级python用哪个版本

大家好&#xff0c;给大家分享一下python二级用哪个版本的软件&#xff0c;很多人还不知道这一点。下面详细解释一下。现在让我们来看看&#xff01; Python开发软件可根据其用途不同分为两种&#xff0c;一种是Python代码编辑器&#xff0c;一种是Python集成开发工具&#xff…

Mac显示隐藏文件夹

1、设置隐藏文件可见 defaults write com.apple.finder AppleShowAllFiles TRUE 2、killall Finder killall Finder