动嘴操控“终结者”谷歌打造最强chatgpt机器人

news2025/1/18 13:54:33

我们知道,在掌握了网络中的语言和图像之后,大模型终究要走进现实世界,「具身智能」应该是下一步发展的方向。把大模型接入机器人,用简单的自然语言代替复杂指令形成具体行动规划,且无需额外数据和训练,这个愿景看起来很美好,但似乎也有些遥远。毕竟机器人领域,难是出了名的。然而 AI 的进化速度比我们想象得还要快。

  上周五,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。现在不再用复杂指令,机器人也能直接像 ChatGPT 一样操纵了。给机器人发命令,从没这么简单过。 

  RT-2 到达了怎样的智能化程度?

加载了RT-2多任务模型的机械臂可以直接听从人类的语言指令做出反应。比如命令它“捡起已灭绝的动物”,机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;1950331f0de0345b35d23dd7f301a1f8.jpeg  在此之前,机器人无法可靠地理解它们从未见过的物体,更无法做把「灭绝动物」到「塑料恐龙玩偶」联系起来这种有关推理的事。

  命令它将香蕉放到2+1的总和的位置,机械臂就能准确将香蕉放置在数字3的位置;
502b58de21051d7f2369c57fd3af7e81.jpeg
  跟机器人说,把可乐罐给泰勒・斯威夫特:  3c92a3a76436d13328795ca194715246.jpeg

  乍一看上述行为没什么了不起,但细思不由得令人瞠目称奇。过去的机器人只能完成极为准确的单一指令,而有了RT-2加持的机器人甚至已经可以独立进行思考,完成符号、数字、图像、物品的理解和推理。也就是说该模型可以教会机器人更好地识别视觉和语言模态,能够解释人类用自然语言发出的指令,并推断出如何做出相应的行动。真正突破了传统数据库记录复刻的基础形态,进化成为自主知识推理应用的高级形态。

RT-2 是如何实现的?

  高容量视觉语言模型(VLM)在网络规模的数据集上进行训练,使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但要让机器人达到类似的能力水平,他们需要收集每个物体、环境、任务和情况的第一手机器人数据。 RT-2 建立在视觉 - 语言模型(VLM)的基础上,又创造了一种新的概念:视觉 - 语言 - 动作(VLA)模型,它可以从网络和机器人数据中进行学习,并将这些知识转化为机器人可以控制的通用指令。该模型甚至能够使用思维链提示,比如哪种饮料最适合疲惫的人 (能量饮料)。ef9d66eb772bf778598bec80ad29341b.jpegRT-2 架构及训练过程   

其实早在去年,谷歌就曾推出过 RT-1 版本的机器人,只需要一个单一的预训练模型,RT-1 就能从不同的感官输入(如视觉、文本等)中生成指令,从而执行多种任务。

  作为预训练模型,要想构建得好自然需要大量用于自监督学习的数据。RT-2 建立在 RT-1 的基础上,并且使用了 RT-1 的演示数据,这些数据是由 13 个机器人在办公室、厨房环境中收集的,历时 17 个月。

  前面我们已经提到 RT-2 建立在 VLM 基础之上,其中 VLM模型已经在 Web 规模的数据上训练完成,可用来执行诸如视觉问答、图像字幕生成或物体识别等任务。此外,研究人员还对先前提出的两个 VLM 模型 PaLI-X(Pathways Language and Image model)和 PaLM-E(Pathways Language model Embodied)进行了适应性调整,当做 RT-2 的主干,并将这些模型的视觉 - 语言 - 动作版本称为 RT-2-PaLI-X 以RT-2-PaLM-E 。为了使视觉 - 语言模型能够控制机器人,还差对动作控制这一步。该研究采用了非常简单的方法:他们将机器人动作表示为另一种语言,即文本 token,并与 Web 规模的视觉 - 语言数据集一起进行训练。
  对机器人的动作编码基于 Brohan 等人为 RT-1 模型提出的离散化方法。如下图所示,该研究将机器人动作表示为文本字符串,这种字符串可以是机器人动作 token 编号的序列,例如「1 128 91 241 5 101 127 217」。 a881e38a9503fe031afe8d61777d0a04.jpeg

  该字符串以一个标志开始,该标志指示机器人是继续还是终止当前情节,然后机器人根据指示改变末端执行器的位置和旋转以及机器人抓手等命令。由于动作被表示为文本字符串,因此机器人执行动作命令就像执行字符串命令一样简单。有了这种表示,我们可以直接对现有的视觉 - 语言模型进行微调,并将其转换为视觉 - 语言 - 动作模型。

  在推理过程中,文本 token 被分解为机器人动作,从而实现闭环控制。
8dd83c73b0a334a31bed4c7e39539a7f.jpeg

  实验

  研究人员对 RT-2 模型进行了一系列定性和定量实验。

  下图展示了 RT-2 在语义理解和基本推理方面的性能。例如,对于「把草莓放进正确的碗里」这一项任务,RT-2 不仅需要对草莓和碗进行表征理解,还需要在场景上下文中进行推理,以知道草莓应该与相似的水果放在一起。而对于「拾起即将从桌子上掉下来的袋子」这一任务,RT-2 需要理解袋子的物理属性,以消除两个袋子之间的歧义并识别处于不稳定位置的物体。需要说明的是,所有这些场景中测试的交互过程在机器人数据中从未见过。cf7aaed9e362da5a5cf9d81072b72774.jpeg

  下图表明在四个基准测试上,RT-2 模型优于之前的 RT-1 和视觉预训练 (VC-1) 基线。0b0f9d8999873e54010907732c288927.jpeg

  RT-2 保留了机器人在原始任务上的性能,并提高了机器人在以前未见过场景中的性能,从 RT-1 的 32% 提高到 62%。d4af758df743b48f3694c86f824a7c10.jpeg

  一系列结果表明,视觉 - 语言模型(VLM)是可以转化为强大的视觉 - 语言 - 动作(VLA)模型的,通过将 VLM 预训练与机器人数据相结合,可以直接控制机器人。

  和 ChatGPT 类似,这样的能力如果大规模应用起来,世界会发生重大改变。它可能真正开启了在有人环境下使用机器人的大门,所有需要体力劳动的岗位都会被替代。或许,机器人总动员中,那个聪明的瓦力离我们不远了。8eb0644b15d5f9add5d8d562e32b1229.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/821760.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu-文件和目录相关命令

🔮linux的文件系统结构 ⛳目录结构及目录路径 🧩文件系统层次结构标准FHS Filesystem Hierarchy Standard(文件系统层次结构标准) Linux是开源的软件,各Linux发行机构都可以按照自己的需求对文件系统进行裁剪,所以众多…

【Redis】内存数据库Redis进阶(Redis主从集群)

目录 分布式缓存 Redis 四大问题搭建Redis主从集群主从数据同步原理全量同步master 如何得知 salve 是第一次来连接(Replication Id与offset) 增量同步master怎么知道slave与自己的数据差异在哪里(repl_backlog原理) 主从同步优化…

根据中序遍历和后序遍历构建二叉树(递归和迭代两种方法实现)

给定两个整数数组 inorder 和 postorder ,其中 inorder 是二叉树的中序遍历, postorder 是同一棵树的后序遍历,请你构造并返回这颗 二叉树 。 输入:inorder [9,3,15,20,7], postorder [9,15,7,20,3] 输出:[3,9,20,nu…

python使用selenium 打开谷歌浏览器闪退, 怎么解决

问题描述: 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 使用 Selenium 操作 Chrome 浏览器, Chrome 浏览器闪退 问题解决: 可能是以下几个方面出现了问题: 1. Chromedriver 版本与 Chrome 浏览器版本不匹配 你需要确保你正在…

cmake升级(ubuntu 18.04)——千万不要删除原来版本的cmake

重要提示 千万不要卸载删除ubuntu原有的cmake,否则之前经过原有cmake编译过的文件将也会被删除,比如 ros。 千万不要使用下面这句命令删除原有的 cmake !!!!!! 超级大坑,…

Linux第八章之进程概念

一、冯诺依曼体系结构 关于冯诺依曼,必须强调几点: 这里的存储器指的是内存不考虑缓存情况,这里的CPU能且只能对内存进行读写,不能访问外设(输入或输出设备)外设(输入或输出设备)要输入或者输出数据,也只能写入内存或…

基于jsp的塞北村镇旅游网站的设计与实现--【毕业论文】

文章目录 本系列校训毕设的技术铺垫文章主体层次摘要示例摘要的写法英文摘要: 选题目的和意义:与本课题相关的技术和方法综述:系统分析经济上的可行性技术上的可行性操作上的可行性开发结构分析 功能需求分析:数据流图 网站总体设…

已解决selenium.common.exceptions.InvalidCookieDomainException: Message: invalid cookie domain: Cookie ‘

已解决selenium.common.exceptions.InvalidCookieDomainException: Message: invalid cookie domain: Cookie ‘domain’ mismatch 文章目录 报错问题报错翻译报错原因解决方法千人全栈VIP答疑群联系博主帮忙解决报错 报错问题 粉丝群里面的一个小伙伴遇到问题跑来私信我&#…

特斯拉斥巨资收购?德国无线充电公司 Wiferion价值7600万美金

根据德国媒体Teslamag的报道,特斯拉据称已成功收购德国无线充电公司Wiferion,交易金额高达7600万美元(相当于5.43亿元人民币)。德国无线充电公司 Wiferion的网站页面底部显示计划于2023年实施,明确确认特斯拉为其母公司…

(树) 剑指 Offer 32 - II. 从上到下打印二叉树 II ——【Leetcode每日一题】

❓剑指 Offer 32 - II. 从上到下打印二叉树 II 难度:简单 从上到下按层打印二叉树,同一层的节点按从左到右的顺序打印,每一层打印到一行。 例如: 给定二叉树: [3,9,20,null,null,15,7], 3/ \9 20/ \15 7返回其层次遍历结果&#xff1a…

使用Three.js创建旋转的立方体

使用Three.js创建旋转的立方体 在本篇技术博客中,我们将介绍如何使用Three.js创建一个简单的场景,其中包含一个旋转的立方体。我们将学习如何设置场景、摄像机、立方体和渲染器,以及如何使用OrbitControls和gsap库来实现立方体的旋转动画和交…

ModuleNotFoundError: No module named ‘_sqlite3‘

前言 遇到报错信息如下: ModuleNotFoundError: No module named _sqlite3解决方式 参考解决方式: https://blog.csdn.net/jaket5219999/article/details/53512071 find / -name _sqlite*.socp /usr/lib64/python3.6/lib-dynload/_sqlite3.cpython-36…

BIO、NIO、IO多路复用模型详细介绍Java NIO 网络编程

文章目录 前言基本概念BIO过程NIO过程IO多路复用过程Java NIO编程Java NIO 核心概念Java NIO 示例 总结 前言 上文介绍了网络编程的基础知识,并基于 Java 编写了 BIO 的网络编程。我们知道 BIO 模型是存在巨大问题的,比如 C10K 问题,其本质就…

c++游戏制作指南(一):在冷峻的控制台上,种满缤纷

🍿*★,*:.☆( ̄▽ ̄)/$:*.★* 🍿 🍟欢迎来到静渊隐者的csdn博文,本文是c游戏制作指南的一部🍟 🍕更多文章请点击下方链接🍕 🍨 c游戏制作指南&#x1f3…

国产系统大致比较和分析(优麒麟、开放麒麟、深度deepin、统信UOS、银河麒麟、中标麒麟)

前言 目前国内比较出名的系统主要包括麒麟和统信,其中麒麟包括了优麒麟、开放麒麟、银河麒麟和中标麒麟。统信则包括深度deepin和统信UOS,而统信UOS的版本还包括了A版、E版和D版。这么多版本到底有什么区别?需要怎么选择呢? 1. 桌…

面试题:说说JavaScript中内存泄漏的几种情况?垃圾回收机制

内存泄漏 一、是什么?二、垃圾回收机制?2.1、标记清除法2.2、引用计数法 三、常见内存泄露情况 一、是什么? 由于疏忽或错误造成程序未能释放已经不再使用的内存;并非指内存在物理上的消失,而是应用程序分配某段内存后…

前端需要知道的计算机网络知识

1 Web 机制 无论通过有线方式 (通常是网线) 还是无线方式(比如 wifi 或蓝牙),通信需要进行连接,网络上的每台计算机需要链接到路由器(router)。 路由器确保从一台计算机上发出的一条信息可以到达正确的计算机。计算机…

每日一博 - Excel导入导出的那点事儿

文章目录 POIPOI不同版本的实现HSSFWorkbookXSSFWorkbookSXSSFWorkbook 不同API实现的优缺点HSSFWorkbook缺点优点 XSSFWorkbook优点缺点 SXSSFWorkbook优点:缺点: 经验百万级别的数据导入导出的方案 EasyExcel通用导入导出思路 POI 想到数据的导入导出…

超乎想象,北斗定位让港口作业更高效

北斗定位技术的出现,正在改变许多行业的生产方式,其中港口作业就是其中之一。港口是世界各地贸易的重要枢纽,其运作需要高度的精度和效率。北斗定位技术的引入,不仅让港口作业更加高效,而且还提高了安全性和可靠性。 首…

uniapp使用视频地址获取视频封面

很多时候我们都需要使用视频的第一帧当作视频的封面,今天我们从uni-app的安卓app这个环境来实现下这个需求。 uniapp 安卓APP端(ios未测试) 方法:使用renderjs实现对DOM元素的操作,创建video元素获取视频转第一帧&am…