为机器人装“大脑” 谷歌发布RT-2大模型

news2024/12/26 22:26:24

大语言模型不仅能让应用变得更智能,还将让机器人学会举一反三。在谷歌发布RT-1大模型仅半年后,专用于机器人的RT-2大模型于近期面世,它能让机器人学习互联网上的文本和图像,并具备逻辑推理能力。

该模型为机器人智能带来显著升级——即便在机器人没有经历过的场景下,RT-2也通过学习让它根据指令完成任务。

谷歌DeepMind机器人技术主管Vincent举例称,如果让以前的机器人丢垃圾,必须要专门训练它理解什么是垃圾、如何捡起和扔到哪去。现在RT-2能够从网络数据上学习识别和处理垃圾的方法,不必逐一特训不同的场景了。

AI的发展让机器人的“大脑”实现了物种进化般的迭代,另一面是,机器人失控的风险也随之增加。

RT-2大模型实现机器人自主学习

ChatGPT的火爆,让世界见识了大语言模型的强大力量。人们对大模型不再陌生,开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等,而妙用不止于此。谷歌脑洞大开,专门给机器人造了个大模型,让机器人拥有了自主学习能力。

不久前,谷歌旗下DeepMind发布了一款名为Robotics Transformer 2(简称RT-2)的新型视觉-语言-动作(VLA)模型,该模型相当于机器人的专用大脑,能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。

谷歌介绍,RT-2基于Transformer模型开发,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样,RT-2可以将网络数据喂给机器人,指导机器人的行为。

为了展示RT-2的能力,谷歌发布了一个演示视频,让搭载RT-2的机器人完成一些它此前从未经过训练的项目。

视频中,面对一堆随意放在桌上的物品,搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。

比如,命令它“捡起已灭绝的动物”,机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到2+1的总和的位置,机械臂直接把香蕉放在了数字3的位置;再让它把草莓放入碗里,机器人也能够无视苹果、橘子等水果,选对草莓。

不过,在演示过程中,机器人也出现了错误,它不能准确地识别汽水口味,这让它看起来还有不小的优化空间。

 搭载RT-2的机器人能按人类指令行事

即便还不够完美,但机器人能够自主理解、推理和执行任务,已经是一个长足的进步。

DeepMind机器人技术主管 Vincent 以“扔垃圾”这个看似简单的操作举例,如果想要以前的系统执行丢弃垃圾的行为,必须明确训练它识别和处理垃圾,而RT-2可以从大量网络数据中学习并理解什么是垃圾,并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练,但它能掌握如何丢弃垃圾的方法。“考虑到垃圾的抽象性,比如各种薯片包或香蕉皮在你食用后就成为了垃圾,RT-2 能通过其视觉语言培训数据理解这个概念,并完成任务。

RT-2就给机器人输入了认知能力,让它能够在互联网上学习和进步,甚至还能进行一般推理。这对于机器人产业来说,不亚于一次物种进化。

机器人加速进化再触AI安全底线

事实上,给机器人装上大脑这件事,谷歌并不是第一次尝试了。就在去年12月,谷歌发布了RT-1大模型,它可以标记机器人输入和输出的动作,在运行时实现高效推理,并使实时控制成为可能。

RT-1模型是在一个包含130k个“情景”的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,由13台机器人在17个月内收集而成。也就是说,RT-1大模型可以让单一机器人,学习其他机器人在过去积攒的经验,从而具备相应的能力。

 RT-1大模型论文

当时,谷歌让搭载RT-1的机器人进行一系列复杂操作,包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。据团队称,RT-1 以 97% 的成功率执行了 700 多个训练指令,并且可以泛化到新的任务。

但对于没有具体学习过的场景,RT-1还是很难自主依据推理完成任务。根据测试,它在不熟悉的场景下,操作的准确率只有32%。

如果说当时的RT-1还是个“教什么学什么”的小学生,RT-2则进步成了能够举一反三的初高中生。在没见过的新场景中,RT-2 的性能表现几乎翻了一番,从RT-1的32%提高到了62%,而此时距离RT-1的发布时间仅仅过去了半年多。

谷歌 DeepMind机器人技术主管Vincent 解释,RT-2 建立在 RT-1 模型的基础上,消除了一些复杂性;使单个模型不仅能够执行基础模型中看到的复杂推理,而且还可以输出机器人动作。最重要的是,它表明在少量的机器人训练数据下,该系统就能够将其语言和视觉训练数据中嵌入的概念转变为指导机器人行为,即使是从未接受过训练的任务。“简而言之,RT-2 的能力在于将信息转化为行动,这显示了其快速适应新环境和情况的潜力。”

得益于大模型的快速进步,机器人产业迎来了质变,按照谷歌的迭代速度,或许明年就能看到更强大的RT-3。

研究机器人的不止谷歌,特斯拉也对机器人兴趣浓厚。今年5月,特斯拉发布了一个视频,5个人形机器人在工厂中直立行走,它们装备了很多传感器,能够探测周围环境,执行分拣物品等任务。特斯拉的机器人也在走AI路线,这家电动汽车厂商的CEO马斯克称,特斯拉正在尝试打通电动汽车的辅助驾驶软件(FSD)系统和人形机器人的底层模块,让机器人智商在线。

而倘若后续特斯拉机器人能够接入RT-2甚至更高级的大模型,机器人的能力预计又将大幅进步。

但越来越聪明的机器人,也加剧了人们对AI失控的担忧。大模型的软件应用可能会在网络学习中操控人类的思想、舆论,金属外壳的人形机器人直接具备了物理杀伤力。

有人在社交媒体发问,“人类是否亲手打开了一个潘多拉魔盒?”

如何规训机器人,仍然回到了大模型安全性这一老问题上,但这个问题至今还未在全球的研究与应用领域达成共识。

技术另一面的未知危机仍未解除,装上AI大脑的机器人出现了,你会期待还是警惕?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/824956.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

光线追踪会影响3D渲染速度吗?

什么是光线追踪? 光线追踪 是模拟光源在现实生活中如何反应的方法。它追踪光线到达物体的路径,真实地模拟光线如何反射回来,以创建准确的反射、折射、阴影和间接照明。 我们在光线追踪中经常遇到的术语之一是路径追踪。它们是一样的吗&#x…

有什么进行仓库出入库管理的软件?

公司的仓库管理一直都是难题,不论是仓库进货发货,还是仓库储存,每一步都至关重要。其实对于仓库管理系统来说,主要包括以下三个需求: 1.录入商品信息2.记录进出货过程3.查询分析仓库数据 那么有哪些进行仓库出入库管…

【Spring Boot】请求参数传json对象,后端采用(pojo)CRUD案例(102)

请求参数传json对象,后端采用(pojo)接受的前提条件: 1.Spring Boot 的启动类加注解:EnableWebMvc 2.Spring Boot 的控制层接受参数采用:RequestBody Spring Boot 启动类:加注解:En…

03 制作Ubuntu启动盘

1 软碟通 我是用软碟通制作启动盘。安装软碟通时一定要把虚拟光驱给勾选上,其余两个可以看你心情。 2 镜像文件 我使用清华镜像网站找到的Ubuntu镜像文件。 Index of /ubuntu-releases/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 请自己选择镜像…

关于视频汇聚融合EasyCVR平台多视频播放协议的概述

视频监控综合管理平台EasyCVR具备视频融合能力,平台基于云边端一体化架构,具有强大的数据接入、处理及分发能力,平台既具备传统安防视频监控的能力与服务,也支持AI智能检测技术的接入,可应用在多行业领域的智能化监管场…

【实操教程】如何开始用Qt Widgets编程?(一)

Qt 是目前最先进、最完整的跨平台C开发工具。它不仅完全实现了一次编写,所有平台无差别运行,更提供了几乎所有开发过程中需要用到的工具。如今,Qt已被运用于超过70个行业、数千家企业,支持数百万设备及应用。 在本文中&#xff0…

矩阵按键行列扫描法与反转扫描法:原理、代码实现

矩阵按键:行列扫描法与反转扫描法 通常情况下,按键按下时会产生低电平信号,按键一般用低电平表示按下状态。 当按键没有被按下时,通常处于高电平状态,这是因为按键连接到电路时,内部的上拉电阻或外部的上拉…

快速创建vue3+vite+ts项目

安装nodejs 创建项目 npm init vitelatest 默认之后回车 选择项目名字my-vue-project 选择vue框架 选择ts 运行项目 cd my-vue-project npm install --registryhttps://registry.npm.taobao.org npm run dev

2023年第四届“华数杯”数学建模思路 - 案例_ ID3-决策树分类算法

文章目录 0 赛题思路1 算法介绍2 FP树表示法3 构建FP树4 实现代码 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 算法介绍 FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法&…

容器技术:Docker搭建(通俗易懂)

目录 Docker搭建环境准备Docker安装1、查看服务器是否安装Docker2、卸载Docker3、安装Dokcer依赖环境4、配置Docker国内阿里云镜像5、安装Docker6、查看Docker信息7、配置阿里云镜像加速8、镜像安装10、运行实例11、查看实例状态12、测试 Docker命令集合 Docker搭建 环境准备 …

华为OD机试真题 JavaScript 实现【云短信平台优惠活动】【2023Q1 200分】,附详细解题思路

目录 一、题目描述二、输入描述三、输出描四、解题思路五、JavaScript算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测…

Linux - 进程概念

1.冯诺依曼体系结构 我们常见的计算机,如笔记本。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系 截至目前,我们所认识的计算机,都是由一个个的硬件组件组成 ● 输入单元:包括键盘, 鼠标&#xff0…

VMWare vSphere 7.0.3环境通过PowerCLI批量修改虚拟机网卡的连接状态及开机连接设置

为避免网络IP冲突,虚拟机模板的网卡设置是连接中断、开机连接中断的,在通过PowerCLI批量发布虚拟机后,本文尝试PowerCLI通过PowerCLI批量修改虚拟机网卡的连接状态及开机连接设置。 一、PowerCLI环境搭建 详见前文 VMWare vSphere 7.0.3环…

MySQL 在CentOS下安装

yum安装 1、yum源安装 yum install mariadb-server2、启动MySQL服务 systemctl start mariadb3、查看运行状态 systemctl status mariadb4、设置初始密码 mysql -u rootuse mysql;update user set passwordpassword("root")where userroot;flush privileges;e…

AI为图像构建测谎仪

互联网上充斥着有趣的假照片——从汽车上飞驰的鲨鱼和奶牛到令人眼花缭乱的名人混搭。然而,卷积神经网络(CNNs)生成的超现实图像和视频赝品绝非笑料——事实上,它们可能非常危险。Deepfake色情在2018年抬头,世界领导人…

DataSphere Studio- 1.1.1 安装部署(自动化脚本)

DSSLinkis Ansible一键安装脚本 DSS1.1.1 & Linkis 1.3.0 Ansible 一键部署脚本 作者:wubolive Q Q:1049635685 邮箱:wubolivefoxmai.com Github:https://github.com/wubolive/dss-linkis-ansible 一、简介 为解决繁琐…

Linux - 进程概念(进程状态、优先级)

1.进程状态 操作系统中进程有多种状态模型 三态模型 进程状态分为 就绪态,执行态,阻塞态。 就绪(Ready)状态:指进程已处于准备好运行的状态,即进程已分配到除CPU以外的所有必要资源后,只要再获得CPU,便可立…

分布式服务高可用实现:复制 | 京东物流技术团队

1. 为什么需要复制 我们可以考虑如下问题: 当数据量、读取或写入负载已经超过了当前服务器的处理能力,如何实现负载均衡? 希望在单台服务器出现故障时仍能继续工作,这该如何实现? 当服务的用户遍布全球,…

迅为iTOP-RK3568开发板是怎么样的呢

迅为iTOP-RK3568开发板是怎么样的呢 CPU方面:iTOP-3568开发板采用瑞芯微RK3568处理器,内部集成了四核64位Cortex-A55处理器。主频高达2.0Ghz,RK809动态调频。集成了双核心架构GPU,ARM G52 2EE、支持OpenGLES1.1/2.0/32OpenCL 2.0…