2023人形机器人行业海外科技研究:从谷歌看机器人大模型进展

news2024/11/22 15:36:06

今天分享的是人形机器人系列深度研究报告:《2023人形机器人行业海外科技研究:从谷歌看机器人大模型进展》。

(报告出品方:华鑫证券)

报告共计:26页

图片

图片

大模型是人形机器人的必备要素

长期来看,人形机器人的最大优势在于通用性:

人形机器人的特点在于泛化能力。如果只为解决单一或少数场景的应用,则特定专用机器人足以满足要求(如酒店服务机器人,扫地机器人等,从第一性原理来说,机器人之所以拟人,其根本目的在于完成多样化的任务一一能爬楼梯,能按电梯能提重物等完成所有人类所需的各种任务

通用性的实现依赖大模型的应用 (体现在感知与识别) :

大模型具有庞大的先验知识库与强大的通识理解能力。可以满足人形机器人通用性的场景要求和技能要求。不再仅限于完成某一类特定工作,而是进一步完成多类型任务。目前机器人的应用基础是代码,机器人工程师需要编写代码和规范来控制机器人行为,这个调试过程缓慢、昂贵且低效,使用场景有限。ChatGPT带来一种新的机器人应用范式,我们可以通过LLM将自然语言快速转换为代码。这样就可以解决大量的场景以及任务需求,有望大幅度降低了算法开发的复杂度,同时可以简化合并算法模型数量,提升开发效率。而传统算法模型即使经历大量的训练,仍存在较多小概率场景(corner case) 难以零盖,泛化能力较低。

图片

大模型是人形机器人的必备要素

人形机器人大模型所需的视频数据足够充足 (体现在后续的动作):

深度学习的本质是模仿,可以用大量的人类视频来进行预训练/模仿学习,之后再通过标注用Reinforcement Learning进行微调。机器人做成人形也是为大模型在机器人上的发展铺垫。

思维链条:

思维链(Chain of Thought,CoT)是一种思维工具,通过逐步延伸和拓展一个主要想法,帮助人们进行更深层次的思考,并得出更复杂、更全面的结论。在机器人大模型上,思维链可以帮助机器人拆分与分解一件事件如何完成,增加了先解码出计划的步骤,再解码需要完成任务需要输出的动作,在需要语义推理任务上效果更好。

在谷歌7月发布展示的具身大模型中RT-2中,机器人展示了类似视觉语言模型 (VLM) 的思维链,如: 选出与其他物品不同的物品:告诉机器人很困,让机器人拿饮料,机器人会拿红牛:让机器人完成锤钉子任务,但桌子上只有耳机线、石头、纸,使用思维链后机器人会拿石头等。

图片

图片

SayCan:谷歌机器人大模型的开端,连接LLM与具身智能

• 2022 年4月,谷歌推出 Say-can 模型。将任务拆分成两个部分,先是 “Say”,模型通过与谷歌的大语言模型结合, 把获得的任务进行分解,找到最适合当前行动;之后是“Can”,模型计算出当前机器人能够成功执行这一任务的概率。 机器人通过将二者结合起来,进行动作。例子:对机器人说“我的饮料撒了,你能帮助我吗”机器人会首先通过语言模型 进行任务规划,这时可能最合理的方式是找到一个清洁工、找到一个吸尘器,找一块海绵自己擦等。然后机器人会通过价 值函数计算出作为机器人,找到海绵自己擦是最佳方案。之后,机器人就会选择寻找海绵的动作。

• 亮点:首次引入大语言模型帮助理解任务,选择合适的任务规划。

• 不足:机器人的动作仍然是预设好的,因此只能完成特定任务。底层技能通用性和泛用性较差。只能输出高级指令。

图片

RT-1:用于动作控制的端到端模型

• 原理:RT-1模型输入图片以及自然语言指令,通过基于image net(图像分类数据集)的高效卷积神经网络将其输出成 为一系列与图片中任务相关的token,通过特征学习器将其转换成压缩的图像特征(image token),经过Transformer模型 解码得到离散的动作指令。

• 亮点:将任务通过Saycan拆分成具体的任务,然后使用RT-1去执行。可以执行700个现实中文字指令,并且泛用到新的 任务中(可以在三个未见过的厨房执行任务)。可以接受图片作为输入。训练了宝贵的数据集供使用,使用13个机器人历 经17个月收集了超过13万个轨迹。端到端的控制模型。

• 不足:对新任务的泛化实际上是以前见过的案例,只能接受出现过的指令。本质上是模仿学习,无法超越数据集的遥操 作。严格意义上不是“大模型”,无法从互联网规模(internet-scale)数据中受益。

图片

PaLM-E:多模态视觉语言具身大模型(VLM)

• 原理:由谷歌大语言模型PaLM与拥有220亿个参数的最大视觉模型ViT-22B结合而成,输入连续的视觉、状态、文字之 后,在已经预训练的大语言模型PaLM基础上进行端到端训练,用于多个具体任务,包括顺序机器人操作规划、视觉问题解 答和图像视频字幕描述。最终输出文本形式的高级任务指令(可以是问题的答案,也可以是PaLM-E以文本形式生成的一系 列决策,这些决策应由机器人执行)。

• 亮点:让机器人能够接收持续的多模态的输入(包括文本,图片,状态以及其他传感器模态),连续信息以类似于语言 标记的方式注入到语言模型中,并具有一定的推理能力。参数量级有明显提升,5620亿的参数模型。

• 不足:本质为大语言模型,对于动作的完成和指导较弱。只解决机器人的高级别指令,没有更基础层级的具体运动控制 相关指令。

图片

RT-2:控制机器人的视觉 - 语言 - 动作(VLA)大模型

• 原理:机器人数据仍然稀缺的背景下,收集到海量机器人数据难度太大。因此谷歌RT-2抛弃了RT-1从头训练 Transformer模型的方式,而是直接采用已有的视觉语言模型(VLM)作为主模型,再使用更适合机器人任务的方法对其进行微调(结合RT-1的视觉/语言/机器人动作数据集与互联网级别数据共同微调co-fine-tuning),最终输出机器人行为字符串。

• 在这种训练方式下,机器人模型拥有一个已经预训练好的VLM模型,可以理解成一个互联网数据级别的常识系统,能够 识别物体、了解物体。而在后续的微调阶段,再加入机器人实际抓取物体的数据集。

• 效果:在符号理解,推理和人类识别三项考核中,RT-2的正确率是对照组(RT-1/VC-1)的三倍。而在泛化性上,没见 过的物体,没见过的背景,没见过的环境等方面,RT-2相比对照组有一倍的提升。

• 亮点:包含chain of thought的第一次涌现。直接 生成较为具体的运动人运动指令。既能够从互联网规 模数据中学习(RT-1做不到),又能够输出机器人所 需的具体的动作指令。(SayCan、PaLM-E做不到)。 相较于SayCan与RT-1的分拆执行的双层模型架构, RT-2在训练模型时候就学习视觉、语言、机器人行为, 直接产生动作输出。

• 不足:场景仍然局限,主要为桌面任务。虽然RT-2 对于物体和位置的认知拥有了互联网级别的数据训练, 可以去拓展新的任务,但是具体动作微调较为依赖 RT-1的数据集,而此类数据仍然较为昂贵。本质上大 模型主要还是体现在VLM相关方面,也就是在语言和 视觉概念,在物理控制层面没有办法获得更强的能力。 后期改善将依赖于视频学习的方法。最后,目前运行 VLA模型的成本仍然太高,后续希望能够有更多新的 底层架构VLM模型出炉。(目前论文主要是PaLM-E 和PaLI-X)

图片

图片

RT-X:具身智能大数据集Open X加持的RT-2与RT-1

• 背景:希望能够开发一个通用X-robot,可以高效地适应到新的机器人、任务、环境。

• 原理:创造了新能的具身智能大数据集Open X:汇集了来自21个机构的22个不同机器人的数据,包含527个技 能和160266个任务。并用此数据集训练前述的机器人模型RT-1和RT-2得到新的模型RT-1-X与RT-2-X。

• 效果:RT-1-X模型较原有RT-1或数据集原始模型的成功率有50%的提高,值得注意的是RT-1-X与RT-1的架构是相同的,因此性能的提高 完全是依靠数据训练的提升。 RT-2-X模型能够展现RT-2此前所不具备的技能,比如对相对和绝对位置的认知。在涌现能力上RT-2-X也是RT-2的三倍。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1249790.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【第一部也是唯一一部】3DMAX脚本语言MAXScript 中文帮助

3DMAX我们很多3D设计师和艺术家都在使用这款功能强大的三维软件,但是再强大的工具也不可能包罗万象,无所不能,所以,通常官方努力在功能和性能平衡之间的同时,也提供第三方扩展软件功能的可能—插件开发。 3DMAX插件开发…

YOLOV7主干改进,使用fasternet轻量化改进主干(完整教程)

1,Pconv(来自Fasternet)(可作为模型中的基础卷积模块使用) 论文链接:https://arxiv.org/abs/2303.03667 2,为了大家方便的使用,这里我对原本的PConv的代码做了部分的改动&#xff0…

从0开始学习JavaScript--JavaScript数据类型与数据结构

JavaScript作为一门动态、弱类型的脚本语言,拥有丰富的数据类型和数据结构,这些构建了语言的基础,为开发者提供了灵活性和表达力。本文将深入探讨JavaScript中的各种数据类型,包括基本数据类型和复杂数据类型,并介绍常…

Redis-缓存高可用集群

Redis集群方案比较 哨兵模式 性能和高可用性等各方面表现一般,特别是在主从切换的瞬间存在访问瞬断的情况。另外哨兵模式只有一个主节点对外提供服务,没法支持很高的并发,且单个主节点内存也不宜设置得过大,否则会导致持久化文件过…

武汉数字孪生赋能工业制造,加速推进制造业数字化转型

随着数字孪生技术的不断推进,互联网、物联网、智能传感技术开始应用到数控机床的远程服务,状态监控,故障诊断,维护管理等方面。武汉数字孪生是在虚拟空间中创建物理对象的高保真虚拟模型,以模拟其在现实世界中的行为提…

linux 内存回收mglru算法代码注释2

mglru与原lru算法的兼容 旧的lru算法有active与inactive两代lru,可参考linux 内存回收代码注释(未实现多代lru版本)-CSDN博客 新的算法在引入4代lru的同时,还引入了tier的概念。 新旧算法的切换的实现在lru_gen_change_state&a…

远程网络监控(RMON)

远程网络监控是一个使 IT 团队能够获得远程网络可见性的过程,它涉及主动监控网络以帮助网络无缝运行,这些监控远程网络的系统提供对性能的实时洞察,及时检测问题并在影响最终用户之前解决问题。这样,远程网络虽然相距遥远&#xf…

开源与闭源

我的观点: 开源与闭源软件都有各自的优势和劣势,没有绝对的对错之分。.. 一、开源和闭源的优劣势比较 开源的好处与劣处 优势: 创新与合作:开源软件能够吸引更多的开发者参与到项目中来,促进创新和合作。开放的源代码…

昇腾Atlas 200I DK A2实现安全帽识别

文章目录 环境依赖编译测试总结 环境依赖 软件版本说明获取方式mxVision5.0.RC2mxVision软件包获取方式Ascend-CANN-toolkit6.2.RC2Ascend-cann-toolkit开发套件包获取方式Ubuntu22.04 代码仓库地址: https://gitee.com/ascend/ascend_community_projects/tree/31…

使用 Lhotse 高效管理音频数据集

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。 主要目标: 1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。 2. 为有经验的 Kaldi 用户提供…

【ELK02】ES的重要核心概念和索引常用操作-索引文档管理、文档搜索

一、ELASTICSEARCH核心概念 1.ES中的重要概念 1.1索引(index) 类似于关系型数据中的库-database,一个es的集群中可以有多个索引,每个索引都是一批独立的存储数据,按照一定的数据结构保存,方便查询. 1.2类型(type) 类似于关系型数据库中的表格-table,一个索引中可以有多个类…

Leetcode---372周赛

题目列表 2937. 使三个字符串相等 2938. 区分黑球与白球 2939. 最大异或乘积 2940. 找到 Alice 和 Bob 可以相遇的建筑 一、使三个字符串相等 这题把题目意思读懂,正常模拟就行,简单来说就是看三个字符串的最长公共前缀有多长, 代码如下…

Redis Cluster主从模式详解

在软件的架构中,主从模式(Master-Slave)是使用较多的一种架构。主(Master)和从(Slave)分别部署在不同的服务器上,当主节点服务器写入数据时,同时也会将数据同步至从节点服…

【计算机网络笔记】数据链路层——差错编码

系列文章目录 什么是计算机网络? 什么是网络协议? 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能(1)——速率、带宽、延迟 计算机网络性能(2)…

亚马逊云科技re:Invent大会:云计算与生成式AI共筑科技新局面,携手构建未来

随着科技的飞速发展,云计算和生成式 AI 已经成为了推动科技进步的重要力量。这两者相互结合,正在为我们创造一个全新的科技局面。 亚马逊云科技的re:Invent大会再次证明了云计算和生成式AI的强大结合正在塑造科技的新未来。这次大会聚焦了云计算的前沿技…

通过ros系统中websocket中发送sensor_msgs::Image数据给web端显示(二)

通过ros系统中websocket中发送sensor_msgs::Image数据给web端显示(二) mp4媒体流数据 #include <ros/ros.h> #include <signal.h> #include <sensor_msgs/Image.h> #include <message_filters/subscriber.h> #include <message_filters/synchroniz…

DNS 区域传输 (AXFR)

漏洞描述 docker环境搭建 使用 AXFR 协议的 DNS 区域传输是跨 DNS 服务器复制 DNS 记录的最简单机制。为了避免在多个 DNS 服务器上编辑信息&#xff0c;可以在一台服务器上编辑信息&#xff0c;并使用 AXFR 将信息复制到其他服务器。但是&#xff0c;如果您不保护您的服务器&…

图论——最小割问题

Capacity&#xff08;S&#xff0c;T) Min-Cut(通俗的说就是用最小的力气隔断&#xff09; 最小割并不唯一 最大流最小割定理 对于一个网络流问题&#xff0c;最大流的流量最小割的容量 寻找最小割 可以使用Edmonds-karp or Dinic algorithm 首先寻找任意一个最大流&#xff…

浏览器是什么

浏览器是什么 本文简要介绍浏览器的功能和组成。 浏览器&#xff08;Web Browser&#xff09;是一种用于访问和浏览互联网上的网页和资源的软件应用程序。它是用户与互联网交互的主要工具之一。 浏览器通过使用网络协议&#xff08;如HTTP、HTTPS等&#xff09;与远程服务器通…

杰发科技AC7801——ADC软件触发的简单使用

前言 7801资料读起来不是很好理解&#xff0c;大概率是之前MTK的大佬写的。在此以简单的方式进行描述。我们做一个简单的规则组软件触发Demo。因为规则组通道只有一个数据寄存器&#xff0c;因此还需要用上DMA方式搬运数据到内存。 AC7801的ADC简介 7801的ADC是一种 12 位 逐…