机器人策略学习的Game Changer?伯克利提出Body Transformer

news2024/9/22 9:34:19
过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。

点击访问我的技术博客https://ai.weoknow.comicon-default.png?t=N7T8https://ai.weoknow.com

我们知道,物理智能体在执行动作的校正和稳定时,往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应回路位于脊髓神经回路层面,它们专门负责单个执行器的响应。起校正作用的局部执行是高效运动的主要因素,这对机器人来说也尤为重要。

但之前的学习架构通常都没有建立传感器和执行器之间的空间关联。鉴于机器人策略使用的架构基本是为自然语言和计算机视觉开发的架构,它们常常无法有效地利用机器人机体的结构。

不过,Transformer 在这方面还是颇具潜力的,已有研究表明,Transformer 可以有效地处理长序列依赖关系,还能轻松地吸收大量数据。Transformer 架构原本是为非结构化自然语言处理(NLP)任务开发的。在这些任务中(比如语言翻译),输入序列通常会被映射到一个输出序列。

基于这一观察,加州大学伯克利分校 Pieter Abbeel 教授领导的团队提出了 Body Transformer(BoT),增加了对机器人机体上的传感器和执行器的空间位置的关注。

图片

  • 论文标题:Body Transformer: Leveraging Robot Embodiment for Policy Learning

  • 论文地址:https://arxiv.org/pdf/2408.06316v1

  • 项目网站:https://sferrazza.cc/bot_site

  • 代码地址:https://github.com/carlosferrazza/BodyTransformer

具体来说,BoT 是将机器人机体建模成图(graph),其中的节点即为其传感器和执行器。然后,其在注意力层上使用高度稀疏的掩码,以防止每个节点关注其直接近邻之外的部分。将多个结构相同的 BoT 层连接起来,就能汇集整个图的信息,这样便不会损害该架构的表征能力。BoT 在模仿学习和强化学习方面都表现不俗,甚至被一些人认为是策略学习的「Game Changer」。

Body Transformer

如果机器人学习策略使用原始 Transformer 架构为骨干,则通常会忽视机器人机体结构所提供的有用信息。但实际上,这些结构信息能为 Transformer 提供更强的归纳偏置。该团队在利用这些信息的同时还保留了原始架构的表征能力。

Body Transformer(BoT)架构基于掩码式注意力。在这个架构的每一层中,一个节点都只能看到其自身和其直接近邻节点的信息。如此一来,信息就会依照图的结构而流动,其中上游层会根据局部信息执行推理,下游层则能汇集更多来自更远节点的全局信息。

图片

如图 1 所示,BoT 架构包含以下组件:

1.tokenizer:将传感器输入投射成对应的节点嵌入;

2.Transformer 编码器:处理输入嵌入并生成同样维度的输出特征;

3.detokenizer:解除 token 化,即将特征解码成动作(或用于强化学习批评训练的价值)。

tokenizer

该团队选择将观察向量映射成局部观察构成的图。

在实践中,他们将全局量分配给机器人机体的根元素,将局部量分配给表示对应肢体的节点。这种分配方式与之前的 GNN 方法类似。

然后,使用一个线性层将局部状态向量投射成嵌入向量。每个节点的状态都会被馈送给其节点特定的可学习的线性投射,从而得到一个包含 n 个嵌入的序列,其中 n 表示节点的数量(或序列长度)。这不同于之前的研究成果,它们通常仅使用单个共享的可学习的线性投射来处理多任务强化学习中不同数量的节点。

BoT 编码器

该团队使用的骨干网络是一个标准的多层 Transformer 编码器,并且该架构有两种变体版本:

  • BoT-Hard:使用一个反映该图结构的二元掩码来掩蔽每一层。具体来说,他们构建掩码的方式是 M = I_n + A,其中 I_n 是 n 维单位矩阵,A 是对应于该图的邻接矩阵。图 2 展示了一个示例。这让每个节点仅能看到其自身和其直接近邻,并且能为该问题引入相当可观的稀疏性 —— 从计算成本角度看,这特别有吸引力。

图片

  • BoT-Mix:将带有掩码式注意力的层(如 BoT-Hard 一样)与带有无掩码式注意力的层交织在一起。

detokenizer

Transformer 编码器输出的特征会被馈送给线性层,然后被投射成与该节点的肢体关联的动作;这些动作是根据相应执行器与肢体的接近程度来分配的。同样,每个节点的这些可学习的线性投射层是分开的。如果将 BoT 用作强化学习设置中的批评架构,则 detokenizer 输出的就不再是动作,而是价值,然后在机体部位上取平均值。

实验

团队在模仿学习和强化学习设置中评估了 BoT 的性能。他们维持了与图 1 相同的结构,只用各种基线架构替换 BoT 编码器,以确定编码器的效果。

这些实验的目标是解答以下问题:

  • 掩码式注意力是否能提升模仿学习的性能和泛化能力?

  • 相比于原始的 Transformer 架构,BoT 是否能表现出正面的规模扩展趋势?

  • BoT 是否与强化学习框架兼容,有哪些合理设计选择可以尽可能地提升性能?

  • BoT 策略是否可以应用于真实世界机器人任务?

  • 掩码式注意力在计算方面有哪些优势?

模仿学习实验

团队在机体跟踪任务上评估了 BoT 架构的模仿学习性能,该任务是通过 MoCapAct 数据集定义的。

结果如图 3a 所示,可以看到 BoT 的表现总是优于 MLP 和 Transformer 基线。值得注意的是,在未曾见过的验证视频片段上,BoT 相对于这些架构的优势还会进一步增大,这证明机体感知型归纳偏置能带来泛化能力的提升。

图片

而图 3b 则表明 BoT-Hard 的规模扩展性很不错,相较于 Transformer 基线,其在训练和验证视频片段上的性能都会随着可训练参数量的增长而增长这进一步表明 BoT-Hard 倾向于不过拟合训练数据,而这种过拟合是由具身偏置引起的。下面展示了更多实验示例,详见原论文。

图片

图片

强化学习实验

该团队在 Isaac Gym 中的 4 个机器人控制任务上评估了 BoT 与使用 PPO 的基线的强化学习性能。这 4 个任务分别是:Humanoid-Mod、Humanoid-Board、Humanoid-Hill 和 A1-Walk。

图 5 展示了 MLP、Transformer 和 BoT(Hard 和 Mix)在训练期间的评估 rollout 的平均情节回报。其中,实线对应于平均值,阴影区域对应于五个种子的标准误差。

图片

图片

结果表明,BoT-Mix 的性能在样本效率和渐近性能方面始终优于 MLP 和原始 Transformer 基线。这说明将来自机器人机体的偏置整合进策略网络架构是有用的。

同时,BoT-Hard 在较简单的任务(A1-Walk 和 Humanoid-Mod)上的表现优于原始 Transformer,但在更困难的探索任务(Humanoid-Board 和 Humanoid-Hill)上表现却更差。考虑到掩码式注意力会妨碍来自远处机体部分的信息传播,BoT-Hard 在信息通信方面的强大限制可能会妨碍强化学习探索的效率。

真实世界实验

Isaac Gym 模拟的运动环境常被用于将强化学习策略从虚拟迁移到真实环境,并且还不需要在真实世界中进行调整。为了验证新提出的架构是否适用于真实世界应用,该团队将上述训练得到的一个 BoT 策略部署到了一台 Unitree A1 机器人中。从如下视频可以看出,新架构可以可靠地用于真实世界部署。

图片

计算分析

该团队也分析了新架构的计算成本,如图 6 所示。这里给出了新提出的掩码式注意力与常规注意力在不同序列长度(节点数量)上的规模扩展结果。

图片

可以看到,当有 128 个节点时(相当于拥有灵巧双臂的类人机器人),新注意力能将速度提升 206%。

总体而言,这表明 BoT 架构中的源自机体的偏置不仅能提高物理智能体的整体性能,而且还可受益于架构那自然稀疏的掩码。该方法可通过充分的并行化来大幅减少学习算法的训练时间。

点击访问我的技术博客https://ai.weoknow.comicon-default.png?t=N7T8https://ai.weoknow.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057702.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大语言模型 (LLM)是什么_

01.语言模型与大语言模型 2023年,让整个人类最为振奋的AI技术就是ChatGPT。“大语言模型(Large Language Model)”这个词也随之映入人们的眼帘。ChatGPT让人觉得惊艳之处,能够结合上下文,像人一样有逻辑性地回答问题&…

用Python在Ashare获取金融数据官方文档解读

Ashare,也被写作AKShare,是一个基于Python的开源完全免费的财经数据接口库。它的主要目的是为用户提供股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据的采集、清洗和落地的一整套工具。AKSha…

智慧空调离线语音控制方案:NRK3301芯片的深度解析与应用

随着AI技术的大爆发和智能家居的风潮,语音交互已成为智能家居产品的一项必备技能,在家电、音箱、穿戴设备乃至墙壁开关等贴近生活的产品中应用越来越广泛,智能语音识别是当前最热门的方案之一。 九芯智能顺应家居行业智能语音交互市场需求&a…

平面设计艺术:从基础到精通

平面设计是一门结合视觉艺术与技术技能的学科,旨在通过视觉元素传达信息和美感。本文将为初学者提供一个全面的平面设计入门指南,涵盖基础理论、设计流程和实用技巧。在平面设计中,创意和技术相辅相成。设计师使用强大的平面设计工具&#xf…

【C++】入门篇一

【C】入门篇一 一 .缺省参数1.缺省参数的概念2. 缺省参数分类 二. 函数重载1. 函数重载概念2.函数重载代码举例 三.引用1.引用的概念2. 引用特性3. 常引用4. 使用场景(1). 做参数(2). 做返回值 5. 传值、传引用效率比较6. 引用和指针的区别7.引用和指针的不同点 一 .缺省参数 …

实验十 编写子程序《汇编语言》- 王爽

一. 显示字符串 1. 需求 显示字符串是现实工作中经常要用到的功能,应该编写一个通用的子程序来实现这个功能。我们应该提供灵活的调用接口,使用者可以决定显示的位置(行、列)、内容和颜色。 子程序描述 名称:show_str…

【目标检测】Transformers在小目标检测中的应用:最新技术的基准测试和调查

《Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art》 Transformers在小目标检测中的应用:最新技术的基准测试和调查 原文:https://arxiv.org/abs/2309.04902 1 研究背景和目的 小目标检测(SOD&#x…

calico安装

3.20 版本 https://blog.csdn.net/weixin_42094245/article/details/131633980 手动创建了/var/lib/calico/nodename 手动更新了这2个资源 ll /etc/cni 摆烂了 装个3.8.0的 curl 172.30.30.64:32568 curl: (7) Failed connect to 172.30.30.64:32568; Connection timed o…

修复线上问题,又造成了个Bug

项目场景 这是一位朋友给我分享的实际线上问题,看似简单却害了项目再次造出一个bug来。 场景:线上环境中,需要查询某某业务数据,条件是状态,之前产品只要求查两个状态的,但现在让他再多查一个状态的。 自…

编程思维模式比编程语言内容等更重要也更难传授-2024-机器人篇

历程 在2015年起步,然后不断迭代更新优化。 2019:机器人编程实践-ROS2基础与应用- 第四版纲要 里面的重点就是机器人编程的方法论! 2022:机器人编程实践-ROS2基础与应用-第⑦版 2022:ROS2机器人编程实践基础与应用…

macOS系统(intel)编译MAVSDK安卓平台so库

1.克隆mavsdk源码: git clone https://github.com/mavlink/MAVSDK.git --recursive 生成makefile前先手动修改protobuf版本为最新的(如:27.3) 下载的与你安装的版本要一致: 手动编译并安装libLZMA与openssl 如proto文件有修改,需要手动运行 ./tools/generate_from_protoc.sh重…

9 正则表达式:Java爬虫和正则表达式、String中的正则表达式方法(基本语法7)

文章目录 前言一、正则表达式1 [ ] 语法(1)[ABC] 和 [^ABC](2)[A-Z]和[a-zA-Z]小总结2 特殊字符语法(\w 这些)3 数量符4 \ 、()、 |5 锚点 ^ 和 $,\b,\B6 (?i) : 忽略其后面的大小写 ---- 这个Java是可以的,其他语言我不知道(正则表达式虽然大多通用,但也有部分是…

2018年高教社杯全国大学生数学建模竞赛(ABCD题)题目及附件

数学建模练习,老师发了一个2018年的C题论文,让我们复现,结果找题目附件找好长时间,都是泪……好在最后找到了,给大家分享一下。 2018年的数学建模C题不知道官网的链接打不开了已经,找附件找了好长时间………

第1章-03-VS Code开发工具安装

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲。 🎉欢迎 👍点赞✍评论⭐收…

智能微气候:精准调控背后的算法革命

( 于景鑫 国家农业信息化工程技术研究中心)当人工智能遇见现代农业,会擦出怎样的火花?随着数字农业、智慧农业的蓬勃发展,人工智能技术正以前所未有的速度渗透到农业生产的方方面面。其中,以深度学习为代表的前沿算法,尤其是大语言模型(LLM),正在成为驱…

【实战教程】一键升级CentOS 7.9.2009至OpenSSL 1.0.2u:加固你的Linux服务器安全防线!

文章目录 【实战教程】一键升级CentOS 7.9.2009至OpenSSL 1.0.2u:加固你的Linux服务器安全防线!一、 背景二、 升级步骤2.1 检查 OpenSSL 版本2.2 安装 OpenSSL 依赖包2.3 下载 OpenSSL 的新版本2.4 解压缩下载的文件2.5 编译并安装 OpenSSL2.5.1 切换到…

Android Forensics with Belkasoft

本课程专为需要在工作中处理 Android 设备并希望增强知识并获得 Android 获取和分析实践经验的数字取证调查员而设计。 您将学到什么? 如何使用Android采集的基本和高级方法,例如基于ADB和APK降级采集 可以使用哪些特定于芯片组的采集方法 如何分析 Andr…

Android实战:实现注册界面

目录 前言 布局图 实现过程 1.导入图片 2.创建分割线样式 3.创建文本样式 4.创建输入框样式 5.XML布局文件 测试 6.实现注册功能 前言 在前面,我们已经学习了一些常见的界面布局和界面控件,那么本篇我们就来结合前面所学的知识,来…

导入导出常见的空指针异常NULLPointException

使用row.getCell()方法去判断是否为空 若不为空再获取 不确定excel文件里的单元格类型 可以使用row.getCell().getCellTypeEnum() 去判断是什么类型 若要把从数据库查询出来的数据导出到excel表格中 要先判断内容是否为空

Spring Boot + MyBatis-Plus 实现 MySQL 主从复制动态数据源切换

Spring Boot MyBatis-Plus 实现 MySQL 主从复制动态数据源切换 一、前言1. 添加依赖2. 配置主从数据源3. 创建数据源配置类4. 创建数据源上下文5. 定义数据源类型6. 配置数据源切换7. 创建DynamicDataSourceConfig8. 创建DynamicRoutingDataSource9. 创建注解10. 使用注解 一、…