【论文阅读】skill code 和 one-shot manipulate

news2024/9/20 20:34:51

文章目录

  • 1. Interpretable Robotic Manipulation from Language
    • 针对痛点和贡献
    • 摘要和结论
    • 引言
    • 模型框架
    • 实验
    • 思考不足之处
  • 2. One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation
    • 针对痛点和贡献
    • 摘要和结论
    • 引言
    • 模型框架
    • 实验

1. Interpretable Robotic Manipulation from Language

针对痛点和贡献

痛点:

  • 人类自然地使用语言指令来传递知识,这一过程对于机器来说证明更为复杂,尤其是在多任务机器人操控环境的背景下。

贡献:

  • 我们提出了Ex-PerAct,这是一种分层模仿学习方法,有效地整合了包括3D体素和语言指令在内的多种模态,从而在任务中实现了竞争性的性能。
  • 我们的方法展示了Ex-PerAct在跨任务中提取可重用技能的能力,为多任务机器人操控领域提供了显著的优势。
  • Ex-PerAct在人类可理解的自然语言和机器可用向量之间建立了关键的联系,增强了行为模式和语言指令的可解释性。

摘要和结论

  • 自然语言,作为人类获取新知识的首要媒介,为将人类理解的概念转化为机器可学习格式提供了潜在的直观桥梁。
  • 在顶层,模型的任务是学习离散的技能代码;而在底层,策略网络将问题转化为体素化网格,并将离散化的动作映射到体素网格上。

引言

  • 自然语言的整合有望加强任务之间的联系,从而促进在类似任务中重用获得的技能。
  • 然而,训练一个语言条件的多任务模型面临着重大挑战。首先,语言指令由于常识推理的固有局限性,往往未能完全阐明任务。例如,“打开抽屉”的指令可能会忽略定位和抓取抽屉把手等关键步骤,从而阻碍了对类似活动中隐含子任务的总结和重用。
  • Ex-PerAct由两个顺序的基于transformer的模型组成。顶层模型将不同任务的技能凝聚成离散的技能代码,为分段演示片段提供全面的总结。该模型作为连接人类可理解的自然语言和数字技能向量的至关重要的桥梁,从而促进在类似任务中重用凝聚技能。为了以无监督的方式对这些技能向量进行聚类,我们采用了向量量化(VQ)。至于底层模型,我们利用了最先进的PerAct[29]

The top-level model condenses skills from diverse tasks into discrete skill codes, providing a comprehensive summary of segmented demonstration snippets.

模型框架

核心概念涉及在更高层次上提取离散技能代码以桥接自然语言指令与观察结果,同时在较低层次上学习策略网络,从提取的技能代码、语言嵌入和观察-动作对中学习。
技能代码是无监督学习得到的,并在自然语言和多任务学习方面增强了可解释性。

在顶层,一个变压器模型从单个语言指令和一系列观察中学习离散技能代码,表示为f(O, L) → C。与此同时,底层变压器以命令条件行为克隆方式学习策略,表示为π(O, C, L) → A

流程:
使用CLIP将自然语言指令转换成嵌入向量。
顶层模型处理这些嵌入向量,并生成一系列技能代码,比如“打开抽屉”、“抓取牛排”和“放置到盘子上”。
底层模型结合这些技能代码和观察到的3D环境状态,决定机器人每一步的具体动作。
动作通过体素化网格的形式表示,例如移动夹持器到牛排的位置、抓取牛排、然后移动到盘子上方并释放牛排。

在这里插入图片描述

实验

在这里插入图片描述

思考不足之处

鉴于 ExPERACT 能够容纳各种形式的语言指令,开发一个模型来分解各种语言指令以配合轨迹关键点,可能是进一步提高可解释性的一个有趣方向。

此外,ExPERACT 在长期任务和 high variability 的任务中也面临挑战。

2. One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

具有不变性匹配的一次性模仿学习,用于机器人操作

针对痛点和贡献

痛点:

  • 现有技术受限于只能学习在训练期间遇到的那些任务,并且需要大量的演示来学习新任务
  • 此外,在新任务上训练这些策略需要每个任务数百次演示,这导致了对旧任务的灾难性遗忘。

机器人能否学习一个操纵策略,该策略不仅在基础任务上表现良好,而且在使用单一演示且无需任何微调的情况下泛化到新的未见任务?

摘要和结论

  • 我们提出了一种名为不变匹配一次性策略学习(Invariance-Matching One-shot Policy Learning, IMOP)的算法。与直接学习末端执行器姿态的标准实践不同,IMOP首先学习给定任务状态空间的不变区域,然后通过匹配演示和测试场景之间的不变区域来计算末端执行器的姿态。

引言

  • one shot 模仿学习旨在学习一组基本任务,并泛化到新任务,只给出每个新任务的单一演示,而无需重新训练。
  • 现有的方法依赖于强有力的假设,例如要求新任务是同一基础任务[42]的有限变化,要求基础和新任务具有相同的对象设置[11],只概括已知3D模型[2]的某些类别的对象的特定动作,或者在简单的2D平面环境中操作[13]。此外,最近的工作集中在将一般流行的技术(如transformer和扩散模型)应用于一次性模仿设置,而不利用机器人操作任务的特定结构。
  • 与直接学习期望的末端执行器姿态不同,IMOP学习每个任务的关键不变区域,并在一个一次性演示和一个给定测试场景之间找到不变区域之间的配对对应关系。配对对应关系用于通过点集配准问题的最小二乘解来解析计算测试场景中期望的末端执行器姿态。不变区域被定义为一组3D点,当在末端执行器框架中观察时,它们的坐标在共享相同语义动作的状态间保持不变。我们设计了一个基于图的不变区域匹配网络。不变区域是通过连接演示和测试场景的点云的KNN图上的邻域注意力[48]来定位的。

在这里插入图片描述
不变区域是:(1)杯子表面的一组 3D 点,与指尖接触,以及(2),来自碗点云的一组 3D 点,捕捉其球形凹形。三维点云的不变区域是从未注释的演示离线学习的,在各种对象和任务上。

模型框架

在这里插入图片描述

我们提出的不变区域预测和匹配网络的总体框架如图3所示。我们首先通过将每个点连接到同一场景内的k个最近点来为每个场景点云构建KNN图。接下来,我们在每个支持场景si内应用图自注意力,并在同一个支持演示中的连续帧si和s′ i之间的KNN图上应用图交叉注意力。与传统的全局计算所有点的注意力不同,图注意力在每个给定点的局部邻域内操作。我们使用点变换器层[40]作为图注意力算子。不变区域I(si)通过在si上应用逐点sigmoid被预测为一组激活点。然后,我们应用I(si)的KNN图和查询状态sj之间的图交叉注意力层来提取点特征hI(si) ∈ R|I(si)|×D和hsj ∈ R|sj|×D,其中D表示特征维度的大小。最后,我们通过hI(si)和hsj之间的双重softmax匹配[27]来获得对应矩阵C ∈ [0, 1]|I(si)|×|sj|:

    1. Correspondence-based Pose Regression:基于对应的姿势回归
      在这里插入图片描述
      其中Ti是支持状态si的演示动作姿态,PI(si)和Psj分别是I(si)和sj中的点,C是预测的对应矩阵。C可以被解释为一个分配矩阵,将I(si)中的每个点映射到sj中的一个点。根据定义III.1,当对应矩阵C中的点映射产生最小的整体成对距离时,最优动作姿态Tj是方程1的解。

在这里插入图片描述

    1. State Routing Network:

在这里插入图片描述

  • **训练:**为了训练IMOP,我们假设实例分割结果是可用的。我们使用RLBench[24]提供的分割掩码。请注意,在推理期间IMOP不需要任何分割。遵循RVT[17]和PerAct[38]的惯例,我们使用C2FARM[25]中的关键帧提取过程将每个状态表示为宏步骤。在每次训练迭代中,如果|τi| = |τj|,则采样两个轨迹τi和τj。状态路由网络使用焦点损失[30]进行训练,以预测si ≡ sj(即si和sj共享相同的操纵动作),如果si和sj具有相同的时间步,反之亦然。设{ci,n}N n=1表示N个实例片段,其中每个片段ci,n ∈ si是si中的一组3D点,表示对象实例。为了训练不变区域匹配网络,我们按以下方式估计方程2中的真值I(si),

实验

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入理解快排【C语言版】

目录 一、快排介绍及其思想 二、hoare版本 三、前后指针版 四、挖坑法 五、优化版本 5.1 三数取中 5.2 小区间优化 六 、非递归实现快排 七、三路划分 八、introsort 小结 一、快排介绍及其思想 快速排序是C.R.A.Hoare于1962年提出的一种划分交换排序。它采用了一…

掌握CompletableFuture,提升你的代码效率!

文章目录 1 CompletableFuture与线程池之间有什么关系?2 如何优化CompletableFuture的性能?3 实际项目中,以并行执行多个HTTP请求为例,你会如何优雅使用CompletableFuture 解决问题? 1 CompletableFuture与线程池之间有…

计算机毕业设计选题推荐-在线音乐网站-音乐专辑商城-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

埃隆·马斯克超级计算新里程碑:Cortex AI超级集群震撼亮相!

本周,科技界的超级明星埃隆马斯克再次引领潮流,他在超级计算领域的征途上迈出了令人瞩目的步伐。通过一段视频,他首次公开了最新命名的“Cortex”人工智能超级集群,这一壮举不仅标志着特斯拉“Giga Texas”工厂的又一次重大扩张&a…

LeetCode_sql_day17(1843.可疑银行账户)

描述: 表:Accounts ---------------------- | Column Name | Type | ---------------------- | account_id | int | | max_income | int | ---------------------- account_id 是这张表具有唯一值的列。 每行包含一个银行账户每月最大收入的…

提供开发资料 Hi3516CV610-00B/10B/20B/00S/20S/00G/20G 七个型号配置差异

根据功能不同, Hi3516CV610 分为七个不同型号版本: HI3516CV610-00B HI3516CV610-00B HI3516CV610-10B HI3516CV610-20B HI3516CV610-00S HI3516CV610-20S HI3516CV610-00G HI3516CV610-20G

【书生2.1】书生大模型全链路开源体系

0 引言 书生浦语官网 开源一周年总结及回顾 1 回顾 1.1 社区生态 2 总结 书生浦语大模型的开源开放体系,包括技术发展、性能提升、模型架构、开源生态等。 要点: 🌟 开源开放体系涵盖数据收集、标注、训练、微调、评测、部署等全链路。 &#x1f68…

【案例64】无法从套接字读取更多的数据

问题现象 系统突然间登录报如下错误:SELECT * FROM sm_user WHERE user_code_q? 无法从套接字读取更多的数据 问题分析 查看nc-log.log发现大量相关报错 $$callid1723104097968-1063 $$thread[http-bio-xxx-xxx-exec-xxx] $$hostxxx$$userid#UAP# $$tsxxx-08-08…

C++竞赛初阶L1-14-第六单元-数组(31~33课)542: T456472 数组逆序重存放

题目内容 将一个数组中的值按逆序重新存放。例如&#xff0c;原来的顺序为 8,6,5,4,1。要求改为 1,4,5,6,8。 输入格式 输入为两行&#xff1a;第一行数组中元素的个数 n&#xff08;1<n≤100)&#xff0c;第二行是 n 个整数&#xff0c;每两个整数之间用空格分隔。 输出…

Windows安装PostgreSQL数据库,保姆级教程

PostgreSQL 是客户端/服务器关系数据库管理系统 (RDMS)。PostgreSQL是一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统&#xff08;RDBMS&#xff09;。PostgreSQL 也有自己的查询语言&#xff0c;称为 pgsql。 此外&#xff0c;PostgreSQL 还支持过程语言&a…

Cesium模型封装-Point

一、初始化地图 <template><div class"cesium_map"><div id"cesiumContainer"></div></div> </template><script setup> import { reactive, ref, onMounted } from "vue"; import { Point } from &…

基于yolov8的安全帽反光衣护目镜检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的安全帽、反光衣及护目镜检测系统是一款集成了前沿深度学习与计算机视觉技术的智能监控系统。该系统利用YOLOv8这一尖端的目标检测模型&#xff0c;结合云计算与自动化图像处理技术&#xff0c;实现对工地、化工厂、煤矿等高风险作业区域工作人员安全…

Java—方法引用

目录 初识方法引用 方法引用的分类 引用静态方法 引用成员方法 引用构造方法 其它调用方式 类名引用成员方法 引用数组的构造方法 总结 初识方法引用 方法引用就是拿现有的方法来当做函数式接口中抽象方法的方法体。 方法引用注意事项 1. 引用处必须是函数式接口&a…

初识JAVA(上)

&#x1f381;&#x1f381;创作不易&#xff0c;关注作者不迷路&#x1f380;&#x1f380; 初识JAVA 前言一、初识JAVA1.1.Java是什么1.2.Java语言的重要性1.3 Java语言发展简史1.4 Java语言特性 二、初识Java的main方法1 main方法示例 三、注释基本规则 四、数据类型1.常量2…

入门Java第一步—>IDEA的下载与安装与JDK的环境配置(day01)

1.JDK的下载与安装 jdk的安装链接分为不同操作系统如下,点击链接跳转下载页面&#xff1a; windows操作系统JDK下载链接(按住键盘ctrl键单击链接即可)&#xff1a; 链接7天有效&#xff0c;有需要的评论区找我哈 通过网盘分享的文件&#xff1a;jdk-8u271-windows-x64.exe 链…

建筑企业数字信息化转型的建议

在现代建筑企业的管理中&#xff0c;信息化转型已成为提升效率和竞争力的关键。然而&#xff0c;在选择信息化系统时&#xff0c;企业需要慎重考虑&#xff0c;以确保系统真正适合企业的现状和未来发展。 &#x1f50d; 要选合适的&#xff0c;而非“成熟”的 信息化系统的核心…

解决 启动模拟器出现 未开启Hyper-V 的问题

~~ 解决 启动模拟器出现 未开启Hyper-V 的问题 ~~ 如果在启动模拟器时出现 未开启Hyper-V 的问题 解决方案&#xff1a; 1.打开控制面板–>点击 程序和功能 2.点击左侧&#xff1a;启用或关闭Windows功能 3.找到虚拟机平台–> 打对勾√ -->确定 &#xff08;注意…

harbor私有仓库管理(twenty-nine day)

一、harbor私有仓库管理 是python的包管理工具&#xff0c;和yum对redhat的关系是一样的 yum -y install epel-release yum -y install python2-pip pip install --upgrade pip pip list pip 8x pip install --upgrade pip pip install --upgrade pip20.3 -i https://mirror…

ElasticSearch学习笔记(四)分页、高亮、RestClient查询文档

文章目录 前言7 搜索结果处理7.2 分页7.2.1 基本使用7.2.2 深度分页7.2.3 小结 7.3 高亮7.3.1 高亮原理7.3.2 实现高亮 8 RestClient查询文档8.1 match_all查询8.2 match查询与multi_match查询8.3 精确查询8.4 布尔查询8.5 排序、分页、高亮 9 项目实战9.1 酒店搜索和分页9.2 酒…

Linux 软件包管理器yum 自动化构建工具-make/makefile

Linux 工具 linux 软件包管理器 yum 把一些常用的软件提前编译好&#xff0c;做成软件包放在一个服务器上&#xff0c;通过包管理器可以很方便的获取到在这个编译好的软件包。直接进行安装。 软件包和软件包管理器就相当于 App 和应用商店这样的关系。 Linux 安装软件 源代码…