[论文阅读] mobile aloha实验部分

news2025/1/11 14:30:48

DP:[1] CHI C, FENG S, DU Y, et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion[J]. 2023.

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion精读笔记(一)-CSDN博客

VINN:[1] PARI J, SHAFIULLAH N, ARUNACHALAM S, et al. The Surprising Effectiveness of Representation Learning for Visual Imitation[J].

4. Co-training with Static ALOHA Data

使用模仿学习解决现实世界机器人任务的典型方法依赖于使用在特定机器人硬件平台上为目标任务收集的数据集。然而,这种简单的方法存在漫长的数据收集过程,其中人类操作员在特定的机器人硬件平台上从头开始为每个任务收集演示数据。由于这些数据集中的视觉多样性有限,在这些专业数据集上训练的policies通常对感知扰动(如干扰物和光照变化)不具有鲁棒性[95]。最近,对从不同但相似类型的机器人收集的不同真实世界数据集进行联合训练,在单臂操纵[11,20,31,61]和导航[79]方面显示出有希望的结果。

在这项工作中,我们使用了一个协同训练pipeline,它利用现有的静态aloha数据集来提高移动操作的模仿学习性能,特别是对于手动手臂动作。静态aloha数据集[81,104]总共有825个演示,包括ziploc密封,拿起叉子,糖果包装,撕开纸巾,打开带盖子的塑料杯,玩乒乓球,胶带分发,使用咖啡机,铅笔交付,紧固魔术贴电缆,开槽电池,以及处理螺丝刀。注意,静态aloha数据都是在一个黑色桌面上收集的,两个手臂固定在一起,面向对方。这种设置与移动aloha不同,移动aloha的背景随着移动基座的变化而变化,两个手臂平行地面向前方放置。我们没有对rgb观测数据或静态alohadata的手动操作使用任何特殊的数据处理技术来进行共同训练。

将聚合的静态aloha数据表示为,将任务m的移动aloha数据表示为。双手动作表示为目标关节位置,其中包含两个连续的抓取动作,基础动作表示为目标基准线速度和角速度。任务m的移动操作policy的训练目标为

其中是由两个手腕相机RGB观测、一个安装在手臂之间的自中心顶部相机RGB观测和手臂的关节位置组成的观测,L是模仿损失函数。我们以相等的概率从静态ALOHA数据和移动ALOHA数据中采样。我们将批量大小设置为16。由于静态ALOHA数据点没有移动基础动作,我们将动作标签归零,这样两个数据集中的动作具有相同的维度。我们还忽略了静态ALOHA数据中的前置摄像头,因此两个数据集都有3个摄像头。我们仅根据移动ALOHA数据集的统计数据对每个动作进行归一化。在我们的实验中,我们将这种联合训练方法与多种基础模仿学习方法相结合,包括ACT[104]、扩散策略[18]和VINN[63]。

5. Tasks

我们想强调的是,对于上述所有任务,将对象恢复到相同配置的开环重放演示将实现零整体任务成功(完全不成功)。成功完成任务需要学习的policy做出闭环反应并纠正这些错误。我们认为开环回放过程中的误差来源是移动基站的速度控制。例如,我们观察到,在回放半径为1m的180度转弯的基本动作时,平均误差>10cm。我们在附录a.4中提供了有关此实验的更多详细信息。

6. Experiments

我们的目标是回答实验中的两个核心问题。

(1) 移动ALOHA可以通过联合训练和少量移动操作数据获得复杂的移动操作技能吗?

(2) mobile ALOHA是否可以与不同类型的模仿学习方法一起工作,包括ACT[104]、扩散策略[18]和基于检索的VINN [63]?我们在现实世界中进行了大量的实验来检验这些问题

首先,我们将研究的所有方法都采用“动作分块”[104],其中policy预测未来动作的序列,而不是每个时间步的一个动作。它已经是act和diffusion policy方法的一部分,并且很容易添加到vinn中。我们发现动作分块对于操作至关重要,可以提高生成轨迹的连贯性,减少每一步policy推理的延迟。动作分块也为移动aloha提供了一个独特的优势:更灵活地处理硬件不同部分的延迟。我们观察到移动基地的目标速度和实际速度之间存在延迟,而位置控制臂的延迟要小得多。为了解释移动基座d步的延迟,我们的机器人执行了长度为k的动作块的前k−d个手臂动作和最后k−d个基座动作。

6.1. Co-training Improves Performance

我们从aloha引入的方法act[104]开始,在有和没有联合训练的情况下对其进行所有7项任务的训练。然后,我们评估现实世界中的每个policy,如图3所示,对机器人和物体配置进行随机化。为了计算子任务的成功率,我们将#success除以#attempts。例如,在“提起玻璃和擦拭”子任务的情况下,#尝试次数 #Attempts 等于前一个子任务“抓住毛巾”的成功次数,因为机器人可能会在任何子任务中失败并停止。这也意味着最终成功率等于所有子任务成功率的乘积。我们在表1中报告了所有成功率。每个成功率都是根据20次评估试验计算的,除了cook shrimp有5次。

在联合训练的帮助下,机器人在擦拭酒方面取得了95%的成功,在呼叫电梯方面取得了95%的成功,使用橱柜方面取得了85%的成功。high five方面取得了85%的成功,rinse pan方面取得了80%的成功,push chair方面取得了80%的成功。这些任务中的每一项只需要50次印度支那示威,或者在high five的情况下需要20次。唯一成功率低于80%的任务是烹饪虾(40%),这是一项75秒的长期任务,我们只收集了20个演示。我们发现policy很难用抹刀翻转虾,并将虾倒入与白色桌子对比度较低的白色碗中。我们假设,较低的成功率可能是由于演示数据有限。联合训练提高了7项任务中5项的整体任务成功率,分别提高了45%、20%、80%、95%和80%。对于剩下的两项任务,联合训练和不联合训练的成功率相当。我们发现,对于精确操作是瓶颈的子任务,例如按下按钮、翻转虾和打开水龙头,联合训练更有帮助。在所有这些情况下,复合误差似乎是失败的主要原因,要么来自机器人基础速度控制的随机性,要么来自丰富的接触,例如在flip shrimp过程中抓握抹刀和接触锅。

我们假设,在静态aloha数据集中抓取和接近物体的“运动先验”仍然有利于移动aloha,特别是考虑到手腕相机引入的不变性[41]。我们还发现,共同训练的policy在推椅和擦拭酒的情况下具有更好的泛化能力。对于push chairs,无论是联合训练还是非联合训练,前3把椅子都取得了完美的成功,这在演示中可以看到。然而,当外推到第四和第五把椅子时,联合训练的表现要好得多,分别提高了15%和89%。对于wipe wine,我们观察到共训练的policy在酒杯随机化区域的边界处表现更好。因此,我们假设,鉴于20-50个演示的低数据范围和使用的基于表达变换器 the expressive transformer-based 的policy,联合训练也有助于防止过拟合。

6.2. Compatibility with ACT, Diffusion Policy, and VINN

除了act之外,我们还使用mobile aloha训练了两种最新的模仿学习方法,即扩散策略[18]和vinn[63]。扩散policy训练神经网络以逐步改进动作预测。我们使用ddim调度器[85]来提高推理速度,并将数据增强应用于图像观测以防止过拟合。联合训练数据pipeline与act相同,我们在附录a.3中包含了更多的训练细节。vinn训练了一个视觉表示模型byol[37],并使用它从具有最近邻的演示数据集中检索动作。我们用本体感觉特征增强vinn检索,并调整相对权重以平衡视觉和本体感觉特征的重要性。我们还检索了一个动作块而不是单个动作,并发现类似于赵等人的显著性能改进。对于共同训练,我们只需使用组合的移动和静态数据共同训练BYOL编码器。

在表2中,我们报告了两个现实世界任务的联合训练和无联合训练成功率:擦酒和推椅子。总体而言,扩散政策在推椅上的表现与act相似,两者在联合培训中都获得了100%的成绩。对于wipe wine,我们观察到扩散效果较差,成功率为65%。当接近厨房岛并抓住酒杯时,扩散政策不太精确。我们假设,鉴于其表现力,50次演示不足以进行扩散:之前使用扩散策略的作品往往需要250次以上的演示。对于vinn+chunking,policy的整体表现不如act或diffusion,但仍然达到了合理的成功率,在push chair上为60%,在wipe wine上为15%。主要的故障模式是对lift glass和wipe的不精确抓握,以及在块之间切换时的剧烈运动。我们发现,在检索时增加本体感觉的权重可以提高平滑度,但代价是减少对视觉输入的关注。我们发现,联合培训可以提高扩散政策的绩效,擦拭酒和推椅分别提高30%和20%。这是意料之中的,因为联合训练有助于解决过拟合问题。与act和扩散政策不同,我们观察到vinn的结果喜忧参半,其中联合培训使wipe wine下降了5%,而push chair提高了20%。只有vinn的表示是共训练的,而vinn的动作预测机制没有办法利用域外静态aloha数据,这或许可以解释这些混合结果。

7. Ablation Studies

数据效率。在图4中,我们在wipe wine任务上使用act,消除了联合训练和非联合训练的移动操作演示次数。我们考虑了25、35和50个移动aloha演示,并分别对20个试验进行了评估。我们观察到,与仅使用移动aloha数据的训练相比,联合训练可以提高数据效率并持续改进。通过联合训练,用35个领域内演示训练的policy可以比用50个领域内示范训练的无联合训练policy高出20%(70%对50%)。

联合训练对不同的数据混合具有鲁棒性。到目前为止,我们在共训练实验中以相等的概率从静态ALOHA数据集和移动ALOHA任务数据集中进行采样,形成一个训练小批量,共训练数据采样率约为50%。在表3中,我们研究了不同的采样策略如何影响Wipe Wine任务的性能。我们以30%和70%的联合训练数据采样率以及50%的采样率训练ACT,然后分别评估20个试验。我们看到了类似的表现,分别为95%、95%和90%的成功率。该实验表明,协同训练性能对不同的数据混合不敏感,从而减少了在新任务中结合协同训练时所需的手动调整。

联合训练优于预训练。在表4中,我们比较了静态ALOHA数据的联合训练和预训练。对于预训练,我们首先在静态ALOHA数据上训练ACT 10K步,然后用域内任务数据继续训练。我们对Wipe Wine任务进行了实验,并观察到预训练与仅在Wipe Wine数据上训练相比没有任何改善。我们假设网络在微调阶段忘记了对静态ALOHA数据的体验。

8. User Studies

我们进行了一项用户研究,以评估移动ALOHA遥操作的有效性。具体来说,我们衡量参与者学习远程操作看不见的任务的速度。我们在计算机科学研究生中招募了8名参与者,其中5名女性和3名男性,年龄在21-26岁之间。四名参与者之前没有遥操作经验,其余四名参与者的专业知识水平各不相同。他们之前都并没有使用过移动ALOHA。我们首先允许每个参与者与场景中的对象自由交互3分钟。在这个过程中,我们拿出了所有将用于看不见的任务的物体。接下来,我们给每个参与者两个任务:擦酒和使用橱柜。专家操作员将首先演示任务,然后由参与者进行5次连续试验。我们记录每个试验的完成时间,并将其绘制在图5中。我们注意到完成时间急剧下降:平均而言,执行任务所需的时间从46秒下降到28秒(下降39%),从75秒下降到36秒(下降52%)。平均参与者还可以在5次试验后接近专家演示的速度,展示移动ALOHA遥操作的易用性和学习性。

A.2. Example Image Observations

图7展示了在数据收集过程中捕获的Wipe Wine的示例图像。这些图像从上到下按时间顺序排列,来自从左到右列的三个不同的相机角度:顶部以自我为中心的相机、左手腕相机和右手腕相机。顶部摄像头相对于机器人框架是静止的。相比之下,手腕上的摄像头连接在手臂上,可以提供抓取器动作的特写视图。所有相机都设置了固定焦距,并具有自动曝光功能,以适应不同的光线条件。这些相机的分辨率为480×640,帧率为每秒30帧。

图8显示了回放300步(6s)演示结束时末端执行器误差的分布。演示包含一个半径约为1米的180度转弯。在轨迹结束时,右臂会伸出桌子上的一张纸,轻轻地敲击它。然后在纸上标记敲击位置。红叉表示原始轻击位置,红点是同一轨迹的20次回放。在重放基本速度剖面时,我们观察到明显的误差,这是由于地面接触和低级控制器的随机性造成的。具体来说,所有回放点都偏向左侧约10cm,并沿约20cm的线分布。我们发现我们的policy能够在没有slam等显式定位的情况下纠正这些错误。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2068928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视频达人的秘密武器:全能型剪辑软件深度剖析

剪辑视频,作为视频创作过程中的关键环节,其重要性不言而喻。无论是专业影视制作团队,还是热衷于Vlog创作的个人,都离不开一款强大且易用的视频剪辑工具。今天,就让我们一起踏上一场探索之旅,对市面上的视频…

java基础 之 关键字static

文章目录 前言1、特征2、修饰变量3、修饰方法4、修饰代码块优缺点应用场景代码理解 前言 本文主要是从类与对象的方向来讲,所以在文章开始前,我们先理解一下类和对象 类是一个模板,对象是一个实例。 如【手机】是一个类(一个模板…

MySQL系统性的学习--基础

学习资料是黑马的mysql课程 Mysql概述 相关概念 数据模型 关系型数据库 数据模型 SQL SQL通用语法 SQL分类 DDL 数据库操作 表操作 查询 创建 数据类型 修改/删除 DML 添加数据INSERT 修改数据UPDATE 删除数据DELETE DQL 基础查询 条件查询 聚合函数 分组查询 排序查询 分…

Otterctf 2018 内存取证 (复现)

题目地址: https://otterctf.com/challenges 1 - What the password? 描述:you got a sample of ricks PCs memory. can you get his user password? 首先查看一下镜像的信息 python2 vol.py -f /home/kali/Desktop/OtterCTF.vmem imageinfo 题目描述需要获取密码, 使用mi…

el-form中使用v-model和prop实现动态校验

如何在Vue的el-form中使用v-model和prop实现动态校验,包括多个变量控制校验、数组循环校验和字段级条件显示。通过实例演示了如何配合rules和自定义验证函数来确保表单的完整性和有效性。 公式: 动态校验项的v-model的绑定值 el-form的属性 :model的值 …

PCSE不同播种时间的对比

目录 简介对比图源代码简介 设置为2022年10月15日播种,然后每隔5天往后播种一次,然后探究播种时间对于作物各个长势的影响 对比图 源代码 import sys, os import matplotlib from matplotlib import style matplotlib.style.use("seaborn-whitegrid") import ma…

ST 表算法

ST 表 ST 表,主要思想是空间换时间,用于解决可重复贡献问题和 RMQ 问题。 可重复贡献问题 指某个运算 o p op op,有 x o p x x x\ op\ x\ \ x x op x x 。例如 m a x ( x , x ) x m i n ( x , x ) x g c d ( x , x ) x max(x,x)x\…

Linux基础环境开发工具gcc/g++ make/Makefile git

1.Linux编译器-gcc/g使用 1. 预处理(进行宏替换) 预处理功能主要包括宏定义,文件包含,条件编译,去注释等。 预处理指令是以#号开头的代码行。 实例: gcc –E hello.c –o hello.i 选项“-E”,该选项的作用是让 gcc 在预处理结束后停止编译过程。 选项“-o”是指目标…

UE基础 —— Components

目录 Component Instancing Instanced Static Mesh Component Instanced Static Mesh Differences of an ISM and a Static Mesh Component Hierarchical Instanced Static Mesh Instancing Systems Working with ISMs Prefabrication Custom Data Creating and Edit…

吴恩达机器学习课后作业-04神经网络

神经网络 对y进行独立热编码处理(one-hot处理)序列化权重参数前向传播代价函数反向传播神经网络优化可视化隐藏层 对y进行独立热编码处理(one-hot处理) def one_hot_encoder(raw_y):result[]for i in raw_y:#1-10y_tempnp.zeros(1…

网络编程之初识

目录 ​前言 发展史 网络互连 局域网(LAN) 广域网(WAN) 网络通信基础 IP地址 特殊IP地址 端口号 网络协议 协议的作用 五元组 协议分层 含义 OSI七层模型 TCP/IP五层协议 网络设备所在分层 封装和分用 发送方 接收方 前言 在这个科技发达的时代&#xff0…

初识C语言指针(3)

目录 1. 数组名的理解 2. 使⽤指针访问数组 3. ⼀维数组传参的本质 4. 冒泡排序 5. 二级指针 6. 指针数组 7. 指针数组模拟⼆维数组 结语 1. 数组名的理解 对于数组名想必大家并不陌生,数组名就是该数组首元素的地址,设想有一个arr 数组。我们…

文本是否换行显示

多行文本 1、white-space: pre-wrap; 保留连续的空白符。在遇到换行符或 <br> 元素时&#xff0c;或者根据填充行框盒子的需要换行。 2、word-break: break-word; 如果单词太长而无法在当前行容纳&#xff0c;浏览器可以尝试在单词内部进行断行&#xff0c;以避免内容…

轻松获得ADSL代理服务

ADSL 代理服务接入常见问答 在当今激烈的网络爬虫与反爬虫斗争中&#xff0c;各大网站和应用程序采取的风险管理手段愈加严格&#xff0c;其中最常见的一种措施是 IP 封禁。 为了有效应对 IP 封禁带来的挑战&#xff0c;设置代理服务成为一种非常有效的解决方案。配置完代理后…

数论之高斯消元

高斯消元&#xff1a; 前置知识&#xff1a; 高斯消元五步骤法 枚举每一列c 找到绝对值最大的一行 将该行换到最上面&#xff08;第r行&#xff09; 将该行的第c列数字变为1 把该行下面的第c列数字全部变为0 代回求解 #include <bits/stdc.h>using namespace std;…

Linux LVM 详解

Linux LVM 详解 1. 简介 参考链接&#xff1a; https://blog.csdn.net/qq_35745940/article/details/119054949 https://blog.csdn.net/FP202530/article/details/125140176 &#x1f449; LVM&#xff08;Logical Volume Manager&#xff09;逻辑卷管理 是在硬盘分区和文件系…

面向对象02:构造器详解

本节内容视频链接&#xff1a;面向对象05&#xff1a;构造器详解_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV12J41137hu?p64&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 构造器&#xff08;‌Constructor&#xff09;‌是一种特殊的方法&#xff0c;‌用于初始…

解决Intel-12代13代14代大小核调用导致VMware虚拟机性能低

0x01 设备信息 近期入手的是一台2023款 y9000p 游戏本&#xff0c;CPU为13500h 显卡为RTX4060。 0x02 VMware虚拟机遇到的性能问题 尤其是windows虚机明显感觉性能非常差&#xff0c;开几个网页都很卡。 我一度怀疑是CPU i5性能差&#xff0c;还没我的轻薄本运行速度快&…

jmeter中CSV 数据文件设置用例

1、CSV数据文件的基础使用 线程组->添加->配置远近->CSV数据文件设置 2、多条用例运行CSV数据文件 由于我的csv请求的json数据有“&#xff0c;”所以我这边 分隔符选择了*号 写了两行需要测试的用例&#xff0c;需要添加一个“循环控制器” 线程组->添加-&g…

省时又省力!2024年最新录屏软件快捷键大放送

录屏工具可以帮我们录制教学视频、游戏精彩瞬间等内容。很多时候录制的过程瞬息万变&#xff0c;如果合理使用录屏快捷键就会极大的缓解我们录制时候的慌乱。今天&#xff0c;就让我们一起探索那些“大家都在用的录屏软件快捷键”&#xff0c;看看它们是如何让我们的录制工作变…