【论文笔记】ASYMMETRIC SELF-PLAY FOR AUTOMATIC GOAL DISCOVERY IN ROBOTIC MANIPULATION

news2024/11/24 3:24:42

【论文笔记】ASYMMETRIC SELF-PLAY FOR AUTOMATIC GOAL DISCOVERY IN ROBOTIC MANIPULATION

ABSTRACT

【主要工作】用一个单一的有目标条件的策略来解决许多机器人操作任务,包括对之前未见过的物体的操作。

【主要方法】对于目标发现过程采用非对称自我博弈方法,任务中存在2个智能体,命名为AliceBob。Alice任务是提出具有挑战性的目标,而Bob任务是解决这些目标。

  1. Bob可以在稀疏环境下工作;
  2. Alice和Bob的交互过程生成了课程学习;
  3. Alice的轨迹被标签为目标条件下的演示数据时,Bob可以从中学习演示数据;

【实现结果】泛化到许多任务中(甚至非可见物体上)

1 INTRODUCTION

受到1993年一篇论文的启发,实现一个单一策略进行多任务的处理。目前的工作实现到了在桌面上的若干物体操作,将物体从初始配置不断调整到给定的配置。

我们在一个非常大的训练分布(training distribution)上使用深度强化学习来解决这个问题。如何构建一个足够丰富的训练分布,以实现对许多看不见的操作任务泛化这涉及到环境的初始状态分布(决定了如何采样初始状态和配置)和目标分布(决定了如何采样目标状态)

前任工作:学习目标分布的生成模型

非对称自博弈解释

  1. Alice任务是提出目标,这些目标Bob不一定能实现;
  2. Bob本质是一个策略,用来解决Alice提出的目标;
  3. Alice的目标是依据机器人(实际)操作提出的;
  4. Bob需要与Alice一致的初始状态开始,实现这个目标;
  5. Alice和Bob嵌入在同一个机器人中,确保Alice自己提出的目标可以实现,即Alice自己执行的轨迹。

选择非对称自博弈模型的原因

  1. Alice提出的每个目标都是能实现的,因为每个目标至少存在一个答案(Alice自己的轨迹)。

    因此,可以通过行为克隆的方式让Bob至少学习到了Alice的实际操作轨迹。

    缓解因奖励塑造(reward shaping)和课程学习带来的复杂的设计。

  2. 这个方法不需要大量密集数据的收集。

2 PROBLEM FORMULATION

让机器人操作在桌面上的物体重新排列到预期的配置中。

本文的任务是通过给定一个训练分布进行训练,再泛化到其他艰巨(不可见的)的场景中。

Mathematical formulation

1

Training goal distribution

  1. 均匀随机放置物体 —— 托举物体任务比较难生成
  2. 人工采集任务和状态 —— 动作量大
  3. 本文采用非对称自博弈方法进行

2

​ Alice π A l i c e ( a ∣ s ) \pi_{Alice}(a|s) πAlice(as) 的进度永远比Bob π B o b ( a ∣ s , g ) \pi_{Bob}(a|s,g) πBob(as,g)

Evaluation on holdout tasks

zero-shot generalization “ 无中生有的泛化 ”

人为设计了一套困难任务,其目标从未直接纳入训练分布中。一些任务也包括以前未见过的物体。

  • 测试是否已经学习了一种特定的技能
  • 测试是否表示一个语义上有趣的任务

Appendix B.6 —— HOLDOUT TASKS

3 ASYMMETRIC SELF-PLAY

  1. 从初始状态分布中采样一个初始状态 s 0 s_{0} s0

  2. Alice 和 Bob 分别接收环境及其初始状态,并按先后顺序执行下面任务;

  3. Alice:与环境交互固定的 T T T 个步骤,在这 T T T 个步骤中的最后一个状态作为目标 g = s T g=s_{T} g=sT 传递给Bob;

    如果Alice没有移动任何对象,或者有一个对象从桌子上掉了下来,则任务终止;

  4. Bob:如果Bob在环境中成功达到目标 g g g,就会得到奖励。当Bob成功地实现目标或达到超时时,他的回合就结束了。如果Bob的回合以失败告终,它的剩余回合将被跳过并视为失败,而我们让Alice继续生成目标

  5. 如果Bob没有解决Alice提出的目标,Alice就会得到奖励。重复步骤2-3,直到Alice设定了5个目标,或者Alice提出了一个无效的目标,然后episode结束。

  • 促使Alice逐渐提出越来越难的任务,迫使Bob解决越来越难的任务

  • 选择多目标设置是为了让Bob充分利用在episode早些时候发现的环境信息来解决其剩余的目标,有利于转移到物理系统。

  • 为了提高稳定性和避免遗忘,我们让Alice和Bob在20%的比赛中与他们各自过去版本的对手进行比赛。

3.1 REWARD STRUCTURE

For Bob

sparse goal-conditioned rewards 稀疏目标条件下的奖励

衡量了物体的位姿(空间位置:欧氏距离;空间角度:欧拉角)

  • 当两个距离度量都低于一个小误差(成功阈值)时,Bob立即获得1个奖励。

  • 如果这个对象移动到远离它在过去步骤中到达的状态,Bob获得-1奖励

    这样在给定的回合中,每个对象的奖励总和最多为1。

  • 当所有的物体都处于目标状态时,Bob会得到5个额外的奖励,这个回合就结束了。

For Alice

  • 如果 Bob 未能解决目标,奖励5
  • 如果 Bob 成功解决目标,奖励0
  • 如果 Alice 设定了一个有效的目标,我们会增加一个奖励,定义为没有任何物体从桌子上落下任何物体的移动超过了成功阈值
  • 当 Alice 用放置区域之外的物体设置目标时,会引入−3奖励的额外惩罚,该区域定义为机器人摄像机视图内。

3.2 ALICE BEHAVIORAL CLONING (ABC)

使用非对称自我博弈的主要好处之一是,生成的目标至少有一个解决方案来实现它:Alice的轨迹。

Demonstration trajectory filtering

Alice的轨迹未必是最好的,她的执行存在偶然性。

仅考虑Bob未能实现目标的那段轨迹作为示范数据,避免Bob对子最优策略的关注。当Bob失败时,将Alice的这段轨迹增广成行为克隆的数据结构。

PPO-style BC loss clipping

3

4 RELATED WORK

Training distribution for RL

  1. 以前的工作手动设计了任务或目标的分布,以更好地看到策略更好地泛化到新的任务或目标。
  2. 手动定义模拟环境的分布,但用于推广到现实世界中相同的任务。
  3. 构建了一个不断增长的训练分布,其中多个智能体通过相互竞争来学习,从而使生成的智能体在单个游戏中表现出强大的性能。

前人训练的是生成模型,而不是目标设定策略

这些方法继承了训练生成模型的困难:建模高维空间的困难和生成不现实的样本。

Asymmetric self-play

混合非对称自游戏训练与标准RL训练的目标任务,并测量在目标任务上的表现。

  1. Sukhbaatar等人使用非对称自博弈对分层策略进行预训练,并在对目标任务进行微调后对其进行评估。
  2. Liu等人在一对agent之间的探索竞争中,采用了自博弈来鼓励具有稀疏奖励的有效学习。
  3. 以前没有任何工作训练过纯粹基于不对称自博弈的目标条件策略,并评估了对看不见的困难任务的泛化。

Curriculum learning

相似之处,即不对称的自博弈减轻了通过内在课程模仿目标设定者的轨迹来学习目标条件策略的困难,但我们的工作没有假设任何预定义的任务或目标分布。

Hierarchical reinforcement learning (HRL)

在HRL中学习目标设定策略的动机不是挑战目标解决策略,而是合作解决一个可以分解为一系列子目标的任务

这个目标设定策略被训练来优化目标任务的任务奖励,而不像非对称自我博弈,即目标设定者在另一个agent的失败时获得奖励。

Robot learning for object manipulation

块叠加(blocking stacking),涉及复杂的接触推理和长水平运动规划。需要手工设计的课程、细致的奖励塑造、微调或人类示范。选择这个任务作为泛化任务。

5 EXPERIMENTS

5.1 EXPERIMENTAL SETUP

Alice和Bob实现为具有内存的相同网络架构的两个独立策略,Alice对目标状态没有观察

这些策略采用状态观察(“状态策略”)来进行带有块的实验。

同时采用视觉和状态观察(“混合策略”)。这两种策略都经过了近端策略优化(PPO)的训练。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QKjTigCN-1669720632182)(C:\Users\aw\Desktop\阅读论文截图图片\name非对称自博弈_fig4.png)]

5.2 GENERALIZATION TO UNSEEN GOALS WITHOUT MANUAL CURRICULA

为了衡量由自博弈引入的内在课程的影响,我们精心设计了一套非自博弈基线(baseline),使用由自动领域随机化(Automation Domain Randomization)控制的显式课程

我们通过跟踪每个坚持任务的成功率来衡量训练设置的有效性

5

5.3 DISCOVERY OF NOVEL GOALS AND SOLUTIONS

6

虽然对Bob来说自己学习是一个棘手的策略,但在ABC过程中,Bob最终获得了解决Alice提出的复杂任务的技能。

7

随着训练的进行,Alice倾向于产生更具挑战性的目标,而Bob则表现出较低的成功率。

通过过去的抽样,Bob继续在早期优化步骤的Alices版本中取得进展。

这种可视化暗示了一种理想的非对称自博弈的动态,这可能会导致无限的复杂性:Alice不断地生成目标来挑战Bob,而Bob在学习解决新目标方面不断取得进展。

5.4 GENERALIZATION TO UNSEEN OBJECTS AND GOALS

该混合策略使用视觉观察来提取有关对象的几何形状和大小的信息。

我们在一组更多样化的操作任务上评估Bob策略,包括语义上有趣的操作任务。

8

5.5 ABLATION STUDIES

我们提出了一系列的消融研究,旨在测量我们的非对称自我游戏框架中每个组件的重要性,包括Alice行为克隆(ABC)、BC损失裁剪、演示过滤和多目标游戏设置。

10

  1. ABC:a critical mechanism

  2. BC loss clipping:略微提升学习率和稳定性

  3. demonstration filter:从行为克隆中排除次优演示的重要性

  4. single-goal:Generalization of this baseline to holdout tasks turns out to be much slower and less

    stable.

6 CONCLUSION

我们的非对称自游戏方法的一个限制是,它依赖于一个可重置的模拟环境,因为Bob需要从与Alice相同的初始状态开始。因此,非对称的自我游戏训练必须在一个模拟器中进行,它可以很容易地更新到一个期望的状态。

sim-to-real

One potential approach is to pre-train two agents via asymmetric self-play in simulation, and then
fine-tune the Bob policy with domain randomization or data collected on physical robots.

伪代码

11

12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 输入输出流简介和应用 (Java实现序列化工具类)

目录 简介 常用模板 实现序列化工具类 简介 应用场景 代码 简介 Java 流相关的类都封装在 java.io 包中,而且每个数据流都是一个对象。所有输入流类都是 InputStream 抽象类(字节输入流)和 Reader 抽象类(字符输入流&#…

ISP Tuning

ISP Tuning1. 简介2. 常用算法2.1 BLC2.2 AWB (处理色温引起的偏色问题)2.2.1 色温(Color Temperature:温度越低色温越高)2.2.2 为什么需要AWB (消除光源颜色的影响)2.2.3 AWB的目标2.2.4 如何实现自动白平衡 (先确定色温然后找对…

汽配erp管理系统目前有哪些公司提供了解决方案?

之前的一个朋友提问:我们是一个有200人左右的汽车配件供应商,为了迎合整车厂家的需要,提高自身管理运作的效率,准备上erp管理软件来规范企业的运作。现阶段我们内部管理的信息化程度比较低,从库房到现场作业都是靠纸质…

【Labivew】G语言

🚩write in front🚩 🔎大家好,我是謓泽,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 🏅2021年度博客之星物联网与嵌入式开发TOP5&#xff5…

第七章 贝叶斯分类器(上)

7.1 贝叶斯决策论 贝叶斯决策论是概率框架下实施决策的基本方法。 假设有N种可能的类别标记,即y{c1,c2,…,cn},λij是将一个真实标记为cj的样本误分类为ci所产生的损失。基于后验概率P(ci | x)可获得将样本x分类为ci所产生的期望损失,即在样…

C++多态总结

多态的概念 多态的基本概念 多态支持不同对象完成不同的行为。 定义“人”为一种对象,那么不同的人对于一件事会有不同的行为。 比如:普通人买票时,票价为全价。 学生买票时,是半价买票。 军人买票时则可优先买票。同属于人这一大…

java项目-第165期ssm咨询交流论坛_ssm毕业设计_计算机毕业设计

java项目-第165期ssm咨询交流论坛_ssm毕业设计_计算机毕业设计 【源码请到资源专栏下载】 今天分享的项目是《ssm咨询交流论坛》 该项目分为2个角色,管理员和用户。 用户可以浏览前台,包含功能有: 首页、学校风采、师资力量、投稿信息 、论坛交流、系统公…

认识vue3以及语法运用简介

Vue3支持2的大多数特性 性能提升: 打包大小减少41%, 初次渲染快55%,更新快133%, 内存使用减少54% 推出一系列组合型API ref与reactive watch与computed 新的声明周期函数。 一、组合API------reactive、ref 与 toRefs 在Vue2.x中,定义数据都是在data中,但…

LeetCode——Weekly Contest 320(附动态规划解题思路)

LeetCode周赛第320场记录 质量还不错的一场周赛,也可以学到不少知识。 2475. 数组中不等三元组的数目(排序荷兰国旗问题) 这道题非常简单,就是从头向后一一找出不含重复数字的三元组。我在比赛时直接写了一个三重循环暴力来解,这道题的数据…

WebDAV之葫芦儿·派盘+元思笔记

元思笔记 支持webdav方式连接葫芦儿派盘。 卡片笔记不仅是笔记爱好者,学生、医生、投资等各行各业的人都在不约而同的夸赞元思笔记的好。这是一款面向大众的卡片笔记软件,解决了笔记类软件的一个痛点:绝大多数人都很难坚持每天记一点东西。任何笔记工具,不论是纸笔还是电…

时序特征提取工具

在选择了需要提取的特征,确定了时序数据特征提取数据集的长度并对先验知识建模之后,就需要利用工具搭建特征提取系统。科研机构围绕不同问题域搭建的开源时序数据特征提取工具已经不少,我们可以利用这些工具快速实现希望达成的算法效果。下面…

[附源码]Python计算机毕业设计Django的残障人士社交平台

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

相控阵天线(十):波束跃度、虚位技术、幅度相位误差分析(含代码)

目录简介波束跃度不同移相器位数对方向图的影响不同移相器位数对波束跃度的影响虚位技术不同虚位位数对指向精度的影响不同虚位位数对副瓣电平的影响幅度相位误差分析随机误差周期误差Python代码示例简介 阵列天线的成本、批量和可制造性等实际问题的解决方案的选择直接影响阵…

[msyql]实战:关于回表的一次查询优化实战

起因与前置环境思考与解决方案 第一个理解与方法——分块分页第二个理解与方法——拆分子查询第三个理解与方法——拆分子查询分块分页 原理浅析与总结 回表和索引覆盖的浅解 原理简单说明MYSQL中回表的实现 总结与收获 起因与前置环境 目前在职的公司是已经运转挺久的电商类…

leetcode 343. 整数拆分(动态规划)

题目链接:343. 整数拆分 动态规划 (1) 确定 dpdpdp 数组下标含义: dp[i]dp[i]dp[i]: 将 iii 拆分为至少两个正整数之后的最大乘积; (2) 确定递推公式: 当 i≥2i \ge 2i≥2 时, 设 jjj 是 iii 拆分出来的第一个正整数&#xff0c…

1990-2021年全国30省城镇登记失业率

1、时间:1990-2021年 2、来源:整理自统计NJ 3、数据说明: 包括全国30个省份,不包括西藏,其中北京、天津、辽宁、吉林、江苏、浙江、湖南、四川、新疆2021年数据存在缺失, 内含原始数据,线性…

猿如意开发工具|python3.7

文章目录 一、猿如意是什么?一、猿如意的下载安装使用二、使用猿如意下载安装python3.7总结前言 对于程序猿来说,辅助开发工具箱是非常重要的,可以方便广大的开发者们。今天我就介绍一款非常好用的开发工具箱-猿如意。 一、猿如意是什么&…

大数据必学Java基础(一百零八):过滤器的生命周期

文章目录 过滤器的生命周期 一、构造方法 二、初始化方法 三、拦截请求方法

用R语言实现神经网络预测股票实例

神经网络是一种基于现有数据创建预测的计算系统。最近我们被客户要求撰写关于神经网络的研究报告,包括一些图形和统计输出。 如何构建神经网络? 神经网络包括: 输入层:根据现有数据获取输入的层隐藏层:使用反向传播…

基于PHP+MySQL动漫周边商城销售网站的开发与设计

随着时代的发展,人们对动漫周边产品的关注度越来越高,尤其是对当代的年轻人来说,对一些动漫的手办和玩具等商品都非常的热爱。但是当下时长上的动漫周边产品销售网站还很少,这对钟爱动漫周边产品的来说是一件很痛苦的事情,明明知道一件出现了这些相关产品,但是没有渠道能够购买…