Transformers for One-Shot Visual Imitation

news2024/12/28 18:59:47

发表时间:(CoRL 2020)

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4546337571360890881&noteId=2424798489658874880

作者单位:Carnegie Mellon University, USA

Motivation:人类能够通过推断他们的意图并使用过去的经验来实现相同的最终目标来无缝地模仿他人。换句话说,我们可以从原始视频中解析复杂的语义知识,并有效地将其转换为具体的运动控制。是否有可能给机器人提供同样的能力?

解决方法:先前关于机器人模仿学习的研究已经创建了可以从专家人类操作员那里获得不同技能的agent。然而,在测试期间扩展这些技术以使用单个正例仍然是一个开放的挑战。本文研究了允许机器人使用过去的经验部分弥合这些领域差距的技术(如何使用过去的经验文章没有说,应该是通过对上下文帧的学习?)。训练神经网络来模拟给定来自另一个agent的上下文视频的ground truth机器人动作,并且在测试时提示新视频时必须泛化到看不见的任务实例。 我们的策略表示必须是上下文感知和动态感知的,以便执行这些任务。

实现方式:但是一个人如何代表目标/意图以及如何将这种上下文信息合并到策略函数本身中?

先前工作中有三个主要方法

第一种方法是通过生成目标图像将目标/意图表示为像素,然后在给定当前观察和推断目标的情况下推断动作[6,7]。虽然这种方法直观且可解释,但很难生成像素,其方式尊重图像中的结构差异。 第二种方法是将视觉模仿建模为ont-shot学习问题[8],可以用元学习算法来解决。在这里,机器人被赋予一个例子,以视频或演示的形式(例如视频 + 控制遥测),并且必须利用这些信息来执行相同任务的新实例。该演示用于更新策略函数的参数,并在机器人上执行更新后的策略。域间隙可以通过学习的自适应loss函数[10]来解决。虽然one-shot formalism非常有用,但从单个示例中估计策略参数可能是一个极其困难的问题,并且容易出现过度拟合。 在本文中,我们探索了第三种选择:one-shot学习的任务驱动特征。我们从目标agent和来自“教师”代理的演示帧处理观察结果,以提取上下文条件状态表示。

在本文中,我们提出使用Transformer(或非局部自注意力模块 )来提取关系特征(提取教师演示和traget agent的空间特征之间的关系),这些特征充当策略函数的输入状态向量。我们的transformers将来自教师演示和目标agent的空间 ResNet 特征作为输入。这允许策略通过使用上下文帧只关注重要的特定于任务的细节,自动将其特征适应手头的任务。例如,在图 1 中,机器人可以使用人类上下文帧只关注红色块位置等相关细节,并完全忽略桌子腿等分散注意力的元素(通过教师演示与traget agent之间的特征(经过resnet18提取)之间的自注意力)(这也是本文使用Transformer的优势)

然而,transformer 特征在测试期间很容易最终错误地加权重要细节。我们建议通过使用无监督逆动力学损失进一步监督状态表示学习来解决这个问题。这种损失限制了学习问题并确保最终表示可以对底层动态以及特定于任务的细节进行建模。(无监督逆动力学损失为什么能做到作者说的这一点尚不明确)

模型结构主要创新两点:Transformers architecture+ a self-supervised inverse modelling objective

损失:通过行为克隆损失逆建模损失和监督机器人在图像中未来像素位置的可选点损失进行端到端训练。

输入:在注意力模块之前,来自上下文视频和当前状态的单个图像都通过 ResNet-18 架构传递。

输出:the final output f (x) =batchnorm(x + dropout(O)), with final size [512, T, H, W ]. In order to appropriately apply this to behavior cloning (where ot+1 is not known during test time), we make this operation causal by appropriately padding the 3D convolution operators and masking the attention.

实验:in simulation using multi-agent MuJoCo environments.(没有 real word)

Our method is the only one which can reliably perform new task instances.

结论two technical contributions :Applying the Transformers architecture to one-shot imitation tasks and a self-supervised inverse modelling objective.

这里的主要结论是,在网络设计和损失函数方面注入正确的偏差——可以帮助策略在测试期间表现更好。我们相信 Transformer 的注意力机制通过允许任务条件表示来提供这种偏差,而逆模型强制policy保留在测试期间稳健控制所需的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2083366.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日OJ_牛客_年会抽奖(错排问题)

牛客_年会抽奖(错排问题) 年会抽奖__牛客网 解析代码 该题为经典的错排问题 用A、B、C……表示写着n位友人名字的信封,a、b、c……表示n份相应的写好的信纸。把错装的总数为记作 D(n)。假设把a错装进&…

【ubuntu使用笔记】Ubuntu Desktop 访问SMB共享文件夹

Ubuntu Desktop 访问SMB共享文件夹 Ubuntu Desktop 访问SMB共享文件夹文件夹打开 file managerother location输入 IP地址,smb://IP点击connect按钮正常进入 命令行安装客户端连接 Ubuntu Desktop 访问SMB共享文件夹 文件夹 打开 file manager other location 输入…

WATCH, TRY, LEARN: META-LEARNING FROM DEMONSTRATIONS AND REWARDS

(感觉有点从失败中学习的意思) 发表时间:30 Jan 2020 论文链接:https://readpaper.com/pdf-annotate/note?pdfId4545005537963171841&noteId2453371997770644736 作者单位:UC Berkeley Motivation&#xff1a…

2024年高教社杯全国大学生数学建模竞赛

2024年高教社杯全国大学生数学建模竞赛通知 2024数模比赛确定时间为:9月5日18时至9月8日20时 报名截止日期:9月2日(周一)20时

使用maven 实现版本覆盖案例4【经典版】

一 原理介绍 1.1 原理逻辑 关系图:从使用方xinxiang_demo中引用A_parent的2.13的版本的层级要比B_Module继承A_parent:1.1 版本的层级要短,优先级更高,所以使用2.13,将B_Module继承A_parent 1.1 版本覆盖。 1.2 实操…

约 数个数

对于一个数 其中:是的各个质因数,上式是的质因数乘积式。 约数个数: 约数之和: step1: 采用分解质因数的方法,计算出的每一个质因数的次数 (分解质因数的blog:http://t.csdni…

Kali学习(ms17-010、ms08-067漏洞复现)

目录 一、kali网络设置 NAT模式、桥接上网/仅主机 VMnet0、VMnet1、VMnet8 1.NAT模式 VMnet8 (1)检查服务 (2)创建虚拟网卡 (3)创建kali的网卡信息 (4)验证 2.桥接模式 VMn…

结果一。5.be doing表将来和 表 will的区别

be doing 表⽰近期、眼下就要发⽣的事情; will 表⽰将来的时间,则较远⼀些。如: He is going to write a letter tonight.He will write a book 。 be going to 表⽰根据主观判断将来肯定发⽣的事情。 will+ 动词原形表⽰⼀般将来时。 will ࿰

如何用Java SpringBoot+Vue打造高效产品订单管理系统?

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

【C++ Primer Plus习题】6.9

问题: 解答: #include <iostream> #include <string> #include <fstream> using namespace std;typedef struct _Donor {string name;double money; }Donor;int main() {ifstream file;string filename;int count 0;cout << "请输入文件名:&quo…

PDF合并可以如此简单?!这3种方法,简单又实用!

在日常的忙碌与学习中&#xff0c;我们时常需要将散落的PDF文件整合成一份完整的文档&#xff0c;无论是为了整理报告、汇编学习资料&#xff0c;还是为了提升阅读效率&#xff0c;PDF合并都显得尤为重要。 今天&#xff0c;就让我带你解锁三种既简单又高效的PDF合并方法&#…

进程终止 等待 替换

文章目录 一.进程的终止进程终止实在做什么&#xff1f;进程终止的3种情况自定义退出码 如何终止进程&#xff1f; 二.进程等待为什么要进行进程等待&#xff1f;进程如何等待&#xff1f;waitwaitpid 阻塞等待 && 非阻塞等待 三.进程的程序替换先看代码 && 现…

Windows电脑还在纠结用什么便签软件?

在快节奏的生活中&#xff0c;我们常常需要记录下一些重要的事情或者临时的想法&#xff0c;而便签软件就是我们的好帮手。但是&#xff0c;面对市面上众多的便签软件&#xff0c;Windows电脑用户可能会感到困惑&#xff0c;不知道该如何选择。在这里&#xff0c;小编为你提供一…

Great Wall长城工作站安装银河麒麟V10(SP1)-ARM版桌面操作系统

长城工作站安装银河麒麟V10(SP1)桌面操作系统 1. 硬件信息 [1]. Great Wall 长城台式微型计算机 产品型号&#xff1a;世恒TD120A2 型号代码&#xff1a;世恒TD120A2-019 电源&#xff1a;220V~3A 50Hz [2]. 芯片型号 架构&#xff1a; aarch64 CPU 运行模式&#xff1a…

【Qt窗口】—— 浮动窗口

目录 1.1 浮动窗口的创建 1.2 设置停靠的位置 1.3 示例小结 在Qt中&#xff0c;浮动窗口也称之为铆接部件&#xff0c;俗称为子窗口&#xff0c;浮动窗口是通过QDockWidget类来实现浮动的功能。浮动窗口⼀般是位于核⼼部件的周围&#xff0c;可以有多个。 1.1 浮动窗口的…

LeetCode 热题100-39 对称二叉树

对称二叉树 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 示例 1&#xff1a; 输入&#xff1a;root [1,2,2,3,4,4,3] 输出&#xff1a;true示例 2&#xff1a; 输入&#xff1a;root [1,2,2,null,3,null,3] 输出&#xff1a;false提示&#xff1a; 树中…

【python报错已解决】AttributeError: module ‘PIL.Image‘ has no attribute ‘ANTIALIAS‘

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引言 当我们使用某些Python库&#xff0c;如Pillow&#xff08;PIL的一个分支&#xff09;&#xff0c;进行图像处理时&#x…

设备共享租赁小程序系统开发制作方案

设备共享租赁小程序系统让用户方便地租赁或出租各类设备&#xff0c;包括但不限于工具、电子产品、运动器材等&#xff0c;以满足临时使用需求&#xff0c;同时为设备所有者创造额外收益。 目标用户 个人用户&#xff1a;需要临时使用工具、车辆等设备的个人。 企业用户&#…

STM32(F103ZET6)第十九课:FreeRtos的移植和使用

目录 需求一、FreeRtos简介二、移植FreeRtos1.复制代码2.内存空间分配和内核相关接口3.FreeRtosConfig4.添加到工程中三、任务块操作1.任务四种状态2.创建任务过程 需求 1.将FreeRtos&#xff08;嵌入式实时操作系统&#xff09;移植到STM32中。 2.在该系统中实现任务的创建、…

git学习教程--分支操作+远程仓库相关过程详述

目录 1.分支 1.1查看已有分支 1.2新的分支的创建 1.3改变指针的指向 1.4合并分支 2.删除分支 3.合并冲突 3.1一个简单操作 3.2手动解决冲突 4.git分支管理策略 4.1fast-forward模式 4.2no-ff模式 4.3总结 5.bug修复建议 6.强制删除 7.分布式版本控制系统 7.1远…