发表时间:25 Oct 2018
论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4500198746683498497¬eId=2453372035670907392
作者单位:Berkeley AI Research
Motivation:我们考虑从执行任务的人类的单个视频中学习真实机器人上的多阶段基于视觉的任务的问题,同时利用子任务与其他对象的演示数据。这个问题带来了许多重大挑战。没有遥操作的视频演示对人类来说很容易提供,但不提供任何直接监督。从原始像素学习策略可以实现完全的通用性,但需要学习具有许多参数的大型函数逼近器。最后,当被视为整体技能时,复合任务可能需要不切实际的演示数据。
解决方法:为了应对这些挑战,我们提出了一种方法,该方法学习如何从视频演示中学习原始行为,以及如何动态组合这些行为,通过“观看”人类演示器来执行多阶段任务。
实现方式:在本文中,我们考虑了一个学习的问题设置,通过模仿来执行多阶段任务,机器人必须映射原始图像的观察到动作,演示是通过执行整个任务的人类的原始视频提供的。
为了解决这个问题,这项工作的关键思想是利用元学习,其中机器人使用原始技能的先前数据来学习如何模仿人类执行多阶段技能。
因此,我们的目标是学习原始行为并从执行新复合任务的人类的单个视频中自动组合它们。
We use domain-adaptive meta-imitation learning。我们的方法使用原始相位预测器将测试时间人类视频分解为原语,为每个原语计算一个策略序列,并依次执行每个策略,直到每个策略都被认为是完整的,再次利用相位预测器。
这项工作的主要贡献是一种基于没有注释的单个人类演示动态学习和组合策略序列的方法。
我们的方法将子任务的one-shot imitation与分解复合任务演示和组合原始技能的学习机制相结合。
结构:the DAML network with 4 convolution layers with 24 5 × 5 filters, followed by 3 fully-connected layers with 200 hidden units
实验:involve pick-and-place primitives, push primitives, and reach primitives.(比较简单的任务)
模拟:我们首先在MuJoCo物理引擎中使用Sawyer机械臂在一系列模拟订单完成任务上评估我们的方法。
现实:a physical PR2 robot, PR2厨房服务:在此设置中,PR2 必须抓取一个对象,将其放入正确的碗或平台中,并将其中一个平台或碗推到机器人的左侧。
结论:我们提出了一种one-shot学习和组合策略的方法,用于基于人类执行任务的单个视频从原始像素输入中实现复合的多阶段任务。我们的方法利用来自先前原始技能的演示来学习识别原语的末尾并为原语元学习策略。 在元测试时,我们的方法通过将人类演示分解为原语、每个原语的学习策略以及在线组合策略来执行完整的复合任务来学习多阶段任务(动作原语是在训练的阶段就学习好的)。
在未来的工作中,我们希望提高我们方法的性能。为此,提高一次性模仿学习方法(我们方法的子组件)的性能并将潜在地纳入强化学习或其他形式的在线反馈将很重要(未来与强化学习结合)。