干货 | 浅谈机器人强化学习--从仿真到真机迁移

news2025/1/14 0:58:32

对于机器人的运动控制,强化学习是广受关注的方法。本期技术干货,我们邀请到了小米工程师——刘天林,为大家介绍机器人(以足式机器人为主)强化学习中的sim-to-real问题及一些主流方法。

一、前言

设计并制造可以灵活运动的足式机器人,一直是工程师追逐的梦想。相比于轮式机器人,足式机器人凭借其腿部结构优势可以在离散非连续的路面行走。近年来,足式机器人技术发展迅速,涌现出了许多先进的足式机器人,如波士顿动力的Atlas/Spot机器人、麻省理工学院(MIT)的Cheetah系列机器人、瑞士苏黎世理工学院(ETH)的ANYmal系列机器人、宇树科技的A1/Go1机器人、小米的铁蛋机器人等。主流的传统运动控制方法,如模型预测控制(Model Predictive Control,MPC)和全身运动控制(Whole-Body Control,WBC),在足式机器人上得到了广泛的应用。

然而,这些方法往往需要复杂的建模和繁琐的人工调参,生成的动作在自然度和灵活性上也有所欠缺,这也使得研究者们把目光转向受生物启发的学习方法,强化学习(Reinforcement Learning,RL)就是其中最为广泛关注的方法。图1为四足机器人利用强化学习方法在不同路面行走的例子。

4b364e2d313778b9f97d3aab101fefdc.gif

图1 基于强化学习的四足机器人不同路面行走

图片来源:https://ashish-kmr.github.io/rma-legged-robots/

强化学习是机器学习的一个分支。与监督学习不同,在强化学习中,智能体通过与环境不断交互进行试错学习,其目标是最大化累积回报。强化学习最早起源于 20 世纪 50 年代出现的“最优控制”,用于解决控制器的设计问题,其目标是使得动态系统能够随时间变化实现某种指标的最优(即最大或者最小)。

强化学习的另一个起源来自于对动物行为实验的观察。研究发现,动物在面对相同情景时会表现出不同的行为,它们更倾向于能够引起自身满足感的行为,而对于那些会给自己带来不适的行为则会尽量避免。换言之,动物们的行为在与环境的互动中通过不断试错来巩固,试错学习也是强化学习方法的核心思想。

强化学习通过与环境交互不断试错来学习,其代价是所需的样本量很大,这对于实体机器人来说往往不可行,因为过多的交互次数会对机器人硬件造成不可逆转的损耗,甚至损坏机器人,同时也需要大量时间。

基于物理引擎的仿真器,如Pybullet、Mujoco、Isaac Gym等,为获取大量机器人交互数据提供了一个有效的方式。研究者们可以先在仿真器中进行训练,之后再迁移到真实机器人上。然而,由于真实环境受到多种物理规律的约束,仿真器无法准确地建模真实环境,这也使得仿真中训练得到的策略在真实机器人上直接部署时往往会失效或性能下降。学术界将从仿真到真机的迁移称作sim-to-real,它们之间的差异称作sim-to-real gap或者reality gap。

二、sim-to-real问题

在介绍具体方法之前,首先带大家了解一下sim-to-real中需要考虑的一些问题,这也有助于大家理解解决sim-to-real问题背后的方法思想。图2为机器人感知控制框架的示意图,机器人处于一个环境中,根据自身传感器获取对环境的感知信息,之后根据这些信息进行决策,得到相应的动作并在环境中执行该动作,整个过程是一个闭环的控制过程。从这个过程也可以了解仿真和真实的一些差异:

(1)环境建模差异。

物理仿真器无法准确地捕捉真实世界的物理特性,如摩擦力、接触力、质量、地面反弹系数、地形方面的特性。

(2)感知差异。

真实世界中的感知往往是存在噪声的,易受到多种因素如光照方面的影响。而且,不同于仿真环境,真实世界中的感知是部分可观测的,sim-to-real时也需要考虑这方面的因素。

▍(3)机器人建模差异。

仿真中的机器人与真实机器人存在差异,无法准确地刻画真实机器人的运动学、动力学、电机模型等方面的特性。

▍(4)控制差异。

受通信传输和机械传动的影响,从机器人发出控制指令到真正执行指令之间存在延时,且控制信号存在噪声。当前的sim-to-real研究主要也是从这四方面差异展开。

1fede7b4e4be2605946cc499638c2fd0.png

图2 机器人感知控制框图


三、主流方法

强化学习在仿真控制中取得了很大的成功,也促使研究者们将这些“成功”应用到真实机器人中。本节介绍用于解决sim-to-real问题的前沿方法,包括更好的仿真、域随机化、域适应等。

 >>>> 3.1 更好的仿真

从仿真到真机迁移的一个直观想法是,构造更真实的物理模拟器,使得仿真中的环境及其生成的数据更接近于真实环境。

比如,在视觉感知方面,通过调节仿真器中的渲染参数,使得仿真中得到的图像数据更接近于真实环境的数据。在运动控制方面,一个经典的例子是ETH 2019年发表在Science Robotics中的工作[1]。为了更好地模拟真实关节电机的驱动效果,ETH的研究人员利用神经网络建模了从PD误差到关机电机的输出扭矩,其中,PD误差包括关节位置误差和关节速度。该神经网络也被称作执行器网络(Actuator Net),如图3右上角所示。在实现时,为了更好地捕捉关节电机的动态执行特性,Actuator Net的输入包括了过去多个时刻的关节位置误差和关节速度。

439dc247b607451d8d177b953b1b5a0d.png

图3 仿真中训练ANYmal机器人的控制策略

图片来源:https://www.science.org/doi/10.1126/scirobotics.aau5872

整个sim-to-real过程如图4所示,共分为四步:

(1)识别出机器人的物理参数,并对机器人进行刚体运动学/动力学建模;

(2)收集真实的关节电机执行数据,训练一个Actuator Net;

(3)在仿真中,利用Actuator Net建模关节电机,并结合第一步中的刚体运动学/动力学建模,进行强化学习;

(4)将第3步中训练得到的策略部署到真机上。

58a0ffe960aba980bcfea0af496e3769.png

图4 从仿真到真机迁移框图

图片来源:https://www.science.org/doi/10.1126/scirobotics.aau5872

除了视觉感知和运动控制方面,仿真速度也是大家关注的指标。2021年,英伟达的研究人员开发了Isaac Gym强化学习仿真环境[2][3],该环境运行在英伟达自家生产的RTX系列显卡上。Isaac Gym充分利用了GPU多核并行计算的优势,使得在同一个GPU中可以同时进行数千个机器人的仿真训练学习,这也加快了数据采集的时间。视频1为ETH和英伟达的研究人员利用Isaac Gym进行强化学习行走的例子。

视频1 利用大规模并行强化学习方法学习行走

视频来源:https://www.youtube.com/watch?v=8sO7VS3q8d0

>>>> 3.2 域随机化

从仿真到真机迁移的差异中,有很大一部分是仿真和真实之间的物理参数差异。域随机化(Domain Randomization)方法的主要思路是,在训练过程中随机化仿真环境的物理参数。它背后的思想是,如果这些参数足够多样化,并且模型能够适应这些不同的参数,那么真实环境也可以看作是仿真环境中的一个特例。

域随机化常见的一种方法是随机化视觉特征参数,这种方法在基于视觉的机器人策略中经常被使用。例如,OpenAI和UC Berkeley的研究人员利用随机化视觉特征参数后渲染得到的图像训练物体检测器,并将得到的物体检测器用在真实机器人上进行抓取控制 [5] ,如图5所示。除了随机化视觉特征参数外,随机化动力学参数也是一种常见的方法。例如,OpenAI的研究人员利用强化学习在仿真环境中训练 Shadow 机器人灵巧手的操作策略,并将得到的策略迁移到实体 Shadow 机器人灵巧手上[6],如视频2所示。在仿真环境中,他们同时随机化了系统的动力学参数(如摩擦力、质量等)和视觉特征参数。

a4c11f82ae64309019dd4a9d764bcf70.png

图5 利用图像域随机化实现从仿真到真机迁移

图片来源:https://arxiv.org/pdf/1703.06907

视频2 学习灵巧手操作策略

视频来源:https://www.youtube.com/watch?v=jwSbzNHGflM

域随机化的常见难点是,很多时候需要人为指定参数随机化的范围。这些范围的确认需要一些领域的知识或洞见,如果选择不当可能会导致从仿真到真机迁移时性能下降明显。随着自动机器学习(Automated Machine Learning,AutoML)技术的发展,一些研究人员也开始探索自动学习域随机化的参数范围,如Chebotar等人的工作[7]。

>>>> 3.3 域适应

机器人在现实环境中成功部署需要它们能够适应不可见的场景,比如不断变化的地形、不断变化的负载、机械磨损等。与域随机化对应的另一种sim-to-real方法是域适应(Domain Adaptation)。它旨在将仿真环境中 (源域) 训练得到的策略在现实环境中 (目标域) 进行再适应。这种方法背后的假设是,不同域之间具有相同的特征,智能体在一个域中学习得到的行为和特征能够帮助其在另一个域中学习。

在sim-to-real过程中,域随机化常常也与域适应一起使用。近年来,机器人领域一个经典的域适应工作是2021年UC Berkeley和CMU的研究人员发表在RSS机器人会议上的工作[8]。针对机器人实时在线适应问题,他们提出了RMA(Rapid Motor Adaptation)方法,使得四足机器人可以在不同地形下实现快速适应,实验结果示例如图1所示。图6和图7为RMA方法的系统框图。RMA由两个子模块组成,包括基础策略 π 和适应模块 Φ 。下面介绍如何在仿真中训练RMA,以及如何在真机中部署RMA。

•仿真中训练RMA(图6) 共分为两个阶段

(1)在第一个阶段中,利用模型无关(Model-free)的强化学习方法(如PPO[9])训练基础策略 π 。其中,基础策略 π 的输入包括当前时刻状态 x、上一时刻动作 at-1 、经过环境特征编码器 μ 编码得到的隐变量 z。环境特征编码器 μ 的输入包括质量、质心、摩擦力、地形高度等,其中很大一部分信息在实际部署时很难获取,仅在仿真时训练使用,这些信息也被称为特权信息(Privileged Information)。

(2)在第二个阶段中,利用监督学习训练适应模块 Φ ,以取代第一阶段中的环境特征编码器 μ ,这也是RMA方法的主要创新点所在。需要注意的是,在这个阶段中基础策略 π 保持不变。适应模块 Φ 的输入为过去多个时刻的状态和动作,输出为环境信息的隐变量 žt。它背后的思想是,系统当前状态是机器人在特定环境下的产物,根据过去的状态和动作信息可以推断出当前的环境信息。第二阶段训练的适应模块 Φ 也解决了第一阶段中训练得到的环境特征编码器 μ 无法在实际环境中部署的问题。这种训练方式也被称为Teacher-Student学习,后续很多工作也采用了该方式。

dea2794afb4112a4d2fc9d08040b8199.png

图6 RMA方法系统框图 -- 在仿真中训练

图片来源:https://arxiv.org/pdf/2107.04034

  • 真机部署RMA(图7)

真机部署时与仿真训练中的第二阶段类似,使用的是训练后的基础策略 π 和适应模块 Φ 。其中,基础策略 π 以100Hz运行,适应模块 Φ 以更低的频率(10Hz)异步运行。基础策略 π 输出的动作 a为关节期望角度,最终通过机器人的PD控制器转换成扭矩。适应模块 Φ 的运行过程相当于一个在线的系统辨识过程,类似于卡尔曼滤波器通过先前的观测状态进行状态估计。

259f858112464052f63ef2e037b25938.png

图7 RMA方法系统框图 -- 真机部署

图片来源:https://arxiv.org/pdf/2107.04034

除了四足机器人,UC Berkeley和CMU的研究人员也将RMA方法成功部署到双足机器人上[10],如视频3所示。

视频3 双足机器人上应用RMA方法

视频来源:https://www.youtube.com/watch?v=HSdFHX0qQqg

>>>> 3.4 其他

除了前面提到的三种方法,近年来也有研究者使用其它方法来解决sim-to-real的问题。例如,通过元学习(即学习如何学习)[11]来学习机器人的本体设计[12][13](视频4),通过扩展随机力注入(Extended Random Force Injection,ERFI)学习鲁棒的机器人运动控制策略[14](视频5),通过对抗运动先验(Adversarial Motion Priors,AMP)从动捕数据中学习机器人动作[15][16](视频6)。

视频4 学习四足机器人的平行弹性执行器设计及控制

视频来源:https://twitter.com/i/status/1615291830882426883

视频5 通过ERFI学习鲁棒的运动控制策略

视频来源:https://www.youtube.com/watch?v=kGkOoJ_DAwQ

视频6 四足机器人上应用AMP模仿学习方法

视频来源:https://www.youtube.com/watch?v=Bo88rwUQbrM&t=4s

四、结语

随着人工智能技术的不断发展,强化学习作为实现机器人智能运动控制的有效途径成为了大家的共识。借助现代物理仿真器技术,研究人员可以先在虚拟世界中训练机器人,之后再迁移到现实世界中。

这篇文章讨论了解决从仿真到真机迁移问题的主流方法,这些方法都各有自己的优缺点,在实际部署时一般都会结合起来使用。近年来,机器人顶级会议CoRL、RSS等也开始举办针对sim-to-real的学术研讨会[17][18][19][20],未来sim-to-real将朝着更鲁棒策略、更少经验调参、更多维度感知的方向发展。伴随着强化学习技术的不断前进,相信在不久的将来,强化学习在实体机器人上的应用落地也将迎来蓬勃发展的春天,为人类生产生活带来便利。

参考文献

[1] Hwangbo J, Lee J, Dosovitskiy A, et al. Learning agile and dynamic motor skills for legged robots[J]. Science Robotics, 2019, 4(26): eaau5872.

[2] Makoviychuk V, Wawrzyniak L, Guo Y, et al. Isaac gym: High performance gpu-based physics simulation for robot learning[J]. arXiv preprint arXiv:2108.10470, 2021.

[3] https://github.com/NVIDIA-Omniverse/IsaacGymEnvs

[4] Rudin N, Hoeller D, Reist P, et al. Learning to walk in minutes using massively parallel deep reinforcement learning[C]//Conference on Robot Learning. PMLR, 2022: 91-100.

[5] Tobin J, Fong R, Ray A, et al. Domain randomization for transferring deep neural networks from simulation to the real world[C]//2017 IEEE/RSJ international conference on intelligent robots and systems (IROS). IEEE, 2017: 23-30.

[6] Andrychowicz O A I M, Baker B, Chociej M, et al. Learning dexterous in-hand manipulation[J]. The International Journal of Robotics Research, 2020, 39(1): 3-20.

[7] Chebotar Y, Handa A, Makoviychuk V, et al. Closing the sim-to-real loop: Adapting simulation randomization with real world experience[C]//2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019: 8973-8979.

[8] Kumar A, Fu Z, Pathak D, et al. Rma: Rapid motor adaptation for legged robots[J]. arXiv preprint arXiv:2107.04034, 2021.

[9] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

[10] Kumar A, Li Z, Zeng J, et al. Adapting rapid motor adaptation for bipedal robots[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 1161-1168.

[11] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International conference on machine learning. PMLR, 2017: 1126-1135.

[12] Belmonte-Baeza Á, Lee J, Valsecchi G, et al. Meta reinforcement learning for optimal design of legged robots[J]. IEEE Robotics and Automation Letters, 2022, 7(4): 12134-12141.

[13] Bjelonic F, Lee J, Arm P, et al. Learning-based Design and Control for Quadrupedal Robots with Parallel-Elastic Actuators[J]. IEEE Robotics and Automation Letters, 2023.

[14] Campanaro L, Gangapurwala S, Merkt W, et al. Learning and Deploying Robust Locomotion Policies with Minimal Dynamics Randomization[J]. arXiv preprint arXiv:2209.12878, 2022.

[15] Escontrela A, Peng X B, Yu W, et al. Adversarial motion priors make good substitutes for complex reward functions[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 25-32.

[16] Vollenweider E, Bjelonic M, Klemm V, et al. Advanced skills through multiple adversarial motion priors in reinforcement learning[J]. arXiv preprint arXiv:2203.14912, 2022.

[17] https://sites.google.com/view/corl-22-sim-to-real

[18] https://sim2real.github.io/

[19] https://sim2real.github.io/rss2020

[20] https://sim2real.github.io/rss2019

5117ffacd96ab8da695726b484bb990f.gif

5bb895195e303f65691ceac25fd7eec8.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/379357.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【靶机】vulnhub靶机cybox1

Vulnhub靶机Cybox下载地址 Cybox: 1.1 ~ VulnHub 信息搜集 首先进行靶机ip的发现。 sudo arp-scan -l 接着使用nmap扫描开放的端口,这里使用扫描全部端口和详细信息太慢了,分开检测 命令:nmap -p 21,25,80,110,143,443 -sV -A 192.168.174…

CentOS救援模式(Rescue Mode)及紧急模式(Emergency Mode)

当CentOS操作系统崩溃,无法正常启动时,可以通过救援模式或者紧急模式进行系统登录。启动CentOS, 当出现下面界面时,按e进入编辑界面。在编辑界面里,加入参数:systemd.unitrescue.target ,然后Ctrl-X启动进入…

Linux服务器上传文件到阿里云oss对象存储的两种方法ossutil、curl

ossutil支持在Windows、Linux、macOS等系统中运行,您可以根据实际环境下载和安装合适的版本。安装过程中,需要使用解压工具(unzip、7z)解压软件包,请提前安装其中的一个解压工具。yum -y install unzipLinux系统一键安…

正点原子第一期

ZYNQ是一个fpga用来硬件编程,外加一个软件编程 FPGA是可通过编程来修改其逻辑功能的数字集成电路 第三篇语法篇 第七章 verilog HDL语法 Verilog的简介 可编程逻辑电路:允许用户自行修改内部连接的集成电路,其内部的电路结构可以通过编程数…

ADAS-CIS相机关键参数综述

引言 “ CIS传感器关键参数是工程师选型参考的依据,抛开镜头,本文介绍CIS可见光传感器关键参数之CRA、QE、CFA、Shutter、SNR等。” 关键参数 CRA CFA(Chief Ray Angle)主光角,在上一篇可见光相机的介绍中我们介绍了Sensor的叠层结构&am…

leecode+剑指offer

1.算法入门14天 1.704二分查找: 题目描述:给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 思路…

Matlab进阶绘图第3期—方块热图

方块热图是一种特殊的热图(Heatmap)。 与传统热图相比,方块热图通过不同颜色、不同大小的正方形以表示数据/特征的大小,能够更加直观地对数据分布情况进行分析,也因此可以在一些顶级期刊中看到它的身影,比…

数据库设计三大范式

数据库设计遵循三大范式的理由:在面对复杂是数据库设计的时候,设计数据库要遵循一定的规则,有了一定的规范,这样就可以是自己看起来舒服。 1.第一范式(确保每列保持原子性) 第一范式主要是保证数据表中的每一个字段的…

Java缓存面试题——Redis解决方案

文章目录1、什么是缓存击穿?该如何解决2、什么是缓存穿透?该如何解决3、什么是缓存雪崩?该如何解决4、什么是BigKey?该如何解决bigkey的危害发现bigkey解决bigkey5、redis过期策略都有哪些?6、讲一讲Redis缓存的数据一…

FL Studio 21 中文正式版发布支持多种超个性化主题

万众期待的 FL Studio 21 版本正式发布上线,目前在紧锣密鼓的安排上线中,届时所有购买正版 FL Studio 的用户,都可以免费升级到21版! 按照惯例,本次新版也会增加全新插件,来帮助大家更好地创作。今天先给大…

利用 NVIDIATAO 和 WeightBias 加速AI开发

利用 NVIDIATAO 和 Weight&Bias 加速AI开发 利用图像分类、对象检测、自动语音识别 (ASR) 和其他形式的 AI 可以推动公司和商业部门内部的大规模转型。 然而,从头开始构建人工智能和深度学习模型是一项艰巨的任务。 构建这些模型的一个共同先决条件是拥有大量高…

Java枚举详解

一.枚举 1.为什么有枚举? 如果我们的程序需要表示固定的几个值: 比如季节:spring (春),summer(夏),autumn(秋),winter(冬) 用常量表示: public static final int SEASON_SPRING 1;public st…

机械键盘不只有轴体的区别!键帽高度也有些学问

键盘键帽的学问有很多,上篇文章中,笔者和大家聊了键帽的材质和耐油污的问题。 除此之外,键帽的高度和字符的印刷方式也有不同,对于多数机械键盘来说,会发现每一列键帽的倾斜角度都略有不同,使用起来可以减少…

vue在history模式下打包部署问题解决

引言 项目使用的模板是element-template,由于业务需要,我将路由的hash模式更改为了history模式,然后在打包部署项目时就出现了问题 个人发现是资源的访问路径有问题,在部署之后发现每次访问的js资源路径前都会自动携带上我路由的…

如何使用SpringBoot ⽇志?

Spring Boot自定义日志的打印:在一个类中先获取到打印日志对象(日志框架提供的日志对象,而日志框架默认已经集成到Spring Boot里了,springboot默认使用 slf4jlogback);注意:得到日志对象Logger ->来自于slf4j2、使用目志对象提…

Operator-sdk 在 KaiwuDB 容器云中的使用

一、使用背景KaiwuDB Operator 是一个自动运维部署工具,可以在 Kubernetes 环境上部署 KaiwuDB集群,借助 Operator 可实现无缝运行在公有云厂商提供的 Kubernetes 平台上,让 KaiwuDB 成为真正的 Cloud-Native 数据库。使用传统的自动化工具会…

深度学习之 imgaug (图像增强)学习笔记

深度学习之 imgaug (图像增强)前言1\. 安装和卸载2\. 示例2.1 基本使用2.2 包含常用的变换示例3 Augmenters常用函数3.1 iaa.Sequential()3.2 iaa.someOf()3.3 iaa.OneOf()3.4 iaa.Sometimes()3.5 iaa.WithColorspace()3.6 iaa.WithChannels()3.7 iaa.No…

KingbaseES V8R3 表加密

前言 透明加密是指将数据库page加密后写入磁盘,当需要读取对应page时进行加密读取。此过程对于用户是透明, 用户无需干预。 该文档进行数据库V8R3版本测试透明加密功能,需要说明,该版本发布时间早于V8R6,所以只能进行表…

我带过的一名C++实习生——Z同学

刚开始带Z同学,吃饭聊天时,我顺便了解了下他的擅长:linux平台下C、C网络编程。 接下来的实习,主要分为两个阶段:小组公共培训和项目实训。 小组公共培训为期2周,主要学习和了解公司文化制度,讲师…

【项目设计】高并发内存池(三)[CentralCache的实现]

🎇C学习历程:入门 博客主页:一起去看日落吗持续分享博主的C学习历程博主的能力有限,出现错误希望大家不吝赐教分享给大家一句我很喜欢的话: 也许你现在做的事情,暂时看不到成果,但不要忘记&…