机器人学习仿真框架

news2024/10/26 4:11:42

机器人学习仿真框架一般包含(自底向上):

  1. 3D仿真物理引擎:对现实世界的模拟仿真
  2. 机器人仿真平台:用于搭建工作场景,以实现agent与环境的交互学习
  3. 学习算法框架集合:不同的策略学习算法的实现
  4. 算法测试环境及benchmark:针对不同的定制化算法的测试环境以及评价标准

整体框架简要介绍

  1. 物理引擎:模拟现实世界物理行为的软件工具。可模拟牛顿动力学模型,使用质量、速度、摩擦力和空气阻力等变量,为刚性或柔性物体赋予真实的物理属性,基于此模拟物体的运动、旋转、碰撞等交互过程。本质上是一个计算器,执行模拟物理所需的数学计算。如下是一些流行的物理引擎
    • PhysX (Nvidia):属于Nvidia GameWorks软件套件的一部分,拥有刚体动力学、软体动力学、关节、车辆动力学、流体力学等特性,是游戏和机器人领域最知名的物理引擎。Nvidai在GeForce系列图形卡上启用PhysX硬件加速
    • Bullet
    • MuJoCo、Havok、ODE、RaiSim、DART、Vortex、Simbody
    • 经过某位网友调研发现(不保真),针对机器人学习领域,比较适合的物理引擎有:PhysX, Bullet, MuJoCo, RaiSim
  2. 机器人仿真平台:让用户在没有物理硬件的情况下也能快速对算法进行验证。一般来说,由于真实物理平台与仿真环境存在差异,仿真一般只在系统前期使用,后期还会要转到实际硬件平台上进行调试。如下是一些流行的机器人仿真平台
    • Nvidia Isaac Sim:整合了PhysX物理引擎和RTX图像渲染引擎,并引入了Pixar公司开发的USD(Universal Scene Description)描述格式作为机器人和复杂场景的描述方式
    • ROS-Gazebo:可访问ODE、Bullet、Simbody、DART多个物理引擎
    • PyBullet:基于Bullet物理引擎开发的仿真环境。和python紧密结合,目前在强化学习中广泛应用
      • PyBullet和Bullet的区别:PyBullet is a python module for sim, robotics and machine learning, it has rendering, inverse kinematics etc. Install is just pip install pybullet, it will do all, no need to manually install Bullet c++.
        Bullet C++ is the underlying physics library, you don’t need to compile or install it, pip does that.
    • MuJoCo、CoppeliaSim、MATLAB Robotics Toolbox、Webots、UE4(Unreal Engine)、Unity3D
    • 该网友调研:Pybullet和MuJoCo在机器人学习领域尤其火
  3. 学习算法框架集合:类似于Numpy,只不过是强化学习算法的打包实现
    • 如OpenAI Baselines、PyTorch DRL、Stable Baselines3、RLlib、rlpyt、Acme
  4. 算法测试环境及benchmark
    • RLBench:有100个手工设计任务,旨在促进视觉引导的manipulation领域的研究(包含强化学习、模仿学习、多任务学习、几何计算机视觉)
    • ControlSuite(DeepMind)、Gym(OpenAI)、RoboSchool(OpenAI)、Robosuite(Stanford)、RoboTurk(Stanford)、PyRoboLearn、Meta-World(Stanford)、SURREAL(Stanford)、OpenSpiel(DeepMind)、PyRobot(Facebook)、S-RL Toolbox、ROBEL(Google)、Menger(Google)、SEED RL(Google)、DERL(Stanford)

一些零碎的相关概念扫盲

  1. 目前机器人模拟器主要分两种类型:1)具身智能模拟器(为强化学习算法服务的);2)传统工业控制模拟器(基于模型控制服务的)
    • 前者最早来自游戏产业,如Isaac Sim、Isaac Gym和SAPIEN都是基于PhysX这个物理引擎。Unity游戏设计框架也使用了PhysX物理引擎
    • 具身智能模拟器更注重速度,但在接触点建模方面可能不够精细,但非常适合个人/实验室用户,只需一块显卡就能训练
    • 后者像MIT Russ Tedrake开发的Drake模拟器,速度较慢,但在接触点建模方面更为精细,适用于最优控制等场景
    • 机器人模拟器和一些基础力学的模拟器,如分析材料在一定力下是否变形的模拟器,都有各自的价值。它们在不同维度上强调速度和精度的权衡,各自有不同的定位。它们之间不是完全竞争的关系
  2. 做一个好的simulator最大的挑战是什么
    • 更准确+更真实,往往需要牺牲速度和采样效率
    • 对于强化学习等任务,采样效率可能是关键;而对于一些需要真实渲染的领域,如视觉和模仿学习,渲染质量可能更重要。因此不同研究中关注的特性可能不同
    • 刚体模拟现在比较成熟,软体模拟相比之下是一个蓝海
  3. 模拟器目前没有一个大一统的标准,原因之一是许多主流模拟器背后是不同的科技巨头。如Isaac系列背后是Nvidia,MuJoCo背后是Google。这些科技巨头的目标是让模拟器与他们的硬件或编译器紧密耦合,以在自家计算平台上更好地部署(比如Nvidia的GPU、Google的TPU)
  4. 强化学习和模仿学习:
    两种算法没有直接关联,且最早应用在机器人上时是不需要模拟器的。是因为强化学习对数据的需求量很大,即采样复杂度很高,而真实世界中采集大量数据非常困难,才转向使用模拟器的。
    若想在模拟器中训练强化学习算法,就需要解决模拟器和真实机器人之间的sim2real gap问题,这个鸿沟不易填补。因此有人倾向于直接使用真实机器人数据,但强化学习对数据的需求量很大(采样复杂度很高),所以一些研究者更愿意采用模仿学习策略。
    Yuzhe称,对于相对简单的任务,他更倾向于使用模仿学习,因为人类可以轻松使用遥控器采集数据;对于一些复杂、高动态的任务,真实世界中采集数据可能很困难,因此最好的做法是在模拟器中开始,并尝试将其迁移到真实环境中,这时就需要强化学习的方法。
  5. 如何解决sim2real gap的问题?
    • 总的来说,Sim2Real Gap的问题大致分为两类:1)视觉方面的gap;2)物理方面的gap
      • 视觉方面:即外观,取决于视觉感知的可靠性。在模拟器中,机器人可以获得非常真实的深度信息,但在真实世界中,使用的深度传感器可能存在噪声和不准确性,特别是在处理透明、反光等复杂材料时,可能会出现畸变等问题。可通过:1)优化硬件;2)随机化等解决
      • 物理方面:和之前调研的差不多,论文里更详细
    • 解决方法可分为三类
      • 构建更好的模拟器:更好的物理仿真。如在深度相机仿真方面,传统方法简单地将渲染得到的物体深度直接用作深度传感器等数据,但也有一些工作采用更贴近真实深度相机原理的仿真
      • 数据增强:通过增加更丰富的数据来拉近模拟和真实环境的数据。如在模拟器中训练一个模型,使其能抓取多种属性的杯子,那么迁移到真实世界中时,该模型更有可能成功地抓取真实世界的杯子。代表性工作是Domain Randomization。这点模拟器有天然优势,可利用模拟器进行大规模数据增强
      • 寻找切入点:寻找一个在模拟器和真实世界之间差距较小的切入点,比如将问题简化,在简化的问题上使模拟器和真实世界趋于一致
  6. 对于仿真数据和真实数据
    对于一些简单的仿真任务,如抓取,在仿真中学到的策略迁移到真实世界时表现较为成熟;然而对于一些复杂的接触任务,特别是涉及接触点不断变化的情况,仿真效果并不理想,可能需要一些真实数据。因此他更倾向于使用模拟器对机器人模型进行初始化,最终通过在真实世界中微调(模型的权重)来学习出最终的策略
  7. 3D生成和模拟器
    3D生成可为模拟器提供服务,可为模拟器提供环境和素材。在模拟器中需要模拟很多3D模型和物体,而最早这些模型由艺术家手工建模,成本较高。现在人们开始考虑如何利用AI生成的模型来丰富模拟器的内容,使其更强大。
    大多数生成的3D素材以通用格式(如Mesh)存储,并且目前主流模拟器都能导入这类外部文件,因此没有出现点对点适配问题,大家都能使用和生成这些mesh格式的素材

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2223770.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在算家云搭建GPT-SOVITS(语音转换)

一、模型介绍 GPT-SOVITS是一款强大的小样本语音转换和文本转语音 WebUI工具。它集成了声音伴奏分离、自动训练集分割、中文ASR和文本标注等辅助工具。 具有以下特征: 零样本 TTS: 输入 5 秒的声音样本并体验即时文本到语音的转换。少量样本 TTS&…

Rust的move关键字在线程中的使用

为什么使用 move? 在 Rust 中,move 关键字主要用于闭包。当我们在一个线程中创建一个闭包并将其传递给另一个线程时,如果闭包中使用了某些变量,就需要决定这些变量的所有权归属。 不使用 move: 默认情况下&#xff0…

python实战项目42:themoviedb电影网站信息

python爬取themoviedb电影网站信息 一、寻找数据接口二、解析主页数据,获取详情页url三、向详情页url发送请求、获取并解析数据四、完整代码一、寻找数据接口 打开网站首页,F12打开开发者工具,刷新页面。 向下滑动页面,点击页面上的“Load More”图标。 寻找到数据接口,…

【网络原理】TCP/IP五层网络模型之网络层-----IP协议详解,建议收藏!!

💐个人主页:初晴~ 📚相关专栏:计算机网络那些事 前几篇文章中我们深入研究了TCP协议,因为TCP协议在我们日常开发中的使用频率非常高。而相比之下,IP协议与我们普通程序员关系就没那么近了。一般是专门开发…

2024年妈杯MathorCup大数据竞赛A题超详细解题思路

2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价预测问题;B题为库存和销量的预测优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码论文。 下面为大家带来…

创建型模式-----建造者模式

目录 背景: 构建模式UML 代码示例 房子成品: 构建器抽象: 具体构建器: 建筑师: 测试部…

配置nginx服务通过ip访问多网站

1.关闭防火墙 [rootlocalhost wzj]# systemctl stop firewalld [rootlocalhost wzj]# sstenforce 0 bash: sstenforce: command not found... [rootlocalhost wzj]# setenforce 0 2,挂mnt [rootlocalhost wzj]# mount/dev/sr0/mnt bash: mount/dev/sr0/mnt: No suc…

C++20中头文件ranges的使用

<ranges>是C20中新增加的头文件&#xff0c;提供了一组与范围(ranges)相关的功能&#xff0c;此头文件是ranges库的一部分。包括&#xff1a; 1.concepts: (1).std::ranges::range:指定类型为range&#xff0c;即它提供开始迭代器和结束标记(it provides a begin iterato…

【WPF】中Dispatcher的DispatcherPriority参数使用

在 WPF 中&#xff0c;DispatcherPriority 参数用于指定通过 Dispatcher 调度的操作的执行优先级。加入 DispatcherPriority 参数的情况通常取决于你希望操作何时以及如何被执行。 1.Dispatcher的DispatcherPriority参数使用 以下是几种情况和示例说明&#xff1a; 1.1 需要…

量子纠错--shor‘s 码

定理1 (量子纠错的条件) C是一组量子编码&#xff0c;P是映射到C上的投影算子。假设是一个算子元素描述的量子操作&#xff0c;那么基于量子编码C&#xff0c;存在一个能对抗描述的噪声的纠错操作R的充要条件是 对某个复元素厄米矩阵成立。 将算子元素称为导致的错误。如果这样…

数字 图像处理算法的形式

一 基本功能形式 按图像处理的输出形式&#xff0c;图像处理的基本功能可分为三种形式。 1&#xff09;单幅图像 单幅图像 2&#xff09;多幅图像 单幅图像 3&#xff09;单&#xff08;或多&#xff09;幅图像 数字或符号等 二 几种具体算法形式 1.局部处理邻域对于任一…

第二单元历年真题整理

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 参考答案 1. A 2. A 3. A 4. D 5. D 6. D 解析&#xff1a; 栈和队列是两个不一样的结构&#xff0c;不能放在一起表示 7. B 8. C 解析&#xff1a; S --> A0 | B1 --> (S1 | 1) 0 | (S0 | 0)1 --> S10 | 10 | S…

Java程序员如何获得高并发经验?

高并发编程 提到并发编程很多人就会头疼了&#xff1b;首先就是一些基础概念&#xff1a;并发&#xff0c;并行&#xff0c;同步&#xff0c;异步&#xff0c;临界区&#xff0c;阻塞&#xff0c;非阻塞还有各种锁全都砸你脸上&#xff0c;随之而来的就是要保证程序运行时关键…

蓝桥杯题目理解

1. 一维差分 1.1. 小蓝的操作 1.1.1. 题目解析&#xff1a; 这道题提到了对于“区间”进行操作&#xff0c;而差分数列就是对于区间进行操作的好方法。 观察差分数列&#xff1a; 给定数列&#xff1a;1 3 5 2 7 1 差分数列&#xff1a;1 2 2 -3 5 6 题目要求把原数组全部…

Leetcode239. 滑动窗口最大值

问题描述&#xff1a; 给你一个整数数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1&#xff1a; 输入&#xff1a;nums [1,3,…

c#子控件拖动父控件方法及父控件限在窗体内拖动

一、效果 拖放位置不超过窗体四边,超出后自动靠边停靠支持多子控件拖动指定控件拖放(含父控件或窗体)点击左上角logo弹出消息窗口(默认位置右下角)1.1 效果展示 1.2 关于MQTTnet(最新版v4.3.7.1207)实现在线客服功能,见下篇博文 https://github.com/dotnet/MQTTnet 网上…

7、哈希表

7、哈希表 哈希表最主要的作用就是把一个比较庞大的空间或者值域 映射到比较小的值域 (0-n) 就是将-10^9 ~10^9 映射到 0 ~10^5 一、存储结构 映射的方法可以是 h(x) x mod 10^5 但是这样映射会出现一个问题 可能会有重复的数字出现 所以就引出了两个方法 开放寻址法 和…

时间数据可视化基础实验(南丁格尔玫瑰图)——Python热狗大胃王比赛数据集

【实验名称】 实验一&#xff1a;时间数据的可视化 【实验目的】 1.掌握时间数据在大数据中的应用 2.掌握时间数据可视化图表表示 3. 利用python程序实现堆叠柱形图的可视化 【实验原理】 时间是一个非常重要的维度与属性。时间序列数据存在于社会的各个领域&#xff0c;如&a…

金融工程--pine-script 入门

背景 脚本基本组成 策略实现 实现马丁格尔策略 初始化变量&#xff1a;定义初始资本、初始头寸大小、止损百分比、止盈百分比以及当前资本和当前头寸大小等变量。 更新头寸&#xff1a;创建一个函数来更新头寸大小、止损价格和止盈价格。在马丁格尔策略中&#xff0c;每次亏…

若依框架篇-若依集成 X-File-Storage 框架(实现图片上传阿里云 OSS 服务器)、EasyExcel 框架(实现 Excel 数据批量导入功能)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 实现使用 Excel 文件批量导入 1.1 导入功能的前端具体实现 1.2 导入功能的后端具体实现 1.3 使用 EasyExcel 框架实现 Excel 读、写功能 1.4 将 Easy Excel 集成到…