【强化学习抓取】偏机器人领域(略)

news2025/1/14 2:46:22

文章目录

  • 1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch
    • 摘要和结论
    • 引言
    • 相关工作
    • 模型框架

1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch

摘要和结论

引言

  • 尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。
  • 深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。一些最近的方法提出了利用离线任务演示数据来解决这个问题,并将这些数据与在线策略训练期间获取的数据结合起来。尽管这些方法显示出了有希望的结果,但演示数据的收集是一个非平凡的过程,需要适当的工具,如动作捕捉(MoCap)或虚拟现实(VR)系统。
  • 为了克服这些限制,作者们提出了一种基于DRL的抓取方法,该方法利用自动收集的演示来初始化策略训练。据作者所知,这是第一个从RGB数据、触觉和本体感知信息中学习这项任务的方法。他们从一个由外部算法生成的抓取姿势开始,将其作为任务的先验信息,并假设这个初始姿势是不准确的,需要根据特定的物体和抓取手进行细化。
  • 因此,机器人首先将末端执行器移动到接近这个姿势的位置以开始抓取动作,然后使用一个单独的策略来接近和抓取物体。他们通过提出的G-PAYN方法训练这个策略。该方法首先利用给定的抓取规划器自动获取一组演示,然后从这些演示的数据开始训练策略。他们为训练过程设计了一个奖励函数,使用抓取成功或失败的度量,同时考虑抓取动作的中间步骤。例如,他们使用来自触觉传感器的信息,并为那些增加接触点数量以实现更稳定抓取的手部配置提供正向奖励。

相关工作

A. 多指抓取(Multi-fingered Grasping):

  • 多指抓取任务由于涉及的自由度(DoFs)数量众多以及手部与物体之间复杂的交互而具有挑战性。
  • 一些最近的研究提出了从点云信息开始的多指抓取合成方法,但这些方法通常受限于训练时使用的硬件,并且没有考虑抓取执行过程中的手部与物体的交互。
  • 另一些方法,如使用基于主成分分析(PCA)的手部协同方法,处理Shadow手的高自由度问题,并训练DRL策略从外部算法给出的抓取姿势开始抓取物体。这些方法使用二进制触觉信息关节扭矩(可能不是所有机器人都可用)和手部关节位置作为输入,但没有考虑物体的信息(例如物体位置或视觉反馈),这些信息可以允许在抓取姿势不适当时进行抓取恢复。
  • 其他方法,如使用动作捕捉系统收集数据,旨在减少多指抓取训练数据的数量,因为多指抓取的数据收集过程具有挑战性。

B. 深度强化学习从演示中学习(Deep Reinforcement Learning from Demonstrations):

  • 利用演示数据学习DRL策略的方法可以分为两类:一类是在训练过程中始终使用演示数据的方法,如DDPGfD和基于DDPG算法的修改版本;另一类是使用演示数据进行策略的预训练,然后在线数据上进行微调的方法,如DAPG和AWAC。
  • 第一类方法通过修改DDPG算法来利用包含在重放缓冲区中的演示数据。
  • 第二类方法使用演示数据进行预训练,然后通过在线获取的数据进行策略的微调。例如,DAPG通过行为克隆进行预训练,然后使用增强损失进行微调,以保持策略接近演示数据。AWAC方法则缓解了离线演示数据和在线训练期间获取的数据之间的分布偏移

模型框架

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1513917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年GitHub标星2-9K的Android基础——高级面试题合集

3、横竖屏切换时候 Activity 的生命周期 4、AsyncTask 的缺陷和问题,说说他的原理。 5、onSaveInstanceState() 与 onRestoreIntanceState() Android高级面试题 1、你们做了哪些稳定性方面的优化? 2、性能稳定性是怎么做的? 3、业务稳定性如…

计算机如何处理异常

前言 大家好,我是jiantaoyab,这篇文章主要计算机究竟是如何处理异常的,异常可以分成中断、陷阱、故障、中止这样四种情况。这四种异常,分别对应着 I/O 设备的输入、程序主动触发的状态切换、异常情况下的程序出错以及出错之后无可…

新手做抖音小店怎么能做起来吗?手把手教你,从零到做好只需3步

大家好,我是电商花花。 做抖音小店的新手卖家都会把月入过万作为做抖音小店的目标,在没有接触抖音小店之前都羡慕别人的店铺能够够稳定出单,月入过万,甚至更多。 可当自己在操作店铺的时候,要么就是没有流量&#xf…

CVE-2024-2074 SpringBoot迷你天猫商城Mini-Tmall sql注入漏洞分析

漏洞简介 Mini-Tmall是一个基于Spring Boot的迷你天猫商城。Mini-Tmall在20231017版本及之前存在一个严重的漏洞,攻击者可以利用该漏洞通过远程执行特定操作来注入恶意SQL语句,从而获取敏感信息或控制数据库。此漏洞影响文件?rtmall/admin/user/1/1的一…

C语言例2-2:从键盘输入两个整数,计算其乘积(利用用户自定义函数实现)

代码如下&#xff1a; //从键盘输入两个整数&#xff0c;计算其乘积&#xff08;利用用户自定义函数实现&#xff09;。 #include<stdio.h> int mul(int a, int b) //定义一个函数mul {int c; //定义一个整型…

深克隆和浅克隆有什么区别?

1、典型回答 克隆是指创建一个对象的副本&#xff0c;使副本具有与原始对象相同的属性和状态。在计算机编程中&#xff0c;克隆是一种常见的操作&#xff0c;用于复制数据、对象或数据结构&#xff0c;以便在不影响原始数据的情况下进行操作、修改或分发。 克降最典型的使用场…

Linux -- 线程互斥

一 线程互斥的概念 大部分情况&#xff0c;线程使用的数据都是局部变量&#xff0c;变量的地址空间在线程栈空间内&#xff0c;这种情况&#xff0c;变量归属单个线程&#xff0c;其他线程无法获得这种变量。但有时候&#xff0c;很多变量都需要在线程间共享&#xff0c;这样的…

【网络原理】TCP三次握手四次挥手

文章目录 &#x1f332;三次握手四次挥手总览&#x1f340;三次握手&#xff08;建立连接&#xff09;&#x1f338;为什么需要第三次通信 &#xff1f; &#x1f384;四次挥手&#xff08;断开连接&#xff09;&#x1f338;四次挥手中涉及到的两个重要的状态 ⭕总结 &#x1…

nginx学习记录-nginx初步配置

1. 虚拟机安装系统并配置网络 系统网上找个能用的镜像就行&#xff0c;我用的是阿里的镜像&#xff0c;地址是centos安装包下载_开源镜像站-阿里云 (aliyun.com) 以下是我本地的虚拟机配置 配置过程中按照提示操作系统即可。 安装好系统后&#xff0c;配置centos的ip&#x…

C++进阶之路---我们在何种情况下使用set和map

顾得泉&#xff1a;个人主页 个人专栏&#xff1a;《Linux操作系统》 《C从入门到精通》 《LeedCode刷题》 键盘敲烂&#xff0c;年薪百万&#xff01; 前言 在之前的学习中&#xff0c;我们已经接触过STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、for…

【多智能体强化学习02---训练范式+独立学习+多智能体策略梯度算法】

文章目录 多智能体强化学习训练和执行范式CTCEDTDECTDE MARL符号表示分布式学习&#xff08;Independent Learning)基于值函数的分布式学习&#xff08;Independent value-based learning)基于策略梯度的分布式学习&#xff08;Independent policy gradient learning) 多智能体…

力扣:数组篇

1、数组理论基础 数组是存放在连续内存空间上的相同类型数据的集合。 需要两点注意的是 数组下标都是从0开始的。数组内存空间的地址是连续的 因为数组的在内存空间的地址是连续的&#xff0c;所以我们在删除或者增添元素的时候&#xff0c;就难免要移动其他元素的地址。 …

LLM之RAG实战(二十九)| 探索RAG PDF解析

对于RAG来说&#xff0c;从文档中提取信息是一种不可避免的场景&#xff0c;确保从源文件中提取出有效的内容对于提高最终输出的质量至关重要。 文件解析过程在RAG中的位置如图1所示&#xff1a; 在实际工作中&#xff0c;非结构化数据比结构化数据丰富得多。如果这些海量数据无…

免费视频背景素材下载

找免费视频素材、背景就上这6个网站&#xff0c;高质量&#xff0c;无版权可商用。 1、菜鸟图库 https://www.sucai999.com/video.html?vNTYwNDUx 菜鸟图库虽然是个设计素材网站&#xff0c;但除了设计类素材之外还有很多视频、音频、办公类等素材&#xff0c;视频素材就有上…

课堂行为动作识别数据集

一共8884张图片 xml .txt格式都有 Yolo可直接训练 已跑通 动作类别一共8类。 全部为教室监控真实照片&#xff0c;没有网络爬虫滥竽充数的图片&#xff0c;可直接用来训练。以上图片均一一手工标注&#xff0c;标签格式为VOC格式。适用于YOLO算法、SSD算法等各种目标检测算法…

自主通用多物理场仿真PaaS平台伏图(Simdroid)及伏图电子散热模块上架华为云商店

随着云计算、大数据等前沿技术的蓬勃发展&#xff0c;国内制造业正面临智能制造转型升级的机遇与挑战。工业软件是制造业研发创新不可或缺的核心工具&#xff0c;《“十四五”智能制造发展规划》中明确了工业软件对于智能制造的核心支撑作用&#xff0c;着重提出加强关键核心技…

DevOps方案中10款最佳开源监控工具

DevOps方案中10款最佳开源监控工具 2024年,监视对现代DevOps团队的工作至关重要。DevOps团队需要可靠且灵活的工具,以有效监视和管理复杂系统,这些系统可以提供有关系统性能、可用性和安全性的实时见解。 开源监控工具由于其成本效益、灵活性和社区支持而日益受到青睐。 …

MySQL教程-SQL

SQL(Structured Query Language)结构化查询语言&#xff0c;操作关系型数据库的编程语言&#xff0c;定义了一套操作关系型数据库统一标准。 语法 SQL语句可以单行或多行书写&#xff0c;以;为结束标记SQL可以使用空格或缩进来增强语句的可读性SQL分单行注释(-- 注释内容 或 …

景略JL5104-N048C 可P2P代替RTL8304MB

话不多说&#xff0c;直接上参数&#xff0c;可免费申请样片上机测试。 JL5104是一个带有RMIl接口的4端口快速以太网交换机。 它支持四级优先级队列的QoS功能&#xff0c;保证了一些实时网络应用的性能。 JL5104集成了一个2k入口地址查找表和一个4路关联散列算法&#xff0c;该…

ios xcode 15 PrivacyInfo.xcprivacy 隐私清单 查询应用使用的隐私api

1.需要升级mac os系统到13 兼容 xcode 15.1 2.升级mac os系统到14 兼容 xcode 15.3 3.选择 New File 4.直接搜索 privacy 能看到有个App Privacy 5.右击Add Row 7.直接选 Label Types 8.选中继续添加就能添加你的隐私清单了 苹果官网文档