基于3D感知的端到端具身操作论文导读

news2024/9/24 3:27:28

DexIL:面向双臂灵巧手柔性操作的端到端具身执行模型

模型架构

输入:
  观测Ot: RGB点云,使用PointNet进行编码;
  状态St: 双臂末端7x2Dof位姿+16x2灵巧手关节位置,只进行归一化,无编码;
融合方式: 直接和点云特征进行concatenate组合。
输出: 未来d个时刻的动作(物理量与状态一样)
噪声预测网络: Unet
训练方式: Diffusion DDIM
DexIL
pipeline

演示demo

dexil

实验

exp1
exp2

3D Diffuser Actor:基于3D感知引导的多任务具身执行大模型

摘要

我们把扩散策略和 3D 场景表示用在了机器人操作上。扩散策略通过条件扩散模型来学习基于机器人以及环境状态的动作分布。最近,它们被证明表现比确定性的还有其他基于状态条件的动作分布学习方法都要好。3D 机器人策略利用从单个或者多个摄像头视图通过感知深度聚合而来的 3D 场景特征表示。已经表明,在不同摄像头视角下,它们比 2D 的同类策略泛化能力更强。我们把这两方面的工作整合到一起,推出了 3D 扩散器执行者,这是一种神经策略架构,给它一个语言指令,它就能构建出视觉场景的 3D 表示,然后以此为条件,不断对机器人末端执行器的 3D 旋转和平移进行去噪。每次去噪迭代的时候,我们的模型把末端执行器的姿态估计表示成 3D 场景标记,并且通过用 3D 相对注意力对其他 3D 视觉和语言标记进行特征提取,来预测每个标记的 3D 平移和旋转误差。3D 扩散器执行者在 RLBench 上达到了新的顶尖水平,在多视图设置下比当前最顶尖水平的绝对性能提高了 16.3%,在单视图设置下提高了 13.1%。在 CALVIN 基准测试中,在零样本未见场景泛化的设置里,它和当前最顶尖水平相当。它在现实世界中,从少量的演示里也能发挥作用。我们对模型的架构设计选择做了消融研究,像 3D 场景特征化和 3D 相对注意力,结果表明这些都有助于泛化。我们的结果显示,3D 场景表示和强大的生成模型是从演示中让机器人高效学习的关键。
3d diffuser actor
3d diffuser actor pipeline

模型架构

输入:
   图像编码器: CLIP ResNet50 2D image encoder
   文本编码器: CLIP language encoder
   自 身 信 息: 机械臂末端位姿
输 出 动 作: 末端位姿(6D旋转+3D位置)+1D夹爪闭合,可预测全部轨迹点,或者关键位姿。
关键位姿: 重要的中间末端位姿,可以表征轨迹,可以使用一些简单的启发来提取,比如夹爪开闭或者局部速度、加速度极值处。
3d diffuser actor model

实验(在RLBench和Calvin Benchmark上达到SOTA)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3D Diffusion Policy:通过简单的3D表示进行通用的视觉运动策略学习

摘要

解决的问题: 如何使得模仿学习可以仅使用少量数据来学习鲁棒泛化的技能?
3DP相较2DP的优点:

  1. 高效与有效性。DP3不仅具有更高的精度,而且在示例数量和训练步骤上显著减少。
  2. 泛化能力。DP3的3D特性使其在多个方面具有泛化能力:空间、视角、实例和外观。
  3. 安全部署。我们在现实世界实验中观察到的一个有趣的现象是,DP3在实际任务中很少给出不稳定的命令,而基准2D方法却经常这样做,并表现出意想不到的行为,可能对机器人硬件造成潜在的损坏。

主要贡献:

  1. 我们提出了一种名为3D扩散策略(DP3)的有效视觉运动策略,可以在很少的示例下泛化到各种不同的方面。
  2. 为了减少基准和任务带来的方差,我们在广泛的模拟和真实世界任务中评估DP3,展示了DP3的通用性。
  3. 我们对DP3的视觉表征表示进行了全面分析,并发现一个简单的点云表示优于其他复杂的3D表示,更适合扩散策略而不是其他政策基线。
  4. 仅使用40个示例,DP3就能使用灵巧的手对具有可变形物体进行现实世界操作,这表明只需少量的人类数据就可以处理复杂的高维任务。
    在这里插入图片描述

模型架构

输入:
   点云编码器: MLP
   自 身 信 息: 机械臂末端位姿,无编码
输 出 动 作: 末端位姿(3D旋转+3D位置)+1D夹爪闭合
在这里插入图片描述

演示demos

实验

实验1:在现实实验中,我们惊讶地发现基于图像和深度的扩散策略在现实实验中往往会表现出不可预测的行为,这需要人类干预来确保机器人的安全。这种情况被称为安全违规。有趣的是,在我们的实验中,DP3很少违反安全规定,这表明DP3是一种适用于真实机器人学习的实用且硬件友好的方法。

在这里插入图片描述

实验2: DP3可以更好地在3D空间中进行插值泛化。实际测试发现基线不能推广到所有的测试位置,而DP3在5次试验中有4次成功。
实验3:DP3设计用于处理没有颜色信息的点云,固有地使其能够有效地泛化各种外观。如下所示,DP3始终显示出对不同颜色的立方体的成功泛化,而基线方法无法实现。值得注意的是,基于深度的扩散策略也没有将颜色作为输入。然而,由于其对训练对象的精度较低,泛化能力也受到限制

在这里插入图片描述

实验4:在不同的实例之间实现泛化,这些实例在形状、大小和外观上都不同,与单纯的外观泛化相比,提出了更大的挑战。如下所示,DP3可以有效地操作各种日常对象。这一成功主要归因于点云的固有特性,具体地说,点云的使用使得policy更鲁棒,特别是当这些点云被下采样时。

在这里插入图片描述

实验5:将基于图像的方法推广到不同视角是一个具有挑战性的问题,从多个视角获取训练数据可能耗时且成本高昂。我们证明,当摄像头视角稍有变化时,DP3可以有效地解决这一泛化问题。

在这里插入图片描述

实验6:定量对比实验

在这里插入图片描述
在这里插入图片描述

实验7:消融实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论分析

  1. 3D相较2D,能直接提供空间信息,由此带来了对形状、视角等泛化性;
  2. 3D相较2D对光照颜色的泛化性更好;
  3. 通过模型设计,3D可以获得位置方向和尺度的泛化性;
  4. 3D相较2D,学习效率更高: 20 vs 100 ;
  5. 将3D信息转换到机器人坐标系,有望解决跨本体差异的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1924612.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在word中删除endnote参考文献之间的空行

如图,在References中,每个文献之间都有空行。不建议手动删除。打开Endnote。 打开style manager 删除layout中的换行符。保存,在word中更新参考文献即可。

InjectFix 热更新解决方案

简介 今天来谈一谈,项目种的客户端热更新解决方案。InjectFix是腾讯xlua团队出品的一种用于Unity中C#代码热更新热修复的解决方案。支持Unity全系列,全平台。与xlua的思路类似,InjectFix解决的痛点主要在于Unity中C#代码写的逻辑在发包之后无…

复杂设备操作流程3D数字化全景展示好处多

传统的纸质说明书,尽管承载着产品的使用指南,但其图文平面的表现形式往往限制了表现力和说明力。对于简单产品,用户或许能摸索使用;但对于复杂产品,即使拥有详实的说明书,也可能因理解困难而导致使用障碍。现在&#x…

【工具使用】adb下载和配置

【工具使用】adb下载和配置 一,简介二,操作步骤2.1 Bing搜索adb2.2 下载adb工具2.3 添加路径到环境变量 三,效果验证 一,简介 本文主要介绍如何下载adb并安装使用,供参考。 此时打开cmd,输入adb 会提示&am…

<数据集>猫狗识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:3686张 标注数量(xml文件个数):3686 标注数量(txt文件个数):3686 标注类别数:2 标注类别名称:[cat, dog] 序号类别名称图片数框数1cat118811892dog24982498 使用标…

计算机网络复习笔记【面向考纲整理】

计算机网络复习笔记 一、计算机网络体系结构(一)计算机网络的概念、分类、组成与功能1.计算机网络的概念、组成与功能1.1计算机网络的概念1.2计算机网络的组成1.3计算机网络的功能 2.计算机网络的分类3.计算机网络的标准化工作及相关知识 (二…

主机安全-进程、命令攻击与检测

目录 概述反弹shell原理nc/dev/xxx反弹shell下载不落地反弹Shell各种语言反弹shell linux提权sudosuid提权mysql提权 Dnslog参考 概述 本文更新通过在主机(不含容器)上直接执行命令或启动进程来攻击的场景。检测方面以字节跳动的开源HIDS elkeid举例。每…

E9.【C语言】练习:模拟用户登录界面,最多输入三次密码以及strcmp函数的讲解

思路&#xff1a;分两个环节 1.输入密码&#xff0c;存储在数组里 2.密码验证&#xff08;尝试次数不超过3次&#xff09; #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <string.h> int main() {char password[20] { 0 };int i 0;for ( i …

整洁架构SOLID-接口隔离原则(ISP)

文章目录 定义ISP与编程语言ISP与软件架构小结 定义 在上图中有多个用户需要操作OPS类。现在&#xff0c;我们假设这里的User1只需要使用op1,User2只需要使用op2,User3只需要使用op3。 在这种情况下&#xff0c;如果OPS类是用Java编程语言编写的&#xff0c;那么很明显&#x…

使用Gitee仓库镜像管理功能实现Gitee与Github 双向同步

进入你所需要同步的仓库&#xff0c;点击「管理」->「镜像仓库管理」&#xff0c;点击「添加镜像」选项&#xff1b; 如果你的Gitee账号还没有绑定过 GitHub 帐号&#xff0c;先根据弹窗的提示绑定 GitHub 帐号&#xff1b; 添加镜像时候&#xff0c;在「镜像方向」中选择…

【学习笔记】无人机(UAV)在3GPP系统中的增强支持(三)-机上无线电接入节点无人机

引言 本文是3GPP TR 22.829 V17.1.0技术报告&#xff0c;专注于无人机&#xff08;UAV&#xff09;在3GPP系统中的增强支持。文章提出了多个无人机应用场景&#xff0c;分析了相应的能力要求&#xff0c;并建议了新的服务级别要求和关键性能指标&#xff08;KPIs&#xff09;。…

【微信小程序知识点】getApp()全局数据共享,页面间通信,组件间通信

getApp()-全局数据共享 在小程序中&#xff0c;可以通过getApp()方法获取到小程序全局唯一的App实例。因此在App()方法中添加全局共享的数据&#xff0c;方法&#xff0c;从而实现页面&#xff0c;组件的数据传值。 // app.js App({//全局共享的数据globalData: {token: &qu…

C语言——流程控制:if...else、switch...case

控制类语句&#xff1a; 逻辑运算符&#xff1a; 选择语句&#xff1a; if...else&#xff1a; if&#xff08;&#xff09;括号内的内容终究会被转换成0,1&#xff0c;满足的话即为1&#xff0c;不满足的话为0。因此要注意&#xff0c;&#xff08;&#xff09;括号内因为条件…

【数智化CIO展】沃太能源CIO陈丽:AI 浪潮下的中国企业数智化转型机遇与挑战...

陈丽 本文由沃太能源CIO陈丽投递并参与由数据猿联合上海大数据联盟共同推出的《2024中国数智化转型升级优秀CIO》榜单/奖项评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 在当今飞速发展的数字时代&#xff0c;中国企业正面临着前所未有的变革机遇和挑战。“中国企业数…

机器学习筑基篇,Jupyter Notebook 精简指南

[ 知识是人生的灯塔&#xff0c;只有不断学习&#xff0c;才能照亮前行的道路 ] 0x00 Jupyter Notebook 简明指南 描述&#xff1a;前面我们已经在机器学习工作站&#xff08;Ubuntu 24.04 Desktop Geforce RTX 4070Ti SUPER&#xff09;中安装 Anaconda 工具包&#xff0c;其…

Spark底层原理:案例解析(第34天)

系列文章目录 一、Spark架构设计概述 二、Spark核心组件 三、Spark架构设计举例分析 四、Job调度流程详解 五、Spark交互流程详解 文章目录 系列文章目录前言一、Spark架构设计概述1. 集群资源管理器&#xff08;Cluster Manager&#xff09;2. 工作节点&#xff08;Worker No…

Unity基础调色

叭叭叭 最近&#xff08;*这两天&#xff09;因为想做一些Unity的调色问题&#xff0c;尝试原文翻译一下&#xff0c;其实直接原文更好&#xff01;&#xff01; Color Grading 参考了&#xff0c;某大牛的翻译&#xff0c;实在忍不住了&#xff0c;我是不知道为什么能翻译成…

最新版智能修图-中文luminar ai 1.55(13797) 和 neo1.20,支持m芯片和intel芯片(绝对可用)

Luminar AI for macOS 完整版本 这个程序是第一个完全由人工智能驱动的图像编辑器。有了它&#xff0c;创建引人注目的照片是有趣的&#xff0c;令人惊讶的容易。它是一个独立的照片编辑器和macOS插件。 Luminar AI for macOS 轻轻地塑造和完善一个肖像打造富有表现力的眼睛…

Qt MV架构-委托类

一、基本概念 与MVC模式不同&#xff0c;MV视图架构中没有包含一个完全分离的组件来处理与用户的交互。 一般地&#xff0c;视图用来将模型中的数据显示给用户&#xff0c;也用来处理用户的输入。为了获得更高的灵活性&#xff0c;交互可以由委托来执行。 这些组件提供了输入…

excel、word、ppt 下载安装步骤整理

请按照我的步骤开始操作&#xff0c;注意以下截图红框标记处&#xff08;往往都是需要点击的地方&#xff09; 第一步&#xff1a;下载 首先进入office下载网址&#xff1a; otp.landian.vip 然后点击下载 拉到下方 下载站点&#xff08;这里根据自己的需要选择下载&#x…