【论文阅读】Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

news2025/1/13 3:38:31

文章目录

  • Grasp-Anything: Large-scale Grasp Dataset from Foundation Models
    • 针对痛点和贡献
    • 摘要和结论
    • 引言
    • 相关工作
    • Grasp-Anything 数据集
    • 实验 - 零镜头抓取检测
    • 实验 - 机器人评估
    • 总结

Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

Project page:Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

针对痛点和贡献

痛点:

  • 尽管有许多抓取数据集,但与现实世界的数据相比,它们的对象多样性仍然有限。

贡献:

  • 因此,解决先前抓取数据集中有限表示的一个解决方案是嵌入这些Foundation Models(GhatGPT)中的通用知识。
  • 语言驱动的抓取检测是一个有前途的研究领域。该数据集将推动这一领域的发展。(sim2real 抓取 [65]、人机交互 [66] 或语言驱动的移动操作 [42] 等相关任务中很有用。)

摘要和结论

我们提出了“Grasp-Anything”,这是一个由基础模型合成的新的大规模抓取数据集,用于机器人抓取检测的新的大规模语言驱动数据集。

Grasp-Anything 在多样性和数量上都很出色,拥有100万个带有文本描述的样本和超过300万个对象,超过了以前的数据集。根据经验,我们证明了在基于视觉的任务和真实世界的机器人实验中,抓取任何东西都能成功地促进零镜头抓取检测。

a new large-scale language-driven dataset for robotic grasp detection

引言

  • 第一段【动机】:之前的方法都是model-centric,专注于修改网络模型。但Platt等认为在物理机器人上进行的结果在很大程度上取决于训练数据。因此,我们探索了 data-centric 方法,旨在提高抓取数据的质量,以在抓取检测中实现更稳健的泛化。
  • 第二段【现存的不足与挑战】:虽然近年来提出了许多数据集,但是共同局限在:①对象数量有限;(不同数据集之间分布差异大,导致代码迁移性差)②没有考虑每个场景安排的自然语言描述;(限制人机交互)③对物体摆放位置(排列)和环境设置可能做了假设;(无法还原真实世界的场景)
  • 第三段【基础模型】:大规模基础模型的使用促进了全知知识与机器人系统的集成[39],克服了传统方法在对非结构化和新颖环境进行稳健建模方面面临的挑战[40]。

相关工作

在这里插入图片描述
设计抓取数据集时可以考虑许多因素,如数据表示(RGB-D或3D点云)、抓取标签(基于矩形或6-DoF)和数量。
我们的Grasp-Anything数据集与其对应数据集的关键区别在于其普遍性universality。与其他数据集在类别上的限制相比,Grasp-Anything包含在我们的自然生活中观察到的各种对象。

Grasp-Anything 数据集

在这里插入图片描述

  • Scene Generation场景生成:我们利用ChatGPT并执行prompt engineering technique来指导ChatGPT生成不同的场景描述。
    在这里插入图片描述
    生成描述场景排列的文本和指示文本中可抓取对象的列表。the text describing the scene arrangement and a list indicating graspable objects in the text.
    给定ChatGPT生成的场景描述,我们使用Stable Diffusion2.1来生成与场景描述一致的图像。然后,我们使用最先进的视觉基础和实例分割模型(OFA [13] 和 SegmentAnything [54])为抓取列表中出现的每个对象收集实例分割掩码。在图像合成阶段结束时,我们为每个参考对象获得一个定位掩码。
  • Grasp Pose Annotation掌握姿势注释

在这里插入图片描述
通过计算与抓取相关的净扭矩(表示为T)来确定每个姿势的抓取质量,如下所示:
在这里插入图片描述

物理公式和内容,后续需要再补充。

  • Grasp-Anything Statistics数据集统计

在这里插入图片描述
在这里插入图片描述

  • Grasp Anything 数据集比其他数据集具有更多的对象数量。
  • Grasp-Anything 形状多样性程度更大。

实验 - 零镜头抓取检测

  • 五个数据集上训练三个深度学习抓取网络:GRConvNet[4]、Det-Seg-Refine[19]和GG-CNN[58],数据集:Grasp-Anything、Jacquard[12]、Cornell[15]、VMRD[18]和OCID-Grasp[19]。主要指标是成功率。按出现识别前 70% 的标签。这些标签形成了“Base”类,而其余 30% 成为“New”类。
    在这里插入图片描述
    基础到新的泛化。我们在表II中报告了基础到新的抓取检测结果。结果有两个中心的观察结果。首先,三个基线 GRConvNet、Det-Seg-Refine 和 GG-CNN 在五个数据集上表现出令人满意的性能,这意味着以模型为中心的方法在每个分离的数据集上改进抓取检测结果的空间较少。其次,Grasp-Anything 更具挑战性,因为我们的检测结果低于使用相同方法的相关数据集,因为在测试阶段对看不见的对象的覆盖范围更大。

  • 可迁移性大于其他数据集。
    在这里插入图片描述

  • Generalized Zero-shot Learning 广义的无样本学习。在所有情况下,Grasp-Anything 都显着提高了所有基线的性能。
    在这里插入图片描述

实验 - 机器人评估

  • 对KUKA机器人的机器人评估如图7,使用GR-ConvNet[4]作为抓取检测网络。抓取检测结果使用来自RealSense相机的深度图像转换为6DOF抓取姿态,如[4]所示。评估是针对单个对象和利用一组 15 个对象的杂乱场景进行的。
    在这里插入图片描述

在这里插入图片描述

在图 8 中可视化了由不同数据集的 GR-ConvNet 训练的每日办公布置图像的抓取检测。Grasp-Anything 可以提高相关数据集的抓取检测质量。

在这里插入图片描述

图 9 展示了在来自互联网和不同数据集的随机图像上的 Grasp-Anything 数据集上使用预训练的 GR-ConvNet 的抓取检测示例。我们可以看到检测到的抓取姿势在质量和数量上都足够了。

在这里插入图片描述

总结

本文主要提出了语言为驱动的抓取数据集Grasp-Anything,其在数量和类别上碾压了之前的数据集,并且希望可以在现实世界中进行zero-shot抓取。【一个数据集论文,看看就行】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1411547.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【重点】【DP】123.买卖股票的最佳时机III

题目 法1&#xff1a;单次遍历&#xff0c;Best! class Solution {public int maxProfit(int[] prices) {int f1 -prices[0], f2 0, f3 -prices[0], f4 0;for (int i 1; i < prices.length; i) {f1 Math.max(f1, -prices[i]);f2 Math.max(f2, f1 prices[i]);f3 Ma…

Cesium中实现流体模拟

流体模拟 流体模拟是指通过数学模型和计算机算法来模拟流体行为的过程。它可以用来研究和预测各种液体和气体的运动、相互作用和变形。 流体模拟有多种方法&#xff0c;下面列举了几种常见的方法&#xff1a; 网格方法&#xff1a;网格方法是最常用的流体模拟方法之一。它将模…

VSCode Vue项目中报错 [vue/require-v-for-key]

报错 [vue/require-v-for-key] Elements in iteration expect to have v-bind:key directives.eslint-plugin-vue 解决办法&#xff1a; 在设置里把这个取消勾选

Java 数据库连接

1&#xff0c;JDBC概述 在开发中我们使用的是java语言&#xff0c;那么势必要通过java语言操作数据库中的数据。这就是接下来要学习的JDBC。 1.1 JDBC概念 JDBC 就是使用Java语言操作关系型数据库的一套API 全称&#xff1a;( Java DataBase Connectivity ) Java 数据库连接 …

单片机14-17

目录 LCD1602 LCD1602液晶显示屏 直流电机驱动&#xff08;PWM&#xff09; LED呼吸灯 直流电机调速 AD/DA&#xff08;SPI通信&#xff09; AD模数转换 DA数模转换 红外遥控&#xff08;外部中断&#xff09; 红外遥控 红外遥控电机调速 LCD1602 LCD1602液晶显示屏 …

智能语音识别源码系统+语义理解+对话管理+语音合成 带完整的搭建教程

人工智能技术的不断发展&#xff0c;智能语音识别技术逐渐成为人们日常生活和工作中不可或缺的一部分。然而&#xff0c;目前市场上的智能语音识别产品大多存在一定的局限性&#xff0c;如识别率不高、功能单一等。为了解决这些问题&#xff0c;罗峰给大家分享一款基于智能语音…

pytorch学习笔记(十一)

优化器学习 把搭建好的模型拿来训练&#xff0c;得到最优的参数。 import torch.optim import torchvision from torch import nn from torch.nn import Sequential, Conv2d, MaxPool2d, Flatten, Linear from torch.utils.data import DataLoaderdataset torchvision.datas…

【Python】采用OpenCV和Flask来进行网络图像推流的低延迟高刷FPS方法(项目模板)

【Python】采用OpenCV和Flask来进行网络图像推流的低延迟高刷FPS方法&#xff08;项目模板&#xff09; gitee项目模板&#xff1a; 网络图像推流项目模板&#xff08;采用OpenCV和Flask来进行网络图像推流的低延迟高刷FPS方法&#xff09; 前文&#xff1a; 【最简改进】基于…

深入浅出 diffusion(2):pytorch 实现 diffusion 加噪过程

我在上篇博客深入浅出 diffusion&#xff08;1&#xff09;&#xff1a;白话 diffusion 原理&#xff08;无公式&#xff09;中介绍了 diffusion 的一些基本原理&#xff0c;其中谈到了 diffusion 的加噪过程&#xff0c;本文用pytorch 实现下到底是怎么加噪的。 import torch…

最小覆盖子串(Leetcode76)

例题&#xff1a; 分析: 比如现在有字符串&#xff08;s&#xff09;&#xff0c;s "ADOBECODEBANC", 给出目标字符串 t "ABC", 题目就是要从原始字符串&#xff08;s&#xff09;中找到一个子串&#xff08;res&#xff09;可以覆盖目标字符串 t &…

UE使用C++添加FGameplayTag(游戏标签)

首先Ue会有一个UGameplayTagsManager类型的对象 游戏标签管理器(全局中就有一个) 我们直接通过 UGameplayTagsManager::Get()静态函数拿到 全局唯一的游戏标签管理器的实例 返回的是个左值引用 之后通过调用 AddNativeGameplayTag()函数就可添加游戏标签了 就这么简单 第…

Java+Spring Cloud +Vue+UniApp微服务智慧工地云平台源码

目录 智慧工地云平台功能 【劳务工种】所属工种有哪些&#xff1f; 1.管理人员 2.信息采集 3.证件管理 4.考勤管理 5.考勤明细 6.工资管理 7.现场统计 8.WIFI教育 9.课程库管理 10.工种管理 11.分包商管理 12.班组管理 13.项目管理 智慧工地管理平台是以物联网、…

算法题 — 删除排序数组中的重复项

问题&#xff1a;一个有序数组 nums&#xff0c;原地删除重复出现的元素&#xff0c;使每个元素只出现一次&#xff0c;返回删除后数组的新长度。 注&#xff1a;不能使用额外的数组空间&#xff0c;必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。 例&#xff…

【考研结束了,不管上不上岸,我建议你先....】

*** 考研结束&#xff0c;一定要做这几件事&#xff01; 又一年考研季的落幕&#xff0c;经历了漫长考研岁月的学子们&#xff0c;终于迎来了期盼已久的解脱。参加考研的同学们必须都顺利上岸。 然而对于技术类专业的考生而言&#xff0c;新的征程与机遇才刚刚启航。 此时此刻…

专业144总分410+华南理工大学811信号与系统考研经验华工电子信息与通信

今年专业811信号与系统144&#xff08;二战&#xff0c;感谢信息通信Jenny老师专业课对我的巨大提高&#xff0c;第一年自己复习只考了90&#xff0c;主要栽专业课和数学&#xff09;总分410含泪&#xff08;二战的同学都知道苦&#xff0c;成功来之不易&#xff09;考上华南理…

InterSystem IRIS BS BP BO配置

应用&#xff1a;根据请求的BS&#xff0c;通过BP&#xff0c;到BO的处理&#xff0c;集成平台BO获取数据并推送给指定第三方 操作步骤&#xff1a; 一、事前准备&#xff1a; 创建交互服务前提前将SQL网关创建和连接好。需记录网关连接名称&#xff0c;配置在BS设置的DSN处…

HMI-Board以太网数据监视器(二)MQTT和LVGL

E ∫ d E ∫ k d q r 2 k L ∫ d q r 2 E \int dE \int \frac{kdq}{r^2} \frac{k}{L} \int \frac{dq}{r^2} E∫dE∫r2kdq​Lk​∫r2dq​ E Q 2 π ϵ L 2 E \frac{Q}{2\pi\epsilon L^2} E2πϵL2Q​ Γ ( n ) ( n − 1 ) ! ∀ n ∈ N \Gamma(n) (n-1)!\quad\forall n…

实习日志5

活字格图片上传功能&#xff08;批量&#xff09; 这个报错真的恶心&#xff0c;又看不了他服务器源码&#xff0c;接口文档又是错的 活字格V9获取图片失败bug&#xff0c;报错404-CSDN博客 代码BUG记录&#xff1a; 问题&#xff1a;上传多个文件的base64编码被最后一个文…

eclipse启动Java服务及注意事项

1、导入项目 选择file——》import…——》Generate——》Exiting Projects into Workspace——》选择要导入的项目 2、添加tomcat 1&#xff09;点击Serves——》No servers are available. Click this link to create a new server… 2&#xff09;点击“Add…” 3&…

【Servlet】如何编写第一个Servlet程序

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【Servlet】 本专栏旨在分享学习Servlet的一点学习心得&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; Servlet是Java编写的服务器端…