Open X-Embodiment 超大规模开源真实机器人数据集分享

news2024/11/28 0:37:54

近期,Google旗下的前沿人工智能企业DeepMind汇集了来自 22 种不同机器人类型的数据,创建了 Open X-Embodiment 数据集并开源了出来。该数据集让他们研发的RT-2 机器人在制造和编程方式上有了重大飞跃。

有分析称,在上述数据集上训练的 RT-2-X 在现实世界机器人技能上的表现提高了 2 倍,而且通过学习新数据RT-2-X 掌握了很多新技能。英伟达高级人工智能科学家Jim Fan甚至公开表示,这个数据集可能是机器人的ImageNet时刻。

图片

谷歌开放了X-具身存储库(robotics-transformer-X.github.io)来存储Open X-Embodiment数据集。这是一个开源存储库,包括用于X-具身机器人学习研究的大规模数据以及预训练模型的检查点。

为助力具身机器人技术研究,提高数据准备效率,OpenDataLab(opendatalab.com)整理并上架了DeepMind公开的Open X-Embodiment数据集,欢迎大家下载与探索。

另外寻星计划正在火热进行中,上传原创数据集领好礼,点击参加→寻找最闪亮的 OpenDataLab 数据之星, We want you !

数据集概述

Open X-Embodiment子数据集信息列表:

https://docs.google.com/spreadsheets/d/1rPBD77tk60AEIGZrGSODwyyzs5FgCU9Uz3h-3_t2A9g/edit?pli=1#gid=0

关键词:

● 21个科研机构

● 22个机器人

● 60个已有数据集的融合

● 527个技能

● 160,266个任务

● 1,402,930条数据(共约3600G)

数据处理:

所有源数据集统一转化为RLDS格式。
对于源数据的不同格式和内容,做了以下处理:

1. 对于存在多视角的数据集,仅选择其中“canonical”的一个视角图像(猜测为比较接近top-down第一人称视角/Proprioception的那一个)。

2. 将图像resize到320×256(width×height)。

3. 将原有的动作(比如joint position)都转换为EE的动作,但是该动作量可能为相对值,也可能为绝对值。在模型输出action tokens∈ [0, 255]\in [0, 255]后根据不同的机器人做不同的de-normalization后再下达具体的控制指令。

数据集特征:

1. 60个数据集中涉及到的机器人有单臂、双臂和四足,Franka占多数。

2. 数据量上,xArm占最大头,主要是language table的数据集体量很大,有44万条;Kuka iiwa主要来自于QT-Opt的贡献;另外就是原来在Everday Robot(现在论文中称为Google Robot)上采集的RT1的数据。

3. 技能上主要还是集中在pick-place上,整体仍呈现长尾分布,尾部有许多如wiping、assembling等难度更高的技能。

4. 主要的场景和被操作物体集中在家庭、厨房场景和家具、食物、餐具等物品。[1]

图片

子数据集介绍

No.1 RoboVQA

● 发布方:不来梅大学

发布时间:2019

简介

RobotVQA 以场景RGB(D)图像作为输入并输出相应的场景图。RobotVQA 代表机器人视觉问答。作者展示了 RobotVQA 知识从虚拟世界到现实世界的可转移性以及对机器人控制程序的适用性。

● 下载地址

https://opendatalab.com/OpenDataLab/RoboVQA

● 论文地址

https://arxiv.org/pdf/1709.10489.pdf

No.2 RoboNet

● 发布方:卡内基梅隆大学·宾夕法尼亚大学·斯坦福大学

发布时间:2020

简介

一个用于共享机器人经验的开放数据库,它提供了来自 7 个不同机器人平台的 1500 万个视频帧的初始池,并研究了如何使用它来学习基于视觉的机器人操作的通用模型。

● 下载地址
https://opendatalab.com/OpenDataLab/RoboNet

● 论文地址

https://arxiv.org/pdf/1910.11215v2.pdf

No.3 BridgeData V2

● 发布方:Google·加州大学伯克利分校·斯坦福大学

发布时间:2023

简介

BridgeData V2 是一个庞大而多样化的机器人操作行为数据集,旨在 促进可扩展机器人学习的研究。数据集兼容开放词汇、多任务 以目标图像或自然语言指令为条件的学习方法。从数据中学到的技能 推广到新的对象和环境,以及跨机构。

● 下载地址

https://opendatalab.com/OpenDataLab/BridgeData_V2

● 论文地址

https://arxiv.org/pdf/2308.12952.pdf

No.4 Language Table

● 发布方:Google

发布时间:2022

简介

Language-Table 是一套人类收集的数据集,也是开放词汇视觉语言运动学习的多任务连续控制基准。

● 下载地址

https://opendatalab.com/OpenDataLab/Language_Table

● 论文地址

https://arxiv.org/pdf/2210.06407.pdf

No.5 BC-Z

● 发布方:卡内基梅隆大学·宾夕法尼亚大学·斯坦福大学

发布时间:2020

简介

作者收集了 100 个操作任务的大规模 VR 远程操作演示数据集,并训练卷积神经网络来模仿 RGB 像素观察的闭环动作。

● 下载地址

https://opendatalab.com/OpenDataLab/BC_Z

● 论文地址

https://arxiv.org/pdf/1910.11215v2.pdf

No.6 CMU Food Manipulation(Food Playing Dataset)

● 发布方:卡内基梅隆大学机器人研究所

发布时间:2021

简介

使用机械臂和一系列传感器(使用 ROS 进行同步)收集的多样化的数据集,其中包含 21 种具有不同切片和特性的独特食品。通过视觉嵌入网络,该网络利用本体感受、音频和视觉数据的组合,使用三元组损失公式对食物之间的相似性进行了编码。

● 下载地址

https://opendatalab.com/OpenDataLab/CMU_Food_Manipulation

● 论文地址

https://arxiv.org/pdf/2309.14320.pdf

No.7 TOTO Benchmark

● 发布方:纽约大学·Meta AI·卡内基梅隆大学

发布时间:2022

简介

在线训练离线测试 (TOTO) 是一个在线基准测试,提供:开源操作数据集,访问共享机器人进行评估。

● 下载地址

https://opendatalab.com/OpenDataLab/TOTO_Benchmark

● 论文地址

https://arxiv.org/pdf/2306.00942.pdf

No.8 QUT Dynamic Grasping

● 发布方:昆士兰科技大学

发布时间:2022

简介

该数据集包含 812 个成功的轨迹,这些轨迹与使用 Franka Panda 机器人机械臂自上而下的动态抓取移动物体有关。物体随机放置在XY运动平台上,该平台可以以不同的速度在任意轨迹中移动物体。该系统使用此处描述的 CoreXY 运动平台设计。设计中的所有部件都可以3D打印或轻松采购。

● 下载地址

https://opendatalab.com/OpenDataLab/QUT_Dynamic_Grasping

● 论文地址

https://arxiv.org/pdf/2309.02754.pdf

No.9 Task-Agnostic Real World Robot Play

● 发布方:弗赖堡大学·埃尔朗根-纽伦堡大学

发布时间:2023

简介

7-DoF 机械臂和平行钳口抓手执行各种无定向操作任务的情节,大约 1% 的数据使用自然语言嵌入进行注释。通过VR控制器使用远程操作收集情节,告诉用户在没有特定任务的情况下远程操作机器人。每个状态-动作对都编码在 Numpy npz 文件中,由静态和抓手相机、本体感受状态以及与该状态对应的机器人未来动作的 RGB-D 图像组成。

● 下载地址

https://opendatalab.com/OpenDataLab/Task_Agnostic_Real_World_Robot_Play

● 论文地址

http://tacorl.cs.uni-freiburg.de/paper/taco-rl.pdf

No.10 Roboturk

● 发布方:斯坦福大学

发布时间:2019

简介

RoboTurk 真实机器人数据集收集了有关三个不同现实世界任务的大型数据集:洗衣房布局、塔楼创建和对象搜索。所有三个数据集都是使用 RoboTurk 平台收集的,由众包工作人员远程收集。我们的数据集包含来自 54 个不同用户的 2144 个不同演示。我们提供用于训练的完整数据集和用于探索的数据集的较小子样本。

● 下载地址

https://opendatalab.com/OpenDataLab/Roboturk

● 论文地址

https://arxiv.org/pdf/1911.04052.pdf

因篇幅有限,更多机器人学习开源数据集,请访问OpenDataLab:

https://opendatalab.org.cn/

参考:[1]https://www.zhihu.com/question/624716226

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1207531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每天一点python——day67

#每天一点Python——67 #字符串判断方法:如图: #①判断指定字符串是否为合法标识符 shello,computer print(s.isidentifier()) #输出为False,不是合法标识符,这是因为标识符是由字母,数字,下划线组成&#…

工业数据的“最后一公里”怎么走?

随着工业互联网的迅猛发展,工业数据已经成为推动制造业转型升级的重要动力。然而,面对海量的工业数据,如何高效、准确地走过数据的“最后一公里”,成为制约企业发展的关键问题。本文将探讨工业数据“最后一公里”所面临的挑战&…

15.“百钱百鸡“问题

文章目录 前言一、题目描述 二、题目分析 三、解题 程序运行代码1程序运行代码优化程序运行代码优化进阶 前言 本系列为结构循环编程题&#xff0c;点滴成长&#xff0c;一起逆袭。 一、题目描述 二、题目分析 三、解题 程序运行代码1 #include <stdio.h> int main…

ARPG----C++学习记录05 Section10 武器类,IK重定向,装备和捡起武器,动画蓝图

代码更新 11.13 BAOfanTing/ARPG_Game_Code7ab54d2 GitHub 武器类 基于item类&#xff0c;创建一个weapon的C类&#xff0c;基于它创建一个蓝图&#xff0c;刀剑的网格体给它。在蓝图里调动之前在C写好的sin函数添加到世界偏移量里&#xff0c;得到一把悬浮刀 在item把重叠函…

Win10系统把D盘空间分给C盘的方法

在Win10系统中&#xff0c;用户发现C盘的空间太少了&#xff0c;导致电脑运作出现了卡顿的问题&#xff0c;所以想把D盘的空间分给C盘&#xff0c;但不清楚具体的操作步骤。接下来小编给大家介绍两种简单的操作方法&#xff0c;帮助大家轻松将Win10系统D盘的空间分给C盘&#x…

​Unity Vuforia 新手(图片识别)教程,后续整理 实体识别 详细流程

文章目录 前言一、Vuforia是什么&#xff1f;二、Unity导入Vuforia1.去Unity - Windows – Asset Store&#xff0c;搜vuforia engine&#xff0c;添加到我的资源2.打开package Manager&#xff0c;导入到工程中即可3.或者在vuforia engine官网下载的Unity包导入4.检查是否导入…

mysql数据库时间

记录MySQL今天又一个新的问题&#xff1a; 场景&#xff1a;nodejs后台容器部署 问题原因&#xff1a;纯属好心办坏事&#xff0c;由于考虑了时区&#xff08;现在看来纯属多余&#xff09;&#xff0c;在写入时间时使用了time_str.toLocaleString("chinese", { ti…

android studio开发flutter应用,使用mumu模拟器调试软件

安装好mumu模拟器&#xff0c;先打开网易mumu模拟器的开发者模拟。系统应用 > 设置 > 关于手机 > 版本号 多点击几次调出开发者模式&#xff1a; 然后在android studio中刷新设备列表&#xff0c;就能看到新设备了&#xff1a; 如何确定这个设备就是你的mumu模拟器呢…

Cesium:绘制点

作者&#xff1a;CSDN _乐多_ 本文记录了在Cesium中绘制点的函数。 文章目录 data() 里面设置点的样式 pointOption: {show: true,pixelSize: 10,heightReference: Cesium.HeightReference.CLAMP_TO_GROUND,color: Cesium.Color.RED,outlineColor: Cesium.Color.YELLOW,outl…

视频封装格式

FLV&#xff08;Flash Video&#xff09; FLV封装格式 Tag Data分为Audio&#xff0c;Video&#xff0c;Script三种 TS&#xff08;Transport Stream&#xff09;传输流 TS文件分为三层&#xff0c;&#xff08;倒叙更好理解&#xff09; TS层&#xff1a;在PES层基础上加入…

java 旋转方阵

public static void main(String[] args) {Scanner scanner new Scanner(System.in);// N阶方阵int n scanner.nextInt();// 构建方阵List<List<Integer>> matrix new ArrayList<>();for (int i 0; i < n; i) {List<Integer> row new ArrayLis…

RUST与Python对比分析

1 什么是Rust&#xff1f; Rust 是一种系统编程语言&#xff0c;注重安全性&#xff0c;尤其是并发安全性&#xff0c;支持函数式、命令式和泛型编程范式等多范式语言。Rust 在语法上与 C 类似&#xff0c;但设计者希望在保持性能的同时提供更好的内存安全性。Rust 最初是由 Mo…

集团VPN问题排查及核心交换机(思科C9500)路由编写

前言 昨天发现子公司A无法访问子公司B的服务器。已知之前是可以的。经过tracert及ping的简单排查。发现&#xff0c;A没有经过飞塔200F的防火墙出去。 已知集团使用两套防火墙。思科2110以及飞塔200F。并且在上方都做了VPN的配置。200F承接SD-WAN。 我们知道&#xff0c;当A公…

详述使用CubeMX配置STM32RCC时钟

&#x1f64c;秋名山码民的主页 &#x1f602;oi退役选手&#xff0c;Java、大数据、单片机、IoT均有所涉猎&#xff0c;热爱技术&#xff0c;技术无罪 &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; 获取源码&#xff0c;添加WX 目录 前言一…

帮助中心干货 | 4步即可快速搭建高效帮助中心

任何一个产品有用户涌入使用之后&#xff0c;都会不可避免地面临一个场景问题&#xff1a;如何及时、高效、便捷地解决用户使用过程中的问题&#xff1f; 在使用某些网站的功能或服务时&#xff0c;用户常常会遇到一些看似简单但没有说明依然可能难以理解的问题。如果问题没有…

linux查看端口占用情况

lsof命令 lsof(list open files)命令可以列出当前系统中打开的所有文件&#xff0c;包括网络端口。可以使用lsof命令查看某个端口被哪个进程占用。 具体的命令为&#xff1a;sudo lsof -i :端口号&#xff0c;其中端口号为需要查询的端口号。 netstat命令 使用netstat命令&a…

Vatee万腾的数字化掌舵:Vatee科技引领未来的新高度

随着数字化时代的到来&#xff0c;Vatee万腾以其卓越的科技决策力成为引领潮流的掌舵者。 Vatee万腾通过对科技前沿的不懈探索&#xff0c;站在了数字化创新的最前沿。其领先的科技团队致力于发掘并应用最新的数字技术&#xff0c;为用户提供卓越的数字化体验。 Vatee万腾以其…

运动耳机哪个牌子好性价比高?运动耳机品牌排行榜前十名

​其实&#xff0c;选择运动耳机并不只是看外观&#xff0c;性能也同样重要。在选择时&#xff0c;我们需要考虑几个关键因素&#xff0c;例如稳固性、舒适度和音质等。这些都是运动耳机必备的要求&#xff0c;因为它们能帮助我们在运动时更加专注于锻炼&#xff0c;而不会被耳…

操作系统——死锁(一文详解死锁,死锁产生的原因和死锁的解决方案)

1、什么是死锁&#xff1f;死锁产生的条件&#xff1f; 1.1、什么是死锁&#xff1f; 答&#xff1a; 在两个或者多个并发进程中&#xff0c;如果每个进程持有某种资源而又等待其它进程释放它或它们现在保持着的资源&#xff0c;在未改变这种状态之前都不能向前推进&#xff…

Python:Virtual Environment——venv

文章目录 1 基本信息2 创建虚拟环境3 venv如何工作 1 基本信息 venv支持构建轻量级虚拟环境 包含独立的位于其site文件夹中的python package venv构建在base Python上在虚拟环境中执行pip会将package安装在当前的隔离环境中一个venv包含&#xff1a; 独立的Python解释器、libr…