RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

news2024/9/20 0:39:58

发表时间:22 Dec 2023

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4836882796542689281&noteId=2413286807916664832

作者单位:Google DeepMind

Motivation:受视觉和语言基础模型的最新进展的启发,我们提出了一种用于机器人操作的多任务通用agent。这个名为 RoboCat 的agent是一个视觉目标条件决策转换器,能够消耗动作标记的视觉经验。这些数据跨越了来自模拟和真实机械臂的大量运动控制技能,具有不同的观察和动作集

解决方法:我们最终旨在为操纵奠定基础agent,它是在大量机器人情景经验上训练的multi-embodiment agent,使其能够通过微调快速适应广泛的新下游任务。作为实现这一目标的步骤,我们在非常大的不同操作行为数据集上训练 RoboCat:精确和灵巧的基于视觉的任务,使用具有不同自由度、各种观察和动作规范的实施例执行,并在不同的控制频率下操作

我们的agent通过利用转换器基于上下文的输入和输出可变长度序列的能力,在本地处理这些变化,而不需要常见的动作或观察表示。它能够成功地适应多个新任务——包括新的机器人实施例、看不见的行为、物体和感知变体,以及模拟到真实的——通过对 100 到 1000 个演示的新情景经验的一小部分数据集进行微调。这显著减少了获取新技能和实施新实施例的成本。

我们进一步使用微调的 RoboCat 模型来收集额外的数据,这些数据后来被添加以训练我们的agent的新迭代。

实现方式:RoboCat is based on the Gato architecture with a VQ-GAN encoder。

The majority of the experimental results are based on models with a 1.18Bparameter decoder-only transformer (Vaswani et al., 2017) with 24 layers。

(1)我们首次证明,大型transformer序列模型可以在具有不同观察和动作规范的多个真实机器人实施例上解决大量灵巧任务;

(2)我们研究了RoboCat在适应看不见的任务方面的能力,with just a small dataset of expert demonstrations,与基线相比,降低了学习新技能的门栏;

(3)我们表明,通过简单但有效的self-improvement过程(指的是收集新的数据),可以将这些技能纳入通才;

(4)我们表明,通过缩放和扩大训练数据,RoboCat在培训任务上表现更好,在微调时效率更高。

是如何进行self-improvement的?

先自己收集少量数据,对policy进行微调。然后将微调后的policy进行部署,然后让机械臂自己去收集。并且 perform hindsight goal relabelling,这也是本文能利用少量的demonstrations适应新的任务进行小样本学习的关键

训练过程: In the training phase, the VQ-GAN tokeniser is pre-trained, and then the RoboCat generalist agent is trained on a wide dataset covering multiple domains and embodiments, specifying tasks via visual goals。

The generalist is then finetuned on a small set of human-teleoperated demonstrations to specialise to a new task, and deployed to collect on-policy data autonomously

This data is finally added to the original data to train the next, self-improved RoboCat.

实验:We trained and evaluated 59 different VFM baselines; 36 real robots in this work

RoboCat 在专家和非专家数据上进行训练。数据的不同子集以不同的方式收集。我们使用三种类型的数据生成

(i) 专家 RL 代理产生的数据,特别是在模拟中使用;

(ii) 人类远程操作的专家数据,主要用于物理世界任务;

(iii) 自我生成的数据。两种专家轨迹类型的主要区别在于,由于 RL 代理在现实世界中的行为方式,代理数据提供了相当平滑和高效的轨迹,而远程操作数据通常包括暂停,因为远程操作者使用类似于 bang-bang 控制器的行为。

结论:A key contribution of our work is our study into how RoboCat agents can be fine-tuned and self-improved given a relatively small number of demonstrations.(关键在于Fine-tuned agent self-generates much more training data,是小样本学习的关键

在这个微调步骤结束时,我们获得了一个专门用于新任务的代理,但可能会丢失原始训练任务的性能(可能会有灾难性遗忘的问题)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2082771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第三十九篇-TeslaP40+CosyVoice-安装

环境 系统:CentOS-7 CPU: 14C28T 内存:32G 显卡:Tesla P40 24G 驱动: 535 CUDA: 12.2克隆 git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git cd CosyVoicegit submodule update --init --recursive下载 Matcha-TTS cd…

DWF 支持的 TON 链 Telegram 免费宠物游戏 Gatto_game,推出 “Paws Up! 世界锦标赛”

TON 链在这轮牛市里无疑是一匹脱缰的黑马,创造了一个又一个爆款,为持有者带来了不菲的收益。 Gatto_game 是一款 TON链 Tamagotchi 电子宠物风格的 P2E web3 游戏。可以通过喂养升级,参加比赛赚取 $TON 或者 $GTON ,或许就是下一个…

四大名著改编的ip大作,一个巨亏2亿,一个狂赚20亿!选择决定成败!

最近讨论热度比较高的当属《红楼梦》和《西游记》了 胡玫导演的《红楼梦之金玉良缘》耗费了18年的心血,投资了2个多亿 却仅仅只有600万票房,还被网友调侃称“一黛不如一黛” 而由《西游记》改编的游戏《黑神话悟空》,研发10年投资6亿&…

如祺出行发布首份中期业绩,总收入增长13.6%

8月28日,如祺出行发布2024年中期业绩公告。这是如祺出行于7月10日在港交所主板上市后发布的首份业绩公告。 业绩公告显示,2024年上半年如祺出行收入实现10.37亿元(单位:人民币,下同)、同比增长13.6%&#x…

Avalonia与WPF开发时的差异总结

1.一个控件绑定到另外一个控件的属性 WPF: <TextBox Height"30" Width"100" x:Name"tb"></TextBox><TextBlock Text"{Binding ElementNametb,PathText}" ></TextBlock>Avalonia: <TextBox Height"3…

梯度下降法求解线性回归

文章目录 线性回归损失函数平均绝对误差&#xff08;MAE&#xff09;均方误差&#xff08;MSE&#xff09; 最小二乘法最小二乘法代数推导最小二乘法矩阵推导 线性回归 Python 实现线性回归 scikit-learn 实现 梯度下降法梯度下降法的原理 梯度下降法求解线性回归 线性回归 线…

Java SpringBoot实战:如何构建学生档案管理系统实现信息管理

✍✍计算机毕业编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java、…

【ocr识别003】动物检疫合格证明单据OCR识别应用案例(已更新)

1.欢迎点赞、关注、批评、指正,互三走起来,小手动起来! 2.了解、学习OCR相关技术知识领域,结合日常的场景进行测试、总结。如本文的实践:以动物检疫合格证明单据识别为例,探索OCR文本推理应用示例场景。 3.有其他场景问题,欢迎留言或加微沟通。 文章目录 1.简要介绍2.`O…

【Qt窗口】—— 状态栏

目录 1.1 状态栏的创建 1.2 在状态栏中显示实时消息 1.3 在状态栏中显示永久消息 状态栏是应用程序中输出简要信息的区域。⼀般位于主窗口的最底部&#xff0c;⼀个窗⼝中最多只能有⼀个状态栏。在Qt中&#xff0c;状态栏是通过QStatusBar类来实现的。在状态栏中可以显示的消…

Navicat Premium 自定义字体大小

常用编程软件自定义字体大全首页 文章目录 前言具体操作1. 打开工具对话框2. 设置编辑器字体大小3. 设置查询表格字体大小 前言 Navicat Premium 自定义字体大小&#xff0c;统一设置为 Cascadia Code SemiBold &#xff0c;大小为 12 具体操作 【工具】>【选项】>【编…

内网渗透小知识

下载proxychains这个工具 在下面这里进行代理配置 然后再里面添加内网端口。在设置浏览器的代理&#xff0c;就可以通过内网访问内网资源 然后在浏览器中设置&#xff0c;设置socks后可以访问很多。 如果映射http的话只可以访问一个 然后如果在内网扫描不了IP的话使用上面的代…

AGI系列(8)零门槛信息抓取利器打造,免费自动化抓取推特上的热点内容

应该大家都或多或少的听说过 X/Twitter。它可不只是个普通的社交平台&#xff01;它还是个信息宝库&#xff0c;里面有各种有趣的内容&#xff0c;比如&#xff1a;想知道最新热点&#xff1f;想和全世界的人聊天&#xff1f;Twitter都能搞定&#xff01;它的搜索功能特别厉害&…

测试职场经验 | 缺陷如何分类

说到bug&#xff0c;大家可能更多的认为是错误&#xff0c;有问题的地方&#xff0c;但是它的原意是”臭虫”,是不是有了新的发现&#xff01;而真正找出电脑程序中第一个bug的女程序员&#xff0c;来自于计算机软件第一夫人&#xff1a;Grace Hopper&#xff0c;一次”意外”的…

取模+背包

前言&#xff1a;一开始我想错了&#xff0c;一开始我想的是直接统计每一项模完后的和&#xff0c;我们只要能够取到一半&#xff0c;那么就有解&#xff0c;但是时间复杂度太大了 我们做推导 x y s u m x y sum xysum x − y k ∗ n x - y k * n x−yk∗n 那么我们可…

pikachu靶场通关攻略(XSS)(1~10关)

反射型xss(get) 步骤一&#xff0c;我们先打开网站&#xff08;第一关&#xff09; 步骤二&#xff0c;首先来到第一关我们先随便输入一个数字1&#xff0c;下边显示谁是1&#xff0c;我不在乎! 步骤三&#xff0c;输入代码&#xff1a;<script>alert(1)</script>…

Codeforces Round 966 (Div. 3) A~F

A.Primary Task&#xff08;模拟&#xff09; 题意&#xff1a; 德米特里在黑板上写下了 t t t个整数&#xff0c;这很好。他肯定自己丢失了其中一个重要的整数 n n n&#xff0c;这就不好了。 整数 n n n的形式是 10 10 10 ^ x x x( x ≥ 2 x\ge 2 x≥2)&#xff0c;其中符…

数字签名:信息安全的新屏障

随着互联网的普及和信息技术的发展&#xff0c;信息安全问题日益凸显。数字签名作为一种重要的信息安全技术&#xff0c;为电子数据传输提供了有效保障。本文将介绍数字签名的基本原理、应用场景及其在保障信息安全方面的作用。 一、数字签名概述 数字签名是一种基于公钥密码…

深度学习基础—卷积运算

1.1.卷积运算法则 在计算机视觉领域&#xff0c;卷积运算撑起了半边天&#xff0c;因此在学习计算机视觉前&#xff0c;首先来了解一下卷积运算是如何运算的。 假设正在进行边缘检测&#xff0c;垂直边缘检测会把图片中接近垂直的边缘提取出来&#xff0c;即人的侧边、栏杆等。…

组合式API-reactive和ref函数,computed计算属性,watch函数

一.reactive&#xff08;&#xff09;接收一个对象类型的数据&#xff0c;返回一个响应式的对象&#xff1a; <script setup> import {reactive} from vue const state reactive({count:100 }) const setCount () > {state.count } </script> <template>…

MySql【数据查询语言DQL】

DQL[非常重要] DQL 主要指查询语句,有查询单表数据,也有查多表数据表,单表查询 基本查询 条件查询 模糊查询 排序查询 聚合查询 去重查询 分组查询 限制查询 1、 数据准备 将发的stu.sql导入到MySql中 2、 基本查询 select 字段1,字段2,... from 表名; 查询返回的是一张…