AI智能超越人类终破解!李飞飞高徒新作破圈,5万个合成数据碾压人类示例,备咖啡动作超丝滑

news2025/1/11 17:00:38

AI巨佬Geoffrey Hinton称,「科技公司们正在未来18个月内,要使用比现在GPT-4多100倍的算力训练新模型」。

更大参数的模型,对算力需求巨大的同时,对数据也提出了更高的要求。

图片

但是,更多的高质量数据该从何来?

英伟达高级科学家Jim Fan表示,「合成数据,将为我们饥渴的模型提供万亿个token」。

图片

作为例证,英伟达与UT的研究人员在最新研究中,提出了一个MimicGen系统,能够大量生成机器人训练数据。

图片

论文地址:https://arxiv.org/pdf/2310.17596.pdf

具体过程是,通过在模拟环境中,使用数字孪生技术复制真实世界中,人类的操作数据。

仅用了不到200个人类演示,MimicGen实现了在18个任务、多个模拟环境,甚至是现实世界中,自主生成5万个训练数据。

值得一提的是,这项研究所有数据集全部开源。

图片

在Jim Fan看来,合成数据和模拟对AI发展非常重要,可以获得更多训练数据,维持学习算法的进步。它不仅适用于机器人领域,也会应用到其他AI领域。

我们正在迅速耗尽来自网络的高质量的真实token。从人工合成数据中获得人工智能,将是未来的发展方向。

恰恰,MimicGen展示了合成数据和模拟的力量,让「缩放法则」(scaling law)得以延续。

准备咖啡,操作如此丝滑

MimicGen实际表现如何,一起看些演示。

在下图的示例中,MimicGen仅从10个人类演示中,为3种不同的环境分布生成了1000个演示。

图片

下面,将展示MimicGen在跨多个不同任务和环境分布中生成的几个数据集,比如积木堆叠、「穿针引线」、咖啡准备、拼装等等。

图片

对于从未见过的杯子,MimicGen也能够将其收纳到抽屉里。

图片

不同的机械臂,也能灵活自如地操作。

图片

MimicGen在长期复杂的任务中的表现。

图片

另外,MimicGen适用于需要毫米级精度的接触式任务。

图片

准备咖啡的过程很丝滑。

图片

而在其他生成示例中,合成数据都能完成高性能的展示,效果惊人!

图片

MimicGen:生成式数据无限扩展

可以看到,从人类演示中进行模仿学习,已成为训练机器人执行各种操作行为的有效范例。

最为常见的方法是,人类通过不同的控制接口远程操作机器臂,生成执行各种任务的示例,然后用这些数据训练机器人自己完成这些任务。

然鹅,这种方法既费时,又费力。

另外,研究人员提出了另一个问题,在这些数据集中,实际上有多少数据包含了独特的操作技能?

在最新研究中,作者提出了一种新型系统MimicGen,通过对人类演示进行处理,自动生成不同场景下的大规模数据集,进而用于机器人的模仿学习。

具体来说:

- 人类远程操控机器人完成一个任务,生成非常高质量演示数据,但缓慢且昂贵。

- 在高保真的GPU加速的模拟环境中,创建机器人和场景的数字孪生。

- 在模拟环境中移动对象,替换新的物体,甚至改变机械臂,基本上是使用程序生成的方式扩充训练数据。

- 导出成功的场景,提供给神经网络进行训练。这样就获得了一个近乎无限的训练数据流。

总而言之,这项研究的主要贡献在于,展示了MimicGen可以在各种新的场景配置、对象实例和机械臂上生成高质量数据,来通过模仿学习训练出熟练的智能体,这些都是人类演示中没有的。

图片

MimicGen广泛适用于需要不同操作技能的长序列任务和高精确度任务,比如抓放、组装等。

在2个模拟环境和1个物理机械臂上,只用大约200个人类演示就生成了5万个新的演示,涵盖18个任务。

与收集更多人类演示相比,这一方法更加优越。

使用MimicGen生成的合成数据(例如从10个人类演示生成200个演示)与200个人类演示训练出的智能体性能相当。

论文细节

问题设定

模仿学习

研究人员将每一个机器人操纵任务视为一个马尔可夫决策过程(MDP),并旨在学习一个将状态空间S映射到动作空间A的机器人操纵策略。

问题陈述和假设

研究人员的目标是使用一个源数据集D1,该数据集由在任务M上收集的一小组人类演示组成,并用它来生成一个大型的数据集D(用于相同任务或任务变体,其中初始状态分布 D、对象或机器人臂可能发生变化)。

生成新演示的步骤如下:

(1)从研究人员想要生成数据的任务中抽样一个起始状态,

(2)从D1中选择并适应一个演示以生成一个新的机器人轨迹τ',

(3)机器人在当前场景中执行轨迹τ',如果任务成功完成,则将状态和动作的序列添加到生成的数据集D中(具体的每一步请参见方法)。接下来,研究人员概述系统利用的一些假设。

假设 1:增量末端执行器位姿( delta end effector Pose)动作空间。动作空间(action space)A包括用于末端执行器控制器和夹持器开/关命令的增量位姿命令。

这使研究人员能够将演示中的动作视为末端执行器控制器的一系列目标位姿。

假设 2:任务由已知的对象中心子任务序列组成。设 O = {o₁, ..., oₖ} 为任务 M 中的对象集合。

研究人员假设任务由一系列对象中心子任务

图片

组成,其中每个子任务

图片

相对于单一对象的坐标系

图片

。研究人员假设这个序列是已知的。

假设 3:在数据收集期间,每个子任务开始时都可以观察到对象的姿态。研究人员假设在每个子任务

图片

的数据收集期间(但在策略部署期间则不是),研究人员可以观察到相关对象 oₛᵢ 的姿态。

研究方法

研究人员展示了如何使用一个小型的人类演示源数据集来生成新的演示(下图 2 )。

图片

MimicGen首先将源数据集解析为多个段(segment) — 每个段对应于任务中的一个对象中心子任务。

然后,为了在新场景中生成一个演示,MimicGen会为每一个子任务生成并执行一个轨迹(末端执行器控制位姿的序列,sequence of end-effector control poses)。

方法是从源示例中选择一个参考段,根据新场景中对象的位姿进行转换,然后使用末端执行器控制器执行目标位姿的序列。

将源数据集解析为对象中心的段

每个任务都由一系列对象中心的子任务组成 — 研究人员希望将源数据集中的每个轨迹τ解析为多个段 {τᵢ}ₘⁱ=₁,其中每个段τᵢ对应于一个子任务Sᵢ(oₛᵢ)。

为新场景转换源数据段

为了在新场景中生成一个任务演示,MimicGen会为任务中的每一个对象中心子任务生成并执行一个段。如上图2(右)所示,这包括每个子任务的三个关键步骤:

(1)在源数据集中选择一个参考子任务段,

(2)为新的上下文转换子任务段,

(3)在场景中执行该段。

选择一个参考段:MimicGen将源数据集解析为与每个子任务相对应的段

图片

在每个子任务 Sᵢ(oₛᵢ) 开始时,MimicGen从集合

图片

中选择一个相应的段。这些段可以随机选择或使用相关对象的位姿。

转换源子任务段:研究人员可以将选定的源子任务段 τᵢ 视为末端执行器控制器的目标位姿序列。

执行新段(Executing the new segment)

最后,MimicGen通过在每个时间步取目标位姿,将其转换为增量位姿动作,与源段中相应的抓取器打开/关闭动作配对,并执行新动作来执行新段τ′ᵢ。

以上步骤重复每个子任务,直到执行了最后一个段。

然而,这个过程可能是不完美的——由于控制和手臂运动学问题导致的小轨迹偏差可能导致任务失败。

因此,MimicGen在执行所有段后检查任务成功与否,并仅保留成功的演示。研究人员将成功生成轨迹的数量与总尝试次数之间的比率称为数据生成率。

这个流程只依赖于对象框架和机器人控制器框架——这使得数据生成可以在具有不同初始状态分布、对象(假设它们有规范框架定义)和机器人手臂(假设它们共享末端执行器控制框架的约定)的任务之间进行。

在研究人员的实验中,研究人员为每个机器人操作任务设计了任务变体,其中研究人员改变初始状态分布(D)、任务中的一个对象(O)或机器人手臂(R),并表明 MimicGen 支持这些变体之间的数据收集和模仿学习。

175个人类演示,生成5万个数据集

研究人员将MimicGen应用于多种不同的任务(见下图3)和任务变体,以展示它如何为模仿学习在包括拾取-放置、富有接触性的交互以及关节动作在内的多样化的操控行为生成有用的数据。

图片

实验和结果

研究人员进行了实验,目的是(1)突出显示MimicGen能够生成数据的多样情境;(2)展示MimicGen与收集额外人类示范相比在努力和数据下游政策性能方面都有优势;(3)提供系统不同方面的洞见;(4)证明MimicGen能在真实世界的机器人手臂上工作。

MimicGen的应用

研究人员概述了几个展示MimicGen有用属性的应用场景。

MimicGen数据大幅提升了代理在源任务上的性能。MimicGen一个直接的应用就是收集某个感兴趣任务的小型数据集,然后为该任务生成更多数据。与在小型源数据集上训练的代理相比,使用MimicGen生成的D0数据集训练的代理表现有显著提升。

MimicGen数据能在广泛的初始状态分布下生成高性能的代理。如下图4所示,使用在广泛的初始状态分布(D1、D2)上生成的数据集训练的代理具有很高的性能。

图片

MimicGen能为不同对象生成数据。例如,在「Mug Cleanup(马克杯收纳)」任务的源数据集中只有一个马克杯,但研究人员用MimicGen为一个未见过的马克杯(O1)和一组12个马克杯(O2)生成了演示。

MimicGen可以为多种机器人硬件生成数据。研究人员将MimicGen应用于使用Panda手臂的Square和Threading源数据集,并为Sawyer、IIWA和UR5e生成了跨D0和D1重置分布变体的数据集。

将MimicGen应用于移动操纵。在「Mobile Kitchen(移动厨房)」任务中,MimicGen使得成功率从2.0%提升到46.7%。

MimicGen是模拟器不可知的。研究人员证明MimicGen不仅限于一个模拟框架,通过将其应用于在Isaac Gym之上构建的Factory模拟框架中需要毫米级精度的高精度任务。

MimicGen和人类数据对比

MimicGen可以利用少量人类示例生成大规模数据集:

在18个任务中,只用175个人类示例就生成了超过5万个示例。在Square任务中,只用10人类示例就生成了1000个示例,覆盖不同场景配置。

而且MimicGen生成的数据集可以训练出高性能策略,甚至比人类示例的效果好很多:

在Square任务中,从10人类示例的数据集成功率11.3%,从生成数据集成功率可达90.7%。

在复杂的Coffee Preparation任务中,成功率从12.7%提升到97.3%,在高精度装配任务Gear Assembly中,成功率从14.7%提升到98.7%。

MimicGen生成的数据集与人类数据集性能相当:

在Square任务中,200人类示例成功率为12%,200个生成示例成功率为11.3%,在Three Piece Assembly任务中,200人类示例成功率为14%,200生成示例成功率为13.3%。

在机械臂上的表现上,MimicGen生成的数据的Stack任务从源域0%的成功率提升到了36%,Coffee任务,成功率从源域的0%成功率到目标域14%成功功率。

图片

网友热议

合成数据将主导大部分生成式人工智能行动!

终有一天,人类标注和演示成为过去。

图片

有网友惊呼,这与AGI大差不差了,人类灵巧程度的机器人也会突然能力大爆发。

图片

这正是我之前思考的AI智能超越人类智能,大概率只是时间问题:因为真实世界有限的数据并不是限制,数据可以通过AI合成,之后再投入到模型训练中:Artificial synthetic data ⇒ Training AI ⇒ AI smarter ⇒ Generating more synthetic data ⇒ more into trianing AI model;  Feedback Loop已建立。

图片

图片

有网友表示,「这可以用来生成自动驾驶训练集吗?这样汽车公司就不必仅仅依靠真实世界的数据来训练他们的模型了?」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167360.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

客服行业未来的发展前景怎么样?

随着互联网和科技的快速发展,客服行业也在不断发展和壮大。客服行业涉及的领域非常广泛,包括电商、互联网、金融、医疗、教育、交通等各个行业。客服行业未来的发展前景也非常广阔。 一、人工智能客服将成为主流 人工智能技术的不断发展和成熟将会改变客…

【vscode】vscode实现c代码跳转,函数关联关系查看

这里写自定义目录标题 1. 安装插件a. C/Cb. Gtagsc. C/C GNU Global 2. 下载 GLOBAL 并配置3. 使用 1. 安装插件 a. C/C b. Gtags c. C/C GNU Global 2. 下载 GLOBAL 并配置 Windows 下 GLOBAL 下载地址:http://adoxa.altervista.org/global/ 注意:无法…

清华大学利用可解释机器学习,优化光阳极催化剂,助力光解水制氢

水的太阳能光电化学 (PEC) 分解是将太阳能高效转换为氢能的方法,是一种很有前景的可再生能源生产方式。然而,受电极性质及电极缺陷的影响,PEC 反应的效率较低,需要合适的助催化剂辅助。而电解池、光电极和助催化剂组成的 PEC 系统…

GPT-4 变笨加剧,一个笑话讲八百遍;ChatGPT 之父剑桥演讲遭抵制丨 RTE 开发者日报 Vol.77

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE (Real Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

国家开放大学期末统一考试测试题

试卷代号:2006 经济数学基础12 参考试题 附表 导数基本公式: 积分基本公式: c0 odxc xaaxa-1 xadxxa1a1c(a≠-1) axaxlna(a>0且a≠1) axdx…

Ansible自动化安装部署及使用

目录 前言 一、环境概况 修改主机名(可选项) 二、安装部署 1.安装epel扩展源 2.安装Ansible 3.修改Ansible的hosts文件 4.生成密钥 三、Ansible模块使用介绍 Command模块 Shell模块 User模块 Copy模块 File模块 Hostname模块 Yum模块 Ser…

AI天花板打开,昇腾如何“全周期”赋能人才成长?

作者 | 曾响铃 文 | 响铃说 竞赛已经成为培养与选拔人才行之有效的方式,如火如荼的AI领域同样如此。 不久前,昇腾AI创新大赛2023全国总决赛(以下简称“大赛”)举行,来自全国22个赛区的78支团队经过激励比拼&#xf…

SNAP打开影像失败No appropriate reader found

SNAP打开影像失败No appropriate reader found 问题描述 原因 这是我前几周用的,还有这些模块,但不知道何时,这些模块就少了 重装一下吧,可能是误删东西了 解决方案 重装了一下,就能够打开了 装完之后又有这些模…

强大日志查看器,助力数据联动分析

前言 我们曾讨论过观测云查看器强大的查询筛选和搜索功能,能够帮助用户快速、精准地检索数据,定位故障问题(参见《如何使用查看器筛选、搜索功能进行数据定位?》)。除此之外,日志查看器不仅可以帮助我们收…

TensorFlow案例学习:使用 YAMNet 进行迁移学习,对音频进行识别

前言 上一篇文章 TensorFlow案例学习:简单的音频识别 我们简单学习了音频识别。这次我们继续学习如何使用成熟的语音分类模型来进行迁移学习 官方教程: 使用 YAMNet 进行迁移学习,用于环境声音分类 模型下载地址(需要科学上网&…

HTML基础知识——URL、文本标签、链接标签、图片标签、列表标签

目录 URL(统一资源定位符) 概述 网址的组成部分 协议 主机 端口 路径 查询参数 锚点 文本标签 示例: 链接标签 示例: 图片标签 示例: 列表标签 示例: URL(统一资源定位符)…

跳跳狗小游戏

欢迎来到程序小院 跳跳狗 玩法:一直弹跳的狗狗,鼠标点击屏幕左右方向键进行弹跳,弹到不同物品会有不同的分数减扣,规定的时间3分钟内完成狗狗弹跳,快去跳跳狗吧^^。开始游戏https://www.ormcc.com/play/gameStart/198…

B端设计必看的9个开源组件库,值得收藏!

如果你想开发一款To B Web端产品,如何选择令人眼花缭乱的开源组件库?行业团队常用的B端开源组件库是什么?今天,我们将为您带来入门级开源组件库的介绍。你可以先有一个大致的了解,希望能对你有所帮助。未来&#xff0c…

【带货案例】从美区十月带货达人身上寻找商品爆款秘诀!

2023只剩下最后两个月,年底也是各大商家冲刺卖货的黄金时期! 带货过程中的一个重要环节即【达人营销】,背受跨境卖家关注。 下面选取美区十月带货达人TOP3,分析其带货秘诀。 据超店有数达人榜单显示:美区十月带货达人…

山东专业商品信息管理系统解决方案,智能管理多门店,可定制-亿发

众所周知,现如今商品种类繁多、品牌众多、商品信息量庞大,同时商品销售价格经常变动,还需管理商品批次,避免库存积压和过期,这给山东地区的传统企业在商品管理上带来了极大的挑战。 随着数字化时代的来临,山…

Java Web 学习笔记(一) —— MySQL(1)

目录 1 SQL简介2 MySQL基本语法2.1 语法规则2.2 数据类型 3 DDL3.1 操作数据库3.2 操作表 4 DML4.1 添加数据4.2 修改数据4.3 删除数据 5 DQL5.1 基础查询5.2 条件查询5.3 排序查询5.4 聚合查询5.5 分组查询5.6 分页查询 1 SQL简介 SQL :Structured Query Language&…

iOS App Store上传项目报错 缺少隐私政策网址(URL)解决方法

iOS App Store上传项目报错 缺少隐私政策网址(URL)解决方法 一、问题如下图所示: 二、解决办法:使用Google浏览器(翻译成中文)直接打开该网址 https://www.freeprivacypolicy.com/free-privacy-policy-generator.php 按照要求…

蓝桥杯每日一题2023.11.3

题目描述 承压计算 - 蓝桥云课 (lanqiao.cn) 题目分析 将重量存入a中,每一层从上到下进行计算,用d进行计算列的重量,当前d的重量应为正上数组和右上数组的个半和并加上自身的重量 计算到30层记录最大最小值,进行比例运算即可 …

Ubuntu20.04搭建RISC-V和qemu环境

1. 前言 risc-v是一个非常有潜力的指令集框架,最近对其产生了浓厚的兴趣,由于之前对于这方面的知识储备很少,在加上网上的教程都是点到为止,所以安装过程异常曲折。好在最后一步一步积累摸索,终于利用源码安装完成。看…

python对象方法是什么

python对象方法是什么 概念 1、在类中,对象调用的函数称为对象方法,一般也称为方法。 定义格式 class 类名:def 函数1(self, 参数1, 参数2):...实例 2、在定义对象方法时,第一个参数默认使用self,这个参数在定义时必须存在&am…