RSS 2024 清华大学交叉院高阳提出高效的机器人操作技能学习方法

news2025/1/23 17:42:45

机器人掌握一项新技能需要几步?

一般来说,在传统机器学习方法中,通常使用演示学习的方式教会机器人掌握新技能,然而,收集高质量的演示数据成本高且耗时,一定程度上影响了机器人技能学习进度。尽管视频作为一种包含丰富行为、物理和语义知识的数据源,能够为机器人提供原始的学习资料,但由于视频通常缺乏动作标签,直接从视频中提取用于策略学习的控制信息非常困难。虽然目前Sim to Real可以利用模拟环境生成的大量数据来训练模型,但依旧难以解决模型在真实环境中的泛化能力。

近日,清华大学交叉信息研究院高阳研究组针对传统方法收集演示数据成本高、耗时长,以及视频数据缺乏动作标签难以直接用于策略学习的问题,提出了一种创新的Any-point Trajectory Model(ATM)框架。

该框架通过预训练一个轨迹模型,来预测视频中任意点的未来轨迹,这些预测轨迹作为详细的控制指导,进而在策略学习中发挥重要作用。与传统方法相比,ATM框架仅需少量标注数据即可完成训练,并展现出强大的鲁棒性。高阳团队主导的ATM框架,为小样本和跨具身(cross-embodied)机器人学习领域提供了新的理论支撑,并且极大地拓宽了数据源的利用范围。该研究成果已被国际机器人顶级会议RSS 2024接收,并获得了全数审稿人的满分评价。

7月15日-19日,荷兰代尔夫特理工大学举办的第20届RSS 2024(Science and Systems)大会上,高阳受邀对其论文《Any-point Trajectory Modeling for Policy Learning》进行主题分享。作为机器人领域的国际顶级会议,RSS吸引来自世界各地的众多学者、研究人员和行业专家参与。而每年RSS大会主题分享环节,也是该会议备受关注的地方,主办方将邀请行业领域具备广泛影响力和深厚学术造诣的专家学者,分享他们的最新研究成果或行业见解。

▍完美复刻人类复杂动作!ATM框架如何助力技能学习?

在视频中可以看到,借助ATM框架的强大助力,机器人仅需通过观察人类执行如叠衣服、将番茄放入盘子、用刷子整理玩具等无动作标签的视频数据集,学习其中任意2D点的轨迹建议,便能实现样本高效的策略学习,并具备跨具体任务的迁移能力,从而完美复刻人类的复杂动作!

那么,这一框架是如何助力机器人实现快速学习“新技能”的呢?

鉴于此前基于视频推理图像的策略学习工作,存在需耗费大量计算资源,且容易产生幻觉的问题,

研究人员采用了基于粒子轨迹进行建模的方式,该方法不仅可提供对物理动力学更为精确的抽象,并自然地融入了物体永久性等归纳偏差。ATM首先在视频数据上预训练一个语言条件轨迹预测模型,以预测视频帧内任意点的未来轨迹,而后,ATM框架通过利用视频中的轨迹信息,引导机器人学会执行一系列复杂的操作和任务,包括空间推理、物体操作、目标理解、长时视野规划以及跨形态和跨域的技能迁移。

在这里插入图片描述

具体来讲,ATM框架能够接收建模视频当前帧中点的位置作为输入,并准确输出它们未来的轨迹。研究人员在相机坐标系中进行轨迹预测,从而最大程度地减少对相机校准的依赖。这些2D点轨迹与3D空间中粒子的轨迹相对应,构成了一种通用的运动表示,可以轻松迁移到不同的域和任务中。

为了进一步提升模型的泛化能力,研究人员首先在无动作标签的视频数据集上对轨迹模型进行了预训练。预训练完成后,预测的轨迹将作为策略的详细指导,其功能类似于子目标,为后续的策略学习提供了有力的支持。

最后,研究人员仅需使用极少量的带有动作标记的演示数据,即可训练出轨迹引导策略。同时,为了训练ATM模型,研究人员还充分利用视觉模型的最新研究成果,生成了自监督训练数据,以实现精确的点跟踪。这一创新的方法不仅提高了轨迹预测的准确性,还为机器人的策略学习提供了更为丰富和有效的指导。

▍优于现有视频预训练方法?ATM框架有何核心优势?

在训练过程中,研究人员发现ATM框架在利用未标注视频数据进行策略预训练方面展现出了巨大的潜力。在多个基准测试任务上,ATM框架的表现显著优于现有的视频预训练方法,即使在标注数据有限的情况下,也能实现较高的成功率。

折叠布料并将其拉向右侧:跟踪模型的变形变化

将西红柿放入锅中并关上柜门:轨道有效地引导了长远行为

使用扫帚将玩具扫入簸箕并将其放在簸箕前面:轨道可以进行关于工具的推理

拿起罐子并放入垃圾箱:轨道在机器人之间转移

为了进一步验证ATM框架的性能,研究人员在模拟和现实世界中对涵盖了130多个语言条件任务进行了全面评估。结果显示,ATM的表现显著超越了视频预训练中的各种强基线方法,平均成功率高达63%,而以往方法的最高成功率仅为37%,提升幅度超过了80%。

而ATM框架能实现如此巨大提升的根源,在于其独特的核心优势:

结构化表示与高效计算

与传统的视频预测模型相比,ATM模型采用了全新的结构化表示方法,它ATM模型直接预测视频帧中任意点的未来轨迹,而非整个像素级别的图像变化。这种表示方法不仅自然融入了如物体恒存性等物理归纳偏置,还降低了计算复杂度。在训练和推理阶段,ATM模型仅需要处理点轨迹而非全帧图像,使得模型能够更高效地运行,尤其适合资源受限的环境下。此外,通过预测未来轨迹作为子目标,ATM模型能够为策略学习提供密集的指导,使策略学习变得更加高效。

跨领域学习与泛化能力

通过预训练轨迹模型来预测视频帧中任意点的未来轨迹,ATM模型能够利用未标注的视频数据,这些数据来源广泛且易于获取。更重要的是,ATM模型除了机器人自身的视频数据,还能有效利用人类操作视频或其他形态机器人的视频数据。这种跨领域学习的能力极大地扩展了数据源的可用性,使得模型能够学习到更通用、更鲁棒的运动先验。

指导策略学习与提高数据效率

在策略学习阶段,ATM模型预测的轨迹作为子目标输入到策略中,使得策略学习转变为一个更容易的子目标跟随问题。这不仅减少了策略学习所需的标注数据量,还提高了策略学习的成功率。

▍全面揭示潜力与局限,ATM框架性能实验与效果验证

为了全面评估ATM框架在多个关键方面的性能与效果,研究人员进行了一系列测试实验。

这些实验重点聚焦于ATM在无动作视频学习方面的能力,探究其是否具备从更广泛、演示数据分布之外的视频数据中学习的能力,以进一步拓展其应用场景,并深入研究了ATM的工作机制。

基准测试任务

为了验证ATM框架的表现,研究人员在多个基准测试任务上进行实验,其中包括空间推理、对象推理、任务理解和长时程任务等。基准测试任务包括LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-Long等套件。
在这里插入图片描述

LIBERO-Long主要评估机器人在执行长期复杂任务时的性能
在这里插入图片描述

LIBERO-Spatial主要评估机器人在处理不同空间布局时的操作性能
在这里插入图片描述

LIBERO-Object主要评估机器人在执行与对象相关的操作任务时的性能
在这里插入图片描述

LIBERO-Goal主要评估机器人在理解和实现特定目标方面的能力

实验结果显示,ATM框架在所有测试任务上均取得了显著优于现有视频预训练方法的结果。

在这里插入图片描述

ATM的平均成功率达到了63%,相比之前方法的最高成功率37%,提高了超过80%。这表明ATM框架在利用未标注视频数据指导策略学习方面具有明显优势。

少量数据标注下高效学习

数据标注的多少直接影响投入成本,如何有效减少数据标注量十分重要,实验结果显示,即使是使用少量标注数据的情况下,ATM框架依然能够学习到鲁棒的策略。
在这里插入图片描述

使用4%的标注数据时,ATM框架的表现与使用20%标注数据的基线方法相当,甚至在某些任务上表现更好。这表明ATM框架通过利用未标注视频数据中的运动先验信息,提高了数据利用效率,使得在有限标注数据下也能学习到有效的策略。

跨领域学习验证

实验通过利用人类操作视频和其他形态机器人的视频数据来训练轨迹模型,并将学到的技能成功转移到目标机器人上。

在这里插入图片描述

这种跨领域学习的能力得益于点轨迹的通用表示,使得模型能够学习到更通用、更鲁棒的运动先验。

实时性与效率计算

相比于传统的视频预测模型,ATM框架通过预测点轨迹而非完整的未来图像帧,有效降低了计算复杂度。

在这里插入图片描述

结果显示,ATM在单个任务上的计算成本远低于基于视频预测的方法。这使得ATM框架在实际应用中更具可行性,能够满足实时控制的需求。

▍结语与未来

ATM框架将视频预训练与策略学习有效结合,通过预训练的点轨迹模型提供详细的运动先验知识,显著降低了对大量标签数据的依赖,从而大幅降低了数据收集的成本和难度。这一点在实际应用中对于机器人学习尤为重要,因为它能够有效促进从有限标签数据中学习出鲁棒的控制策略。此外,ATM框架展现出良好的泛化能力与可迁移学习能力,这一点体现在无论是处理不同的操作任务还是适应不同形态的机器人上面。

高阳团队提出的ATM框架,作为一种创新的策略学习方法,不仅克服了传统策略学习方法对数据量的高度依赖,还通过其独特的点轨迹建模方式有效提升了模型的泛化能力。该框架不仅能够从机器人视频中学习技能,同时实现了从人类视频到机器人技能的跨域迁移,这在机器学习和机器人领域具有重要意义。ATM框架在多个基准测试和实际任务中的卓越表现,还验证了其策略的有效性,展现了其广泛的适用性和强大的泛化能力,为未来的机器人学习和控制策略开辟了新的研究方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1978059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

⭕️【论文阅读】《Interactive Class-Agnostic Object Counting》

[2309.05277] Interactive Class-Agnostic Object Counting (arxiv.org) code: cvlab-stonybrook/ICACount: [ICCV23] Official Pytorch Implementation of Interactive Class-Agnostic Object Counting (github.com) 目录 Abstract Abstract 我们提出了一个新…

linux学习记录(一)--------目录及文件操作

文章目录 前言Linux目录及文件操作1.Linux目录结构2.常用的Linux命令3.vi编辑器的简单使用4.vi的两个模式 前言 小白学习linux记录有错误随时指出~ Linux目录及文件操作 Linux采用Shell命令->操作文件 1.Linux目录结构 根目录:/ 用户目录:~或者/ho…

float转uint8_t数组

float类型在x64中占4字节,需要占据uint8_t数组大小4字节 数据float类型3.14,在内存中4字节地址应该为0x4048f5c3 如果直接使用memcpy内存复制,0xc3会放在数组下标小的位置

〖任务1〗ROS2 jazzy Linux Mint 22 安装教程

前言: 本教程在Linux系统上使用。 目录 一、linux安装二、linux VPN安装三、linux anaconda安装(可选)四、linux ROS2 安装五、rosdep init/update 解决方法六、安装GUI 一、linux安装 移动硬盘安装linux:[LinuxToGo教程]把ubunt…

代码随想录算法训练营第43天|LeetCode 300.最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组

1. LeetCode 300.最长递增子序列 题目链接:https://leetcode.cn/problems/longest-increasing-subsequence/description/ 文章链接:https://programmercarl.com/0300.最长上升子序列.html 视频链接:https://www.bilibili.com/video/BV1ng411J…

进阶SpringBoot之 Spring 官网或 IDEA 快速构建项目

SpringBoot 就是一个 JavaWeb 的开发框架,约定大于配置 程序 数据结构 算法 微服务架构是把每个功能元素独立出来,再动态组合,是对功能元素的复制 这样做可以节省调用资源,每个功能元素的服务都是一个可替代、可独立升级的软…

从地铁客流讲开来:超一线城市的客运量特征

这篇我们把视角聚焦在四大超一线城市,北上广深,我们来看看这些城市地铁客运量的异同,这里放一个背景2024年6月8日—6月10日是我国农历的端午节,我们看图说话,相同的特征:1.四大一线城市客流都在周五达到客运…

数学建模--蒙特卡罗随机模拟

目录 蒙特卡罗方法的基本原理 蒙特卡罗方法在优化中的应用 蒙特卡罗方法的优势与局限 优势 局限 典型应用案例 Python代码示例 ​编辑 结论 蒙特卡罗方法在数学建模中的具体应用案例有哪些? 如何改进蒙特卡罗方法以提高计算效率和精度? 蒙特…

如何使你的mermaid流程图里的某一段文字加粗、变斜、成为上下标……

目录 参考的链接开头1.加粗&#xff0c;*斜体*与下划线2.标记,~~删除线~~与^上^~下~标3.代码片与标题4.注释与蓝色链接5.其</q>他 东西 结尾 参考的链接 HTML标签列表(按字母排序)和HTML标签列表(按功能排序) 开头 大家好&#xff0c;我叫这是我58。今天&#xff0c;我们…

【架构】客户端优化

这篇文章总结一下服务器网关及之前部分的优化&#xff0c;如客户端的优化&#xff0c;CDN/DNS等。 这里我们先谈一谈客户端缓存优化的手段。一般我们后端在说到缓存&#xff0c;第一时间想到的往往是redis&#xff0c;其实缓存在架构层次还有很多其他可以实现的地方&#xff0…

从LLM到大模型推理的最新进展

大语言模型LLM的推理引擎经过一年时间发展&#xff0c;现在主流方案收敛到了开源的vLLM和半闭源的TensorRT-LLM。 TRT-LLM基于C开发&#xff0c;有NV算子开发黑魔法加持&#xff0c;在其重点支持的场景里&#xff0c;性能可以做到极致。vLLM基于python开发&#xff0c;代码简洁…

MySQL第2讲--关系型数据库以及SQL语句分类之DDL数据库和表的操作

文章目录 前言关系型数据库&#xff08;RDBMS&#xff09;关系型数据库的特点 MySQL数据模型SQL介绍基本语法规则SQL语句的分类DDL的介绍DDL的数据库操作DDL的表操作 前言 上一节MySQL第1讲–详细安装教程和启动方法中介绍了MySQL如何安装&#xff0c;以及如何启动和客户端连接…

使用 Elastic 和 Mistral 构建多语言 RAG

作者&#xff1a;来自 Elastic Gustavo Llermaly 使用 Elastic 和 Mixtral 8x22B 模型构建多语言 RAG 应用程序。 Mixtral 8x22B 是性能最高的开放式模型&#xff0c;其最强大的功能之一是能够流利使用多种语言&#xff1b;包括英语、西班牙语、法语、意大利语和德语。 想象一…

质量属性-系统架构师(四十)

质量属性 1性能&#xff1a; 指系统响应能力。如响应时间、吞吐量。 设计策略&#xff1a;优先级队列&#xff0c;增加计算机资源&#xff0c;减少计算机开销&#xff0c;引入并发机制&#xff0c;采用资源调度。 2可靠性&#xff1a; 在一定时间内正常运行的情况下&#x…

PTA—基础编程题目集(7-21)

7-21 求特殊方程的正整数解 目录 题目描述 输入格式&#xff1a; 输出格式&#xff1a; 输入样例1&#xff1a; 输出样例1&#xff1a; 输入样例2&#xff1a; 输出样例2&#xff1a; 参考代码 总结 题目描述 本题要求对任意给定的正整数N&#xff0c;求方程X2Y2N的…

《Milvus Cloud向量数据库指南》——关于Ivy.ai:重塑沟通效率与数据安全的创新先锋

关于Ivy.ai:重塑沟通效率与数据安全的创新先锋 在数字化转型的浪潮中,Ivy.ai以其前瞻性的视野和专业团队的匠心独运,正逐步成为高等教育、医疗保健及公共部门沟通效率提升的引领者。这家企业不仅代表了人工智能技术在服务领域的最新进展,更以其旗舰产品IvyQuantum™的横空…

搬瓦工香港CMI VPS测评

搬瓦工香港cmi怎么样&#xff1f;搬瓦工香港VPS分CN2 GIA和CMI两种不同接入的网络&#xff0c;其中CMI网络的回程是强制三网全部都走移动CMI线路&#xff0c;相对CN2 GIA来说有一定的差距。实际的情况测评数据送上&#xff0c;可供参考。 CPU型号未知&#xff0c;主频2.7GHz&a…

【C++】一堆数组 冒泡排序

冒泡排序&#xff0c;一种很常见的排序法师 这章要划重点&#xff0c;很重要&#xff01;&#xff01; 排序思路为前一个元素与后一个元素比大小&#xff0c;一直循环一轮&#xff0c;找出最大/最小的那个元素后&#xff0c;进行下一轮&#xff0c;找到第二大/小的元素......…

ZLM推流

ZLM推流 ffmpeg -re -i D:\work\gb28181-client\target\classes\device\videofile.h264 -vcodec h264 -acodec aac -f rtp_mpegts rtp://127.0.0.1:10000把这个复制出来然后将defaultVhost_改成127.0.0.1