π0:仅有3B数据模型打通Franka等7种机器人形态适配,实现0样本的完全由模型自主控制方法

news2025/2/4 4:31:11

Chelsea Finn引领的Physical Intelligence公司,专注于打造先进的机器人大模型,近日迎来了一个令人振奋的里程碑。在短短不到一年的时间内,该公司成功推出了他们的首个演示版本。这一成就不仅展示了团队的卓越技术实力,也预示着机器人技术的未来发展将更加智能化和高效。在这里插入图片描述

想象一下,一个机器人能够轻松地洗衣服、冲咖啡,所有这些动作都无需人工遥控,完全由模型自主控制。这不仅仅是一个梦想,而是由Physical Intelligence(简称π)这家今年新成立的初创公司所开发的通用型机器人控制模型π0实现的。π0的参数量仅为3B,却能驾驭各种类型的机器人。这个强大的模型不仅训练了众多不同的机器人,还从预训练的视觉语言模型(VLM)中汲取了丰富的语义知识和视觉理解能力。VLM经过训练,能够对网络上的文本和图像进行建模。π0正是以这种广泛使用的VLM为起点,通过调整适应实时灵巧的机器人控制需求,展现出其惊人的能力。在这里插入图片描述
在成立之初,π公司便迅速斩获了高达7000万美元(约合5亿人民币)的A轮融资,其中不乏科技巨头OpenAI的身影。这家新兴企业致力于研发一款革命性的通用机器人控制模型。在这里插入图片描述
而π0,作为他们的开山之作,标志着这一宏伟目标的初步实现。π0适配Franka机器人等7种机器人直接控制π团队最新展示的机器人技术令人瞩目,它们能够执行一系列对机器人来说极具挑战性的任务,如叠衣服、整理桌面和装鸡蛋盒。这些任务不仅要求机器人进行长时间的连续决策,还必须在动作上达到高频率和精确度的双重标准。更复杂的是,它们还涉及到各种材料的接触动力学,例如衣物的变形、纸箱的硬度和鸡蛋的易碎性。为了成功完成这些任务,Franka等机器人必须精确地模拟并控制这些复杂的物理过程,并满足额外的物理约束条件,比如保持物体平衡和避免碰撞。π0不仅能控制机器人,还能控制不同类型的机器人,出色地完成这些任务。Franka机器人七轴力控Franka机器人设置有两个摄像头和一个8维的配置和动作空间,其中关节力控功能在一些任务当中尤为重要UR5e单臂一个配备平行爪夹持器的手臂,带有一个腕部安装和一个肩上摄像头,总共提供两张相机图像和一个7维的配置和动作空间双臂UR5e 两个UR5e设置,总共提供三张相机图像和一个14维的配置和动作空间其他不再介绍。π0的零样本任务评估在零样本任务评估中,研究人员对经过预训练的π0模型进行了严格的测试。他们要求模型在未接受特定任务训练的情况下,执行一系列复杂任务,包括衬衫折叠、简易餐桌清理(bussing easy)、高难度餐桌清理(bussing hard)以及食品杂货装袋等。实验结果令人瞩目:π0模型在所有零样本任务中均展现出卓越的表现,证明了其非凡的泛化能力。特别是在衬衫折叠任务中,模型几乎达到了完美的成功率;而在简易餐桌清理任务中,也显示出了极高的准确度。在这里插入图片描述
在众多模型中,π0模型以其卓越的性能脱颖而出。相较于OpenVLA和Octo,它们在任务执行上的表现明显不足。OpenVLA受限于其自回归离散化架构,难以有效处理动作分块,导致任务执行困难重重。而Octo虽然支持动作分块,但其有限的表示能力难以满足复杂任务的需求。这些对比结果充分展示了π0模型的优势:它将大规模表达性架构与流匹配技术相结合,在零样本的情况下也能轻松应对各种任务。
π0的零样本机器人操作基于Franka机器人π0的0样本分配任务 象一下,一个双臂灵活的机器人正轻松地完成家务。它优雅地走到洗衣机前,轻轻打开舱门,然后灵巧地将洗净的衣物一件件取出,整齐地放入筐中。这一幕不仅展示了机器人的实用性,也让我们对未来智能生活的便捷与高效充满了期待。接着,她轻巧地走到另一张桌子前,小心翼翼地从筐中取出衣物。她的动作温柔而细致,将每一件衣物平铺开来,然后巧妙地折叠整齐。这一系列动作如同优雅的舞蹈,展现了她对日常家务的熟练和热爱。在整理桌面的使命中,我们的主角——一位单臂机器人,展现出了非凡的效率。它灵巧地将珍贵的物品分类放入收纳筐,而那些不再需要的物品则被精准地投入垃圾桶。这不仅是一场清洁的仪式,更是对空间秩序的一次优雅重塑。即使在物品与垃圾交错混杂的情况下,我们的系统依然能够精确执行任务。“显然,π0在零样本泛化、语言控制响应、新任务学习和多阶段任务处理等方面的表现令人瞩目。它不仅能够灵活适应新任务,还能在不同阶段的任务中展现出卓越的性能。”在这里插入图片描述
零样本泛化能力上,π0在所有任务上都显著超过了baseline模型,即使未加入预训练视觉模型的π0-small也比这些baseline表现优异。π0的计算效率在指令处理领域,π0展现了卓越的自主性能,尤其在人类指导下的三个语言指令任务中表现最佳。此外,其高层策略指导能力也得到了显著提升。面对与预训练数据差异较大的新任务挑战,π0在大多数情况下都能提供最佳的性能表现,特别是在微调数据量有限的情况下,其优势尤为突出。这表明π0无需额外训练即可使机器人自动完成众多开放性任务,展现了其强大的适应性和灵活性。在这里插入图片描述
在一系列极具挑战性的复杂任务中,π团队对π0进行了微调和语言指令测试,展现了其卓越的性能。π0成功完成了如折衣服、整理餐桌、组装纸箱和装鸡蛋等耗时5至20分钟的任务,平均得分超过50%。在Franka机器人抽屉物品放置任务中,尽管缺乏预训练中的类似任务,π0仍展现出了“困难”级别的能力。而在UR5e堆叠碗任务中,由于涉及抓取和移动碗的动作与预训练数据相似,π0轻松地将其归为“简单”层级。此外,在纸巾更换任务中,尽管面临未见过的物品挑战,π0也表现出了“困难”级别的处理能力。总体来看,π0的计算效率和实时性表现突出,虽然距离实现网友期待的普及应用还有提升空间,但其潜力不容忽视。在这里插入图片描述
那么,π团队在π0模型上,都运用了什么样的技术呢?π0的视觉模型原理探索π0,这款由视觉模型PaLM-ViT演化而来的先进系统,它不仅保留了原始模型的核心特性,还增添了创新元素:一个投影层、一个多层感知机和一个小巧的动作专家模块。投影层专门负责处理机器人状态与动作的输入输出,而多层感知机则精妙地整合了流匹配时间步信息。动作专家模块则独立地处理机器人状态和动作tokens,赋予模型更高的灵活性和效率。π0的输入涵盖了图像、语言指令、机器人本体感受状态以及噪声动作块,其中图像和语言tokens被送入VLM主干网络进行深度分析,而状态和动作tokens则由动作专家模块精心处理。最终,π0能够输出动作块的精确向量场表示,为机器人操作提供强大的决策支持。在这里插入图片描述
π0模型以其先进的条件流匹配技术,在连续动作分布建模领域独树一帜。这种方法通过逐步引入噪声简化数据分布,再逐步去除噪声以恢复隐私数据,与扩散模型的核心理念不谋而合。然而,流匹配技术的独特之处在于直接建模数据与噪声分布之间的映射场,而非像扩散模型那样学习每个去噪步骤的条件分布。这种创新方法使得π0能够精确捕捉复杂的多峰分布,特别适合于需要高频灵巧操作的任务。在训练数据方面,π0模型在迄今为止最大的机器人交互数据集上进行了深入训练。预训练阶段的数据集涵盖了OXE、DROID、Bridge等开源数据集,以及团队在8个不同机器人平台上收集的大量灵巧任务数据。团队自行收集的数据集包含68个任务,涉及单臂任务106M步和双臂任务797M步,均采用50Hz的高频控制。开源数据与团队自收集数据的比例约为1:9。为了使π0掌握特定复杂技能,团队还在20多个下游任务上进行了微调,微调数据量根据任务难度和相似度从5小时到100多小时不等,并在一些任务中结合了高层语言策略模块来分解复杂目标。正如团队成员切尔西·芬所言:“预训练旨在让模型适应各种场景,而微调则是为了让π0掌握更多的策略。”“不造机器人”的机器人公司PPhysical Intelligence,一家今年成立的新兴企业,已经成功筹集了7000万美元的A轮融资,这一成就在业界引起了广泛关注。本轮融资由知名风险投资公司红杉资本领投,同时还有包括人工智能领域的翘楚OpenAI在内的六家公司参与投资。值得一提的是,该公司还有一个富有创意的简称——π。这个名称不仅源于Physical Intelligence的缩写pi,而且巧妙地呼应了数学中圆周率π的拉丁文转写,展现了公司对科技与智慧的无限追求。"尽管π公司在机器人领域享有盛誉,但它并不涉足实体机器人的生产。相反,π专注于开发和训练先进的机器学习模型,旨在打造一个多功能、适应性强的通用机器人模型。"公司联合创始人兼首席执行官卡罗尔·豪斯曼(Karol Hausman)在一次公开演讲中阐述了这一愿景。CEO卡罗尔·豪斯曼(Karol Hausman),此前曾是谷歌大脑机器人操作研究主管,2021年至今兼任斯坦福客座教授。联创切尔西·芬(Chelsea Finn),斯坦福计算机科学和电气工程系助理教授,谷歌学术论文引用数超4.7万。此外,还有谷歌大脑机器人团队前科学家布赖恩·伊希特(Brian Ichter)、丰田研究院ML研究团队的研究科学家苏拉吉·奈尔(Suraj Nair)等。参考链接:[1]https://www.physicalintelligence.company/blog/pi0
https://www.physicalintelligence.company/download/pi0.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2291603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pandas(二)读取数据

一、读取数据 示例代码 import pandaspeople pandas.read_excel(../002/People.xlsx) #读取People数据 print(people.shape) # 打印people表的行数、列数 print(people.head(3)) # 默认打印前5行,当前打印前3行 print("") print(people.tail(3)) # 默…

向上调整算法(详解)c++

算法流程: 与⽗结点的权值作⽐较,如果⽐它⼤,就与⽗亲交换; 交换完之后,重复 1 操作,直到⽐⽗亲⼩,或者换到根节点的位置 这里为什么插入85完后合法? 我们插入一个85,…

LabVIEW无线齿轮监测系统

本案例介绍了基于LabVIEW的无线齿轮监测系统设计。该系统利用LabVIEW编程语言和改进的天牛须算法优化支持向量机,实现了无线齿轮故障监测。通过LabVIEW软件和相关硬件,可以实现对齿轮箱振动信号的采集、传输和故障识别,集远程采集、数据库存储…

力扣第435场周赛讲解

文章目录 题目总览题目详解3442.奇偶频次间的最大差值I3443.K次修改后的最大曼哈顿距离3444. 使数组包含目标值倍数的最少增量3445.奇偶频次间的最大差值 题目总览 奇偶频次间的最大差值I K次修改后的最大曼哈顿距离 使数组包含目标值倍数的最少增量 奇偶频次间的最大差值II …

内存四区

一、内存四区模型 1. 操作系统把物理硬盘代码load到内存 2. 操作系统把c代码分成四个区 3. 操作系统遭到main函数入口执行 二、内存四区 1. 栈区(stack) 由编译器自动分配释放,存放函数的参数值,局部变量的值。其操作方式类似…

大模型综合性能考题汇总

- K1.5长思考版本 一、创意写作能力 题目1:老爸笑话 要求:写五个原创的老爸笑话。 考察点:考察模型的幽默感和创意能力,以及对“原创”要求的理解和执行能力。 题目2:创意故事 要求:写一篇关于亚伯拉罕…

租赁管理系统在促进智能物业运营中的关键作用和优化策略分析

租赁管理系统在智能物业运营中的关键作用与优化策略 随着科技的飞速发展,租赁管理系统在智能物业运营中扮演着越来越重要的角色。这种系统不仅提高了物业管理的效率,更是促进了资源的优化配置和客户关系的加强。对于工业园、产业园、物流园、写字楼和公…

【论文复现】基于Otsu方法的多阈值图像分割改进鲸鱼优化算法

目录 1.摘要2.鲸鱼优化算法WOA原理3.改进策略4.结果展示5.参考文献6.代码获取 1.摘要 本文提出了一种基于Otsu方法的多阈值图像分割改进鲸鱼优化算法(RAV-WOA)。RAV-WOA算法能够在分割灰度图像和彩色图像时,自动选择最优阈值,并确…

关于系统重构实践的一些思考与总结

文章目录 一、前言二、系统重构的范式1.明确目标和背景2.兼容屏蔽对上层的影响3.设计灰度迁移方案3.1 灰度策略3.2 灰度过程设计3.2.1 case1 业务逻辑变更3.2.2 case2 底层数据变更(数据平滑迁移)3.2.3 case3 在途新旧流程兼容3.2.4 case4 接口变更3.2.5…

电介质超表面中指定涡旋的非线性生成

涡旋光束在众多领域具有重要应用,但传统光学器件产生涡旋光束的方式限制了其在集成系统中的应用。超表面的出现为涡旋光束的产生带来了新的可能性,尤其是在非线性领域,尽管近些年来已经有一些研究,但仍存在诸多问题,如…

学习日记-250202

现在开始要继续写我的日记了......(也可以当作笔记吧) 一.论文 Prompt Transfer for Dual-Aspect Cross Domain Cognitive Diagnosis 主要内容: 主要是加入prompt提示, 为重叠实体设计个性化的提示,为非重叠实体设计共…

【Rust自学】16.3. 共享状态的并发

喜欢的话别忘了点赞、收藏加关注哦,对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 16.3.1. 使用共享来实现并发 还记得Go语言有一句名言是这么说的:Do not communicate by sharing memory; instead, share me…

LLMs之DeepSeek:Math-To-Manim的简介(包括DeepSeek R1-Zero的详解)、安装和使用方法、案例应用之详细攻略

LLMs之DeepSeek:Math-To-Manim的简介(包括DeepSeek R1-Zero的详解)、安装和使用方法、案例应用之详细攻略 目录 Math-To-Manim的简介 1、特点 2、一个空间推理测试—考察不同大型语言模型如何解释和可视化空间关系 3、DeepSeek R1-Zero的简介:处理更…

2025年2月2日(网络编程 tcp)

tcp 循环服务 import socketdef main():# 创建 socket# 绑定tcp_server socket.socket(socket.AF_INET, socket.SOCK_STREAM)tcp_server.bind(("", 8080))# socket 转变为被动tcp_server.listen(128)while True:# 产生专门为链接进来的客户端服务的 socketprint(&qu…

WSL2中安装的ubuntu搭建tftp服务器uboot通过tftp下载

Windows中安装wsl2,wsl2里安装ubuntu。 1. Wsl启动后 1)Windows下ip ipconfig 以太网适配器 vEthernet (WSL (Hyper-V firewall)): 连接特定的 DNS 后缀 . . . . . . . : IPv4 地址 . . . . . . . . . . . . : 172.19.32.1 子网掩码 . . . . . . . .…

2025-工具集合整理

科技趋势 github-rank 🕷️Github China/Global User Ranking, Global Warehouse Star Ranking (Github Action is automatically updated daily). 科技爱好者周刊 制图工具 D2 D2 A modern diagram scripting language that turns text to diagrams 文档帮助 …

Alibaba开发规范_编程规约之集合框架:最佳实践与常见陷阱

文章目录 引言1. hashCode与equals方法的覆写1.1 规则1.2 解释1.3 代码示例正例反例 2. ArrayList的subList方法2.1 规则2.2 解释2.3 代码示例正例反例 3. Map的keySet、values和entrySet方法3.1 规则3.2 解释3.3 代码示例正例反例 4. Collections类返回的不可变集合4.1 规则4.…

小红的小球染色期望

B-小红的小球染色_牛客周赛 Round 79 题目描述 本题与《F.R小红的小球染色期望》共享题目背景,但是所求内容与范围均不同,我们建议您重新阅读题面。 有 n 个白色小球排成一排。小红每次将随机选择两个相邻的白色小球,将它们染成红色。小红…

基于SpringBoot的新闻资讯系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

计算机网络——流量控制

流量控制的基本方法是确保发送方不会以超过接收方处理能力的速度发送数据包。 通常的做法是接收方会向发送方提供某种反馈,如: (1)停止&等待 在任何时候只有一个数据包在传输,发送方发送一个数据包,…