人形机器人进展:IEEE Robotics出版双臂通用协同机械手操作架构

news2024/12/30 2:35:48

文章目录

  • 1. Main
  • 2. My Thoughts
  • Reference
  • 彩蛋
    • a. OpenAI 投资: 人形机器人公司 Figure AI
    • b. 人工智能软件工程师 Devin 上线

1. Main

在这里插入图片描述

图1 人居环境下的人形双臂机器人系统

通用人形机器人 作为近年来机器人与AI交叉领域的研究热点和技术竞争高地,因其具备在 非结构化人居环境 中承担各种琐碎家务的潜力而得到广泛关注。 人形双臂系统 直接承载着人形机器人操作任务的执行能力,通用且灵巧的操作不仅依赖先进的感知与推理决策,而且对复杂的协同规划控制设计提出了极高要求。

现有研究工作大多专注在解决某一特定层级的问题 ,例如环境-物体的感知、推理与策略生成、机器人系统的规划或操作控制, 并且方案通常与特定的被操作物体或任务强相关,难以迁移和泛化。

任意抓取和操作具有各种几何和物理特性的任意物体是人形双臂机器人系统通用化的技术体现,构建一个通用的感知-规划-控制架构有望能利用双臂系统硬件本体能力并充分发挥其灵巧性和多功能性的特点,弥合AI技术与机器人技术间的鸿沟。近日, 机器人领域顶级期刊IEEE Transactions on Robotics 上在线出版了长文 Enabling Versatility and Dexterity of the Dual-Arm Manipulators: A General Framework toward Universal Cooperative Manipulation。这项研究工作设计并提出了业界首个双臂通用协同灵巧操作架构, 该架构在感知层、双手抓取、协同操作规划和底层控制等方面提供了丰富的接口,具有很高的通用性、可扩展性和兼容性

基于该框架研究人员实现了包括协同旋拧、人机物理协同操作、协同倒水、基于物体可供性和意图识别的动态交互、干扰抑制和大体积物体的自主交接等各种显著差异化的任务。

在这里插入图片描述

图2 干扰抑制

该项研究一作兼通讯作者为任义博士,共同作者包括张正友教授和Martin Buss教授两位IEEE Fellow,人形机器人总师倪风雷教授郑宇博士以及杨扬教授两位IEEE Senior Member等多位机器人领域专家。

在这里插入图片描述

图3 协同抓取与操作的双臂系统

在这里插入图片描述

图4 双臂协同操作多优先级优化框架

Long-Horizon重排实验

在long-horizon重排实验中,双臂机器人系统连续抓取和操作人居环境中常见的桌面书架,储物篮和显示器支架这3个未建模物体,实验结果表明双臂机器人在所设计的通用架构下能协同抓取大尺寸物体并能在执行复杂协同操作任务过程中全自主高精度避自碰。

在这里插入图片描述

近期引发业界热议的 Tesla Optimus 机器人以及 Mobile ALOHA 在双臂灵巧操作方面的最新成果均采用基于模仿学习的人-机技能迁移路线,以期望达成双臂灵巧操作技能的泛化。自上而下研究具身智能并自下而上研究机器人操作规划与控制,有助于弥合AI与Robotics之间的技术鸿沟,提升基于AI生成的操作策略在物理世界中执行的稳定性和可靠性,加速双臂系统全自主通用化的到来。


更多内容和视频资料可阅读论文原文。
IEEE Transactions on Robotics:Enabling Versatility and Dexterity of the Dual-Arm Manipulators: A General Framework toward Universal Cooperative Manipulation

https://ieeexplore.ieee.org/document/10449470

2. My Thoughts

我看到的是人工智能大模型方法 对 传统机器人自下而上的控制方法的降维打击,或者更准确的说 结合。智能技术 对现有信息电子世界的影响,就像上世纪 数字/模拟电子技术 对精密机械生产技术的颠覆影响,比如IBM数字计算器的诞生对机械式打字机的替换,直接让机械技术淡出历史舞台。智能技术 展现出让现有一切信息技术 被颠覆式影响的可能。 ​​​

世界各地 商业化公司/资本 重金介入机器人领域的研究后,通用人形机器人的进展得到了极快提高。过往机器人研究团队30年、5年的进展成果,近期 初始团队/公司 在十几天、一年、两年的时间里就推出类似成果,2023年大模型的兴起 再次点燃了人们对于机器人操作能力的想象。

不过,传统通过编程和计算机仿真实现的机器人操控,新创公司有可能是通过人机协控系统模仿实现,但在宣传时更强调了大模型的作用,毕竟很多公司设立的目的是为了逐利,与学术界不同,公司也没有公开的、或经过了同行评审的 技术报告/权威期刊会议刊登的论文 公布出来。让子弹飞一会儿。

尽管如此,无可否认,通用人形机器人正在进入产业爆发的前夕。

Reference

https://mp.weixin.qq.com/s/GVS-39N6oSgwfDmeDUa0tA

彩蛋

a. OpenAI 投资: 人形机器人公司 Figure AI

北京时间2024年 3 月 13 日深夜,一段人形机器人的视频开始在 X 上热传。

擎天柱最大劲敌来了,Figure one调用OpenAI API实现惊人效果,已获超额融资

在视频中,Figure 的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。

在过去一年的具身智能进展中,或许你曾经看过类似的机器人自主决策、拿取物品的展示,但在这段视频中,Figure 人形机器人的对话流畅度、展现出的智能感,接近人类操作速度的动作流畅性,绝对都是第一流的。

Figure 还特意强调,整段视频没有任何加速,也没有任何剪辑,是一镜到底拍摄的。同时,机器人是在完全自主的情况下进行的行为,没有任何远程操纵

在这里插入图片描述
Figure 01 引入 AI 学会做咖啡 | 图片来源:Figure

比起机器人的智能表现,更可怖的是——从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿,到这个视频的发布,只有短短的十三天。而 Figure 本身,成立于 2022 年。

图片来源:Corey Lynch 的 X
图片来源:Corey Lynch 的 X


2024 年 3 月初,OpenAI 和其他投资人一起,参与了 Figure 的 B 轮融资,使其成立两年,就达到了 26 亿美金估值

Figure 的创始人 Brett Adcock,是个「擅长组局」的连续创业者,整个职业生涯中创立过至少 7 家公司,其中一家以 27 亿美元的估值上市,一家被 1.1 亿美元的价格收购。创建公司后,他招募到了研究科学家 Jerry Pratt 担任首席技术官,前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch,则原本是 Google Deepmind 的 AI 研究员。

Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面,都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前,已经做出了不少成绩。

2024 年 1 月,Figure 01(Figure 的第一款人形机器人) 学会了做咖啡,公司称,这背后引入了端到端神经网络,机器人学会自己纠正错误,训练时长为 10 小时。2024年 2 月,公司对外展示 Figure 01 的最新进展,在视频里,这个机器人已经学会搬箱子,并运送到传送带上,但速度只有人类的 16.7%。

商业化上,也已经迈出了第一步:Figure 宣布与宝马制造公司签署商业协议,将 AI 和机器人技术整合到汽车生产中,部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。


北京时间 3 月 13 日,来自谷歌研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence,被彭博社爆料也拿到了 OpenAI 的融资。毫无意外,该公司也是研究未来能够成为通用机器人系统的人工智能。

https://mp.weixin.qq.com/s/YdWRNPkNdt1iYcfD4S26pw

b. 人工智能软件工程师 Devin 上线

近日,首个人工智能软件工程师 Devin 发布。在 SWE-bench 基准测试中,它无需人类帮助,可解决 13.86% 的问题。相比之下,GPT-4 只能处理 1.74% 的问题,且都需要人类提示告知处理哪些文件。Devin 被介绍为世界首个完全自主的 AI 软件工程师。据介绍,它已经成功通过一家 AI 公司面试,并且在 Upwork 上完成了实际工作。

Devin 背后公司名为 Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的应用 AI 实验室。目前该团队规模仅有 10 人,但共揽获了 10 枚 IOI 金牌。

目前,Devin 尚未对外开放,但已经有不少开发人员和产品人员拿到了测试资格,并再次引发了 AI 能否替代程序员的讨论。

https://mp.weixin.qq.com/s/TUxFqotS2pzPvTCpSt0hTw

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1521823.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

服务器部署项目总结

服务器部署项目总结 yzh 24/3/15 前言 本着一定成功的信心去部署前后端分离的项目,结果却“路遇坎坷”😭😭😭😭 代码和程序总是无情的啊,当然,也是因为一段时间没学习对于知识模糊了&#xff…

【ollama】(7):使用Nvidia Jetson Nano设备,成功运行ollama,运行qwen:0.5b-chat,速度还可以,可以做创新项目了

1,视频地址 https://www.bilibili.com/video/BV1Pj421o7W5/ 【ollama】(7):使用Nvidia Jetson Nano设备,成功运行ollama,运行qwen:0.5b-chat,速度还可以,可以做创新项目了 2&#x…

PMP的学习方法

PMBOK编撰了管理项目需要的49个过程(输入、工具技术、输出)。工具技术文件,林林总总百余个。第一部分,按照十大知识领域顺序从前到后编排;第二部分,按照五大过程组顺序重新编排了一遍。 一,PMB…

【Poi-tl Documentation】区块对标签显示隐藏改造

前置说明&#xff1a; <dependency><groupId>com.deepoove</groupId><artifactId>poi-tl</artifactId><version>1.12.1</version> </dependency>模板&#xff1a; 删除行表格测试.docx 改造前测试效果 package run.siyuan…

数据结构——通讯录项目

1.通讯录的介绍 顺序表是通讯录的底层结构。 通讯录是将顺序表的类型替换成结构体类型来储存用户数据&#xff0c;通过运用顺序表结构来实现的。 用户数据结构&#xff1a; typedef struct PersonInfo {char name[12];char sex[10];int age;char tel[11];char addr[100]; }…

Java Web 概述

XML基础 XML概述 XML(exiensile markup language&#xff0c;可扩展标记语言)是一套定义语义标记的规则&#xff0c;这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言&#xff0c;可以定义其他与特定领域有关的、语义的、结构化的标记。 XML与 HTML 都…

【C语言步行梯】各类操作符、类型转换与原码、反码、补码详谈

&#x1f3af;每日努力一点点&#xff0c;技术进步看得见 &#x1f3e0;专栏介绍&#xff1a;【C语言步行梯】专栏用于介绍C语言相关内容&#xff0c;每篇文章将通过图片代码片段网络相关题目的方式编写&#xff0c;欢迎订阅~~ 文章目录 算术运算符原码、反码、补码介绍移位运算…

【C语言步行梯】C语言实现三子棋游戏(含详细分析)

&#x1f3af;每日努力一点点&#xff0c;技术进步看得见 &#x1f3e0;专栏介绍&#xff1a;【C语言步行梯】专栏用于介绍C语言相关内容&#xff0c;每篇文章将通过图片代码片段网络相关题目的方式编写&#xff0c;欢迎订阅~~ 文章目录 需求分析具体实现主函数体菜单实现游戏实…

LLM之RAG实战(三十)| 探索RAG语义分块策略

在LLM之RAG实战&#xff08;二十九&#xff09;| 探索RAG PDF解析解析文档后&#xff0c;我们可以获得结构化或半结构化的数据。现在的主要任务是将它们分解成更小的块来提取详细的特征&#xff0c;然后嵌入这些特征来表示它们的语义&#xff0c;其在RAG中的位置如图1所示&…

【GitHub】使用git链接下载很慢?试试服务器配置SSH,起飞

参考文献 保姆级教学&#xff0c;教你用配置SSH拉取github代码 CentOS ssh -T gitgithub.comgit config --global user.name "learnore" git config --global user.email "15200831505163.com"cd /root/.ssh vim id_rsa.pubGitHub Settings 结果 下载速…

力扣L13--- 409.最长回文串(JAVA版)-2024年3月1日

1.题目描述 2.知识点 注1&#xff1a;向下取整是将一个数值向下舍入到最接近的整数&#xff0c;但不超过这个数值的整数。具体规则如下&#xff1a; 对于正数&#xff0c;向下取整后得到的整数是不大于原数值的最大整数&#xff1b; 对于负数&#xff0c;向下取整后得到的整数…

uniapp——第2篇:编写vue语法

前提&#xff0c;建议先学会前端几大基础&#xff1a;HTML、CSS、JS、Ajax&#xff0c;还有一定要会Vue!&#xff08;Vue2\Vue3&#xff09;都要会&#xff01;&#xff01;&#xff01;不然不好懂 一、去哪写&#xff1f; 就在【pages】的你的人一个页面文件夹里的【.vue】文…

简单的网页制作

1网页编写格式 <!DOCTYPE html> <html><head><meta charset"utf-8"> <title>中文测试。。。。</title></head><body>这里是测试body测试内容。。。</body> </html>2标签 在body内<h1></h1&…

突破编程_前端_JS编程实例(工具栏组件)

1 开发目标 工具栏组件旨在模拟常见的桌面软件工具栏&#xff0c;所以比较适用于 electron 的开发&#xff0c;该组件包含工具栏按钮、工具栏分割条和工具栏容器三个主要角色&#xff0c;并提供一系列接口和功能&#xff0c;以满足用户在不同场景下的需求&#xff1a; 点击工具…

中间件 | RPC - [Dubbo]

INDEX 1 Dubbo 与 web 容器的关系2 注册发现流程3 服务配置3.1 注册方式 & 订阅方式3.2 服务导出3.3 配置参数 4 底层技术4.1 Dubbo 的 spi 机制4.2 Dubbo 的线程池4.3 Dubbo 的负载均衡策略4.3 Dubbo 的协议 1 Dubbo 与 web 容器的关系 dubbo 本质上是一个 RPC 框架&…

leetcode代码记录(动态规划基础题(斐波那契数列)

目录 1. 题目&#xff1a;2. 斐波那契数列&#xff1a;小结&#xff1a; 1. 题目&#xff1a; 斐波那契数 &#xff08;通常用 F(n) 表示&#xff09;形成的序列称为 斐波那契数列 。该数列由 0 和 1 开始&#xff0c;后面的每一项数字都是前面两项数字的和。也就是&#xff1a…

基于高德地图JS API实现Vue地图选点组件

基于高德地图JS API2.0实现一个搜索选择地点后返回给父组件位置信息的功能&#xff0c;同时可以进行回显 目录 1 创建key和秘钥1.1 登录高德地图开放平台1.2 创建应用1.3 绑定服务创建秘钥 2 使用组件前准备2.1 导入loader2.2 在对应的组件设置秘钥2.3 引入css样式 3 功能实现…

【C语言】整型提升与算术转换

一、表达式求值 在我们平常的表达式求值的题目中&#xff0c;虽然看似是道很简单的题目&#xff1b;但是出题人总是会埋坑&#xff0c;其中最常见的就是整型提升与算术转换。 二、整型提升 C语⾔中整型算术运算总是⾄少以缺省(默认)整型(int)类型的精度来进⾏的&#xff1b;…

【MySQL基础】MySQL基础操作二

文章目录 &#x1f34e;1.数据库约束&#x1f350;约束类型&#x1f346;1.1NOT NULL&#x1f346;1.2UNIQUE&#x1f346;1.3DEFAULT&#x1f346;1.4PRIMARY KEY&#x1f346;1.5FOREIGN KEY &#x1f34f;2.查询操作&#x1f35f;2.1聚合查询&#x1f354;2.1.1聚合函数&…

视频号电商的风口来了!这个消息还有多少人不知道?

大家好&#xff0c;我是电商糖果 短视频做电商&#xff0c;这几年的热度真的是非常高&#xff0c;就是因为热度太高了&#xff0c;才让视频号也动了电商的心思。 腾讯推出的视频号是为了和抖音对打&#xff0c;这几年靠着微信输送的流量&#xff0c;视频号的日活已经渐渐有赶…