一年一秀,稚晖君的第二代人形机器人来了。
灵巧小手,正在麻将桌上叱咤风云:
不对不对,让我们先看看整体气质:
然后是常规家务,能看出来也是非常熟练:
在大模型风靡的 2024 年,如果说 AI 领域什么最火,「具身智能」这个方向必定位列其中。
视线放到国内,「智元机器人」这家具身智能公司备受瞩目。自 2023 年 2 月成立以来,「智元机器人」已马不停蹄地完成了 6 轮融资,迅速成为机器人创业圈的「顶流项目」。
创业半年,稚晖君和团队就拿出了首款产品「远征 A1」。一出道,「远征 A1」的行走能力和人机互动就是业界领先水平。不过,在「远征 A1」初次亮相之后,我们似乎再也没听说过它的下一步消息,甚至没有放出任何整活视频。
但今天的发布会之后,我们知道了,智元机器人在「闷声干大事」。
在这场发布会中,稚晖君一口气推出了三款远征系列机器人产品:交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」。最后的 One more thing 环节,智元 X-Lab 孵化的模块化机器人系列产品「灵犀 X1」和「灵犀 X1-W」也作为「彩蛋」正式亮相。
相比上一代,五款机器人采用了家族化设计语言,对机器人的外形进行了系列化的规整,结合轮式与足式两种形态,覆盖交互服务、柔性智造、特种作业、科研教育和数据采集等应用场景。
关于量产进度,智元机器人也透露了最新消息:2024 年预估发货量将达到 300 台左右,其中双足 200 台左右,轮式 100 台左右。
新一代远征 A2
从「远征 A1」开始,智元在机器人产品上的落地方向就已经很清晰:「进厂打工」。今年的「远征 A2」更是为批量「进厂打工」做了更充分的准备。
我们来看下这个家族的成员:
「远征 A2」是一款交互服务机器人,全身具备超过 40 个主动自由度的关节和仿人的灵巧双手,能够模拟出丰富和复杂的人类工作。它拥有一个可以持续学习的大脑,由大语言模型加持。此外,它还具备多模态的感知,输入系统,可以通过视觉感知交互者的情绪。
「远征 A2-Max」是一款重载特种机器人,既力大无穷又具备灵巧作业的优势,在开场的情景剧中,它轻松地搬动了 40kg 的航空箱,目前「远征 A2-Max」还处于产品研发阶段。
「远征 A2-W」是一款柔性智造机器人,它的两条手臂既可以独立操作,也可以协同工作。它采用了轮式底盘,结合机身搭载的 rgbd 激光雷达、全景相机、为全域安全配置的传感器等等构件,使得它可以在各种环境中快速而平稳的移动。
在发布会前,「远征 A2-W」的表现简直像钢铁侠的「贾维斯」走进了现实。在听懂稚晖君的指令后,它完全自主地打开了可乐瓶子,在榨汁机中放入葡萄,按下榨汁机,一滴没撒地把榨汁机里的饮料倒进了杯子,给稚晖君端上了一杯「萄气可乐」。
除了颜值提升,「远征 A2」系列机器人更是内外兼修。对于机器人的核心零部件,「智元机器人」创新地将机器人系统划分为动力域、感知域、通信域、控制域。显然,「智元机器人」都是冲着全栈生态去的。
在动力域方面,「智元机器人」对 PowerFlow 关节模组实现了量产化迭代升级,从参数上看,PowerFlow 关节模组都有大幅提升。在稳定性和可靠性方面,「智元机器人」也对其峰值性能、老化速度等方面进行了大量测试和优化。
对于「干活」而言对重要的灵巧手,这回「智元机器人」也升级了一番:自由度数跃升至 19 个,主动自由度翻倍至 12 个,在感知能力方面也引入了更多模态,例如基于 MEMS 原理的触觉感知和视触觉感知技术。
此外,「智元机器人」还推出了高精度力控 7 自由度双臂,能够精准执行阻抗控制、导纳控制、力位混控等多种力控任务,也支持双臂拖拽示教模式和可视化调节。
对于感知域方面,新一代的远征机器人系列集成了 RGBD 相机、激光雷达、全景相机等传感器,引入自动驾驶 Occupancy 前沿感知方案,通过 SLAM 算法进一步提升环境理解能力。
在通信域方面,「智元机器人」自研了具身原生、轻量化、高性能的智能机器人通信框架 AimRT。相比 ROS 等第三方中间件,提升了性能、稳定性、系统部署的效率和灵活性,同时又完全兼容 ROS/ROS2 已有生态。AimRT 将于 9 月底开源。
对于控制域方面,「智元机器人」结合了 Model-based 与 Learning-based 两种算法,进一步提升机器人运动控制与适应能力。对于 Model-based,「智元机器人」进一步提升了系统的鲁棒性,因此,在发布会上机器人所做的演示才能如此流畅和丝滑。对于 Learning-based 算法,「智元机器人」在这里划了一个重点,希望能促成机器人训练方法从算法驱动 - 数据驱动的转变。
在运控算法的基础上,「智元机器人」预研了基于自然语言指令集驱动的、可以适配不同机器人本体的 AgentOS,基于强化学习,实现机器人技能的精准编排与高效执行。
首次提出 G1-G5 具身智能技术演进路线
在本次发布会上,智元机器人还首次提出了具身智能领域的技术演进路线,包含从 G1 到 G5 五个阶段:
G1 指的是基础自动化阶段,也就是基于手工设计的特征,配合简单的机器视觉去做一些反馈。这一阶段的部署是为特定的场景量身定制的,虽然可以解决某些场景下的任务执行问题,但无法在不同的场景里面做低成本快速迁移。
G2 是「通用原子技能」阶段,针对大量不同的场景任务和各种作业的任务需求,提炼出一些可以复用的原子能力。简而言之,是以相对通用的方式去实现类似场景任务的快速迁移,然后配合大语言模型框架去做任务编排,使得机器人具备一定的泛化能力。
G3 则意味着具身智能的整体架构开始调整为「端到端」的路线,尽管这个阶段与 G2 阶段的算法架构可能是类似的,但此时的各项「原子能力」的形成方式,已经由手工设计的算法驱动变为了大量数据采集之后的数据驱动。
区别于前三个阶段,G4 阶段将会出现一个通用的端到端操作大模型。到了这一阶段,即可引入大量跨场景的真实数据和仿真数据,同时引入世界模型帮助 AI 理解现实世界背后的物理原理,理解不同任务背后底层逻辑的相通之处。比如对于「拧开瓶子」和「拧开门把手」这两件事,就不再需要采集两份单独的数据以获得两项单独的技能。最终通向无限趋近 AGI 的 G5 阶段。
过去一年,智元机器人已经在 G2 路线取得了阶段性突破,实现了通用的位姿估计模型 UniPose、通用的抓取模型 UniGrasp,通用的力控插拔模型 UniPlug 等一系列 zero-shot 和 few-shot 的通用原子技能。在 G2 阶段的原子能力模型,面向柔性智造和交互服务场景,已经在多个实际场景中得到了商业应用。
在 G3 路线上,智元机器人也形成了一套完整的全流程具身数据方案 AIDEA(Agibot Integrated Data-system for Embodied AI,智元具身智能数据系统)。
但我们都知道,要想形成这样一套方案,首先需要投入大量的数据采集成本,不是每个机器人团队都有条件做到的。
而智元机器人做到了,还预备在今年第四季度开源。
稚晖君表示,数据采集是整个环节的痛点。在过去一年中他们面向数据做了大量的基建工作,而且形成了一套完整、全流程的数据采集、应用的方案 AIDEA。
AIDEA 除了提供硬件本体方案之外,也会提供整个云全链路数据平台,还有 AIDEA ML 机器学习平台进行模型训练与算法评测,以及 AIDEA Sim 仿真平台。
稚晖君表示,他预计接下来智元会有百台以上自由部署机器人专门用来做端到端的数据采集,他们也将于四季度开源基于 AIDEA 的百万条真机、千万条仿真数据集,以积极建设开放生态。
稚晖君的 One more thing
大概因为觉得一年才开一次发布会属实「鸽」太久了,稚晖君也在发布会最后公布了 One more thing:全栈开源机器人灵犀 X1、专业数采机器人灵犀 X1-W 两款新品。
这两款机器人来自于 X-Lab(稚晖君实验室),是 10 个人不到 3 个月的时间做出的产品,里面有非常多的创新细节。例如,自研了 PF86 和 PF52 两款全新的 PowerFlow 关节,融入了模块化设计理念,可以通过简单抱箍形式轻松拆装。
基于 X-Lab 对极致创新的追求,稚晖君表示,会开源灵犀 X1 的本体设计图纸、软件框架、中间件源码、基础运控算法。
此外在执行器方面,X-Lab 自研了带前馈力控、超低成本的自适应通用夹爪,也推出了满足场景需求的百元级成本的六维力传感器。
对了,灵犀的售价是零元,开源大部分设计资料及代码,但卖零件。
稚晖君表示,希望这能够推动「人形机器人人人造」时代的到来。
你喜欢吗?
点击访问我的技术博客https://ai.weoknow.comhttps://ai.weoknow.com