Helix——Figure 02发布通用人形机器人控制的VLA:一组神经网络权重下的快与慢双系统,让两个机器人协作干活

news2025/3/29 9:09:59

前言

过去一周,我花了很大的心思、力气,把deepseek的GRPO、MLA算法的代码解析通透,比如GRPO与PPO的详细对比,再比如MLA中,图片 公式 代码的一一对应

2.20日晚,无意中刷到figure 02发布Helix的一个演示视频,再次大为震撼,当时在朋友圈感叹到

毕竟对于工厂特定场景的干活,目前模仿学习和RL落地相对更好(当然,工厂很快也会迎来VLA的落地),但对于家庭相对复杂多变的场景下,VLA的泛化能力确实更强

故本文就来专门解析下figure 02发布的通用VLA:Helix

Figure 02发布通用人形机器人控制的VLA:Helix

  1. 整个上身控制:Helix 是第一款对整个人形上身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的 VLA
  2. 多机器人协作:Helix 是第一个同时在两个机器人上运行的 VLA,使它们能够使用从未见过的物品解决共享的、远程操作任务
  3. 拿起任何东西:配备了 Helix 的 Figure 机器人现在只需按照自然语言提示,就能拿起几乎任何小型家居物品,包括数千种它们从未遇到过的物品
  4. 一个神经网络:与之前的方法不同,Helix 使用一组神经网络权重来学习所有行为
    One neural network: Unlike prior approaches, Helix uses a single set of neural network weights to learn all behaviors
    比如挑选和放置物品、使用抽屉和冰箱以及跨机器人交互,而无需任何针对特定任务的微调

    换言之,即Helix 仅使用一个统一的模型就实现了不同任务的强大性能,仅使用一组神经网络权重:系统 2 为 7B,系统 1 为 80M
    Helix achieves strong performance across diverse tasks with a single unified model.
    Using just one set of neural network weights (7B for System 2, 80M for System 1)
    要知道, 此文《π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)》中介绍的π0,是组合的预训练模型与动作专家模型,两个模型的权重是不一样的

总之,具身智能让我对大模型的应用落地 充满极大的热情与信心

  1. 自从figure 01之前发布的与人类自然流畅的对话且听人类指令整理桌面之后「详见此文的第六部分  Figure 01:VLM做顶层规划 + 操控小模型预测动作」,figure在我眼中便是机器人版OpenAI的存在,它的每一次更新迭代,我都极为关注,代表着具身机器人的最前沿之一
  2. 创业团队搞大模型纯软应用 拼不过大厂,但具身的落地,现在有不少大中小创业公司的机会与空间(场景太多 大厂搞不过来)
    希望与同行/同仁多多合作

第一部分 通用人形机器人控制Helix

1.1 如何理解Helix

1.1.1 不同场景下训练方法的对比

众所周知

  1. 在面对特定的比如工厂场景中,在模仿学习的框架之下,采集数千条人类示教数据,是可以教会机器人比如协作机械臂干一些活的(当然,也可以通过先建立仿真环境,通过RL大量重复交互、训练一个base model,然后再在真实环境中通过人类示教数据做微调)
  2. 但当面对相对复杂多变的家庭场景,针对家庭场景的一个个特定任务,则不管是每个任务都进行长达数小时的编程,还是一个个场景下采集数千条示教演示的数据,都显得成本高昂——至少不太经济

说白了,就是前者工厂目前暂不需要很强的泛化,更多需要精细控制

但家庭则需要相对比较好的泛化能力,毕竟家庭场景下的每个任务的精读要求没工厂要求那么高,有一定的容错性,但家庭场景复杂多变

为了让机器人有比较好的泛化能力,此前的VLA已经在这方面做了很多的探索

而本次Figure 02发布的Helix便是延续VLA这条路线的成果——将视觉语言模型VLM)中已有的丰富语义知识通过一定的途径转化为机器人动作

那针对如何从 VLM 中提取所有这些常识性知识并将其转化为可泛化的机器人控制这个问题,Helix是怎么做的呢,和其他的VLA模型——比如和π0有何不同呢

1.1.2 Helix:组合“快系统 1、慢系统 2”,以用于整个上身控制

先前的方法面临着一个根本性的权衡:VLM 主干是通用的,但速度不快,而机器人视觉运动策略是快的,但不通用,而Helix 通过两个互补的系统解决了这一权衡,这两个系统经过端到端的训练,可以进行通信

总之,Helix 是首创的双系统[分为“快系统 1、慢系统 2”]VLA 模型,可对人形机器人的整个上半身进行高速、灵巧的控制

  1. 系统 2 (S2):一个在互联网规模数据上进行了预训练的 VLM,其参数大小为7B
    以 7-9 Hz 的频率运行,用于场景理解和语言理解,从而实现跨对象和跨情境的广泛泛化

    \rightarrow  它处理经过投影进入视觉语言嵌入空间的单目机器人图像和机器人状态信息(包括腕部姿态和手指位置)
    It processes monocular robot images and robot state information (consisting of wrist pose and finger positions) after projecting them into vision-language embedding space.
    \rightarrow  结合指定期望行为的自然语言指令,S2 将所有与任务相关的语义信息提炼为一个单一的连续潜在向量Latent Vector,传递给 S1 以对其低级动作进行条件设置
    Combined with natural language commands specifying desired behaviors, S2 distills all semantic task-relevant information into a single continuous latent vector, passed to S1 to condition its low-level actions
  2. 系统 1 (S1):一种基于交叉注意力的编码器-解码器Transformer,其参数大小为80M
    且S1自身的视觉骨干网络通过全卷积、多尺度视觉主干网络进行视觉处理「It relies on a fully convolutional, multi-scale vision backbone for visual processing」,该网络通过完全在模拟环境中进行的预训练来初始化

    S1的动作策略会结合:S1自身接收到的最新观察结果来自S2的最新S2潜在向量,具体而言
    第一方面,S1快速推理,S1自身的视觉骨干网络 会直接接收与 S2 相同的图像和状态输入,但它以更高的频率处理它们,以实现响应更快的闭环控制
    第二方面,S1结合S2深度思考下的深度推理,即S1还会接收来自 S2 的Latent Vector投影到 S1 的token空间中」,且沿着序列维度与来自第一方面S1自身视觉骨干网络的视觉特征连接起来,以提供完成对应任务的完整条件
    The latent vector from S2 is projected into S1's token space and concatenated with visual features from S1's vision backbone along the sequence dimension, providing task conditioning

    如此一快、一慢,最终融合S1自身视觉主干的输入信息和来自S2 产生的潜在语义表征(latent semantic representations),整体输出快速反应的视觉运动策略——即200 Hz 的精确连续机器人动作,包括所需的手腕姿势、手指屈曲和外展控制以及躯干和头部方向目标
    且他们在动作空间中附加了一个合成的“任务完成百分比”动作,使 Helix 能够预测自己的终止条件,从而更容易对多个学习到的行为进行排序

我再帮大家对比下之前的模型

  • 在操作频率上,比π0、RT2更快
    比如,对于π0而言,他们也就做到50Hz的频率控制机器人进行如折叠衣物
    包括更早之前的RT-2的执行速度更有限,更没法做到200hz的操作速度
  • 在模型架构上,一个大模型,不用额外且独立的动作专家expert
    首先,Figure 01类似RT-1,两个模型:组合了OpenAI的VLM、Figure 01的机器人操控小模型
    ——这两个模型的权重是不一样的
    其次,Figure 02的Helix全程就一个大模型,非简单组合VLM和动作专家expert,而是一个整体的VLA,两个系统共享一组神经网络权重
    且过程中不再需要将自然语言转化成简单指令「根据输入直接得到输出action(没有Figure 01中的机器人操控小模型)」,通过自然语言就可得到最终的 Action
  • 在是否微调上,不用针对特定的任务进行微调
    现有的 VLA 系统通常需要专门的微调来优化不同高级行为的性能,Helix不用
    Existing VLA systems often require specialized fine-tuning or dedicated action heads to optimize performance across different high-level behaviors

这种解耦架构使得每个系统都能在其最优的时间尺度上运行。S2 可以“慢思考”高层次的目标,而 S1 则能“快思考”以实时执行和调整动作。例如,在协作行为期间,S1 能够迅速适应伙伴机器人不断变化的动作,同时保持 S2 的语义目标

且Helix 直接输出高维动作空间的连续控制,避免了先前 VLA 方法中——比如RT-2、OpenVLA使用的复杂动作tokenization方案,这些方案在低维控制设置「例如二指夹爪,即binarized parallel grippers」中已取得一些成功,但在高维人形控制中面临扩展挑战

1.2 数据和训练细节

1.2.1 数据:500 小时的高质量监督数据来训练 Helix

我们收集了高质量的多机器人、多操作员数据集,其中包含各种远程操作行为,总共约 500 小时「相当于使用约 500 小时的高质量监督数据来训练 Helix,这个数据量还是比较小的,差不多就是模仿学习示教数据集的规模,而一般的VLA预训练数据集一般1万小时起步,比如π0——其在超过10,000小时的机器人数据上进行预训练

为了生成自然语言条件训练对,他们使用自动标记(auto-labeling) VLM 来生成事后指令

VLM 处理来自机载机器人摄像头的分段视频片段,并提示:“你会给机器人什么指令来执行此视频中看到的动作?”

当然了,训练期间处理的所有物品均不包含在训练完成后的效果评估中,以防止污染

1.2.2 训练与推理

Helix 经过完全端到端的训练

  1. 从原始像素和文本命令映射到具有标准回归损失的连续动作。梯度通过用于调节 S1 行为的潜在通信向量:从 S1 反向传播到 S2,从而允许对两个组件进行联合优化
  2. Helix 不需要针对特定​​任务进行调整;它保持单个训练阶段和单个神经网络权重集,无需单独的动作头或每个任务的微调阶段
    it maintains a single training stage and single set of neural network weights without separate action heads or per-task fine-tuning stages
  3. 在训练过程中,在 S1 和 S2 输入之间添加时间偏移,此偏移经过校准以匹配 S1 和 S2 部署的推理延迟之间的差距,确保部署期间的实时控制要求准确反映在训练中

优化的流式推理

  1. Helix 的训练设计支持在 Figure 机器人上高效地并行部署模型,每个机器人都配备了双低功耗嵌入式 GPU
    推理管道分为 S2(高级潜在规划)和 S1(低级控制)模型,每个模型都在专用 GPU 上运行

    \rightarrow  S2 作为异步后台进程运行,使用最新的观察结果(机载摄像头和机器人状态)和自然语言命令。它持续更新一个共享内存潜在向量——即下图中间的那个Latent Vector,该向量编码了高层次的行为意图
    It continuously updates a shared memory latent vector that encodes the high-level behavioral intent.

    \rightarrow  S1 作为单独的实时过程执行,保持整个上身动作流畅所需的关键 200Hz 控制环路。它采用最新的观察结果和最新的 S2 潜在向量
    It takes both the latest observation and the most recent S2 latent vector
  2. S2 和 S1 推理之间固有的速度差异,自然导致 S1 在机器人观测上以更高的时间分辨率运行,从而为反应式控制创建了一个更紧密的反馈回路
    The inherent speed difference between S2 and S1 inference naturally results in S1 operating with higher temporal resolution on robot observations, creating a tighter feedback loop for reactive control.

    这种部署策略刻意反映了训练中引入的时间偏移,从而最大限度地减少了训练-推理分布差距。异步执行模型允许两个进程以最佳频率运行,使得能够以最快的单任务模仿学习策略的速度运行 Helix

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2303290.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

进程的介绍--进程状态/切换

1.冯 • 诺依曼体系结构 1.1 体系结构 冯•诺依曼结构也称普林斯顿结构,是一种将程序指令存储器和数据存储器合并在一起的存储器结构。数学家冯•诺依曼提出了计算机制造的三个基本原则,即采用二进制逻辑、程序存储执行以及计算机由五个部分组成&#x…

goby(蓝队红队版)扫描工具扫描使用时候报错解决方法

1.Goby 是一款开源的网络安全扫描工具,主要用于漏洞扫描、资产发现和信息收集。它旨在帮助安全研究人员、渗透测试人员和红队成员自动化和简化网络漏洞扫描过程。Goby 提供了多种功能,能够在大量的目标中高效地识别出潜在的安全漏洞。 2.今天在官网下载…

Word文档中插入的图片不能完整显示

在在Word文档中插入图片,只显示图片最下面的一小部分。 将“固定值”更改为“单倍行距”

模电知识点总结(6)

1.选取频率高于1000Hz的信号时,可选用高通滤波器;抑制50Hz的交流干扰时,可选用带阻滤波器如果希望抑制500Hz以下的信号,可选用高通滤波器。 2.有用信号频率高于1000Hz,可选用高通滤波器;希望抑制50Hz的交流…

Linux操作系统4-进程间通信4(共享内存原理,创建,查看,命令)

上篇文章:Linux操作系统4-进程间通信3(基于管道的进程池设计)-CSDN博客 本篇Gitee代码:myLerningCode/l24 橘子真甜/Linux操作系统与网络编程学习 - 码云 - 开源中国 (gitee.com) 本篇重点:使用共享内存来实现两个进程…

使用Ubuntu搭建Java部署环境

White graces:个人主页 🙉专栏推荐:Java入门知识🙉 🐹今日诗词:小舟从此逝,江海寄余生🐹 ⛳️点赞 ☀️收藏⭐️关注💬卑微小博主🙏 ⛳️点赞 ☀️收藏⭐️关注💬卑微小…

MATLAB学习之旅:从入门到基础实践

在当今科技飞速发展的时代,MATLAB作为一款强大的数学软件,犹如一把神奇的钥匙,能够打开众多领域的大门。无论是工程计算、数据分析,还是算法开发、可视化呈现,MATLAB都展现出了无与伦比的魅力。今天,就让我们踏上这段奇妙的MATLAB学习之旅,从最基础的部分开始,逐步探索…

蓝桥杯核心内容

核心内容 数学 质数与筛质数,分解质因数 分解质因数 所有的数都可以写成有限个数相乘质数:可以写成1✖本身(如131✖13)合数:ab1✖...✖bn-》把乘数里面是合数的再分(如b3是合数-》b3c1✖c2)进…

C/C++ | 每日一练 (2)

💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 C/C | 每日一练 (2)题目参考答案封装继承多态虚函数底…

金融时间序列【量化理论】

业界常用的技术分析指标都与价格本身有关,而时间序列分析由于对数据平稳性的要求常常是基于收益率这样更加偏稳定的数据(收益率由于会涨停和跌停每天最多10%) 平稳性: 强平稳性:随时间变化,各个统计特征都…

快速入门——第三方组件element-ui

学习自哔哩哔哩上的“刘老师教编程”,具体学习的网站为:10.第三方组件element-ui_哔哩哔哩_bilibili,以下是看课后做的笔记,仅供参考。 第一节 组件间的传值 组件可以有内部Data提供数据,也可由父组件通过prop方式传…

Qt5 C++ TcpSocket 如何判断是服务主动断开tcp socket连接?

文章目录 实现思路示例代码代码解释主要功能和用法注意事项 在 Qt 5.9.9 的 C 开发中,使用 QTcpSocket 时,要判断是服务端主动断开 TCP Socket 连接,可以通过处理 QTcpSocket 的 disconnected 信号,结合 QTcpSocket 的状态以及…

DeepSeek动画视频全攻略:从架构到本地部署

DeepSeek 本身并不直接生成动画视频,而是通过与一系列先进的 AI 工具和传统软件协作,完成动画视频的制作任务。这一独特的架构模式,使得 DeepSeek 在动画视频创作领域发挥着不可或缺的辅助作用。其核心流程主要包括脚本生成、画面设计、视频合成与后期处理这几个关键环节。 …

电力通信物联网应用,国密网关守护电力数据安全

电力国密网关是用于保护电力调度数据网路由器和电力系统的局域网之间通信安全的电力专用网关机,主要为上下级控制系统之间的广域网通信提供认证与加密服务,实现数据传输的机密性、完整性。 国密算法网关功能特点 身份认证:对接入的设备和用户…

Datawhale Ollama教程笔记5

Dify 接入 Ollama 部署的本地模型 Dify 支持接入 Ollama 部署的大型语言模型推理和 embedding 能力。 快速接入 下载 Ollama 访问 Ollama 安装与配置,查看 Ollama 本地部署教程。 运行 Ollama 并与 Llama 聊天 ollama run llama3.1Copy to clipboardErrorCopied …

保姆级! 本地部署DeepSeek-R1大模型 安装Ollama Api 后,Postman本地调用 deepseek

要在Postman中访问Ollama API并调用DeepSeek模型,你需要遵循以下步骤。首先,确保你有一个有效的Ollama服务器实例运行中,并且DeepSeek模型已经被加载。 可以参考我的这篇博客 保姆级!使用Ollama本地部署DeepSeek-R1大模型 并java…

ASP.NET Core 下载文件

本文使用 ASP .NET Core,适用于 .NET Core 3.1、.NET 5、.NET 6和.NET 8。 另请参阅: 如何在将文件发送到浏览器后自动删除该文件。 如何将文件从浏览器上传到服务器。 如何在 ASP.NET Core 应用程序中从 URL/URI 下载文件。 如果使用.NET Framework&am…

【信息系统项目管理师-案例真题】2022下半年案例分析答案和详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 试题一(24分)【问题1】(6分)【问题2】(10分)【问题3】(8分)试题二(26分)【问题1】(8分)【问题2】(8分)【问题3】(4分)【问题4】(6分)试题三(25分)【问题1】(12分)【问题2】(7分)【问题…

原来DeepSeek还能运用在系统集成-领星对接

在当今数字化转型的浪潮中,企业的信息化建设已成为提升运营效率、优化管理流程的关键。领星ERP与金蝶云星空作为两款在电商和财务管理领域广受欢迎的软件,其数据对接对于跨境电商企业来说尤为重要。本文将结合实际应用场景,深度解析如何通过轻…

在windows下安装windows+Ubuntu16.04双系统(上)

这篇文章的内容主要来源于这篇文章,给文章很详细的介绍了如何从windows下安装windowsubuntu16.04双系统。我刚开始装双系统都是参照这个方法,该作者前后更新了两个版本,在这里对其稍微进行整理一下。 一、准备:(这里推…