HOVER:人形机器人的多功能神经网络全身控制器

news2025/3/20 3:19:01

编辑:陈萍萍的公主@一点人工一点智能

HOVER:人形机器人的多功能神经网络全身控制器HOVER通过策略蒸馏和统一命令空间设计,为人形机器人提供了通用、高效的全身控制框架。https://mp.weixin.qq.com/s/R1cw47I4BOi2UfF_m-KzWg

01  介绍

1.1 摘要概述

论文《HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots》提出了一种新型的多模态神经网络控制器HOVER,旨在解决人形机器人全身控制中不同任务模式(如导航、操作、桌面操控等)的兼容性问题。现有方法通常为每个控制模式单独训练策略,导致控制器缺乏通用性。HOVER通过引入运动模仿和策略蒸馏技术,将多个控制模式整合到一个统一策略中,实现了跨模式的技能共享与无缝切换。实验表明,HOVER不仅在单一模式上超越专家策略,还能在仿真和真实硬件中实现鲁棒的多模态控制。

1.2 核心贡献

· 统一控制框架:HOVER首次将超过15种控制模式(如关节角度跟踪、根节点跟踪、关键点位置跟踪等)整合到一个策略中,覆盖了现有文献中的主流设计。

· 策略蒸馏优化:通过从“Oracle策略”(基于大规模人类运动数据训练的模仿策略)中蒸馏知识,HOVER在多个控制模式上的性能均优于独立训练的专家策略。

· 实际验证:在Unitree H1等真实人形机器人平台上,HOVER展示了动态模式切换能力和高精度运动跟踪性能。

02  引言

Humanoid机器人因其在多种任务和应用中的潜在用途而备受关注,包括双臂操作、两足行走以及敏捷的全身控制。然而,现有的方法通常为特定的任务需求设计了不同的全身体控制器,例如基于根速度跟踪以支持移动或关节角度跟踪以实现表达性动作。

尽管这些方法在最终目标上都是为了追踪运动轨迹,但它们需要针对具体任务设计特定的控制器接口和奖励机制。这种方法不仅使得开发过程重复且耗时,还限制了全身体控制器的多功能性。举例来说,一个使用根速度跟踪进行不平地形两足行走的机器人难以无缝切换到需要精确双臂操作的任务中,这时可能需要关节角度或末端效应器跟踪。

图片

HOVER(Humanoid Versatile Controller)提出了一种多模式策略蒸馏框架,将多样化的控制模式整合成统一的策略,从而实现了不同控制模式之间的无缝过渡,同时保留了每种模式的独特优势。

通过这种方式,HOVER提供了一个强大且可扩展的人形机器人控制解决方案,覆盖了广泛的应用场景。该系统不仅消除了为每个控制模式重新训练策略的需求,提高了未来人形机器人应用的效率和灵活性,而且还展示了如何利用共享的身体知识来增强跨模式的泛化能力。

此外,HOVER通过对大规模人类运动数据的学习,建立了稳健的基础运动技能库,这些技能可以在多个控制模式间复用,进一步增强了其适应性和通用性。

论文的贡献主要体现在三个方面:

首先,提出了一个支持多种控制模式的人形机器人的统一神经控制器——HOVER;

其次,通过策略蒸馏技术,证明了HOVER能够有效地在不同模式之间分享运动技能,并优于单独训练的策略;

最后,实验结果显示,在模拟环境和真实人形机器人上的测试均表明,与其它基准相比,HOVER能够在不同模式间实现无缝转换,并提供卓越的多模式控制性能。

03  方法详析

在HOVER的方法部分,研究者们采取了一个目标条件强化学习(Goal-Conditioned Reinforcement Learning, RL)的方式为人形机器人制定控制策略。这个方法的核心在于让策略π学习实时追踪人类动作的能力。状态st由代理的本体感受s^{\text{p}}_t和目标状态s^{\text{g}}_t组成,其中s^{\text{g}}_t提供了目标动作的一个统一表示。根据代理的本体感受和目标状态,定义了用于策略优化的奖励r_t=\mathcal{R}(s^{\text{p}}_t,s^{\text{g}}_t )。在这个设定中,动作\pmb{a}_t\in \mathbb{R}^{19}代表目标关节位置,这些位置被馈送到PD控制器以激活机器人的自由度。研究团队采用了近端策略优化(PPO)算法来最大化累积折扣奖励\mathbb{E}[\sum^T_{t=1}\gamma^{t-1}r_t]。此设置被视为一项命令跟踪任务,其中人形机器人学习跟随每个时间步长的目标命令。

为了确保所提出的HOVER策略能够在多样化控制模式之间灵活转换并保持高精度的动作再现,研究者们还精心设计了命令空间。传统的腿部运动控制通常采用根速度或位置跟踪作为命令空间,但仅关注根部跟踪会限制人形机器人的全部潜力,特别是在需要全身协调的情况下。因此,HOVER引入了一个全面的控制框架,该框架不仅涵盖了现有配置,而且允许任意组合控制选项以支持各种模式。

具体来说,它包括三个不同的控制模式:动力学位置跟踪、局部关节角度跟踪以及根跟踪。通过这种方式,HOVER能够处理从上身到下身的不同控制需求,并通过一种称为“命令掩码”的机制动态调整哪些控制元素处于活动状态,从而实现对复杂任务的高效管理。

3.1 状态空间与目标条件强化学习

HOVER基于目标条件强化学习(Goal-Conditioned RL)设计,其状态空间和奖励函数如下:

3.1.1 状态空间设计

本体感知状态s^{\text{p}}_t:

包括关节位置q、速度\dot{q}、基座角速度\omega ^{base}、重力向量g,以及历史动作a(堆叠25帧以捕捉动态特性)。

目标状态s^{\text{g}}_t

由掩码机制选择的目标参数,例如手部关键点的3D坐标或根节点的目标速度。

图片

3.1.2 奖励函数设计

奖励函数

图片

分为三类(权重见表II):

· 惩罚项:关节力矩超限(权重-2)、动作速率超限(权重-6.28e⁻¹)。

· 正则项:关节加速度平滑性(权重-1.0e⁻⁸)。

· 任务项:关节位置跟踪(权重32)、全局身体位置误差(权重80)。

任务项的权重显著高于其他项,确保跟踪精度优先。

3.1.3 动作空间与训练算法

动作\pmb{a}_t\in\mathbb{R}^{19}表示目标关节位置,通过PD控制器转换为电机指令。采用PPO算法最大化累积折扣奖励\mathbb{E}[\sum^T_{t=1}\gamma^{t-1}r_t],折扣因子γ设为0.99以平衡短期与长期奖励。

3.2 命令空间设计

图片

3.2.1 HOVER的命令空间设计

遵循两大原则:

1)原子性(Atomicity):将控制模式分解为独立维度,例如:

· 关键点位置跟踪:手部、头部等3D坐标。

· 关节角度跟踪:各关节的目标角度。

· 根节点跟踪:速度、高度、姿态角(滚转、俯仰、偏航)。

2)通用性(Generality):支持与多种输入设备(如VR手柄、运动捕捉系统)对接。

3.2.2 掩码机制

通过模式掩码(Mode Mask)和稀疏掩码(Sparsity Mask)动态激活命令子集:

· 模式掩码:选择控制模式(如上半身关键点跟踪,下半身关节角度跟踪)。

· 稀疏掩码:在选定模式下进一步筛选目标(如仅跟踪左手关键点)。

掩码在每回合开始时随机采样(伯努利分布B(0.5)),迫使策略学习跨模式的鲁棒性。

3.3 运动重定向与Oracle策略训练

HOVER中另一个重要组成部分是动作重定向过程,这是将大规模人体动作数据集转化为适合人形机器人的动作数据集的关键步骤。动作重定向流程分为三步:

首先,计算人形机器人的关键点位置,使用前向运动学将其关节配置映射到工作空间坐标;

其次,通过优化SMPL模型参数以匹配前向运动学计算出的关键点,使人形机器人的运动学特性与人体模型相吻合;

最后,采用梯度下降法将AMASS数据集中对应的关节点匹配到拟合后的SMPL模型和人形机器人之间,完成动作数据集的重定向。

这一过程确保了HOVER可以从大量人体运动数据中学习稳健的全身控制策略,为后续的策略蒸馏提供了高质量的数据基础。

图片

Oracle策略的训练是HOVER方法中的核心环节之一,它旨在从大规模人体动作数据集中提炼出优质的运动模仿能力。为了实现这一点,研究者们定义了一个名为Oracle的运动模仿器\pi^\text{oracle}(a_t|s^{\text{p-oracle}}_t,s^{\text{g-oracle}}_t),其中包含了代理的本体感觉信息s^{\text{p-oracle}}_t\triangleq [\pmb{p}_t,\pmb{\theta}_t,\pmb{\dot{p}{}_t},\pmb{\omega} _t,\pmb{a}_{t-1}],涉及人形机器人的刚体位置、方向、线速度、角速度以及之前的动作。目标状态sg-oracle t则包含了参考姿势及其与当前状态之间的差异,用于指导策略的学习。

在训练过程中,研究团队使用了一个三层MLP网络结构,层维度分别为[512, 256, 128],并通过奖励函数rt的优化来驱动策略的学习。该奖励函数由惩罚项、正则化项和任务奖励项构成,涵盖了关节限位、姿态误差、身体位置和旋转等多个方面,确保策略能在模拟环境中有效学习并迁移到真实世界中。

3.4 多模态策略蒸馏

在HOVER的方法论中,策略蒸馏是一个至关重要的步骤,它将从Oracle教师策略πoracle中学到的丰富运动技能转移到学生策略\pi^{\text{student}}中,形成一个能够处理多种控制模式的多模式全能策略。对于学生策略而言,其本体感觉输入s^{\text{p-student}}_t被定义为过去25个时间步长内的关节位置q、关节速度\dot{q}、基座角速度\omega ^{base}、重力矢量g以及动作历史a的集合。这样做的目的是为了更好地捕捉环境动态变化的信息,从而提高学生策略对复杂环境的适应能力。

学生策略πstudent的输入为掩码后的命令和本体感知,其训练目标是最小化与Oracle动作的均方误差:

图片

其中\hat{\pmb{\text{a}}}_t由Oracle策略生成,{\pmb{\text{a}}}_t为学生策略的输出。

接下来,通过引入模式掩码Mmode和稀疏性掩码Msparsity来定义学生的任务命令输入s^{\text{g-student}}_t。模式掩码用于选择具体的任务命令模式,而稀疏性掩码则允许在特定场景下只激活部分控制选项,比如上身仅追踪手部的动力学位置,而下身则专注于关节角度追踪。这种灵活的命令输入方式不仅增强了HOVER的多功能性,还促进了其在不同控制模式间的平滑过渡。在整个蒸馏过程中,研究者们利用DAgger框架不断更新学生策略,使其逐步逼近Oracle教师策略的行为表现,从而实现高效的策略学习和迁移。

04  实验与结果分析

在实验部分,HOVER展示了其在IsaacGym仿真环境和Unitree H1真实机器人上的卓越性能。

4.1 实验设置

· 仿真环境:IsaacGym,使用重定向后的AMASS数据集\hat{Q}

· 真实平台:Unitree H1(19自由度,1.8米高,51.5千克)。

· 基线方法:包括ExBody(关节角度+根节点跟踪)、H2O(关键点跟踪)等专家策略,以及从头训练的多模态RL策略。

图片

4.2 性能评估

Q1:HOVER是否优于专家策略?

表III显示,在ExBody模式(上半身关节角度+下半身根节点跟踪)下,HOVER的全局位置误差(185mm vs. 275mm)和关节角度误差(0.148rad vs. 0.166rad)均优于专家策略。类似趋势在其他模式(如H2O、OmniH2O)中一致存在,表明蒸馏过程有效共享了跨模式技能(如平衡维持)。

图片

研究团队对比了HOVER与ExBody、HumanPlus、H2O和OmniH2O等多种专家策略在不同控制模式下的表现。结果显示,HOVER在所有评估指标上均表现出色,尤其在全局身体位置误差Eg-mpjpe、关节角度误差Empjpe等方面领先于其他专家策略。这些发现表明,即便是在专注于单一控制模式的情境下,HOVER依旧能够凭借从Oracle策略中提炼出的技能超越专门为此模式训练的策略。此外,HOVER还证明了其在左/右手模式、双手模式及头部模式等额外控制模式下的优越性,持续显示出比特定任务训练的专家策略更好的追踪精度。

Q2:HOVER是否优于其他多模态训练方法?

图4的雷达图显示,HOVER在32/32的指标上优于多模态RL基线。例如,根节点姿态误差降低20%,关键点位置误差降低15%。这表明直接训练多模态策略容易陷入局部最优,而蒸馏通过模仿Oracle策略的动作分布避免了这一问题。

图片

文中比较了HOVER与另一种采用相同命令掩码但完全从零开始训练的多模式RL基准策略。实验结果揭示,在多个关键指标如根部旋转误差Eroot-rpy、上身关节角度误差Eupper-j等方面,HOVER再次展现出明显的优势。这表明,通过策略蒸馏而非从头开始的强化学习训练,HOVER能够更加高效地掌握复杂的多模式控制任务。

图片

Q3:HOVER能否迁移到真实机器人?

表V显示,在20组站立动作中,HOVER的全局位置误差(48.9mm vs. 51.3mm)和关节角度误差(0.126rad vs. 0.131rad)优于ExBody专家策略。图6展示了动态模式切换能力:从行走中的ExBody模式切换到H2O模式(手部跟踪),机器人能平滑过渡而无明显抖动。

图片

研究人员在Unitree H1平台上进行了测试,结果证实了HOVER不仅能在仿真环境中取得优异成绩,也能在实际操作中稳定运行,顺利完成站立序列、定量追踪及定性多模式控制任务。综合来看,HOVER通过一系列严谨的实验验证了其在多功能性、性能优化及实际应用方面的巨大潜力。

4.3 鲁棒性验证

· 遮挡测试(图6c):在头部跟踪模式下,策略忽略手部动作,仅响应头部参考,模拟了传感器部分失效的场景。

· 物理真实性:HOVER的关节加速度误差(2.31mm/frame²)接近Oracle策略(2.63mm/frame²),表明动作平滑性接近人类运动。

05  相关工作与创新点

5.1 现有研究对比

· 经典方法:如Atlas的模型预测控制(MPC)依赖精确动力学模型,难以适应多任务。

· 学习型方法:ExBody、H2O等专注于单一模式,缺乏通用性。

· 图形学领域:MaskedMimic等支持灵活运动约束,但未考虑真实机器人动力学。

图片

5.2 HOVER的创新性

· 统一命令空间:首次将关键点、关节角度、根节点跟踪整合,支持任意子集激活。

· 蒸馏驱动的多模态学习:通过模仿Oracle策略,避免多任务RL的探索-利用困境。

· 实际部署验证:在复杂硬件(Unitree H1)上实现低延迟(<10ms)控制。

06  结论与展望

HOVER通过策略蒸馏和统一命令空间设计,为人形机器人提供了通用、高效的全身控制框架。其核心优势在于:

· 性能提升:跨模式技能共享使单一策略在多个任务上超越专家。

· 部署便捷性:无需为每个任务重新训练策略,降低开发成本。

未来方向包括:

· 自动化模式切换:根据任务上下文动态调整掩码。

· 扩展控制模式:纳入力控、触觉反馈等维度。

· 长期运动规划:结合高层任务规划器,实现复杂行为链。

HOVER的提出标志着人形机器人控制从“专精化”向“通用化”迈出了关键一步,为未来家庭服务、工业协作等场景提供了技术基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2318109.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML中滚动加载的实现

设置div的overflow属性&#xff0c;可以使得该div具有滚动效果&#xff0c;下面以div中包含的是table来举例。 当table的元素较多&#xff0c;以至于超出div的显示范围的话&#xff0c;观察下该div元素的以下3个属性&#xff1a; clientHeight是div的显示高度&#xff0c;scrol…

Python----计算机视觉处理(Opencv:形态学变换)

一、形态学变化 形态学变换&#xff08;Morphological Transformations&#xff09;是一种基于形状的图像处理技术&#xff0c;主要处理的对象为二值化图像。 形态学变换有两个输入和一个输出&#xff1a;输入为原始图像和核&#xff08;即结构化元素&#xff09;&#xff0c;输…

opencv中stitch图像融合

openv版本: opencv249 vs &#xff1a;2010 qt : 4.85 #include "quanjing.h"#include <iostream> #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> #include <open…

matlab R2024b下载教程及安装教程(附安装包)

文章目录 前言一、matlab R2024b安装包下载二、matlab R2024b安装教程 前言 为帮助大家顺利安装该版本软件&#xff0c;特准备matlab R2024b下载教程及安装教程&#xff0c;它将以简洁明了的步骤&#xff0c;指导你轻松完成安装&#xff0c;开启 MATLAB R2024 的强大功能之旅。…

游戏引擎学习第167天

回顾和今天的计划 我们不使用引擎&#xff0c;也不依赖库&#xff0c;只有我们自己和我们的小手指在敲击代码。 今天我们会继续进行一些工作。首先&#xff0c;我们会清理昨天留下的一些问题&#xff0c;这些问题我们当时没有深入探讨。除了这些&#xff0c;我觉得我们在资产…

JS逆向案例-HIKVISION-视频监控的前端密码加密分析

免责声明 本文仅为技术研究与渗透测试思路分享,旨在帮助安全从业人员更好地理解相关技术原理和防御措施。任何个人或组织不得利用本文内容从事非法活动或攻击他人系统。 如果任何人因违反法律法规或不当使用本文内容而导致任何法律后果,本文作者概不负责。 请务必遵守法律…

STM32---FreeRTOS内存管理实验

一、简介 1、FreeRTOS内存管理简介 2、FreeRTOS提供的内存管理算法 1、heap_1内存管理算法 2、heap_2内存管理算法 4、heap_4内存管理算法 5、heap_5内存管理算法 二、FreeRTOS内存管理相关API函数介绍 三、 FreeRTOS内存管理实验 1、代码 main.c #include "st…

STC89C52单片机学习——第25节: [11-1]蜂鸣器

写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难&#xff0c;但我还是想去做&#xff01; 本文写于&#xff1a;2025.03.18 51单片机学习——第25节: [11-1]蜂鸣器 前言开发板说明引用解答和科普一、蜂鸣器…

音视频入门基础:RTP专题(19)——FFmpeg源码中,获取RTP的音频信息的实现(下)

本文接着《音视频入门基础&#xff1a;RTP专题&#xff08;18&#xff09;——FFmpeg源码中&#xff0c;获取RTP的音频信息的实现&#xff08;上&#xff09;》&#xff0c;继续讲解FFmpeg获取SDP描述的RTP流的音频信息到底是从哪个地方获取的。本文的一级标题从“四”开始。 四…

卷积神经网络 - 卷积的变种、数学性质

本文我们来学习卷积的变种和相关的数学性质&#xff0c;为后面学习卷积神经网络做准备&#xff0c;有些概念可能不好理解&#xff0c;可以先了解其概念&#xff0c;然后慢慢理解、逐步深入。 在卷积的标准定义基础上&#xff0c;还可以引入卷积核的滑动步长和零填充来增加卷积…

BLIP论文阅读

目录 现存的视觉语言预训练存在两个不足&#xff1a; 任务领域 数据集领域 相关研究 知识蒸馏 Method 单模态编码器&#xff1a; 基于图像的文本编码器&#xff1a; 基于图像的文本解码器&#xff1a; 三重目标优化 图像文本对比损失&#xff1a;让匹配的图像文本更加…

[动手学习深度学习]26. 网络中的网络 NiN

前面的LeNet、AlexNet、VGG在设计上的共同之处在于&#xff1a;先以卷积层构成的模块充分抽取空间特征&#xff0c;再以全连接层构成的模块来输出分类结果 其中AlexNet和VGG对LeNet的改进主要在于如何对这两个模块价款&#xff08;增加通道数&#xff09;和加深 这一节的NiN提出…

碰一碰发视频saas系统技术源头一站式开发文档

碰一碰发视频系统技术源头一站式开发文档 一、引言 在数字化信息传播高速发展的当下&#xff0c;如何让视频分享更便捷、高效&#xff0c;成为商家和开发者们关注的焦点。“碰一碰发视频”系统以其独特的交互方式和强大的功能优势&#xff0c;为视频分享领域带来了革命性变革。…

Linux目录理解

前言 最近在复习linux&#xff0c;发现有些目录总是忘记内容&#xff0c;发现有些还是得从原义和实际例子去理解会记忆深刻些。以下是个人的一些理解 Linux目录 常见的Linux下的目录如下&#xff1a; 1. 根目录 / (Root Directory) 英文含义&#xff1a;/ 是文件系统的根…

可视化图解算法:链表中倒数(最后)k个结点

1. 题目 描述 输入一个长度为 n 的链表&#xff0c;设链表中的元素的值为ai &#xff0c;返回该链表中倒数第k个节点。 如果该链表长度小于k&#xff0c;请返回一个长度为 0 的链表。 数据范围&#xff1a;0≤n≤105&#xff0c;0 ≤ai≤109&#xff0c;0 ≤k≤109 要求&am…

Swift 并发中的任务让步(Yielding)和防抖(Debouncing)

网罗开发 &#xff08;小红书、快手、视频号同名&#xff09; 大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等…

HW基本的sql流量分析和wireshark 的基本使用

前言 HW初级的主要任务就是看监控&#xff08;流量&#xff09; 这个时候就需要我们 了解各种漏洞流量数据包的信息 还有就是我们守护的是内网环境 所以很多的攻击都是 sql注入 和 webshell上传 &#xff08;我们不管对面是怎么拿到网站的最高权限的 我们是需要指出它是…

docker-compose install nginx(解决fastgpt跨区域)

CORS前言 CORS(Cross-Origin Resource Sharing,跨源资源共享)是一种安全措施,它允许或拒绝来自不同源(协议、域名、端口任一不同即为不同源)的网页访问另一源中的资源。它的主要作用如下: 同源策略限制:Web 浏览器的同源策略限制了从一个源加载的文档或脚本如何与另一…

设计模式(创建型)-单例模式

摘要 在软件开发的世界里&#xff0c;设计模式是开发者们智慧的结晶&#xff0c;它们为解决常见问题提供了经过验证的通用方案。单例模式作为一种基础且常用的设计模式&#xff0c;在许多场景中发挥着关键作用。本文将深入探讨单例模式的定义、实现方式、应用场景以及可…

鸿蒙NEXT开发问题大全(不断更新中.....)

目录 问题1&#xff1a;鸿蒙NEXT获取华为手机的udid ​问题2&#xff1a;[Fail]ExecuteCommand need connect-key? 问题3&#xff1a;测试时如何安装app包 问题1&#xff1a;鸿蒙NEXT开发获取华为手机的udid hdc -t "设备的序列号" shell bm get --udid 问题2&…