HOVER：人形机器人的多功能神经网络全身控制器

编辑：陈萍萍的公主@一点人工一点智能

HOVER：人形机器人的多功能神经网络全身控制器HOVER通过策略蒸馏和统一命令空间设计，为人形机器人提供了通用、高效的全身控制框架。https://mp.weixin.qq.com/s/R1cw47I4BOi2UfF_m-KzWg

01 介绍

1.1 摘要概述

论文《HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots》提出了一种新型的多模态神经网络控制器HOVER，旨在解决人形机器人全身控制中不同任务模式（如导航、操作、桌面操控等）的兼容性问题。现有方法通常为每个控制模式单独训练策略，导致控制器缺乏通用性。HOVER通过引入运动模仿和策略蒸馏技术，将多个控制模式整合到一个统一策略中，实现了跨模式的技能共享与无缝切换。实验表明，HOVER不仅在单一模式上超越专家策略，还能在仿真和真实硬件中实现鲁棒的多模态控制。

1.2 核心贡献

· 统一控制框架：HOVER首次将超过15种控制模式（如关节角度跟踪、根节点跟踪、关键点位置跟踪等）整合到一个策略中，覆盖了现有文献中的主流设计。

· 策略蒸馏优化：通过从“Oracle策略”（基于大规模人类运动数据训练的模仿策略）中蒸馏知识，HOVER在多个控制模式上的性能均优于独立训练的专家策略。

· 实际验证：在Unitree H1等真实人形机器人平台上，HOVER展示了动态模式切换能力和高精度运动跟踪性能。

02 引言

Humanoid机器人因其在多种任务和应用中的潜在用途而备受关注，包括双臂操作、两足行走以及敏捷的全身控制。然而，现有的方法通常为特定的任务需求设计了不同的全身体控制器，例如基于根速度跟踪以支持移动或关节角度跟踪以实现表达性动作。

尽管这些方法在最终目标上都是为了追踪运动轨迹，但它们需要针对具体任务设计特定的控制器接口和奖励机制。这种方法不仅使得开发过程重复且耗时，还限制了全身体控制器的多功能性。举例来说，一个使用根速度跟踪进行不平地形两足行走的机器人难以无缝切换到需要精确双臂操作的任务中，这时可能需要关节角度或末端效应器跟踪。

HOVER（Humanoid Versatile Controller）提出了一种多模式策略蒸馏框架，将多样化的控制模式整合成统一的策略，从而实现了不同控制模式之间的无缝过渡，同时保留了每种模式的独特优势。

通过这种方式，HOVER提供了一个强大且可扩展的人形机器人控制解决方案，覆盖了广泛的应用场景。该系统不仅消除了为每个控制模式重新训练策略的需求，提高了未来人形机器人应用的效率和灵活性，而且还展示了如何利用共享的身体知识来增强跨模式的泛化能力。

此外，HOVER通过对大规模人类运动数据的学习，建立了稳健的基础运动技能库，这些技能可以在多个控制模式间复用，进一步增强了其适应性和通用性。

论文的贡献主要体现在三个方面：

首先，提出了一个支持多种控制模式的人形机器人的统一神经控制器——HOVER；

其次，通过策略蒸馏技术，证明了HOVER能够有效地在不同模式之间分享运动技能，并优于单独训练的策略；

最后，实验结果显示，在模拟环境和真实人形机器人上的测试均表明，与其它基准相比，HOVER能够在不同模式间实现无缝转换，并提供卓越的多模式控制性能。

03 方法详析

在HOVER的方法部分，研究者们采取了一个目标条件强化学习（Goal-Conditioned Reinforcement Learning, RL）的方式为人形机器人制定控制策略。这个方法的核心在于让策略π学习实时追踪人类动作的能力。状态st由代理的本体感受 $s^{\text{p}}_t$ 和目标状态 $s^{\text{g}}_t$ 组成，其中 $s^{\text{g}}_t$ 提供了目标动作的一个统一表示。根据代理的本体感受和目标状态，定义了用于策略优化的奖励 $r_t=\mathcal{R}(s^{\text{p}}_t,s^{\text{g}}_t )$ 。在这个设定中，动作 $\pmb{a}_t\in \mathbb{R}^{19}$ 代表目标关节位置，这些位置被馈送到PD控制器以激活机器人的自由度。研究团队采用了近端策略优化（PPO）算法来最大化累积折扣奖励 $\mathbb{E}[\sum^T_{t=1}\gamma^{t-1}r_t]$ 。此设置被视为一项命令跟踪任务，其中人形机器人学习跟随每个时间步长的目标命令。

为了确保所提出的HOVER策略能够在多样化控制模式之间灵活转换并保持高精度的动作再现，研究者们还精心设计了命令空间。传统的腿部运动控制通常采用根速度或位置跟踪作为命令空间，但仅关注根部跟踪会限制人形机器人的全部潜力，特别是在需要全身协调的情况下。因此，HOVER引入了一个全面的控制框架，该框架不仅涵盖了现有配置，而且允许任意组合控制选项以支持各种模式。

具体来说，它包括三个不同的控制模式：动力学位置跟踪、局部关节角度跟踪以及根跟踪。通过这种方式，HOVER能够处理从上身到下身的不同控制需求，并通过一种称为“命令掩码”的机制动态调整哪些控制元素处于活动状态，从而实现对复杂任务的高效管理。

3.1 状态空间与目标条件强化学习

HOVER基于目标条件强化学习（Goal-Conditioned RL）设计，其状态空间和奖励函数如下：

3.1.1 状态空间设计

本体感知状态 $s^{\text{p}}_t$ :

包括关节位置q、速度 $\dot{q}$ 、基座角速度 $\omega ^{base}$ 、重力向量 $g$ ，以及历史动作a（堆叠25帧以捕捉动态特性）。

目标状态 $s^{\text{g}}_t$ ：

由掩码机制选择的目标参数，例如手部关键点的3D坐标或根节点的目标速度。

3.1.2 奖励函数设计

奖励函数

分为三类（权重见表II）：

· 惩罚项：关节力矩超限（权重-2）、动作速率超限（权重-6.28e⁻¹）。

· 正则项：关节加速度平滑性（权重-1.0e⁻⁸）。

· 任务项：关节位置跟踪（权重32）、全局身体位置误差（权重80）。

任务项的权重显著高于其他项，确保跟踪精度优先。

3.1.3 动作空间与训练算法

动作 $\pmb{a}_t\in\mathbb{R}^{19}$ 表示目标关节位置，通过PD控制器转换为电机指令。采用PPO算法最大化累积折扣奖励 $\mathbb{E}[\sum^T_{t=1}\gamma^{t-1}r_t]$ ，折扣因子γ设为0.99以平衡短期与长期奖励。

3.2 命令空间设计

3.2.1 HOVER的命令空间设计

遵循两大原则：

1）原子性（Atomicity）：将控制模式分解为独立维度，例如：

· 关键点位置跟踪：手部、头部等3D坐标。

· 关节角度跟踪：各关节的目标角度。

· 根节点跟踪：速度、高度、姿态角（滚转、俯仰、偏航）。

2）通用性（Generality）：支持与多种输入设备（如VR手柄、运动捕捉系统）对接。

3.2.2 掩码机制

通过模式掩码（Mode Mask）和稀疏掩码（Sparsity Mask）动态激活命令子集：

· 模式掩码：选择控制模式（如上半身关键点跟踪，下半身关节角度跟踪）。

· 稀疏掩码：在选定模式下进一步筛选目标（如仅跟踪左手关键点）。

掩码在每回合开始时随机采样（伯努利分布B(0.5)），迫使策略学习跨模式的鲁棒性。

3.3 运动重定向与Oracle策略训练

HOVER中另一个重要组成部分是动作重定向过程，这是将大规模人体动作数据集转化为适合人形机器人的动作数据集的关键步骤。动作重定向流程分为三步：

首先，计算人形机器人的关键点位置，使用前向运动学将其关节配置映射到工作空间坐标；

其次，通过优化SMPL模型参数以匹配前向运动学计算出的关键点，使人形机器人的运动学特性与人体模型相吻合；

最后，采用梯度下降法将AMASS数据集中对应的关节点匹配到拟合后的SMPL模型和人形机器人之间，完成动作数据集的重定向。

这一过程确保了HOVER可以从大量人体运动数据中学习稳健的全身控制策略，为后续的策略蒸馏提供了高质量的数据基础。

Oracle策略的训练是HOVER方法中的核心环节之一，它旨在从大规模人体动作数据集中提炼出优质的运动模仿能力。为了实现这一点，研究者们定义了一个名为Oracle的运动模仿器 $\pi^\text{oracle}(a_t|s^{\text{p-oracle}}_t,s^{\text{g-oracle}}_t)$ ，其中包含了代理的本体感觉信息 $s^{\text{p-oracle}}_t\triangleq [\pmb{p}_t,\pmb{\theta}_t,\pmb{\dot{p}{}_t},\pmb{\omega} _t,\pmb{a}_{t-1}]$ ，涉及人形机器人的刚体位置、方向、线速度、角速度以及之前的动作。目标状态sg-oracle t则包含了参考姿势及其与当前状态之间的差异，用于指导策略的学习。

在训练过程中，研究团队使用了一个三层MLP网络结构，层维度分别为[512, 256, 128]，并通过奖励函数rt的优化来驱动策略的学习。该奖励函数由惩罚项、正则化项和任务奖励项构成，涵盖了关节限位、姿态误差、身体位置和旋转等多个方面，确保策略能在模拟环境中有效学习并迁移到真实世界中。

3.4 多模态策略蒸馏

在HOVER的方法论中，策略蒸馏是一个至关重要的步骤，它将从Oracle教师策略πoracle中学到的丰富运动技能转移到学生策略 $\pi^{\text{student}}$ 中，形成一个能够处理多种控制模式的多模式全能策略。对于学生策略而言，其本体感觉输入 $s^{\text{p-student}}_t$ 被定义为过去25个时间步长内的关节位置q、关节速度 $\dot{q}$ 、基座角速度 $\omega ^{base}$ 、重力矢量g以及动作历史a的集合。这样做的目的是为了更好地捕捉环境动态变化的信息，从而提高学生策略对复杂环境的适应能力。

学生策略πstudent的输入为掩码后的命令和本体感知，其训练目标是最小化与Oracle动作的均方误差：

其中 $\hat{\pmb{\text{a}}}_t$ 由Oracle策略生成， ${\pmb{\text{a}}}_t$ 为学生策略的输出。

接下来，通过引入模式掩码Mmode和稀疏性掩码Msparsity来定义学生的任务命令输入 $s^{\text{g-student}}_t$ 。模式掩码用于选择具体的任务命令模式，而稀疏性掩码则允许在特定场景下只激活部分控制选项，比如上身仅追踪手部的动力学位置，而下身则专注于关节角度追踪。这种灵活的命令输入方式不仅增强了HOVER的多功能性，还促进了其在不同控制模式间的平滑过渡。在整个蒸馏过程中，研究者们利用DAgger框架不断更新学生策略，使其逐步逼近Oracle教师策略的行为表现，从而实现高效的策略学习和迁移。

04 实验与结果分析

在实验部分，HOVER展示了其在IsaacGym仿真环境和Unitree H1真实机器人上的卓越性能。

4.1 实验设置

· 仿真环境：IsaacGym，使用重定向后的AMASS数据集 $\hat{Q}$ 。

· 真实平台：Unitree H1（19自由度，1.8米高，51.5千克）。

· 基线方法：包括ExBody（关节角度+根节点跟踪）、H2O（关键点跟踪）等专家策略，以及从头训练的多模态RL策略。

4.2 性能评估

Q1：HOVER是否优于专家策略？

表III显示，在ExBody模式（上半身关节角度+下半身根节点跟踪）下，HOVER的全局位置误差（185mm vs. 275mm）和关节角度误差（0.148rad vs. 0.166rad）均优于专家策略。类似趋势在其他模式（如H2O、OmniH2O）中一致存在，表明蒸馏过程有效共享了跨模式技能（如平衡维持）。

研究团队对比了HOVER与ExBody、HumanPlus、H2O和OmniH2O等多种专家策略在不同控制模式下的表现。结果显示，HOVER在所有评估指标上均表现出色，尤其在全局身体位置误差Eg-mpjpe、关节角度误差Empjpe等方面领先于其他专家策略。这些发现表明，即便是在专注于单一控制模式的情境下，HOVER依旧能够凭借从Oracle策略中提炼出的技能超越专门为此模式训练的策略。此外，HOVER还证明了其在左/右手模式、双手模式及头部模式等额外控制模式下的优越性，持续显示出比特定任务训练的专家策略更好的追踪精度。

Q2：HOVER是否优于其他多模态训练方法？

图4的雷达图显示，HOVER在32/32的指标上优于多模态RL基线。例如，根节点姿态误差降低20%，关键点位置误差降低15%。这表明直接训练多模态策略容易陷入局部最优，而蒸馏通过模仿Oracle策略的动作分布避免了这一问题。

文中比较了HOVER与另一种采用相同命令掩码但完全从零开始训练的多模式RL基准策略。实验结果揭示，在多个关键指标如根部旋转误差Eroot-rpy、上身关节角度误差Eupper-j等方面，HOVER再次展现出明显的优势。这表明，通过策略蒸馏而非从头开始的强化学习训练，HOVER能够更加高效地掌握复杂的多模式控制任务。