自适应柔顺性策略：扩散引导控制中学习近似的柔顺

24年10月来自斯坦福大学和 TRI 的论文“Adaptive Compliance Policy: Learning Approximate Compliance for Diffusion Guided Control”。

柔顺性在操作中起着至关重要的作用，因为它可以在不确定的情况下平衡位置和力的并发控制。然而，当今的视觉运动策略往往忽视柔顺性，而只注重位置控制。本文介绍自适应柔顺性策略 (ACP)，这种框架，从人类演示中学习针对给定的操作任务在空间和时间上动态调整系统柔顺性，改进以前依赖预选择的柔顺性参数或假设均匀恒定刚度的方法。然而，从人类演示中计算完整的柔顺性参数是一个定义不明确的问题。相反，本文估计一个具有两个有用属性的近似柔顺性曲线：避免大的接触力和鼓励准确跟踪。该方法使机器人能够处理复杂丰富接触的操作任务，与其他视觉运动策略方法相比，性能提高 50% 以上。

机器人系统所需的柔顺性并不是静态属性；相反，它会根据任务目标和系统状态而发生巨大变化。例如，考虑如图翻转任务，所需的柔顺性：
• 随时间变化。例如，系统在接触前需要较少的柔顺性以优先考虑精确的位置跟踪，而在接触时变得柔顺。
• 随空间变化。例如，在枢转阶段，系统应仅在推动方向（即 K2 方向）上柔顺，同时在其他方向上保持高刚度以跟随弧形运动（例如，K1 方向的低柔顺性）。
• 因任务而异。如果换成不同的任务，例如擦拭图（右）中的花瓶，柔顺性的时间和空间属性都会发生变化，以满足独特的 3D 运动和力要求。

请添加图片描述

这项工作引入自适应柔顺性策略 (ACP)，这是一种感觉运动策略，它学习根据人类演示在空间和时间上动态调整系统柔顺性以适应给定的操作任务。

如图各种方法比较。[左图] 显示 a) 典型的视觉运动策略 [6]、b) 典型的基于力柔顺策略 [26] 和 c) 自适应柔顺策略之间的比较。[右图] 自适应柔顺策略推断的虚拟目标（橙色方块）和参考姿势（黄色圆圈）的可视化。虚拟姿势和参考姿势之间的方向差异（橙色箭头）编码柔顺方向。

请添加图片描述

机器人柔顺性建模。柔顺性扩展机器人的动作空间 [21, 32]。考虑一个由位置 x 和力 f 描述的 N 维系统。柔顺性是力和运动之间的弹性行为，通常由弹簧质量阻尼器系统建模：

请添加图片描述

右侧的三个项分别代表惯性力、弹簧力和阻尼力。x_ref 是参考位置，此时弹簧力为零。柔顺行为由惯性矩阵 M、刚度矩阵 K 和阻尼矩阵 N×N K_D 描述，如果柔顺性由控制实现，则可由用户指定。换句话说，它们可以添加到高级策略 [3、2、8] 的动作空间中，而低级柔顺控制器实现“虚拟”刚度/阻尼/惯性。当高级策略无法足够快地表现出柔顺性时，这是有益的。

对柔顺控制器使用导纳控制 [31]，它接收力反馈并输出位置目标。这适用于高精度位置控制机器人 (UR5e)。具有力控制接口的机器人也可以使用阻抗控制 [14] 或一些混合力-运动控制方案 [32、37]。

操作建模。模拟一个操作系统如何与机器人交互，将机器人视为一个黑盒子。做出以下假设：
假设 I：接触力占主导地位。与接触力相比，其他类型的力，如惯性力、摩擦力和重力，可以忽略不计。

不要将这与机器人本身的柔顺控制相混淆，后者是快速和动态的。通过避免快速机器人运动和使用轻量级物体来确保假设 I。考虑一个具有 N 个自由度的机器人，与环境进行 n 次接触。将 λ 表示为接触法向力的矢量，在假设 I 下，牛顿第二定律可以写成以下形式：

请添加图片描述

其中 J 是接触雅可比矩阵，它将接触力映射到机器人广义力空间。虽然该方法用于推导，但它不需要计算它。将 v表示为广义速度矢量，雅可比矩阵 J 还可以描述接触施加的速度约束：

请添加图片描述

选择动觉教育而不是遥操作来收集人体演示，以便操作员在直接触觉反馈下轻松演示可变的柔顺行为（如图所示）。一只手臂的设置包括一个机器人操纵器以提供精确的位置反馈，一个 RGB 摄像头以记录视觉信息，以及一个安装在机器人手附近的力矩传感器。

请添加图片描述

在演示过程中，为机器人柔顺控制器指定低刚度、低阻尼和低质量，以便操作员可以自由移动机器人。由于人手提供自然的外部稳定性，因此在演示过程中可以实现低阻尼和低质量。在测试过程中，增加机器人阻尼和虚拟质量以保持导纳控制器的稳定性。有必要将工具中心点 (TCP) 设置在手柄附近，这样机器人就可以在外力作用下以操作员直观的方式旋转。

人类在操作过程中使用不同的刚度。高刚度可在力扰动下提供位置精度。低刚度也是必要的，因为高刚度控制施加的速度约束可能与公式（3）中定义的接触约束相冲突，在此期间可能会产生巨大的内力 [17]。

然而，由于缺乏变化，从单个人类演示中估计柔顺性参数通常是一个病态问题 [4]。先前关于刚度估计的研究 [13] 假设完全了解阻尼和虚拟质量以及力运动信号有足够的变化。这些要求在动觉教育中得不到满足，其中人手改变机器人手的有效阻尼和质量，并且演示可以在一段时间内保持恒定的力或位置。

为了简化问题，还使用预选择的质量和阻尼值。然后，找到具有以下属性的刚度矩阵，而不是估计真实的人体刚度：
它避免在操作中产生巨大的内力。
它有助于准确跟踪所需的运动。

C.1 刚度方向：采用以下简单的策略来选择广义空间中的刚度方向：在力反馈方向上使用低刚度 k_low，在所有其他方向上使用高刚度 k_high。

从刚体力学 [33] 中，接触雅可比矩阵 J 的行代表接触法向力的方向，它在广义力空间中形成一个多面体凸锥。再做两个假设：
假设 II：非零接触力：所有接触都应具有非零接触力。
假设 III：无挤压接触：接触雅可比矩阵 J 的行形成的锥体，包含在其对偶锥体中。

通过在演示中清晰地进行接触，可以满足假设 II。假设 III 意味着机器人上的接触不太严格。如图显示一些示例：

请添加图片描述

在这些假设下提出以下定理：
定理 1. 对于由公式（2）描述的外部接触机器人，只要它在广义空间中不控制其在反馈力 f 方向上的速度，就存在一个满足接触约束（3）的解 v。

以上定理 1 表明，一维低刚度控制足以避免约束违规，因此可以在其他方向上使用高刚度来改善位置跟踪。令 K_0 ∈ RN 为对角矩阵，其对角线上有 [k_low, k_high, …, k_high]，S 为一个列构成正交基的矩阵，第一列为 f / |f|。

刚度矩阵可以写成：

请添加图片描述

C.2 刚度大小：高刚度 k_high 应支持这些方向上的精确位置跟踪，可根据经验设定。低刚度值应为零，但是，由于低刚度方向是根据嘈杂的力信号估计，让刚度随力大小连续减小会很有帮助。

下面将策略制定为参考动作和目标刚度的扩散过程。该策略以滚动-范围（receding- horizon）方式运行 [6]，其中使用最近的观察结果预测动作轨迹：1）鱼眼 RGB 图像，2）机器人末端执行器姿势，以及 3）力/扭矩数据。

1）输入和编码：为力/扭矩数据实施两种编码策略：i）通过因果卷积进行时间编码 [35]，这有助于从力等序贯数据中捕获因果关系。用过去 32 个时间步的力读数，并将它们通过 5 层因果卷积网络，输出 768 维向量；ii ）FFT 编码，将 6D 力/扭矩读数的每个维度转换为 2D 频谱图。这些频谱图（6×30×17）被传递到 ResNet-18 模型，该模型的输入通道已修改为 6。在开头添加一个坐标卷积层 [28] 来处理平移不变性。过去两个时间步的图像被随机裁剪为 224×224，然后使用 CLIP 预训练的 ViT-B/16 模型 [10] 进行编码。

图像和力编码都传递到 transformer 编码器层，使用自注意来学习自适应视觉-力的表征。该表征与过去 3 个时间步的机器人末端执行器姿势连接在一起，并作为以下条件馈送到下游的扩散策略头 [6]。

输出和解码：策略输出将位置目标、刚度矩阵和参考力编码到每只机械臂的 19 维向量中：

参考姿势：遵循 [6] 中的约定的 9D 姿势向量，其中最后六个元素是旋转矩阵的前两行；
虚拟目标姿势：代表低级柔顺性控制器要跟踪的实际目标 9D 姿势；
表示低刚度方向的刚度大小标量值。

虚拟目标姿势的计算方式是，如果机器人在跟踪具有给定刚度的虚拟目标时达到参考姿势，它将施加参考力。它本质上将力目标转变为位置目标。这样做的好处，是可以在不同的机器人之间获得统一的目标表示：没有 FT 传感器的阻抗控制机器人，也可以执行虚拟目标。

在训练期间，首先将整个扳手数据 episode 通过具有一秒窗口大小的移动平均滤波器，然后从刚度矩阵公式（6）中计算刚度，最后计算 3D 机械弹簧后的虚拟目标。扳手的重度过滤有两个好处：1) 它使虚拟目标变得平滑；2) 它为动作标签提供即将进行接触的事后信息，这对于平滑的接触吸引力运动至关重要。

在推理时，按照公式（6）重建完整的刚度矩阵，将力的方向替换为从参考姿势到虚拟目标的方向。最后，刚度矩阵和虚拟目标都被发送到低级柔顺性控制器进行执行。

在两个接触丰富的操作任务中评估方法，这些任务的成功取决于维持合适的接触模式。用带有一个 GoPro RGB 摄像头和一个 ATI mini-45 力矩传感器的 UR5e 机器人。GoPro 摄像头以 60Hz 的频率传输图像，机器人以 500Hz 的频率接收笛卡尔姿势命令并发送姿势反馈，而 ATI 传感器以高达 7000Hz 的频率传输力矩数据。

评估以下四种策略，所有策略都在同一数据集上以相同的 epoch 数进行训练：
• ACP：自适应柔顺性策略，本文方法；
• 无 FFT 的 ACP：与 ACP 相同，但使用时间卷积 [35, 26] 而不是 FFT的力编码。
• 刚性策略：附加力输入的扩散策略 [6, 7]，输出目标位置。
• 柔顺策略：与 [刚性策略] 相同，只是低级控制器具有均匀的刚度 k = 500N/m。在视觉运动策略中，依赖低级机器人柔顺性是很常见的 [26, 40, 44, 23]。

两种 ACP 变型都使用 3D 平移空间中的柔顺性，即 N = 3，尽管如果需要，该方法公式也适用于 6D 柔顺性。对于所有策略，使用两帧 RGB 图像和三帧末端执行器姿势。当这些数字较小时，策略对这些数字不敏感。[无 FFT 的 ACP] 使用以 250Hz 采样的 32 帧扳手数据，而其他所有三种策略都使用 7000Hz 的一秒数据。