IRMV Lab新作：Mamba Diffusion模型实现高精度2D手部轨迹预测

作者主页：
https://bit-mjy.github.io/
https://xieyuanli-chen.com/
论文标题：
MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos

1. 背景与挑战

在具身人工智能（Embodied AI）领域，如何实现对人类行为和意图的深入理解以及灵活的迁移应用是一个关键问题。通过大规模互联网视频提取可重复利用和迁移的知识，被认为是理解人类意图和动作的高效途径。许多研究已经在动作识别、动作预测、注视点预测、物体交互预测等方向取得进展。

然而，手部轨迹预测（HTP）仍然是其中一个具有挑战性的任务，目标是预测未来人类的动作，而不仅仅是识别动作类别或注视点。HTP技术对于机器人学习中的动作空间表示和扩展现实中的人类活动辅助具有重要价值。现有的基于卷积和Trasnformer的模型尽管取得了一定进展，但仍存在多个未解决的挑战：

●相机自我运动影响： 当前的HTP方法未能无缝集成相机佩戴者自我运动信息来解决运动相关的误差。未来手部轨迹的3D运动投影到2D平面时，会因空间维度混淆而产生差异，自我运动信息能够帮助缓解这一问题。此外，相机视角的变化导致各帧中的手部位置和场景信息相对“预测画布”视角存在差异，这也需要通过引入相机自我运动来校正。

●物体可供性标签缺失： HTP模型通常需要物体可供性标签来引导手部轨迹的优化，但这些标签的标注非常耗时且复杂。现有的自动检测交互物体的技术精度较低，无法得到高质量的真值数据，这使得模型在缺少可供性标签的情况下，难以有效提取手部运动与场景之间的语义关系。

●因果关系和运动连续性约束不足： 现有的HTP模型在处理手部运动与相机自我运动之间的因果关系时表现较差，未能捕捉到二者交织的运动模式，可解释性也不足。此外，现有的损失函数也不足以为手部运动的潜在物理模型提供足够的优化方向，导致轨迹预测不够精准。

2. MADiff算法简介

▲图1｜MADiff算法框架©️【深蓝AI】

■2.1 算法结构

MADiff算法以过去的第一视角视频片段、2D手部轨迹以及文本提示作为输入。首先，通过Tokenzier生成视觉-语言融合特征，并使用轨迹编码器对手部轨迹进行编码，然后通过融合模块将特征融合。之后，利用运动感知的Mamba模块在扩散模型中对手部潜在特征进行条件重构。最终，轨迹解码器将重构特征转化为预测的未来手部轨迹。

●Tokenizer

Tokenizer包括基础模型、轨迹编码器和融合模块。它结合了三种输入数据：第一视角视频片段、文本提示和2D手部轨迹。通过这些多模态数据，Tokenizer能够提升手部轨迹预测的表现。本文基础模型采用GLIP，通过视觉和文本信息融合提取语义特征，帮助捕捉手部姿态及其与场景的关系，优化轨迹预测。轨迹编码器则使用MLP对手部轨迹编码。融合模块将语义特征与轨迹特征融合以生成用于扩散过程的潜在特征。视觉基础模型和融合模块的使用，使得MADiff在缺少可供性标签的情况下，仍然可以有效提取手部运动与场景之间的语义关系。

▲图2｜视觉-语言融合特征©️【深蓝AI】

▲图3｜特征融合模块©️【深蓝AI】

●运动感知Mamba模块

MADiff中，运动感知Mamba模块用于在连续去噪步骤中捕捉手部运动的时间因果关系。该模块通过整合相机的自我运动特性，设计了运动驱动的选择性扫描机制（MDSS）来恢复过去到未来的潜在特征。MDSS引入了相机自我运动信息，将状态转移过程与相机自身运动带来的手部运动偏移相对齐，促进了相机自身运动和手部运动的关联因果性提取，增强了网络设计的可解释性。这一设计将相机自身运动带来的干扰转换成有利于手部预测的外部信息，克服空间混淆和视角差异带来的挑战。

▲图4｜相机运动驱动Mamba的状态转移在图像平面和特征层面具有直观的对应性©️【深蓝AI】

●Mamba扩散模型

MADiff将运动感知的Mamba模块无缝集成到去噪扩散过程中。本文提出的Mamba+diffusion为手部轨迹预测提供了新的迭代范式，在使用扩散模型沿特征降噪方向保证足够迭代轮次的同时，使用运动感知Mamba在时间维度上迭代以捕捉因果关系。两个方向的迭代共同保证了MADiff的高精度手部轨迹预测。

▲图5｜MADiff与不同预测范式对比©️【深蓝AI】

■2.2 训练和推理

MADiff的训练过程使用了扩散模型相关损失、轨迹偏移损失和正则化项。此外，本文还设计了两个新的损失函数：角度损失和长度损失。角度损失通过计算预测轨迹与真实轨迹之间的角度差异，确保预测的方向性；长度损失通过比较预测和真实轨迹的长度差异，约束轨迹的稳定性。角度和长度损失函数以潜在物理模型为约束，提升手部预测轨迹的连续性。

▲图6｜角度和长度约束提供更加合理的优化方向©️【深蓝AI】

在推理阶段，MADiff首先从标准高斯分布中采样噪声，将其与过去特征拼接，生成潜在特征。然后，结合运动感知的Mamba模块与“连续-离散-连续”（CDC）操作，对未来的潜在特征进行去噪。“连续-离散-连续”操作在隐式的去噪过程中增加显式因素，即在每次去噪步骤结束时，将连续的潜在特征转换为离散的轨迹像素坐标，再投射回连续潜在空间，继续进行下一步去噪。最终去噪的特征被轨迹解码器转换为预测的未来手部轨迹。

▲图7｜降噪过程中的“连续-离散-连续”操作©️【深蓝AI】

3. 实验结果

■3.1 轨迹预测评估

MADiff在EK55、EK100、EG、EgoPAT3D-DT和H2O-PT数据集上与多个基线模型进行了对比。实验使用平均偏移误差（ADE）、加权偏移误差（WDE）、最终偏移误差（FDE）等指标评估手部轨迹预测性能，MADiff在各个数据集中的表现显著优于其他基线模型，尤其在面对新场景时展现了较强的泛化能力。此外，设计的新指标评估了预测的手部轨迹与交互物体的关系，MADiff即使在没有物体可供性标签的情况下，也能够生成合理的交互分布。

在这里插入图片描述
▲图8｜MADiff在多个数据集上表现出优异性能©️【深蓝AI】

▲图9｜预测结果可视化©️【深蓝AI】

■3.2 消融实验

通过消融实验，本文验证了运动驱动选择性扫描（MDSS）的有效性，显示出在引入相机自我运动特征后，轨迹预测精度显著提升。本文进一步还验证了Mamba块的最佳数量，以及新的角度和长度损失函数的有效性等。

本文还提供了关于预测长度（输入视频片段的长度）的消融实验。当测试集保持与训练集相同的观测长度时，预测精度和观测长度在一定范围内呈正相关关系，这表明了长序列能够为手部轨迹预测提供更加丰富的语义信息。但将测试集的观测长度改为由随机采样生成后，这种正相关关系不再存在，过长的观测序列用于训练反而导致更低的测试精度，这表明预测模型过度依赖输入信息的丰富度时，会展现出较差的“想象力”。

本文首次分析了手部轨迹预测精度和动作类别的关系。通过统计不同类别动作对应的轨迹预测精度，本文得出如下结论：对于增加交互物体不确定性的动作（如打开，拿起），其轨迹更难以预测，反之降低交互物体不确定性的动作（如关闭，放下）则轨迹预测的更准确。

此外，本文发现通过针对性地改变输入文本提示能够提升特定动作的轨迹预测精度，这为手部预测算法在真实应用场景中的部署提供了更加灵活的解决方案。本工作也希望这种基于动作类别分析预测性能的思路能够对未来后续工作提供启发。

4. 总结与未来展望

本文提出了一种新颖的手部轨迹预测方法MADiff。首先，本文使用基础模型来提取高阶语义特征，无需依赖物体可供性标签的监督。此外，本文设计了一个基于运动感知Mamba的扩散模型恢复未来手部轨迹。MDSS扫描机制将Mamba的状态转移过程与相机自身运动带来的手部运动偏移相对齐，促进了相机自身运动和手部运动的关联因果性提取，增强了网络设计的可解释性。本文进一步将“连续-离散-连续”操作集成到扩散去噪过程中，结合显式的轨迹迭代和隐式的特征迭代。此外，本文在训练过程中引入了角度损失和长度损失，帮助模型更好地捕捉轨迹的方向性和稳定性。在五个公开数据集上的实验结果表明MADiff在所有最先进的手部轨迹预测基线中表现出强大的竞争力。实验部分还对MADiff各个模块进行了详细分析，并揭示了预测误差与动作类别之间的关系。

MADiff的未来数据预测范式将Mamba无缝集成到扩散模型中，并结合了自回归模型和迭代非自回归模型的特性，可以作为手部轨迹预测或其它时间序列预测任务的基础框架。其次，在时间因果关系捕捉中考虑自我运动，为扩散模型在第一视角视觉领域中的应用提供了新的见解。此外，本文的动作相关分析为未来的研究开辟了潜在方向，即为特定动作设计针对性的语义特征。然而，现有数据集的标注特异性导致了不同数据集之间训练和推理设置的差异，因此未来研究将关注统一多个数据集的训练和测试设置。此外，本文还提出未来为MADiff增加一个物体可供性预测分支的可能性。©️【深蓝AI】

本文为一作独家授权编译于【深蓝AI】，如需转载请移步🫱深蓝AI