论文:Multi-hypothesis representation learning for transformer-based 3D human pose estimation
摘要
尽管取得了重大进展,但由于深度模糊和自遮挡,从单目视频中估计3D人体姿势仍然是一项具有挑战性的任务。大多数现有的作品都试图通过利用空间和时间关系来解决这两个问题。然而,这些工作忽略了这样一个事实,即它是一个逆问题,其中存在多个可行解(即假设)。为了消除这一限制,我们提出了一个多假设转换器来学习多个貌似合理的姿势假设的时空表征。为了有效地建模多假设依赖关系并在假设特征之间建立强关系,我们引入了一个一对多对一的三阶段框架:(i)生成多个初始假设表示;(ii)对自我假设沟通进行建模,将多个假设合并为一个收敛的表示,然后将其划分为几个发散的假设;(iii)学习交叉假设交流,汇总多假设特征,合成最终的3D姿态。通过以上的处理,最终的表现得到了增强,合成的姿态更加准确。大量实验表明,该方法在Human3.6M和MPI-INF-3DHP两个具有挑战性的数据集上取得了最先进的结果。代码和模型可在https://github.com/Vegetebird/MHFormer 上获得。
步骤
在第一阶段,引入基于级联图转换器架构的多假设生成(MHG)模块,对人体关节的全局和局部固有结构信息进行建模,并在空间域中生成多个多层次特征。这些特征包含不同深度的不同语义信息,从浅到深,因此可以看作是多个假设的初始表示。
在第二阶段,提出了一个自假设细化(SHR)模块来细化每个单假设特征。SHR由两个新的区块组成。第一个模块是多假设自关注(MH-SA),它独立建模单假设依赖关系以构建自假设通信,使每个假设内的消息传递能够增强特征。第二个块是一个假设混合多层感知器(MLP),它在假设之间交换信息。将多个假设合并为一个收敛的表示,然后将该表示划分为几个发散的假设。虽然这些假设经过SHR的改进,但由于SHR中的MHSA仅传递假设内部信息,因此不同假设之间的联系不够强。
在最后阶段,交叉假设交互(CHI)模块对多假设特征之间的交互进行了建模。它的关键组件是多假设交叉注意(MH-CA),它捕获相互的多假设相关性来构建跨假设通信,使消息在假设之间传递,从而更好地进行交互建模。然后,使用假设混合MLP对多个假设进行聚合以合成最终预测。
贡献
- 我们提出了一种新的基于 Transformer 的方法,称为 MultiHypothesis Transformer (MHFormer++),用于从单目视频中估计 3D 人体姿势。构建了一个一对多对一的框架,可以端到端有效地学习多个姿态假设的时空表征。
- 多假设生成(Multi-Hypothesis Generation, MHG)模块旨在捕获每帧内人体关节的全局和局部信息,并在空间域中生成包含不同语义信息的多个假设表示。
- 引入了自假设细化(SHR)模块和交叉假设交互(CHI)模块来建模跨框架的时间一致性,并在时域内独立和相互通信多个假设特征。
- 该方法在 Human3.6M[23]和 MPI-INF-3DHP[24]数据集上达到了最先进的性能。
本文是我们的 CVPR 2022 会议论文[25]的延伸.与[25]相比,新的贡献包括:
(1)我们用图Transformer 编码器替换了原始MHG模块中的标准 Transformer 编码器。与原始版本只关注捕获全局上下文不同,图转换器编码器通过在变形器中引入图卷积网络(GCNs)来建模人体关节的全局和局部信息,能够更好地约束估计的三维人体姿势的物理结构,提高估计精度的性能。
(2)在原始CHI模块后增加融合块,更有效地将多个假设特征聚合为一个增强的假设表示。它可以通过在回归头中使用低维向量来缓解过拟合,从而提高性能。
(3)采用这些新设计,将[25]中提出的 MHFormer 升级为 MHFormer++。此外,实验结果表明,我们的 MHFormer++ 可以达到更好的性能和泛化能力。(4)我们进行了更广泛的定量和定性比较,包括平均每个关节速度误差(MPJVE),平均每个关节位置误差(MPJPE)分布,逐帧 MPJPE,关节方向MPJPE,以及具有挑战性的野外视频的可视化,以系统地显示所提出方法的有效性。
方法
MHFormer++
所提出的MHFormer++的概述如图3所示。
给定由现成的 2D 姿态检测器从视频中估计的连续 2D 姿态序列
X
∈
R
N
×
J
×
2
X∈R^{N×J×2}
X∈RN×J×2,我们的方法旨在通过充分利用多假设特征层次中的时空信息来重建中心帧
X
∈
R
J
×
3
X∈R^{J×3}
X∈RJ×3 的 3D 姿态。为了实现我们提出的一对多对一三阶段框架,MHFormer++ 建立在:
(i)三个主要模块:多假设生成(MHG)、自假设细化(SHR)和交叉假设交互(CHI)
(ii)两个辅助模块:时间嵌入和回归头。
具体而言,在空间领域,MHG 模块对人体关节之间的空间相关性进行建模,并生成多个初始假设表示。然后,时间嵌入模块将特征嵌入到高维向量中,并添加时间位置嵌入。在时域中,SHR 和 CHI 模块都捕获帧之间的时间相关性。此外,SHR 细化了单假设特征,CHI 捕获了多个假设之间的相互作用。最后,回归头模块进行回归预测最终的 3D 姿态。
MHG
具有三个不同假设的多假设生成(MHG)模块架构。MHG是一种基于级联图Transformer的架构,它在每帧内提取人体关节的内在结构信息,并生成多个假设表示。其中,N表示输入帧数,T表示换位操作。红色矩形突出显示了我们在MHFormer上的扩展
Self-hypothesis refinement
基于三种不同假设的自假设精化(SHR)和交叉假设交互(CHI)模块架构。利用SHR对单假设特征进行细化,利用CHI对多假设特征之间的相互作用进行建模。红色矩形突出显示了我们在MHFormer上的扩展。
在时域,我们首先构建SHR来细化单假设特征(见图5)。每个SHR层由一个多假设自注意(MH-SA)块和一个假设混合MLP块组成。
多个假设在MH-SA中被独立处理,但假设之间没有信息交换。为了解决这个问题,我们在MH-SA之后添加了一个混合假设的MLP。多个假设的特征被连接并输入到假设混合MLP中以合并(即收敛)它们自己。然后,将收敛的特征沿通道维度均匀分割(即发散)为不重叠的块,形成精细的假设表示。
Cross-hypothesis interaction
包含两个块:多假设交叉注意(MH-CA)和混合假设的MLP(HM-MLP)
MH-SA缺乏假设之间的联系,这限制了它的相互作用建模。为了在交叉假设通信中相互捕获多假设相关性,提出了由多个MCA元素并行组成的MH-CA。
MCA测量交叉假设特征之间的相关性,具有与MSA相似的结构。MCA的常见配置在键和值之间使用相同的输入。
然而,这种配置的一个问题是,它将导致更多的区块(例如,三个假设有6个MCA区块)。在这里,我们采用了一种更有效的策略,通过使用不同的输入(只需要3个MCA块)来减少参数的数量,如图6(右)所示。多个假设Zm交替被视为查询、键和值,并被输入MHCA:
左:多头自我注意(MSA)。右:多头交叉注意(MCA)。
结论
本文提出了一种基于多假设变压器(Multi-Hypothesis Transformer, MHFormer++)的新方法,用于单目视频中三维人体姿态估计的模糊逆问题。与现有的多假设方法遵循一对多映射不同,我们引入了一对多对一框架,该框架首先在空间域中生成多个姿态假设的初始表示,然后在时间域中以独立和相互的方式进行通信。它提高了每个假设的表征能力,同时也增强了多个假设之间的联系。大量的实验表明,所提出的方法比单假设变形器具有根本的优势,并且在两个流行的3D人体姿态数据集上实现了最先进的性能。我们希望我们的方法能够促进2d到3d姿态提升的进一步研究,考虑到各种模糊性。
我们的方法的一个限制是相对较大的计算复杂度。变压器的优异性能是以高昂的计算成本为代价的。未来,我们将探索更有效的策略来应对这一具有挑战性的任务。此外,由于我们方法的目标与输出单个解的一般单假设方法相同,因此生成的假设的多样性可能低于现有的多假设方法。目前,我们采用端到端方式训练具有多假设中间表示的一对多对一确定性框架。应用多阶段优化策略或使用混合密度网络[17]或归一化流[62]等概率建模方法来增加生成假设的多样性并提高性能将是未来有希望的研究方向。