区域多人姿态估计
ICCV 2017
论文链接
代码链接
摘要: 野外多人姿态估计具有挑战性。sota人体检测器不可避免存在定位和识别误差,这些误差可能导致依赖人体检测器的单人姿态估计器(SPPE)的失败。本文提出了一种新的区域多人姿态估计(RMPE)框架,以在存在不准确人体边界框的情况下进行姿态估计,该框架由三个组件组成:Symmetric Spatial Transformer Network(SSTN)、Parametric Pose NonMaximum-Suppression(NMS)和 Pose-Guided Proposals Generator(PGPG)。我们的方法能够处理不准确的边界框和冗余检测,在MPII数据集上实现76.7 mAP。
文章目录
- 区域多人姿态估计
- 1. Introduction
- 2. Related Work
- 3. Regional Multi-person Pose Estimation
- 3.1. Symmetric STN and Parallel SPPE
- 3.2. Parametric Pose NMS
- 3.3. Pose-guided Proposals Generator
- 4. Experiments
- 4.3. Results
- 4.4. Ablation studies
- 4.5. Failure cases
- 5. Conclusion
1. Introduction
two-step 姿态估计框架的准确度高度依赖于 bbox,part-based框架在多个人彼此靠近时难以准确组合单人姿态,此外,part-based框架仅利用 second-order body parts dependence(二阶身体部位相关性),因此无法从全局姿态视图识别身体部位。
我们的方法遵循 two-step 框架,即使在给定不准确 bbox 的情况下也能准确预测姿态。我们应用 sota 目标检测器 Faster-RCNN 和 单人姿态估计器 Stacked Hourglass 来说明问题,图1和图2显示了两个主要问题:定位误差和冗余检测。事实上,SPPE 易受错误边界框的影响,IoU>0.5时边界框被认为是正确,但检测到的人体姿态可能是错误的。由于SPPE为每个给定的边界框生成一个姿态,因此冗余检测会导致冗余姿态。
为了解决上述问题,我们提出了一种区域多人姿态估计(RMPE)框架,提高了基于SPPE的人体姿态估计算法的性能。我们设计了一个新的 symmetric spatial transformer network(SSTN)连接到SPPE 上来从不准确的边界框中提取高质量的单人区域,引入一种新的 Parallel SPPE 分支来优化该网络。为了解决冗余检测问题,引入了一种 parametric Pose NMS,通过使用新的姿态距离度量比较姿态相似性来消除冗余姿态,应用数据驱动方法来优化姿态距离参数。最后,我们提出了一种新的 pose-guided human proposal generator(PGPG)来增加训练样本,通过学习人体检测器对不同姿态的输出分布模拟人体边界框的生成,从而生成大量训练数据样本。RMPE框架是通用的,适用于不同的人体检测器和单人姿态估计器。
2. Related Work
略
3. Regional Multi-person Pose Estimation
RMPE pipeline 如图3所示,人体检测器获得的人体边界框喂给 “Symmetric STN + SPPE” 模块来自动生成姿态proposal,之后通过 “parametric Pose NMS” 细化姿态proposal 来估计人体姿态。训练期间引入 “Parallel SPPE” 来避免局部最小值,并进一步利用SSTN的力量。设计一个pose-guided proposals generator (PGPG) 来增加现有的训练样本。下面将介绍框架的三个主要组成部分。
3.1. Symmetric STN and Parallel SPPE
人体检测器提供的人体 proposal 不太适合 SPPE,因为SPPE专门针对单人图像进行训练,因此对定位错误非常敏感,人体 proposal 微小的 translation 或 cropping 都会显著影响 SPPE 性能。引入 symmetric STN + parallel SPPE 在给定不完美人体 proposal 时增强SPPE。symmetric STN + parallel SPPE 模块如图4所示。
STN and SDTN. STN 在自动选择 RoI 方面性能优异,本文使用STN来提取高质量的 dominant human proposals。数学上,STN执行2D仿射变换,可以表示为:
SPPE 生成的姿态被匹配给原始的 human proposal 图像,自然地,需要一个spatial detransformer network(SDTN)将估计的人体姿态重新映射回原始图像坐标。SDTN计算 de-transformation 的 γ,并基于γ生成网格:
由于SDTN是STN的逆过程,可以获得以下结果:
为了通过SDTN反向传播,由下列公式推导
∂
J
(
W
,
b
)
∂
θ
\frac{\partial J(W,b)}{\partial θ}
∂θ∂J(W,b) :
提取出高质量的 dominant human proposal regions 后,我们可以利用现成的SPPE进行精确的姿态估计。训练时,SSTN与SPPE 进行了微调。
Parallel SPPE. 为了进一步帮助STN提取良好的 dominant human proposal regions,我们在训练阶段添加了一个 Parallel SPPE 分支。该分支和 SPPE 共享相同的 STN,但不使用 SDTN。该分支的人体姿态标签指定为居中,具体而言,该SPPE分支的输出直接与中心定位的 gt 姿态标签进行比较。训练阶段冻结该并行SPPE 所有层的权重(权重固定),以将中心位置的姿态误差反向传播给 STN 模块,若 STN 提取的姿态不位于中心,则并行分支将反向传播大的误差。这种方式可以帮助 STN 聚焦正确的区域,并提取高质量的 dominant human proposal regions。测试阶段不使用并行SPPE分支。
Discussions. 训练阶段,Parallel SPPE可被视为正则化器,它有助于避免STN 没有将姿态转换到提取的人体区域中心(局部最小值)。来自SDTN的补偿将使网络产生更少的误差,因此达到局部最小值的可能性增加,这些误差对训练STN是必要的。利用 Parallel SPPE,训练STN将人移动到提取区域的中心,以便于SPPE进行准确的姿态估计。
用一个 center-located poses regression loss 在 SPPE 的输出阶段(SDTN之前)代替 parallel SPPE 似乎很直观,但该方法会降低我们系统的性能。虽然STN可以部分转换输入,但不可能将人完美放置在与标签相同的位置,SPPE 输入和标签间的坐标空间差异将极大削弱其学习姿态估计的能力,这将导致 SPPE 主分支的性能下降。因此,为确保 STN 和 SPPE 都能充分利用各自的力量,冻结权重的Parallel SPPE 是必要的。Parallel SPPE 总是对非中心姿态产生较大误差,以推动STN生成中心定位姿态,而不影响主分支SPPE的性能。
3.2. Parametric Pose NMS
本文提出一种 parametric pose NMS 方法来消除冗余,具有 m 个关节的姿态 P i P_i Pi 被表示为: { < k i 1 , c i 1 > , . . . , < k i m , c i m > } , k i j 和 c i j \{<k^1_i , c^1_i>, . . . , <k^m_i , c^m_i>\},k^j_i 和 c^j_i {<ki1,ci1>,...,<kim,cim>},kij和cij 分别表示 j-th 关节的位置和置信度。
NMS scheme. 我们重新审视姿态NMS如下:首先,选择置信度最高的姿态作为参考,并通过应用消除准则消除与之接近的一些姿态。对剩余的姿态集重复此过程,直到消除冗余姿态并仅留唯一姿态。
Elimination Criterion 消除准则. 需要定义姿态相似性来消除彼此过于接近和过于相似的姿态。我们定义了姿态距离度量
d
(
P
i
,
P
j
∣
Λ
)
d(P_i, P_j|Λ)
d(Pi,Pj∣Λ) 来测量姿态相似性,并定义阈值 η 作为消除标准,Λ 是函数 d(·) 的参数集,消除标准可以写成如下:
若 d(·) 比 η 更小, f(·) 的输出为 1,表示
P
i
对于参照姿态
P
j
P_i 对于参照姿态 P_j
Pi对于参照姿态Pj 冗余,应被消除。
Pose Distance 姿态距离. 现在,我们给出距离函数
d
p
o
s
e
(
P
i
,
P
j
)
d_{pose}(P_i,P_j)
dpose(Pi,Pj),假设
P
i
的框是
B
i
P_i的框是B_i
Pi的框是Bi,定义一个 soft matching 函数:
tanh操作过滤掉低置信度姿态。当两个对应的关节都具有较高置信度时,输出将接近1。该距离 softly 计算姿态间匹配的关节数。
部位间的空间距离可以写成:
通过组合等式(8)和(9),最终距离函数可以写成:
λ是平衡两个距离的权重,Λ={σ1,σ2,λ}。注意,先前的姿态 NMS 手动设置姿态距离参数和阈值,而我们的参数姿态NMS以数据驱动方式确定距离参数和阈值。
Optimization. 给定检测到的冗余姿态,消除准则 f ( P i , P j ∣ Λ , η ) f(P_i, P_j|Λ, η) f(Pi,Pj∣Λ,η) 中的四个参数被优化,以实现验证集的最大mAP。由于4D空间难以穷举搜索,因此通过迭代方式固定两个参数,一次优化另外两个参数。一旦收敛,参数将固定,并在测试阶段使用。
3.3. Pose-guided Proposals Generator
Data Augmentation. 两阶段姿态估计需要适当的数据增强,以使SSTN+SPE模块适应由人体检测器生成的 “不完美” 人体proposal,否则人体检测器测试阶段,模块可能无法正常工作。直观的方法是在训练阶段直接使用由人体检测器生成的边界框,但人体检测器只能为每个人生成一个边界框。通过使用 proposal 生成器,可以大大增加此数量。由于我们已经为每个人提供了 gt 姿态和目标检测边界框,因此可以生成与人体检测器输出分布相同的大量训练 proposal 样本。这种技术能够进一步提高系统性能。
Insight. 我们发现,预测边界框和 gt 边界框间相对偏移的分布在不同姿态间有所不同。 具体而言,存在一个分布 P(δB|P),其中 δB 是预测边界框的坐标与 gt 边界框坐标间的偏移,P是 gt 姿态。若能建模这种分布,就能够生成许多与人体检测器生成的人体 proposal 相同的训练样本。
Implementation. 由于不同的人体姿态,很难直接学习分布 P(δB|P),因此,我们试图学习分布P(δB| atom§),其中 atom§ 表示 P 的 atomic 姿态。为从人体姿态标注中导出原子姿态,先对齐所有姿态,使其 torsos (躯干)长度相同。然后使用 k-means 算法聚类对齐的姿态,计算出的聚类中心形成了 atomic 姿态。现在,对共享相同 atomic 姿态 a 的每个人体实例,计算其 gt 边界框和预测边界框间的偏移,然后通过该方向上 gt 边界框的相应边长对偏移进行归一化。之后,偏移量形成频率分布,我们将数据拟合为高斯混合分布。不同的atomic 姿态使用不同的高斯混合参数。图5可视化了一些分布及其对应的聚簇人体姿态。
Proposals Generation. SSTN+SPE训练阶段,对于训练样本中的每个姿态标注,首先查找对应的 atomic 姿势 a,然后根据 P(δB|a)通过密集采样生成额外的偏移,以生成增强的训练 proposal。
4. Experiments
使用 VGG-based SSD-512 作为人体检测器,为了确保提取出整个人体区域,检测的人体 proposal 沿高度和宽度方向各扩展30%。使用 stacked hourglass 作为姿态估计器。对于STN网络,采用ResNet-18 作为我们的 localization 网络。考虑到存储效率,使用较小的4层沙漏网络作为 Parallel SPPE。
为证明框架的通用性,我们还使用基于 ResNet152 的 Faster-RCNN 作为人体检测器,使用PyraNet 作为姿态估计器,在这种情况下,对人体检测采用多尺度测试,并对 PyraNet 使用 320x256 大小的输入。
4.3. Results
MPII dataset 结果表1,图6:
MSCOCO Keypoints dataset 的结果如表2 所示:
4.4. Ablation studies
4.5. Failure cases
图7展示了一些失败案例。可以看出,SPPE无法处理很少出现的姿态(例如,第一张图像中表演“Human Flag” 的人)。两个高度重叠的人体会迷惑系统(如第二张图像左侧的两个人)。人体检测器的缺失也会导致人体姿态的缺失检测(例如,第三张图像中躺下的人)。最后,类人体可能会欺骗人体检测器和 SPPE,从而导致检测到错误姿态(例如,第四幅图像中的背景物体)。
5. Conclusion
在本文中,提出了一种新的有效的 regional multi-person pose estimation(RMPE)框架,验证了 two-step 框架的潜力。RMPE框架由三个新组件组成:具有 parallel SPPE 的 symmetric STN,parametric pose NMS 和 pose-guided proposals generator (PGPG)。PGPG 通过学习给定人体姿态边界框 proposal 的条件分布来扩充训练数据。symmetric STN 和 parallel SPPE 有助于 SPPE 处理人体定位错误。parametric pose NMS 用于减少冗余检测。我们将在未来工作中探索以端到端的方式联合训练我们的框架与人体检测器。