DOI:https://doi.org/10.1609/aaai.v36i3.20185
AAAI 2022 Published:2022-06-28
Others阅读/整理:翻译1、翻译2
Intro&Background
多人姿态估计方法
two-stage methods【图a】
这些方法使用绝对关键点位置,定位的是独立的点,所以需要额外的步骤来为他们之间的关系建模
1. Top-down Methods:先crop+resize定位人区域然后分别定位其关键点/HRNet
mainly focus on the design of the network to extract better feature representation.
不足:①性能和box紧密相关;②先检测的方法高内存低效率
2. Bottom-up Methods:先用不同尺度来定位所有人的关键点,再将它们group到相应的人身上
mainly focus on the effective grouping process.
不足:虽快但group后处理过程复杂且需要技巧
3. Point-based Representation:
CenterNet:centerpoint+center2joint offsets【图b】
由于各种姿态变化、中心具有固定的接受场,难以处理长距离center2joint偏移量,性能受限。
SPM:用rootjoint表示实例,并根据关节运动学将根关节和关键点划分为四个层次。【图c】
长距离offset分解为短距离offsets积累,但是沿骨架传播也有误差积累呀
本文Method
1、方法基本思路:center -> 7parts -> joints的方法
白色是每个个体的中心;把人体分成7个adaptive部分(a中另外7个点);再给每个parts定keypoints
2、Overall Architecture:单阶段网络包括三个模块+一个辅助
AdaptivePose(d) 端到端可微网络 body2part2joint(center2adaptivepoints2point)
组成:三个branch+辅助parallel branch
(1)Part Perception Module:部分感知模块-得到7parts
These adaptive points act as intermediate nodes, which are used for subsequent predictions.
(2)Enhanced Center-aware Branch:增强中心感知分支-得到center
aggregate the features of seven adaptive human-part related points for precise center estimation.
(3)Two-hop Regression Branch:两跳跃回归分支-displacements:center2part、part2joint
预测displacements而不是直接回归center2jiont偏移量
在(1)7parts基础上,将长距离center2joint变成center2part2joint offsets
(4)parallel branch(train):17keypoints做gt
LOSStotal(6) =LOSSct(3) + LOSSkp(5) +LOSShm(3)
experiment
参数设置:
Dataset:COCO2017
Metric:基于OKS(Object Keypoint Similarity)的平均精度和平均召回率
Augmentation: random flip, random rotation, random scaling and color jitter
预处理:每个input有条件的裁剪,512/640-DLA34、800-HRNetW48
Adam optimizer with a mini-batch size of 64 (8 per GPU)
SOTA比较
消融实验分析
Part Perception Module(定位7个位置): conduct the experiments that using shared adaptive points and unshared adaptive points
Enhanced Center-aware Branch(定位center): conduct the controlled experiments to explore the effect of receptive field adaptation process
Two-hop Regression Branch(offsets):
conduct the controlled experiments that is capable of factorizing long-range center-to-joint offsets and avoiding the accumulated errors
auxiliary loss(帮助training)【实验4/5】
the keypoint heatmap can retain more structural geometric information to improve regression performance.
Heatmap Refifinement for our regression result.
snap the closest confidence peaks on the keypoint heatmap to refine the regressed predictions
结论: the heatmap refinement is negligible for our two-hop regression method(热图细化可忽略不计,结果如下图所示)
边角料
摘要(机翻)
多人姿态估计方法通常遵循自上而下和自下而上的范式,这两种方法都可以被认为是两阶段的方法,从而导致计算成本高,效率低。对一个紧凑的和有效的管道多人姿态估计任务,在本文中,我们建议将人类部分表示为点和提出一个新颖的身体表示,利用一个自适应点集包括人体中心和七个人体部分相关点来表示人类实例以更细粒度的方式。这种新的表示更能够捕捉各种姿态变形,并自适应因式分解长距离中心-关节位移,从而提供了一个单阶段可微网络来更精确地回归多人姿态,称为自适应姿态。对于推理,我们提出的网络消除了分组和改进,只需要一个单步的分离过程来形成多人的姿态。在没有任何附加功能的情况下,我们使用DLA-34和HRNet-W48分别实现了67.4% AP / 29.4 fps和71.3% AP / 9.1 fps
AdaptivePose:端到端可微网络、优点×2(细粒度点表示、长距离位移分解为短位移
①与中心表示相比,这种细粒度的点集表示更能够捕捉人体不同程度的变形。
②它自适应地将长距离位移分解为较短的位移,同时通过神经网络自动学习自适应的人体部分相关点,避免了沿骨架传播的累积误差。
结论(机翻)
在本文中,我们提出将人体的各个部分表示为点,并引入一种自适应的身体表示,它以细粒度的方式表示人体。在此基础上,我们构建了一个单阶段的网络,其中包括三个有效的组成部分:部分感知模块、增强的中心感知分支和两跳回归分支。在推理过程中,我们消除了分组和改进,只需要一个单步的过程来形成人体姿势。我们通过实验证明,自适应算法获得了最佳的速度-精度的权衡,并优于以前的最先进的自下而上和单阶段的方法。
知识点
1、a warp operation
2、AE
3、centernet:论文
翻译、精读、详解、CenterTrack、阅读、CenterNet、
4、finely grained细粒度