【学习资料】一文总结Integral Pose Regression方法的方方面面 - 知乎(总结的很到位,一定要去看)
1.两种基本方法的对比
1.解码方式
softmax和argmax的区别:
由于深度神经网络中的下采样步骤,热图的分辨率低于输入图像的分辨率。这导致不可避免的量化误差将“取最大值”操作修改为“取期望值”。关节估计为热图中所有位置的积分,并根据其概率(从似然度归一化)进行加权。我们称这种方法为积分回归。
2.监督上
Detection-based方法通过人工渲染高斯热图,逐像素地对网络的输出进行监督
IPR通过坐标值直接进行监督
3.性能上
结论:积分回归在`困难样本`上的效果更好
Detection-based方法由于受纹理信息影响严重,因此一旦遇到严重遮挡,响应区很容易丢失或偏移,而Regression-based方法则能更好地记住关键点之间的相对位置关系。
2.IPR方法
2.1局部性
其响应值集中在一块局部区域内,以外的地方响应几乎为0,响应值最大的地方对应了目标点,以真实位置为中心的一个概率分布,距离越远,被人标注的概率越低,这里我姑且称之为“局部性”。
2.1.1 为什么IPR方法的局部性更强?
在监督时我们就是在隐式地学习拉普拉斯分布。
在COCO数据集上关键点的真实分布实际上是介于拉普拉斯和高斯分布之间的,边缘比高斯分布更尖锐,比拉普拉斯分布更平滑。
2.2 形状约束
2.2.1 为什么需要对形状进行约束
Soft-Argmax计算流程是对输出特征图进行Softmax归一化后,求期望作为坐标值,直接通过坐标值进行监督,因此只要期望值正确,即只要符合期望要求的分布,不管他长什么样子,loss就会降低,因此预测的Heatmap可能出现“多峰”、“扁平”、最大响应值点偏移等情况。
2.2.2 解决形状
除了非常极端的和的情况性能下降,其他情况均有性能提升,可见增加形状约束是有效的。
2.3 监督方式与梯度差异
梯度形式的差异使得IPR的训练过程比起Detection-based方法艰难得多。
2.4 总结
Integral Pose Regression方法的性能劣势主要来源于四个方面:
- Softmax性质引入的偏差
- 数据真实分布与人工预定义的简单分布存在差异
- 缺乏概率分布性质约束导致的学习目标不明确
- 梯度形式不稳定导致学习效率低下