论文名字:DistilPose:使用热图蒸馏的令牌化姿势回归
论文地址:2303.02455.pdf (arxiv.org)https://arxiv.org/pdf/2303.02455.pdf项目地址:yshMars/DistilPose: Implementation for: DistilPose: Tokenized Pose Regression with Heatmap Distillation (CVPR2023) (github.com)https://github.com/yshMars/DistilPose
摘要
在人体姿态估计领域,基于回归的方法在速度方面占主导地位,而基于热图的方法在性能方面遥遥领先。如何利用这两种方案仍然是一个具有挑战性的问题。在本文中,我们提出了一种新的人体姿态估计框架,称为DistilPose,它弥合了基于热图和基于回归的方法之间的差距。具体来说,DistilPose通过令牌提取编码器(TDE)和模拟热图,最大限度地将知识从教师模型(基于热图)转移到学生模型(基于回归)。TDE通过引入标记化来对齐基于热图和基于回归的模型的特征空间,而模拟热图将教师热图的明确指导(分布和置信度)转移到学生模型中。大量的实验表明,提出的DistilPose可以显着提高基于回归模型的性能,同时保持效率.具体而言,在MSCOCO验证数据集上,DistilPose-S获得了71.6%的mAP,参数为5.36M,GFLOPs为2.38,FPS为40.2,节省了12.95倍,7.16倍的计算成本,比其教师模型快4.9倍,性能仅下降0.9点。此外,DistilPose-L在MSCOCO验证数据集上获得了74.4%的mAP,在主要的基于回归的模型中实现了新的最新技术水平。
1、介绍
2D人体姿势估计(HPE)旨在检测给定图像中人体的解剖关节以估计姿势。HPE通常用作参与许多下游任务的预处理模块,例如活动识别、人体运动分析、运动捕获等。以往对2D HPE的研究主要分为两大主流:基于热图和基于回归的方法。基于回归的方法在速度上具有显著优势,并且非常适合于移动的设备。然而,回归模型精度不足会影响下游任务的性能。相比之下,基于热图的方法可以通过估计可能性热图来明确学习空间信息,从而实现HPE任务的高准确性。但似然热图的估计需要非常高的计算成本,这导致缓慢的预处理操作。因此,如何利用基于热图和基于回归的方法两者的优点仍然是一个具有挑战性的问题。
解决上述问题的一种可能方法是将知识从基于热图的模型转移到基于回归的模型。然而,由于回归模型和热图模型的输出空间不同(前者是向量,后者是热图),在热图和向量之间传递知识面临以下两个问题:(1)回归头通常将主干输出的特征图矢量化。同时,通过全局平均池化(GAP)或平坦化操作会丢失大量的空间信息。因此,以前的工作未能将热图知识完全转移到回归模型。(2)与坐标回归相比,热图自然包含形状、位置和梯度信息。由于缺乏对这些信息的明确指导,基于回归的方法比基于热图的方法更难以学习特征和关键点之间的隐式关系。
在本文中,我们提出了一种新的人体姿态估计框架,DistilPose,它学习从教师模型到基于回归的学生模型的热图为基础的知识。DistilPose主要包括以下两部分:
(1)知识传递模块称为令牌蒸馏编码器(TDE)的设计是通过引入令牌化来对齐的热图模型和回归模型的特征空间,其中包括一系列的变换编码器。TDE可以捕获关键点和特征图/其他关键点之间的关系。
(2)我们建议模拟热图,以获得基于回归的学生显式的热图信息。得到的模拟热图提供了两个明确的指导方针,包括每个关键点的2D分布和置信度。注意,所提出的模拟热图可以插入任何基于热图的方法和基于回归的方法之间,以将热图知识转移到回归模型。
DistilPose以更少的计算成本实现了与基于热图的模型相当的性能,并超越了最先进的(SOTA)回归方法。具体而言,在MSCOCO验证数据集上,DistilPose-S实现了71.6%的mAP,参数为5.36M,GFLOP和40.3FPS。DistilPose-L在21.27M参数和10.33 GFLOPs的情况下实现了74.4%的mAP,在性能、参数和计算成本方面都优于其基于热图的教师模型。总之,DistilPose在实现有竞争力的精度的同时显著减少了计算量,带来了基于热图和基于回归的方案的优势。如图1所示,DistilPose的性能优于以前的基于SOTA回归的方法,例如RLE 和PRTR ,参数和GFLOP更少。
我们的贡献概述如下:
- 我们提出了一种新的人体姿态估计框架,DistilPose,这是第一个在基于热图和基于回归的模型之间无损地传递知识的工作。
- 我们引入了一种新的令牌提取编码器(TDE),以利用基于热图和基于回归的模型。利用所提出的TDE,可以以标记化的方式促进热图的输出空间与坐标向量之间差距。
- 我们提出模拟热图来对显式热图信息进行建模,包括2D关键点分布和关键点置信度。借助模拟热图,我们可以将基于回归的HPE任务转换为更直接的学习任务,充分利用本地信息。模拟热图可以应用于任何基于热图和基于回归的模型,以将热图知识转移到回归模型。
2、相关工作
2.1、 基于热图和基于回归的HPE
基于热图的姿态估计在性能方面主导了人类姿态估计的领域。一些研究构建了新的网络来提取更好的特征。而其他人建立在试图减轻量化误差的优化视角上。综上所述,基于热图的方法充分利用了特征图的空间信息,获得了较好的性能。然而,效率仍然是基于热图的方法的某些缺点。对于基于回归的方法,Deeppose 首次被提出来直接回归关节坐标。CenterNet 和DirectPose被提出来在单阶段对象检测框架中完成多人人体姿态估计,该框架直接回归关节坐标而不是边界框。SPM引入了根关节来指示不同的人实例,并引入了分层的根人体关节表示,以更好地预测一些关节的长程位移。最近,RLE引入了流模型来捕获底层输出分布,并获得了令人满意的性能。虽然这些方法在寻找关键点的隐式关系方面做了很大的努力,但由于缺乏热图的显式指导,其性能改进仍然不够。
2.2、HPE中的变压器
Transformer在中提出,并在自然语言处理(NLP)中取得了巨大成功。最近的视觉任务研究使用Transformer作为CNN的替代主干,因为它能够捕获全局依赖关系。在2D人体姿态估计的领域中,已经进行了许多努力以并入变压器。TFPose首先以基于回归的方式将Transformer引入姿态估计框架。PRTR 提出了一种使用级联变压器的两阶段和端到端回归框架,并在基于回归的方法中实现了SOTA性能。TransPose和TokenPose引入了Transformer,用于基于热图的人体姿势估计,实现了相当的性能,同时更轻便。在我们的工作中,我们引入了变压器模块,以帮助寻找关键点之间的潜在关系。
2.3、HPE中的蒸馏
知识蒸馏(KD)其目的是将教师学到的知识转移到学生模型中。在2D人体姿势估计中,FPD 首先基于沙漏网络经典地使用知识蒸馏。OKDHP介绍了一种在线姿态蒸馏方法,该方法以一个阶段的方式蒸馏姿态结构知识。ViTPose还实现了从大到小的模型知识蒸馏,以证明其知识可转移性。然而,所有以前的蒸馏工作对人体姿态估计忽略了基于热图和基于回归的方法之间的知识转移。在这项工作中,我们第一次提出了一个热图回归蒸馏框架,以从这两个方案中获益。
3、方法
在本节中,我们提出了一种基于蒸馏的人体姿态估计框架DistilPose,其总体框架如图2所示。在我们提出的DistilPose中,教师是基于热图的模型,而学生是基于回归的模型。我们在训练期间将教师模型的热图知识转移到学生模型,并且在推理阶段仅使用更快的学生模型。DistilPose主要由两个模块组成:令牌提取编码器TDE和模拟热图SH。
3.1、Token-distilling Encoder【令牌提取编码器】
以前的工作已经尝试在基于回归的方法中引入热图模型的优点,例如热图预训练,辅助热图损失等。然而,由于输出空间的未对准,预测头不能被对准。这就是为什么这些工作只能在主干上进行知识转移,这给模型带来了有限的性能改进。如图3(a)所示,热图辅助模型过于关注人体以外的区域。因此,我们提出了一个令牌提取编码器(TDE)对齐教师和学生的输出空间,通过引入令牌化。通过引入对齐的标记化特征,将热图知识无损地转移到学生模型。因此,学生模型学习更专注于人体本身的信息,如图3(a)所示。具体来说,对于输入图像,我们根据的大小将其划分为若干块以形成视觉令牌。接下来,我们添加K个空节点作为keypointstoken,其与视觉令牌连接并发送到TDE的几个变压器编码器层。受LVViT 的启发,我们将学生和教师模型之间的视觉标记和关键点标记对齐,以获得教师模型的精细注意力矩阵。如图3(B)所示,TDE中的注意力矩阵可以学习关键点标记与对应位置的视觉标记之间的关系。至于性能改进,TDE使我们的学生模型能够实现比热图辅助训练更高的性能(图中的7.8% ↑)。
待续......