人脸检测
摘要
在非受控人脸检测方面已经取得了巨大的进步,但低计算成本和高精度的高效人脸检测仍然是一个开放的挑战。作者提出了两种简单而有效的方法:样本再分配(SR)和计算再分配(CR)。在WIDER FACE上进行的大量实验表明,所提出的SCRFD家族具有SOTA的效率和精度权衡。特别是,SCRFD-34GF的性能比最好的竞争对手TinaFace高出3.86%,同时在VGA分辨率图像的gpu上比TinaFace快3倍以上。
1. 简介
图像分辨率的影响
直接将分类网络的主干用于目标检测是次优的。最近的CR-NAS重新分配了不同分辨率之间的计算。这基于观察到计算在不同分辨率之间的分配对有效感受野(ERF)有很大影响,并影响检测性能。在BFbox中,由于COCO和WIDER FACE之间存在巨大的尺度分布差距,因此观察到相同的主干在COCO上的一般目标检测任务和WIDER FACE上的人脸检测任务之间表现不一致。基于这一观察,BFbox设计了一个面向人脸的搜索空间,包括主干和颈部。ASFD发现在目标检测中常用的特征增强模块,在人脸上并不一定有效。
本文中探索了在固定的VGA分辨率(即640×480)下进行高效的人脸检测,而不是使用大尺度进行测试,以降低计算成本。在这种尺度设置下,WIDER FACE中的大多数人脸(78.93%)小于32×32像素,因此它们由浅层阶段预测。为了在这些浅层阶段获得更多的训练样本,作者首先提出了一种通过**大型裁剪策略进行样本再分配(SR)**的方法。
2. TinaFace 回顾
a. 不同尺度精度图
b. 不同stage的计算量
68%计算量主要来自于1/4 scale的head部分,head部分占了整个网络的79%
3. 方法
基于对TinaFace的上述分析和以下精心的实验,作者在人脸检测设计上提出了以下效率改进,条件是(1)测试尺度限制在VGA分辨率(640)内,(2)步幅为4的特征图上没有锚点。具体而言,作者在步幅为8的特征图上铺设{16,32}的锚点,在步幅为16的特征图上铺设{64,128}的锚点,在步幅为32的特征图上铺设{256,512}的锚点。由于测试尺度较小,大多数人脸将在步幅为8的位置预测。因此,作者首先调查了不同尺度特征图之间正训练样本的再分配(第4.1节)。然后,作者探索了不同尺度特征图之间以及不同组件(即主干、颈部和头部)之间的计算再分配,给定预定义的计算预算。
3.1 样本采样
在训练数据增强期间,从原始图像中裁剪出正方形块,其随机大小来自原始图像短边的[0.3,1.0]集合。为了为步幅8生成更多的正样本,作者将随机大小范围从[0.3,1.0]扩大到[0.3,2.0]。当裁剪框超出原始图像时,平均RGB值填充缺失的像素。如图4(a)所示,在使用所提出的大型裁剪策略后,32以下的人脸更多。此外,尽管在大型裁剪策略下会有更多极小的人脸(例如<4×4),但由于锚匹配不成功,这些地面真实人脸将在训练期间被忽略。如图4(b)所示,在一个时期内,尺度为16的正锚点从72.3K增加到118.3K,尺度为32的正锚点从95.9K增加到115.1K。通过将更多训练样本重新分配到小尺度,检测微小人脸的分支可以得到更充分的训练。
3.2 模型结构搜索
xxxx省略
4. 实验
结果
其他模型只是用原始预训练的模型,并没有在VGA尺度上微调。那和SCRFD比较应该不公平。
消融实验
小尺寸采样策略提点明显。