MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起。总体可分为P-Net、R-Net、和O-Net三层网络结构。P-Net是快速生成候选窗口,R-Net进行高精度候选窗口的过滤和选择,O-Net是生成最终边界框和人脸关键点。该模型用到了图像金字塔、边框回归、非最大值抑制等技术。
MTCNN实现流程
所提出的CNNs包括三个阶段。在第一阶段,它通过浅CNN快速产生候选窗口。然后,通过更复杂的CNN细化窗口以拒绝大量的非人脸窗口。最后,使用功能更强大的CNN来细化结果并输出面部标志点位置。
构建图像金字塔
给定一幅图像,首先将其调整为不同比例以构成图像金字塔,作为接下来三个级联网络的输入。
P-Net
利用一个全卷积网络,来获得候选框和边界框回归向量。然后利用预测的边界框回归向量修正候选框。最后采取非极大值抑制对高度重合的候选框进行合并。
P-Net的输入是12x12的图像。这些训练样本可以通过滑动窗口或随机采样方