论文精读 MediaPipe BlazeFace

BlazeFace:Sub-millisecond Neural Face Detection on Mobile GPUs

BlazeFace：基于移动GPUs的亚毫秒神经人脸检测

论文地址：arxiv.org/pdf/1907.05047.pdf

源码地址：GitHub - tkat0/PyTorch_BlazeFace: Unofficial PyTorch implementation of BlazeFace

一、摘要

二、应用

三、介绍

（1）与推理速度有关：

（2）与预测质量相关：

四、AR管道人脸检测

五、模型架构和设计

（1）扩大感受野大小

（2）特征提取器

（3）锚定方案

（4）后期处理

六、实验

附录：BalzeFace 特征提取网络架构

一、摘要

我们介绍BlazeFace，一款为移动GPU推理量身定制的轻量级且性能良好的人脸检测器。它在旗舰设备上以200–1000 FPS的速度运行。这种超实时性能使其能够应用于任何需要准确的感兴趣面部区域作为特定任务模型输入的增强现实管道，如2D/3D面部关键点或几何估计、面部特征或表情分类以及面部区域分割。我们的贡献包括：

一个受 MobileNet V1/V2 启发但不同于MobileNet的轻量级特征提取网络；
一个从单次多盒检测器（SSD）修改而来的GPU友好锚定方案；
以及一个改进的平局分辨率策略，以替代非最大值抑制。

二、应用

所提出的模型对完整图像或视频帧进行操作，可以作为几乎任何与面部相关的计算机视觉应用的第一步，例如2D/3D面部关键点、轮廓或表面几何估计、面部特征或表情分类以及面部区域分割。因此，计算机视觉管道中的后续任务可以根据适当的面部裁剪来定义。结合BlazeFace提供的少数面部关键点估计，还可以旋转该裁剪，使内部的面部居中，缩放标准化，并使滚动角接近零。这消除了任务特定模型中显著平移和轮换方差的要求，从而实现了更好的计算资源分配。我们用一个人脸轮廓估计的具体例子来说明这种流水线方法。在图3中，我们展示了Blaze Face的输出，即预测的边界框和面部的6个关键点（红色），是如何通过应用于略微扩展裁剪的更复杂的面部轮廓估计模型来进一步细化的。详细的关键点产生了更精细的边界框估计（绿色），该边界框估计可以在不运行面部检测器的情况下被重新用于后续帧中的跟踪。为了检测这种计算节省策略的失败，轮廓模型还可以检测面部是否确实存在并在所提供的矩形裁剪中合理对齐。每当违反该条件时，BlazeFace人脸检测器就会再次在整个视频帧上运行。本文中描述的技术正在推动手机上主要的AR自我表达应用程序和AR开发者API。

三、介绍

近年来，深度网络（[4，6，8]）中的各种架构改进实现了实时对象检测。在移动应用程序中，这通常是视频处理管道的第一步，然后是特定任务的组件，如分割、跟踪或几何推断。因此，目标检测模型推理必须尽可能快地运行，更可取的是其性能远高于标准实时基准。我们提出了一种新的人脸检测框架BlazeFace，该框架针对移动GPU上的推理进行了优化，改编自Single Shot Multibox Detector（SSD）框架。我们的主要贡献是：

（1）与推理速度有关：

一种非常紧凑的特征提取器卷积神经网络，在结构上与 MobileNet V1/V2 相关，专为轻型物体检测而设计。
在 SSD 的基础上改进的一种新的GPU友好锚定方案，旨在有效利用GPU。锚（或SSD术语中的先验）是预定义的静态边界框，用作通过网络预测进行调整的基础，并确定预测粒度。

（2）与预测质量相关：

非最大值抑制[4，6，8]的平局分辨率策略，在重叠预测之间实现更稳定、更平滑的平局分辨率。

四、AR管道人脸检测

虽然所提出的框架适用于各种物体检测任务，但在本文中，我们专注于在手机相机取景器中检测人脸。由于焦距和典型的拍摄对象大小不同，我们为前置和后置相机分别构建了模型。

除了预测轴对齐的面部矩形外，我们的BlazeFace模型还产生了6个面部关键点坐标（眼睛中心、耳朵区域、嘴中心和鼻尖），使我们能够估计面部旋转（滚动角）。这使得可以将旋转的面部矩形传给视频处理管道的后期任务特定阶段，减轻了后续处理步骤中对显著平移和旋转不变性的要求（见第5节）。

五、模型架构和设计

BlazeFace模型体系结构是围绕以下四个重要的设计考虑因素构建的。

（1）扩大感受野大小

虽然大多数现代卷积神经网络架构（包括两个MobileNet版本）倾向于在模型图的任何地方都支持3×3卷积核，但我们注意到，深度可分离的卷积计算由其逐点部分主导。在 $s*s*c$ 输入张量上， $k*k$ 深度卷积涉及 $s^{2}ck^{2}$ 乘加运算，而随后到 $d$ 个输出通道的1×1卷积由 $s^{2}cd$ 这样的运算组成，在深度部分的 $d/k^{2}$ 因子内。

例如，在实践中，在具有Metal Performance Shaders实现[1]的Apple iPhone X上，

对于56×56×128张量，16位浮点运算中的3×3深度卷积需要0.07ms，
而从128到128个通道的随后的1×1卷积需要0.3ms，慢4.3倍。

这一观察结果表明，增加深度部分的内核大小是相对便宜的。我们在模型架构瓶颈中使用了5×5个内核，用内核大小的增加来换取达到特定感受野大小所需的瓶颈总量的减少（图1）。

MobileNet V2 瓶颈包含由非线性分隔的随后的深度增加扩展和深度减少投影逐点卷积。为了适应中介张量中较少的通道数量，我们交换了这些阶段，以便瓶颈中的剩余连接以“扩展”（增加）通道分辨率运行。

最后，深度卷积的低开销使我们能够在这两个逐点卷积之间引入另一个这样的层，从而进一步加速感受野大小的进展。这形成了 Double BlazeBlock 的本质，它被用作BlazeFace的更高抽象级别层的选择瓶颈（见图1，右）。

（2）特征提取器

对于一个特定的例子，我们关注的是前置摄像头模型的特征提取器。它必须考虑较小的物体尺度范围，因此计算要求较低。提取器采用128×128像素的RGB输入，由一个2D卷积组成，然后是5个单BlazeBlock和6个双BlazeBlock（完整布局见附录a中的表4）。最高张量深度（通道分辨率）为96，而最低空间分辨率为8×8（与SSD相比，SSD将分辨率一直降低到1×1）。