Latent-OFER：使用潜在向量进行检测、屏蔽和重建，以实现遮挡的面部表情识别

news2025/6/29 22:56:46

论文：Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recognition

摘要：所提出的方法Latent-OFER可以检测遮挡，将面部被遮挡的部分恢复为未被遮挡的部分，并识别它们，从而提高 FER 准确性。

创新点

（1）提出了一种与表情相关的特征提取器，它使用空间注意力为特定的面部特征分配更高的权重，从而能够识别 FER 的关键位置，可以从ViT潜在空间检索与表达相关的潜在向量，以使用这些位置作为关键值来提取有价值的信息。

（2）提出ViT-SVDD，一种针对基于ViT的网络进行优化的基于补丁的遮挡检测模块，作为自监督局部分类器，ViT-SVDD模块仅针对未遮挡面部图像的潜在向量进行训练，该方法准确地对看不见的物体造成的遮挡进行分类，以便后续重建。

（3）提出了一种混合重建网络，它将ViT和CNN架构的优点与自组装层和语义一致性损失相结合，以生成自然且表情丰富的面部图像。

网络架构

如图 2 所示，提出了多阶段方法来解决 OFER，包括检测、屏蔽和重建遮挡以识别面部表情。将面部图像划分为多个块，将每个块分类为遮挡或未遮挡，并重建被遮挡的块以进行去遮挡。随后，面部图像重建过程采用遮挡检测器生成的遮挡图像。利用重建的图像和表情相关的潜在向量来预测面部表情。该方法通过协作学习从图像重建过程中提取的 ViT 潜在向量和现有的 CNN 特征来提高识别精度。

（1）遮挡检测模块：ViT-SVDD

使用了基于ViT的重建方法，提出了一种专门针对 ViT 优化的中级异常检测器。划分图像以匹配 ViT patch的大小并创建 ViT 潜在向量。这些patch使用信息特征进行编码，以产生 ViT 潜在向量。为了生成未遮挡补丁的最小特征空间，使用了深度 SVDD 算法。一类深度 SVDD 采用二次损失来惩罚每个网络表示的距离。该目标定义为

网络学习参数 W，使得数据点紧密映射到超球面的 c。为了确定patch是否被遮挡，计算了每个patch的新输入信息与特征空间中心 c 之间的距离。如果距离超过预定义的半径，则相应的块被分类为被遮挡。半径的最佳值在 SVDD 过程中自动确定。通过这个过程，可以对看不见的物体进行遮挡块检测。所提出的 ViT-SVDD 方法允许使用遮挡patch注释来验证合成图像的性能。通过检测遮挡块，可以提高重建方法的准确性。

（2）图像重建模块：混合重建网络

面部图像重建过程采用遮挡检测器生成的遮挡图像。混合重建网络旨在通过融合基于 ViT 和基于 CNN 的网络进行协作。通过这种机制，充分利用了 ViT 和 CNN 的优势。基于ViT的方法采用16×16块作为输入图像；然而，使用遮挡检测器的输出作为输入，因为图像已经被遮挡检测器分割成块单元。

a.网络结构

基于 ViT 的方法对输入补丁进行编码并积极嵌入所有标记。被遮挡的斑块重建是通过与其他斑块的相关来实现的。ViT 具有低归纳偏差和高自由度，使其能够在不同的遮挡形状、位置和面部姿势的情况下生成可靠的图像。结合 ViT 和 CNN，网络由 U-Net 架构组成。此外，在编码器内部添加了一个自组装层来生成详细的表示。这种多结构方法有效地结合了 ViT 和基于 CNN 的网络的优势，生成能够很好地表示面部表情的高质量面部图像重建。

b.自组装层

实现了自组装层来改进 FER 的图像重建。基于人脸左右特征对称的概念，在重建遮蔽区域时使用了水平翻转图像对应位置中存在的特征信息。通过合并来自三个来源的信息来扩展生成过程中使用的候选补丁的范围：先前生成的补丁、未遮蔽区域中最相似的补丁以及位于水平翻转图像的相应位置的补丁。在这个过程中，被遮蔽的区域包含了ViT网络的重建结果。根据与当前补丁的相似度值为每个分配权重。权重计算基于互相关度量：

其中p表示遮罩区域中的补丁，补丁px是比较目标。p和px之间的相似度值用S表示。

生成补丁值pi：

其中，ps表示相对于p对称定位的补丁值，并通过考虑外围补丁进行平均。Ssym 通过 pi 和 psi 计算为方程 (2)。另外，pk是未屏蔽区域中与p最相似的补丁，并且Sknown被计算为S(pi, pki )。进一步地，pi-1表示先前生成的patch，Si-1由S(pi,pi-1)获得。将相似度值S标准化后作为权重。

在图 3 中，(a) 中的红色补丁是 pi，它是 pk（橙色补丁）、pi−1（黄色补丁）和 ps（(b) 中的蓝色补丁）的组合结果。因为 p1 没有先前生成的补丁，所以 S0 为零。在某些情况下，例如侧面图像，对称位置的面片可能与生成面片无关。因此，在这种情况下 Ssym 的值很小，并且很少用于生成补丁。

c.目标

图像重建的目的是填充被遮蔽的部分，为FER提供补充信息。为了实现这一目标，引入了语义一致性损失，可以在保持重建损失 Lre、一致性 Lc、特征补丁鉴别器 Ldf 和补丁鉴别器 Ld的同时优化任务。

语义一致性损失Lsc强调面部表情属性。Lsc具有减少组内变异性的作用，可以定义为：

pc(zgt)表示c在ground-truth图像中的预测概率，pc(zrec)表示c在重建结果中的预测概率。预测的概率分布是通过预训练的 FER 网络获得的。

训练过程中，总体损失函数定义为：

其中λre、λc、λsc、λd分别表示重建、一致性、语义一致性、鉴别器损失的权衡参数。此外，FER 网络使用相同的特征提取架构进行训练，使用有关真实标签的概率分布和 FER 的预测。

（3）面部表情识别网络

所提出的 FER 网络被设计为基于注意力的模型，用于预测面部表情。采用了空间和通道注意机制，使用基于注意力的模型获得了细化的特征图和 CAM（类激活映射）。此外，使用 CAM 从 ViT 获得了表情相关的潜在载体。Latent-OFER 协同使用基于 CNN 的特征和基于 ViT 的潜在向量。因此，该模型表现更好。

表达相关的 ViT 潜在载体。所提出的方法仅采用与表达相关的潜在向量而不是整个潜在空间来提高 FER 性能。在重建过程中，通过嵌入输入图像来提取基于 ViT 的潜在向量。使用 CAM 来识别 FER 图像中的空间重要区域，并通过 CNN 生成类激活图。

使用空间注意力权重超过前50%的区域。从整个 ViT 潜在向量中检索，并读取相应的值。激活图用于识别与表情相关的潜在向量，如图 4 所示。该过程能够选择与 FER 相关的位置。