Centralized Feature Pyramid for Object Detection解读

news2026/2/9 4:40:30

Centralized Feature Pyramid for Object Detection

问题

主流的特征金字塔集中于层间特征交互，而忽略了层内特征规则。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示，但它们忽略了对密集预测任务非常重要的被忽略的角点区域。

核心思想

提出了一种基于全局显式集中式特征规则的中心化特征金字塔（CFP）对象检测方法

空间显式视觉中心策略，其中使用轻量级MLP来捕捉全局长距离依赖关系，并使用并行可学习视觉中心机制来捕捉输入图像的局部角区域。
以自上而下的方式对常用特征金字塔提出了一种全局集中的规则，其中使用从最深层内特征获得的显式视觉中心信息来调整正面浅层特征。

方法

Centralized Feature Pyramid（CFP）

作者提出的CFP不仅能够捕获全局长距离依赖关系，而且能够实现全面和差异化的特征表示

具体的流程如下：

将输入图像馈送到骨干网络，以提取五层的特征金字塔X，其中特征X $_{i}$ （i=0，1，2，3，4）的每一层的空间大小分别为输入图像的1/2，1/4，1/8，1/16，1/32。
特征金字塔的顶层（即X4）使用了一个EVC结构：提出了一种lightweight MLP架构来捕获X $_{4}$ 的全局长距离依赖关系(与基于多头注意机制的transformer encoder相比，轻量级MLP架构不仅结构简单，而且体积更轻，计算效率更高)；一个可学习的视觉中心机制与轻量级MLP一起用于聚集输入图像的local corner regions。基于所提出的ECV，为了使特征金字塔的浅层特征能够同时以高效模式从最深特征的视觉集中信息中受益，其中从最深的层内特征获得的显式视觉中心信息用于同时调节所有的前浅特征（使用GCR调节X3和X2）。
这些特征聚合到一个解耦的头部网络中进行分类和回归。

Explicit Visual Center (EVC)

EVC主要由两个并行连接的块组成，lightweight MLP 和 LVC。这两个块的结果特征图沿着信道维度连接在一起，作为用于下游识别的EVC的输出。在X4和EVC之间，Stem块用于特征平滑，而不是直接在原始特征图上实现。Stem块由输出通道大小为256的7×7卷积组成，随后是批量标准化层和激活功能层。
在这里插入图片描述

Lightweight MLP

本文提出的轻量级 MLP 由两个残差模块组成：基于深度可分离卷积的模块（增加特征的表示能力并减少计算量）和基于通道MLP的模块。其中，MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath 操作以提高特征泛化和鲁棒性。与空间 MLP 相比，通道 MLP 不仅可以有效地降低计算复杂度，还可以满足通用视觉任务的要求。

与空间 MLP 相比，通道 MLP 不仅可以有效地降低计算复杂度，还可以满足通用视觉任务的要求。最后，两个模块都实现了通道缩放、DropPath 和残差连接操作。

Learnable Visual Center (LVC)

LVC 是一个具有内在字典的编码器，由一个固有的码本（B＝｛b1，b2，…，bK｝，其中N＝H×W是输入特征的总空间数，其中H和W分别表示特征图的高度和宽度的空间大小）和一组可学习的视觉中心比例因子（S＝{s1，s2，…，sK}）组成。

LVC 的处理过程包括两个主要步骤：

使用一组卷积层对输入特征进行编码，并使用 CBR 块进行进一步处理；
将编码后的特征通过一组可学习的比例因子与固有码本相结合。
为此，我们使用一组比例因子s按照顺序地使xi和bk映射相应的位置信息。整个图像中关于第k个码字的信息可以通过以下方式计算（可以看成一个softmax的值当作权重因子）：

其中，xi是第i个像素点，bk是第k个可学习的视觉码字，sk是第k种比例因子也是设置的可学习的参数。 xi− bk是关于相对于码字的每个像素位置的信息。K是视觉中心的总数。