注意力机制（一）SE模块（Squeeze-and-Excitation Networks）

news2025/7/14 8:42:41

Squeeze-and-Excitation Networks（压缩和激励网络）

论文地址：Squeeze-and-Excitation Networks

论文中文版：Squeeze-and-Excitation Networks_中文版

代码地址：GitHub - hujie-frank/SENet: Squeeze-and-Excitation Networks

论文总结部分：

一、论文出发点

二、论文的主要工作

三、Squeeze-and-Excitation模块

3.1 Transformation（Ftr）：转型

3.2 Squeeze:全局信息嵌入

3.3 Excitation:自适应重新校正

3.4 Scale：重新加权

四、模型：SE-Inception和SE-ResNet

五、实验

六、结论

代码实现部分：

一、论文出发点

为了提高网络的表示能力，许多现有的工作已经显示出增强空间编码的好处。而作者专注于通道，希望能够提出了一种新的架构单元，通过显式地建模卷积特征通道之间的相互依赖性来提高网络的表示能力。

这里引用“博文：Squeeze-and-Excitation Networks解读”中的总结：核心思想是不同通道的权重应该自适应分配，由网络自己学习出来的，而不是像Inception net一样留下过多人工干预的痕迹。

二、论文的主要工作

1.提出了一种新的架构单元Squeeze-and-Excitation模块，该模块可以显式地建模卷积特征通道之间的相互依赖性来提高网络的表示能力。

2.提出了一种机制，使网络能够执行特征重新校准，通过这种机制可以学习使用全局信息来选择性地强调信息特征并抑制不太有用的特征。

三、Squeeze-and-Excitation模块

3.1 Transformation（Ftr）：转型

$F_{tr}:X\rightarrow U$ ，经过 $F_{tr}$ 特征图X变为特征图U。

$F_{tr}$ 可以看作一个标准的卷积算子。该卷积算子公式为： $U_{c}=V_{c}*X=\sum_{s=1}^{C'}V_{c}^{s}*X^{s}$ 。

其中：

1. $U=[U_{1},U_{2}...U_{c}]$ ，这里 $U_c$ 指输出特征图的一个单通道2D特征层。

2. $V=[V_{1},V_{2}...V_{c}]$ 表示学习到的一组滤波器核，Vc指的是第c个滤波器的参数，此外 $V_{c}=[V_{c}^{1},V_{c}^{2}...V_{c}^{c'}]$ ，这里 $V_{c}^{s}$ 是指一个通道数为1的2D空间核。

3. $X=[X^{1},X^{2}...X^{c'}]$ ，这里 $X^{s}$ 是指输入特征图的一个单通道2D特征层。

该卷积算子公式表示，输入特征图X的每一层都经过一个2D空间核的卷积最终得到C个输出特征层，组成特征图U。

原文内容如下：

X∈R^(H′×W′×C′)：输入特征图
U∈R^(H×W×C)：输出特征图
V：表示学习到的一组滤波器核
Vc：指的是第c个滤波器的参数
$V_{c}^{s}$ :表示一个2D的空间核
*：卷积操作

3.2 Squeeze:全局信息嵌入

Fsq就是使用通道的全局平均池化。

原文中为了解决利用通道依赖性的问题，选择将全局空间信息压缩到一个信道描述符中，即使用通道的全局平均池化，将包含全局信息的W×H×C 的特征图直接压缩成一个1×1×C的特征向量Z，C个feature map的通道特征都被压缩成了一个数值，这样使得生成的通道级统计数据Z就包含了上下文信息，缓解了通道依赖性的问题。

算子公式如下：

Zc为Z的第c个元素。

3.3 Excitation:自适应重新校正

目的：为了利用压缩操作中汇聚的信息，我们接下来通过Excitation操作来全面捕获通道依赖性。

实现方法：

为了实现这个目标，这个功能必须符合两个标准：

第一，它必须是灵活的（它必须能够学习通道之间的非线性交互）

第二，它必须学习一个非互斥的关系，因为独热激活相反，这里允许强调多个通道。

为了满足这些标准，作者采用了两层全连接构成的门机制，第一个全连接层把C个通道压缩成了C/r个通道来降低计算量，再通过一个RELU非线性激活层，第二个全连接层将通道数恢复回为C个通道，再通过Sigmoid激活得到权重s，最后得到的这个s的维度是1×1×C，它是用来刻画特征图U中C个feature map的权重。r是指压缩的比例。