空间域注意力机制(Spatial Attention)是深度学习中一种重要的注意力机制,用于在处理如图像或视频数据时聚焦于特定区域,以提高模型的性能和效率。举例来说,首先,卷积神经网络处理一张图像,经过特征提取后得到特征图。然后,空间域注意力机制就可以通过计算每个像素点的注意力权重,集中模型的注意力在图像中最重要的区域,例如目标的周围或者有信息丰富的区域。这种机制使得模型能够更有效地处理复杂的视觉任务,提高其性能和泛化能力。
一般来说,空间注意力机制通过得到每个空间位置的注意力权重,从而达到增强有用的空间位置特征表示,抑制无效的空间位置特征表示。如图1所示,空间域注意力机制可以通过以下步骤实现:
1. 输入:假设输入特征图的尺寸为C×H×W,其中C是通道数,H和W分别是高度和宽度。
2. 特征映射:将每个特征图中的位置映射到一个注意力分数空间。这个过程通常使用一个小型的卷积核或者全连接层来实现,其目的是为每个空间位置生成一个对应的注意力权重。
3. 权重计算:计算每个位置的注意力权重,然后再使用激活函数(如softmax)将这些注意力分数归一化为概率分布,以确保每个位置的注意力权重总和为1。这样做可以使得模型能够集中精力处理最重要的部分,而忽略不太重要的部分。
4. 特征加权融合:将这些权重应用于原始的特征图,得到加权后的特征图,这样就实现了增强注意力权重高的地方的特征表示,而抑制了注意力权重低的地方的特征表示。
下面分享几篇经典的空间域注意力机制的论文。
1.Spatial Transformer Networks(STN)
论文地址:https://arxiv.org/abs/1506.02025
本文提出了一个空间转换器模块(ST)。与池化层不同的是,空间转换模块是根据不同的输入样本去学习恰当的转换方式。也就是说,空间转换模块是动态的对图像(或特征图)进行空间转换。这使得空间转换器不仅可以选择图像中最重要的区域,还可以将这些区域转换为预期的形式,以简化后续层的识别。
如图2所示,空间转换模块包含了三个部分。一是Localisation Network,二是Grid generator,三是Sampler。具体来说,Localisation Network由卷积网络组成,主要是去学习仿射变换矩阵。Grid generator对输入特征和输出特征进行空间位置的转换(如图3所示),其中,(,)代表输入特征位置,(,)代表输出特征位置,(其中输出特征位置是确定的)。由于上一步中通过空间转换后(,)值不一定是整数,比如说转换后为(2.3,3.4),这会导致输出特征位置的像素值不能确定。所以,Sampler主要是对上一步中转换后不为整数的位置做进一步的采样来确定其对应输出特征的像素值。这个采样方法有很多,一般来说,就是通过距离(,)值周围最近的几个点的像素值来确定对应输出特征的像素值。
此外,文章中还提到多个ST块并行的方式可以关注到图像的不同区域。如图4所示,每个框代表一个ST块关注的区域,我们可以看到不同的框关注图像的区域都是不同的。
2.Non-local Neural Networks
论文地址:https://arxiv.org/abs/1711.07971
文章中提出捕获远程依赖关系在深度神经网络中是非常重要的。然而,由于卷积运算和循环运算都处理空间或时间上的局部邻域,要通过反复运用这些操作(比如说多次卷积)才能够捕获远程依赖关系,但是这也会造成很多的问题(比如计算效率低,距离太远也不能够很好地捕获)。所以,文章中提出了一个non-local block(如图5所示)用于更好地去捕获远程依赖关系。下面就来分析non-local block的实现过程,。
以图像来说,假设输入特征为(其中,为通道数,为高,为宽)。
1. 首先使用3个线性层来分别对的通道数进行降维(1024 -> 512)分别记为,,。
2. 然后,将除通道数外的维度拉成一条向量(),并对和的转置使用矩阵乘法得到注意力分数矩阵(),再对的每一行使用softmax操作得到每个像素点对于其他像素点的相关性。
3. 最后,将注意力分数矩阵与做矩阵乘法,然后再用卷积操作对通道进行升维, 再与输入特征相加,即得到最终的输出特征。
总之,空间域注意力机制可以应用在各种计算机视觉任务中,例如目标检测,图像分割等。它不仅使模型能够专注于图像中最关键的部分,还能够提升模型的表达能力和性能。