Infrared Small Target Detection with Scale and Location Sensitivity
在本文中,着重于以更有效的损失和更简单的模型结构来提升检测性能。
问题一
红外小目标检测(IRSTD)一直由基于深度学习的方法主导。然而,这些方法主要集中在复杂模型结构的设计上,以提取有区别的特征,而对IRSTD的损失函数的研究不足。例如,广泛使用的交并(IoU)和Dice损失对目标的尺度和位置缺乏敏感性,限制了检测器的检测性能。为了获得更好的检测性能,研究人员开发了几种损失函数。例如,对抗训练的损失、目标边缘检测的边缘损失以及目标和背景图之间的似然性损失。然而,这些损耗是针对特定的网络架构而定制的,限制了它们更广泛的应用。与这些专用损失不同,箱级(box-level)IRSTD采用了GIoU和CIoU损失。然而,这些IoU变体损失仍然缺乏尺度和位置的敏感性。
创新点
与这些损失相比,本文制定了一个更适合IRSTD的一般损失函数。它可以区分不同尺度和位置的目标,使不同的探测器获得更好的探测性能。提出了一种新的尺度和位置敏感(SLS)损失来解决现有损失的局限性,有助于检测器区分不同尺度和位置的目标:
1)对于尺度敏感,根据目标的预测尺度和地面真实尺度来计算IOU损失的权重。预测尺度和真实尺度之间的差距越大,检测器将越关注。基于目标尺度计算IoU损失的权重,以帮助检测器区分不同尺度的目标;
2)对于位置敏感,设计了一个位置惩罚的基础上预测和地面真实的中心点的目标,以帮助检测器更精确地定位目标。与传统的L1和L2距离相比,所设计的定位损失在不同的定位误差下产生相同的值,使得检测器能够更精确地定位目标。
问题二
为了获得更有效的特征,大量的工作都集中在模型结构的设计上。Li 等人定制了一个密集嵌套的交互式模块,以实现多层特征融合。Zhang等人利用Taylor有限差分和方向注意策略提取目标的边缘信息。然而,这种复杂的模型结构不仅带来了更多的计算成本,但由于缺乏有效的损失函数,仍然受到中等的检测性能。
创新点
设计了一个简单的面向普通U-Net的多尺度头(MSHNet),它为每个输入产生多尺度预测。通过将SLS损失应用于预测的每个尺度,以更少的时间消耗实现了SOTA性能。
网络结构
1. 尺度和位置敏感(SLS)损失
尺度和位置敏感(SLS)损失,表示为LSLS,旨在处理现有损失的尺度和位置的不敏感性。它包括尺度敏感损失和位置敏感损失。从形式上讲,
其中LS和LL分别表示尺度敏感损失和位置敏感损失。下面,从尺度敏感性损失开始详细介绍SLS损失,这是基于常用的IoU损失。
(1)尺度敏感损失
假设Ap和Agt是目标的预测像素和地面实况像素的集合,它们之间的IoU损失可以公式化为:
虽然已经被广泛用于IRSTD中,但IoU损失对目标的尺度和位置不敏感。通过为IoU损失提供权重来实现尺度敏感损失:
其中Var(·,·)是获取所提供标量的方差的函数。
(2)位置敏感损失
位置敏感损失的计算是基于预测和地面实况中心点的目标。给定预测像素组Ap和地面实况像素组Agt,通过对所有像素的坐标求平均来获得Ap和Agt的对应中心点,其分别表示为cp =(xp,yp)和cgt =(xgt,ygt)。然后,将这两个中心点的坐标转换到极坐标系中。以cp为例,极坐标系中对应的距离dp和角度θp为:
位置敏感损失可通过以下方式获得:
其中dgt和θgt分别是极坐标系中cgt的距离和角度。定位损失有效地区分了大多数不同的定位误差,使检测器对不同类型的定位误差敏感,并更准确地定位目标。
2. MSHNet检测器
在本节中,将介绍MSHNet检测器,它是通过在普通U-Net中引入一个简单但有效的多尺度头来实现的。MSHNet的概况如图4所示。以常用的U-Net作为骨干网。在解码器中具有不同尺度的特征图被馈送到不同的预测头以获得不同尺度的预测。最后,将来自不同特征图的所有预测进行级联(如果需要,在级联之前采用上采样)以获得最终预测。在训练阶段,SLS损失被应用于每个预测。在下文中,首先详细描述多尺度头。然后介绍了SLS损耗在MSHNet中的应用。
(1)Multi-Scale Head
设Xi为U-Net解码器中第i个尺度的特征映射,其中Hi ×Wi为空间大小,Ci为通道数。根据现有作品中的常见设置,U-Net中有4个尺度,这意味着i ∈ {1,2,3,4}。
第i个预测pi ∈ RHi×Wi×1由相应的预测头获得,该预测头由卷积层和sigmoid激活函数实现:
注意,不同的预测头具有它们自己的专用参数。最终预测p 是基于所有4个预测获得的:
(2)Training MSHNet with SLS Loss
由于SLS损失对尺度敏感,并且MSHNet的预测中有几个尺度,因此将SLS损失应用于所有预测。SLS损失对不同的尺度产生不同的损失值,即使它们共享相同的空间布局。假设,通过将SLS损失应用于不同的尺度,具有不同尺度的目标可以吸引检测器的不同注意力,从而导致整体上更好的检测性能。
设pgt是地面真值标签。MSHNet的最终损失是: