Learning RoI Transformer for Oriented Object Detection in Aerial Images
0.摘要
航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务,因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时,基于水平建议的普通目标检测方法往往会导致感兴趣区域(Region of interest, RoIs)与目标之间的不匹配。这就导致了最终目标分类置信度与定位精度之间的常见偏差。在本文中,我们提出了一个RoI Transformer来解决这些问题。RoI Transformer的核心思想是对RoI进行空间变换,并在定向包围框(OBB)注释的监督下学习变换参数。RoI Transformer是轻量级的,可以很容易地嵌入到检测器中,用于定向对象检测。简单地将RoI Transformer应用于light-head RCNN 已经在两个常见且具有挑战性的航空数据集上取得了最先进的性能,即DOTA和HRSC2016,检测速度的降低可以忽略。当定向边界框注释可用时,我们的RoI Transformer超过了可变形的位置敏感 RoI pool-ing。大量的实验也验证了我们的RoI Transformer的灵活性和有效性。
1.介绍
(1)背景
水平框检测会造成边界框和目标的不一致性,尤其是当目标密集分布时。由于航空影像目标方向的多样性,使用有限方向的RRoIs很难与所有的目标都正确匹配,并且多方向的RRoIs还会造成计算的高度复杂性。空间变换、形变卷积和RoI池化常被用来处理几何变形,并且不涉及标注的旋转边界框。在航空影像中,提取具有旋转不变性的区域特征,对于消除区域特征和目标的不匹配问题是非常重要的。
(2)本文研究的主要内容:
提出了RoI Transformer的模块结构,通过标注RRoI的监督学习和基于位置敏感对齐的特征提取,旨在利用双阶段框架实现密集旋转目标的检测。它由两部分组成:
第一个是RRoI学习器,它学习从hroi到RRoI的转换。
第二个是旋转位置敏感RoI Align,从RRoI中提取旋转不变特征,用于后续的对象分类和位置回归。
(3)本文研究的主要贡献:
- 我们提出了一个有监督的旋转RoI学习器,它是一个可以将水平RoI转换为RoI的可学习模块。该设计不仅可以有效缓解RoIs与对象之间的错位,还可以避免为定向对象检测而设计的大量锚点。
- 设计了用于空间不变特征提取的旋转位置敏感感兴趣区域对齐模块,可以有效地促进目标分类和位置回归。当使用light-head RoI-wise操作时,保证了效率和低复杂性。
- 我们在几个公共大规模数据集上实现了最先进的性能,用于航空图像中的定向目标检测。实验还表明,所提出的RoI Transformer可以很容易地嵌入到不同的主干中,并显著提高了检测性能。
2.相关工作
2.1. 定向边框回归
定向目标检测是一般水平目标检测的延伸。该任务是利用方向信息对目标进行定位和分类,主要采用基于区域建议的方法进行处理。基于HRoI的方法[15,37]通常使用普通的RoI warp从HRoI中提取特征,并回归相对于地面真实值的位置偏移。基于HRoI的方法存在区域特征与实例不匹配的问题。基于RRoI的方法[30,26]通常使用旋转RoI翘动(rotate RoI Warping)从RRoI中提取特征,并回归相对于RRoI的位置偏移量,可以在一定程度上避免误差问题。然而,基于RRoI的方法涉及生成大量旋转的提案。[26]对轮换提案采用[27]中的方法。SRBBS[27]很难嵌入到神经网络中,旋转生成提案会花费额外的时间。[30,43,41,1]在RPN[32]中采用了旋转锚的设计。然而,由于锚点数量的急剧增加(num scales×num aspect ratios×num angles),该设计仍然很耗时。例如,在一个位置设置3 × 5 × 6 = 90个锚。大量的锚点增加了网络中参数的计算量,同时也降低了建议与ground truth匹配的效率。此外,由于存在大量冗余的旋转锚点,定向包围框之间的直接匹配比水平包围框之间的直接匹配更难。因此,在旋转锚的设计中,[30,24]都采用了松弛匹配策略。有一些锚点在任何真实情况下都没有达到0.5以上的IoU,但它们被分配为True Positive样本,这仍然会导致不对齐的问题。在这项工作中,我们仍然使用水平锚。不同的是,当生成hroi时,我们通过轻全连接层将它们转换为rroi。基于这种策略,没有必要增加主播的数量。并且可以获得大量精确的rroi,这将促进匹配过程。因此,我们直接使用OBBs之间的借条作为匹配标准,可以有效地避免不对中问题。
2.2 空间不变特征提取
CNN具有平移不变性,但在旋转和尺度变化方面表现较差。对于图像特征提取,提出了空间变压器[14]和可变形卷积[5]来模拟任意变形。他们从目标任务中学习,没有额外的监督。对于区域特征提取,提出了可变形RoI池化[5],该算法通过对RoI池化采样网格进行偏移学习实现。与常规RoI翘曲相比,它可以更好地在实例级对变形进行建模[8,10,4]。STN和可变形模块被广泛应用于场景文本和航空图像识别领域[40,33,19,34,39]。航空图像中目标检测存在较多的旋转和尺度变化,很少有非刚性变形。因此,我们的RoI Transformer仅对刚性空间变换建模,该空间变换以(dx, dy, dw, dh, dθ)的格式学习。然而,与可变形的RoI池化不同,我们的RoI Transformer在地面真相的监督下学习偏移量。RRoIs还可以用于进一步的旋转边界框回归,这也有助于提高目标定位性能。
2.3 轻roi操作
在两阶段算法中,由于计算是不共享的,所以roi操作是效率的瓶颈。为了解决这一问题,提出了Light-head R-CNN[17]算法,通过使用更大的可分离卷积来获得薄特征。它还采用PS RoI池[4]进一步降低特征图的维数。在维数为10的池化特征上采用单一的全连通层,可以显著提高两阶段算法的速度。在航拍图像中,存在实例数量较大的场景。例如,单个1024 × 1024映像上可能有超过800个实例。我们的方法类似于可变形RoI池[5],其中进行两次RoI操作。为了保证效率,还采用了light-head设计。
3. RoI Transformer
在本节中,我们将详细介绍我们提出的RoI Transformer,它包含两个部分,RRoI Learner 和
RRoI Warping。RRoI Learner是一个PS RoI Align,后面是一个维度为5的全连接层,它回归了相对于hroi的旋转地面真理(rgs)的偏移量。RRoI Warping对旋转区域特征进行变形,以保持旋转不变性。对于端到端训练,这两层都是可微的。其架构如图2所示。
3.1. RRoI Learner
RRoI学习器的目标是从水平roi的特征图中学习旋转roi。假设我们有n个HRoI,用{Hi}表示,格式为(x, y, w, h),用于预测HRoI的二维位置、宽度和高度,对应的特征映射可记为{Fi}。由于在理想情况下,每个HRoI都是RRoI的外部矩形,我们试图通过使用全连接层从每个特征映射Fi推断RRoI的几何形状。我们首先给出相对于一般rroi的偏移的回归目标为
其中(xr, yr, wr, hr, θr)是表示RRoI的位置、宽度、高度和方向的堆叠向量,(x∗,y∗,w∗,h∗,θ∗)是有向包围盒(OBB)的地面真值参数。为了便于计算,用mod来调整角偏移目标t * θ在[0,2 π)内。的确,相对于HRoI的回归偏移的目标是Eq.(1)的特殊情况,如果θ∗= 3π 2。一般相对偏移量如图3所示为例。
为了推导式(1),需要将OBB的坐标从全局坐标系转换为局部坐标系(例如x1O1y1)。从数学上讲,全连接层为每个特征映射Fi by t = G(F;Θ),(2)
其中G表示全连通层,Θ是G的权重参数,F是每个HRoI的特征图。在训练过程中,我们需要匹配输入的HRoIs和定向包围盒(obb)的ground truth。为了提高效率,将HRoI与轴向包围框进行了基于原始地面真实值的匹配。一旦HRoI与OBB的ground truth相匹配,我们根据Eq.(1)中的定义直接设置t *。我们使用平滑L1损失[9]函数作为回归损失。对于每一次前向传递中的预测t,我们将其从偏移量解码为RRoI参数。也就是说,我们提出的RRoI学习器可以从HRoI特征图F中学习RRoI的参数。
3.2. RRoI Warping
得到RRoI参数后,可以提取旋转不变的深度特征,用于RRoI翘曲定向目标检测。在这里,我们提出了旋转位置敏感(RPS) RoI对齐模块作为具体的RRoI扭曲,因为我们的基线(更多细节在第2.3节)是Light-Head R-CNN[17]。给定形状为(H, W, K × K × C)的输入特征图D和RRoI (xr, yr, wr, hr, θr),其中(xr, yr)表示RRoI的中心,(wr, hr)表示RRoI的宽度和高度。θr给出了RRoI的方向。RPS RoI Align将旋转后的RoI分成K × K个bin,输出形状为(K, K, C)的特征图Y。对于输出通道C(0≤C < C)的索引为(i, j)(0≤i, j < K)的bin,我们有
其中Di,j,c是K × K × c特征映射中的一个特征映射。从输入到输出的通道映射与原来的位置敏感RoI池[4]相同。n × n是箱子中采样位置的个数。bin(i,j)表示坐标集{i wrk +(sx+ 0.5) wrk×n;Sx = 0,1,…N−1}×{j HRK +(sy +0.5) hrk×n;Sy = 0,1,…N−1}。对于每个(x, y)∈bin(i, j),它被Tθ转换为(x ', y '),其中
(x ', y ')为
通常,式(3)由双线性插值实现。
3.3. RoI Transformer for Oriented Object Detection
RRoI leaner和RRoI warping的组合形成了RRoI Transformer(RT)。它可以用来代替正常的RoI warping操作。来自RT的池化特征是旋转不变的。此外,RRoI为以后的回归提供了更好的初始化,因为与匹配的HRoI相比,匹配的RRoI更接近RGT。如前所述,RRoI是一个包含5个元素(xr, yr, wr, hr, θr)的元组。为了消除歧义,我们用h表示RRoI的短边,用w表示长边。选择垂直于h且落在[0,π]的方向作为RRoI的最终方向。在所有这些操作之后,避免了歧义。此外,这些操作还需要减少旋转变化。
(1)IoU between Polygons
在匹配RRoI和RGT时,我们仍然使用IoU作为标准。如果任何RGT的RRoI的欠条超过0.5的阈值,则被认为是真阳性(TP)。对于RRoI和RGT之间的IoU的计算,我们使用式(5)如下所示。
它与水平边界框之间的IoU计算形式类似。唯一的区别是,rroi的IoU计算是在多边形内执行的。Br表示RRoI的包围框。Bgt代表基本真理的边界框。面积是计算任意多边形面积的函数。
(2)Targets Calculation
对RRoI进行翘曲后,得到旋转不变性特征。然后我们加入一个2048维的全连通层(fc),再加入两个兄弟层(fcs),进行最终的分类和回归(如图2)。分类目标与之前的工作相同。然而,回归目标是不同的。为了保持一致性,偏移量也需要是旋转不变的。为了达到这一目标,我们使用图3所示的相对偏移量。主要思想是使用绑定到RRoI的坐标系,而不是图像进行偏移量计算。
4.实验
略
5.结论
本文提出了一个RoI Transformer模块来对几何变换进行建模,该模块可以有效地避免区域特征与物体之间的错位问题。该设计对具有挑战性的DOTA和HRSC上的面向对象检测带来了显著的改进,而计算成本的增加可以忽略不计。通过与可变形RoI池化的综合比较,验证了在有定向边界框标注的情况下,该模型更为合理。