此前出了目标检测算法改进专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读发表高水平学术期刊中的 SCI论文,并对相应的SCI期刊进行介绍,帮助大家解答疑惑,助力科研论文投稿。解读的系列文章,本人会进行 创新点代码复现,有需要的朋友可关注私信我获取。
一、摘要
在目标检测中,标签分配的最新进展主要是为每个ground-truth (gt)目标独立定义正/负训练样本。在本文中,我们创新地从全局的角度重新审视标签分配,并提出将分配程序作为一个最优运输(OT)问题-一个在优化理论中被充分研究的主题。具体来说,我们将每个需求方(锚)和供应商(gt)对之间的单位运输成本定义为它们的分类和回归损失的加权和。得到最优分配方案后,将其转化为运输成本最小的最优运输方案,通过Sinkhorn-Knopp 迭代求解。在COCO 上,单个FCOS-ResNet-50
检测器配备最优传输分配(OTA),在1×调度下mAP可达40.7%,优于现有的所有分配方法。在COCO 和CrowdHuman上进行的大量实验进一步验证了我们提出的OTA的有效性,特别是在人群场景下的优势。该代码可以在https: //github.com/Megvii-BaseDetection/OTA上获得。
二、网络模型及核心创新点
1.最佳运输
2.标签分配OT
3.先进设计-中心优先
三、数据集
在本节中,我们在MS COCO 2017[22]上进行了大量的实验,其中包含了大约 118k、5k 和 20k 的图像,分别用于 train、val和 test-dev 集。
四、实验效果(部分展示)
对于消融研究,我们在训练集上训练探测器,并报告在 val 集上的性能。在测试开发集上与其他方法进行了比较。我们还在 CrowdHuman[35]验证集上将 OTA与其他方法进行比较,以证明OTA在人群场景中的优越性。
(1)消融实验
个别成分的影响。我们验证了我们提出的方法中每个组件的有效性。为了进行公平比较,将所有检测器的回归损失乘以 2,这被认为是在高借据阈值时提高AP 的一个有用的技巧。
从表1中可以看出,当不采用辅助分支时,OTA比FCOS多出0.9%的AP(39.2%比 38.3%)。在两者都增加了借据分支后,这一差距几乎保持不变(分别为 39.5% vs . 40.3%和 38.8% vs .39.6%,有无中心之前)。最后,动态 k 将AP 推至 40.7%的新水平。在整篇论文中,我们强调了OTA可以同时应用于基于锚的和无锚的探测器。因此,我们也在 retanet上采用OTA,每个特征图上的每个位置只有一个方形锚点。如表 1所示,OTA- fcos 和OTA- retinanet 的AP值完全相同,说明OTA在基于锚的和无锚的检测器上都具有适用性。
(2)对比实验
我们将我们的最终模型与其他先进的单级探测器在 MSCOCO测试开发。在之前的作品[21,38]中,我们在640到800的范围内随机缩放图像的短边。此外,我们将总迭代数翻倍至180K,学习速率变化率点按比例缩放。其他设置与[21,38]一致。
如表 5 所示,我们使用 ResNet-101-FPN的方法获得了 45.3%的AP,优于其他所有具有相同主干的方法,包括 ATSS (43.6%AP)、AutoAssign (44.5% AP)和 PAA (44.6% AP)。注意,对于PAA,我们删除了评分投票程序,以便在不同标签分配策略之间进行公平比较。使用 ResNeXt- 64x4d-101-FPN[43],可实现OTA的性能为了证明我们的方法与其他先进的目标检测技术的兼容性,我
们采用了变形卷积网络(Deformable Convolutional Networks,DCN)[54]到ResNeXt 骨干网以及检测头的最后一个卷积层。最后,通过多尺度测试技术,我们的最佳模型达到了 51.5%的AP。
五、实验结论
本文提出了一种基于标签分配策略的最优运输分配(OTA)理论egy。OTA将对象检测中的标签分配过程定义为一个最优传输问题,目标是以最小的传输成本将标签从地面真实对象和背景传输到锚点。为了确定每个 gt 所需要的正标签数量,我们进一步提出了一种基于预测包围盒与 gt 之间的 IoU 值的简单估计策略。由于 OTA 能够很好地处理模糊锚点的分配,因此在CrowdHuman数据集上的性能也大大超过了其他所有单级检测器,显示出了较强的泛化能力。
注:论文原文出自OTA: Optimal Transport Assignment for Object Detection本文仅用于学术分享,如有侵权,请联系后台作删文处理。
解读的系列文章,本人已进行创新点代码复现,有需要的朋友欢迎关注私信我获取 ❤ 。