论文作者对自己文章的中文介绍:这里,所以本人结合论文进行一些简单记录。
存在的问题
- 之前的工作在训练阶段和推理阶段对最终得分的计算有些问题,即训练分开计算分类得分和定位得分,但是推理时又相乘得到最终的得分进行NMS,这样做会出现其中一个得分低导致最终得分低的问题,有可能相乘后被去除掉。总之不可避免的一个问题就是负例的得分可能排在得分低一点的正例前面。
- 在复杂场景中,边界框的表示具有很强的不确定性,而现有的框回归本质都是建模了非常单一的狄拉克分布。作者希望对边界框的表示是一种分布的形式来更好的面对现实世界中部分被遮挡或者边界模糊的情况。如下
解决方法
- 将分类得分和iou得分进行结合,如图1(b),它消除了训练-测试不一致,并使定位质量与分类之间的相关性加强。
- 通过直接学习连续空间上的离散概率分布来表示盒子位置的任意分布(本文表示为“一般分布”),而不引入任何其他更强的先验,即Anchor-Free(指无先验锚框,直接通过预测具体的点得到锚框。Anchor-Free 不需要手动设计 anchor(长宽比、尺度大小、anchor的数量),从而避免了针对不同数据集进行繁琐的设计)
- 如上图大象的左、上、下都分布非常集中,而右分布并不是非常集中,则说明了作者可以通过得到更可靠和准确的边界框估计,同时了解它们的各种底层分布
- 其实上面的方案最终要让网络对其优化才能得到该结果,那之前的损失显然不可以完成优化任务
-
传统上,对于密集检测器,分类分支使用Focal Loss(FL),它支持0或者1这样的离散类别label,即纯分类问题
-
但是作者分类-iou联合表示,label却变成了0~1之间的连续值,既要保证Focal Loss此前的平衡正负、难易样本的特性,又需要让其支持连续数值的监督,作者提出Quality Focal Loss (QFL)
- 简单解释下0~1之间的连续值:首先对于label的位置信息要归一化(0-1),坐标位置肯定是一个0-1之间的任意数与之前分类标签只有0、1是不同的。
- 简单解释下0~1之间的连续值:首先对于label的位置信息要归一化(0-1),坐标位置肯定是一个0-1之间的任意数与之前分类标签只有0、1是不同的。
-
β经验值2
DFL
一个积分目标可能对应多种分布模式,没有先验的情况下如下所示
但是,P(x)的值有无限种组合,可以使最终的积分结果为y,如图5(b)所示,这可能会降低学习效率
因此,我们引入了分布焦点损耗(DFL),通过显式地扩大yi和yi+1的概率(最接近y的两个,yi≤y≤yi+1),迫使网络快速聚焦在标签y附近的值。
DFL的全局最小解
保证估计的回归目标接近相应的标签y
最终得到GFL