论文的主要贡献

Focal loss主要是为了解决目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重，也可理解为一种困难样本挖掘。

1、类class不平衡
我们发现，在密集探测器dense detectors的训练过程中遇到：1、极端的地面背景类 ground-background class 不平衡是主要原因。2、前景(positive)和背景(negatives)类别的不平衡问题。解决此class失衡问题，通过重塑标准的交叉熵损失，它降低了分配给分类良好的示例的损失（it down-weights the loss assigned to well-classified examples）。提出了一种叫做Focal Loss的损失函数，Focal Loss 将训练重点放在稀疏的困难例子集上

防止产生大量 easy negatives
用来降低大量easy negatives在标准交叉熵中所占权重
提高hard negatives所占权重

2、提出了RetinaNet
为了评估损失的有效性，我们设计并训练了一个简单的密集检测器，我们称之为RetinaNet。
在这里插入图片描述

模型在测试数据集中的梯度分布

这里我们来看一张收敛的模型在测试数据集中的梯度分布。最左边梯度接近于0就是简单样本，简单样本的数量很多。中间部分是一些不同难度的样本，最右边就是loss很大的困难样本，这些样本在数量上相对于简单样本是非常少的，所以即使他们的梯度很大，但是如果使用交叉熵，那么他们对loss的贡献还是很少，所以他们还是很难学。

图片来源
在这里插入图片描述

下图是文中所给的不同样本的loss分布，还是如我们刚才所讨论的。这些易分的样本loss虽然不高但是数量很多，所以导致困难样本的loss容易被这些简单样本所覆盖，导致他们更加难学习。而引入focal loss之后可以看到我们降低了简单样本的loss,从而提高了他们对梯度的贡献。那么什么是focal loss呢，我们下面将着重介绍focal loss.
在这里插入图片描述

focal loss 是一种思想，可以和CE结合，也可以和其他损失结合

二分类问题Focal loss计算如下

在这里插入图片描述

当然Focal loss对多分类的任务也同样适用。

不适合 focal loss 的分析

参考

focal loss论文揭示了目标检测的核心问题：正负样本分布极端不均衡并由此导致的大量简单负样本占据了loss（梯度、或者training过程），作者由此设计了focal loss，以及训练focal loss的网络结构retinanet以及一系列训练中需要注意的点。

但是focal loss并不是万能的，在很多场景下，比如单多标签分类上不一定好使，不仅仅是因为α，γ参数不好整，更重要的是，在pt高的时候，pred和gt越接近（置信度越高），focal的越狠，如果不是负样本中有大量的easy example的话，这种focal对容易学的样本都产生了很大的降权，损失有很能被难例主导，简单和难例的损失权重是不对等的，噪声比较大的样本不一定能学明白，还有可能降点。这种对简单样本降权有点像margin的那味。