目标检测回归损失函数简介：SmoothL1/IoU/GIoU/DIoU/CIoU Loss

news2025/4/28 6:43:29

目标检测回归损失函数

1、Smooth L1 Loss
2、 IoU Loss
3、 GIoU Loss （Generalized-IoU Loss）
4、 DIoU Loss （Distance-IoU Loss）
5、 CIoU Loss （Complete-IoU Loss）
总结：

目标检测任务的损失函数由 Classificition Loss 和 Bounding Box Regeression Loss 两部分构成。

本文介绍目标检测任务中近几年来Bounding Box Regression Loss Function的演进过程，其演进路线是：
Smooth L1 Loss $\rightarrow$ IoU Loss $\rightarrow$ IoU Loss $\rightarrow$ GIoU Loss $\rightarrow$ DIoU Loss $\rightarrow$ CIoU Loss

本文亦按照此路线进行讲解。

1、Smooth L1 Loss

本方法由微软rgb大神提出，Fast RCNN论文提出该方法

1）假设x为预测框和真实框之间的数值差异，常用的 L1 loss、L2 Loss 和 smooth L1 loss 定义分别为：

在这里插入图片描述

2）上述的3个损失函数对x的导数分别为：

在这里插入图片描述

从损失函数对x的导数可知：

$L 1$ 损失函数对 $x$ 的导数为常数，在训练后期， $x$ 很小时，如果 learning rate 不变，损失函数会在稳定值附近波动，很难收敛到更高的精度。
$L 2$ 损失函数对x的导数在x值很大时，其导数也非常大，在训练初期不稳定。
$smooth_{L1}$ 完美的避开了 $L 1$ 和 $L 2$ 损失的缺点。

3）实际目标检测框回归任务中的损失 loss 为： $L_{loc(t^u, v)} = \sum_{i \in (x, y, w, h)}smooth_{L1}(t_i^u - v_i)$

其中：

$v = (v_x, v_y,v_w, v_h)$ ：表示GT 的框坐标，
$t^u = (t^u_x, t^u_y, t^w_x, t^u_h)$ ：表示预测的框坐标，即分别求4个点的loss，然后相加作为Bounding Box Regression Loss。

在这里插入图片描述

缺点：

上面的三种Loss用于计算目标检测的Bounding Box Loss时，独立的求出4个点的Loss，然后进行相加得到最终的Bounding Box Loss，这种做法的假设是4个点是相互独立的，实际是有一定相关性的
实际评价框检测的指标是使用IOU，这两者是不等价的，多个检测框可能有相同大小的
Loss，但IOU可能差异很大，为了解决这个问题就引入了IOU LOSS。

2、 IoU Loss

本文由旷视提出，发表于2016 ACM

1）通过4个坐标点独立回归Building boxes的缺点：

检测评价的方式是使用IoU,而实际回归坐标框的时候是使用4个坐标点
如下图所示，L1或者L2 Loss相同的框，其IoU 不是唯一的（图a. L2 loss 相同；图b. L1 loss 相同）
通过4个点回归坐标框的方式是假设4个坐标点是相互独立的，没有考虑其相关性，实际4个坐标点具有一定的相关性
基于L1和L2的距离的loss对于尺度不具有不变性

在这里插入图片描述
2）基于此提出IoU Loss,其将4个点构成的box看成一个整体进行回归：

在这里插入图片描述

3、 GIoU Loss （Generalized-IoU Loss）

由斯坦福学者提出，发表于CVPR2019

1） IoU Loss 有2个缺点：

当预测框和目标框不相交时， $I o U (A, B) = 0$ 时，不能反映 A, B 距离的远近，此时损失函数不可导，IoU Loss 无法优化两个框不相交的情况。 $Loss=-ln^{IoU}, \quad\quad \frac{\partial loss}{\partial IoU} = (-ln^{IoU})' = -\frac{1}{IoU}$
IoU值不能反映两个框是如何相交的：即使两个框的 $I o U$ 值是相同的，其相交方式也可能很不一样。

在这里插入图片描述

2） GIoU ：Generalized-IoU Loss
在这里插入图片描述

最后，损失可以用下面的公式来计算： $L_{GIoU} = 1 - GIoU$

$\quad$

3）C 的面积的求解
假设有两个任意的 bbox A和B，我们要找到一个最小的封闭形状C，让C可以将A和B包围在里面。

$A = (x_{min}^A, x_{max}^A, y_{min}^A, y_{max}^A)$

$B = (x_{min}^B, x_{max}^B, y_{min}^B, y_{max}^B)$

则， C 的坐标为：

$x_{min}^C = min(x_{min}^A, x_{min}^B), \quad x_{max}^C = max(x_{max}^A, x_{max}^B)$

$y_{min}^C = min(y_{min}^A, y_{min}^B), \quad y_{max}^C = max(y_{max}^A, y_{max}^B)$

C 的面积为：
$Area^C = (x_{max}^C - x_{min}^C) * (y_{max}^C - y_{min}^C)$

$\quad$

4）GIoU 相比于 IoU 有如下性质：

和原始的 loU 类似，GIoU具有尺度不变性（ GloU 对物体的尺度大小不敏感，因为使用的是比值的原因）
$\frac{C - (A \cup B)}{C} <1$ ， $L_{GIoU} = 1 - GIoU$ ，所以 $- 1 < G I O U <= 1$
- 当 A 和 B 完全重合时：IoU = GIoU = 1
- 当 A，B 不重合时， $I o U = 0 ， G I o U$ 趋近于 -1，或者说当A，B 不重合且距离无限远时， $G I o U = - 1$

GIoU Loss 仍然存在不足：当目标框完全包裹预测框的时候，IoU 和 GIoU 的值一样，此情况下 GIoU 退化为 IoU, 无法区分其相对位置关系。
在这里插入图片描述
基于IoU和GIoU存在的问题，有两个方向值得思考：

第一：直接最小化预测框与目标框之间的归一化距离是否可行，以达到更快的收敛速度。
第二：如何使回归在与目标框有重叠甚至包含时更准确、更快。

好的目标框回归损失应该考虑三个重要的几何因素：重叠面积，中心点距离，长宽比。

DIoU Loss：考虑了重叠面积和中心点距离，相对于GIoU Loss收敛速度更快，但没有考虑到长宽比；
CIoU Loss，以上三个因素都考虑到了，其收敛的精度更高。

4、 DIoU Loss （Distance-IoU Loss）

本文发表在AAAI 2020

通常基于 IoU-based 的 loss 可以定义为 $L =1- IoU + R(B, B^{gt})$ ，其中 $R(B, B^{gt})$ 定义为预测框 $B$ 和目标框 $B^{gt}$ 的惩罚项。
$D I o U$ 中的惩罚项表示为 $R_{DIoU} = \frac{\rho ^2(b, b^{gt})}{c^2}$ ，其中 $b$ 和 $b^{gt}$ 分别表示 B$ 和 $B^{gt}$ 的中心点， $\rho$ 表示欧式距离，C表示 $B$ 和 $B^{gt}$ 的最小外界矩形的对角线距离，如下图所示。可以将DIoU替换 IoU 用于 NMS算法当中，也即论文提出的DIoU-NMS,实验结果表明有一定的提升。
• DloU Loss function 定义为： $L_{DIoU} = 1- IoU + \frac{\rho ^2(b, b^{gt})}{c^2}$