目标检测常用的评价指标

news2025/7/5 15:09:56

目标检测常用的评价指标

1 IoU（Intersection over Union）
2 GIoU（Generalized IoU）
3 DIoU（Distance-IoU）
4 CIoU（Complete-IoU）
5 EIoU（Efficient-IoU）
6 SIoU
7 Wise-IoU
8 α-IoU

在目标检测任务中，常用到一个指标 $I o U$ ，即交并比，IoU可以很好的描述一个目标检测模型的好坏。在训练阶段 $I o U$ 可以作为 $an c h or - ba se d$ 方法中，划分正负样本的依据；同时也可用作损失函数；在推理阶段， $NMS$ 中会用到 $I o U$ 。同时 $I o U$ 有着比较严重的缺陷，于是出现了 $G I o U$ 、 $D I o U$ 、 $C I o U$ 、 $E I o U$ ，下面我们一起看一下这几种 $I o U$ 。

1 IoU（Intersection over Union）

$I o U$ 的计算是用预测框 $A$ 和真实框 $B$ 的交集除以二者的并集，其公式为：
$IoU=\frac{A\cap B}{A\cup B}$
$I o U$ 的值越高也说明 $A$ 框与 $B$ 框重合程度越高，代表模型预测越准确。反之， $I o U$ 越低模型性能越差。

损失函数：

$L_{Iou}=1-IoU$

优点：

$I o U$ 具有尺度不变性：简单来讲就是两个框按照任意比例同时缩放,求出的IOU值不变
结果非负，且范围是 $[0, 1]$

缺点：

如果两个目标没有重叠， $I o U$ 将会为 $0$ ，并且不会反应两个目标之间的距离，在这种无重叠目标的情况下，如果 $I o U$ 用作于损失函数，梯度为 $0$ ，无法优化，且无法判断两个框之间靠的非常近还是非常远。另外，如果有多个预测框与真实框都没有交集，计算出来的 $I o U$ 都为 $0$ ，损失都为 $1$ ，但是下图中明显可以看到预测框 $1$ 与真实框更加接近，损失更小才对。

在这里插入图片描述

$I o U$ 无法精确的反映两者的重合度大小。如下图所示，三种情况 $I o U$ 都相等，但看得出来他们的重合度是不一样的，左边的图回归的效果最好，右边的最差。

在这里插入图片描述

2 GIoU（Generalized IoU）

为了解决 $I o U$ 作为损失函数时的两个缺点，提出了 $G I o U$ ，在 $I o U$ 后面增加了一项，计算两个框的 最小外接矩形 ，用于表征两个框的距离，从而解决了两个目标没有交集时梯度为零的问题，公式为：

$GIoU=IoU-\frac{C-(A\cup B)}{C}$
其中 C 是两个框的最小外接矩形的面积

当 $I o U = 0$ 时：
$GIoU=-1+\frac{A\cup B}{C}$
在这里插入图片描述
损失函数：

$L_{GIou}=1-GIoU$

取两种极端情况： $A$ 、 $B$ 重合以及 $A$ 、 $B$ 不相交且 $C$ 为无穷大， $G I o U$ 的取值范围为 $[- 1, 1]$ 。 $L_{GIou}$ 的取值范围为 $[0, 2]$

当 $A$ 、 $B$ 两框不相交时， $A\cup B$ 不变，最大化 $G I o U$ 就是最小化 $C$ ，这样就会促使两个框不断靠近。

优点：

当 $I o U = 0$ 时，仍然可以很好的表示两个框的距离。
$G I o U$ 不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度。

缺点：

虽然 $G I o U$ 可以缓解重叠情况下的梯度消失问题，但它仍有一些局限性，当两个框属于包含关系时， $G I o U$ 会退化成 $I o U$ ，无法区分其相对位置关系，无法衡量有包含关系时的框回归损失，如下图，三个回归框具有相同的 $G I o U$ ，但是显然第二个框的回归效果更好。
由于 $G I o U$ 仍然严重依赖 $I o U$ ，因此在两个垂直方向（上、下），误差很大，很难收敛。两个框在相同距离的情况下，水平垂直方向时，此部分面积 $C$ 最小，对 $l oss$ 的贡献也就越小，从而导致在垂直水平方向上回归效果较差。如下图，三种情况下 $G I o U$ 的值一样， $G I o U$ 将很难区分这种情况。

在这里插入图片描述

3 DIoU（Distance-IoU）

针对上述 $G I o U$ 的两个问题，将 $G I o U$ 中最小外接框来最大化重叠面积的惩罚项修改成最小化两个 $BB o x$ 中心点的标准化距离从而加速损失的收敛过程，这就诞生了 $D I o U$ 。

$D I o U$ 要比 $G I o U$ 更加符合目标框回归的机制，将目标与预测之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，不会像 $I o U$ 和 $G I o U$ 一样出现训练过程中发散等问题。

$DIoU=IoU-\frac{\rho^{2}\left(b, b^{gt}\right)}{c^{2}}$
其中 $b$ 、 $b^{gt}$ 分别代表了预测框、真实框的中心点，且 $\rho$ 代表的是计算两个中心点间的欧式距离， $c$ 代表的事能够同时包含预测框和真实框的最小外接矩形的对角线长度。

在这里插入图片描述

损失函数：

$L_{DIou}=1-DIoU$

优点：

$D I o U l oss$ 可以直接最小化两个目标框的距离，因此比 $G I o U l oss$ 收敛（减小并趋于稳定）快得多。
对于包含两个框在水平方向和垂直方向上这种情况， $D I o U$ 损失可以使回归非常快。
$D I o U$ 还可以替换普通的 $I o U$ 评价策略，应用于 $NMS$ 中，使得 $NMS$ 得到的结果更加合理和有效。

缺点：

虽然 $D I o U$ 能够直接最小化预测框和真实框的中心点距离加速收敛，但是 $B o u n d in g b o x$ 的回归还有一个重要的因素 纵横比 暂未考虑。如下图，三个红框的面积相同，但是长宽比不一样，红框与绿框中心点重合，这时三种情况的 $D I o U$ 相同，证明 $D I o U$ 不能很好的区分这种情况。

在这里插入图片描述

4 CIoU（Complete-IoU）

$C I o U$ 与 $D I o U$ 出自同一篇论文， $C I o U$ 大多数用于训练。 $D I o U$ 的作者考虑到，在两个框中心点重合时， $c$ 与 $d$ 的值都不变。所以此时需要引入框的宽高比：

$CIoU=IoU-\left(\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}}+\alpha v\right)$

其中 $\alpha$ 是权重参数， $v$ 用来度量宽高比的一致性：

$\alpha =\frac{v}{(1-IoU)+V}$

$V=\frac{4}{\pi^2 } (\arctan\frac{w_{gt}}{h_{gt}} -\arctan \frac{w}{h})^2$

损失函数：
$L_{CIou}=1-CIoU$

优点：

考虑了框的纵横比，可以解决 $D I o U$ 的问题。

缺点：

通过 $C I o U$ 公式中的 $v$ 反映的纵横比的差异，而不是宽高分别与其置信度的真实差异，所以有时会阻碍模型有效的优化相似性。

5 EIoU（Efficient-IoU）

为了解决 $C I o U$ 的问题，有学者在 $C I o U$ 的基础上将纵横比拆开，提出了 $E I O UL oss$ ，并且加入 $F oc a l$ 聚焦优质的预测框，与 $C I o U$ 相似的， $E I o U$ 是损失函数的解决方案，只用于训练。

$E I O U$ 的惩罚项是在 $C I O U$ 的惩罚项基础上将纵横比的影响因子拆开分别计算目标框和预测框的长和宽，该损失函数包含三个部分：重叠损失，中心距离损失，宽高损失，前两部分延续 $C I o U$ 中的方法，但是宽高损失直接使目标框与预测框的宽度和高度之差最小，使得收敛速度更快。

惩罚项公式如下：

$\begin{align} L_{EIoU} & = L_{IoU}+L_{dic}+L_{asp} \\ & = 1-IoU+\frac{\rho ^2(b,b^{gt})}{c_w^2+c_h^2} +\frac{\rho ^2(w,w^{gt})}{c_w^2}+\frac{\rho ^2(h,h^{gt})}{c_h^2} \end{align}$