CV03_mAP计算以及COCO评价标准

news2024/11/16 2:06:47

COCO数据集回顾：CV02_超强数据集：MSCOCO数据集的简单介绍-CSDN博客

1.1 简介

在目标检测领域中，mAP（mean Average Precision，平均精度均值）是一个广泛使用的性能评估指标，用于衡量目标检测模型在检测不同类别目标时的综合性能。以下是mAP的几个关键点：

定义：mAP是所有类别平均精度（Average Precision, AP）的平均值。AP是针对单个类别计算的，表示在不同召回率（Recall）下精度（Precision）的平均值，或者说是PR曲线（Precision-Recall Curve）下的面积。而mAP则是将所有类别各自的AP值取平均得到的结果，从而提供一个跨类别的整体性能评估。
计算流程：
- 确定TP/FP：首先，根据预测框与真实框之间的交并比（IoU，Intersection over Union）阈值，确定每个预测框是真阳性（True Positive, TP）还是假阳性（False Positive, FP）。
- 排序：将预测框按其置信度（confidence score）从高到低排序。
- 计算Precision和Recall：遍历排序后的预测框，逐步累加TP以计算Recall，同时计算每个步骤的Precision（即当前TP除以总的预测阳性数）。
- 绘制PR曲线：以Recall为横轴，Precision为纵轴，绘制PR曲线。曲线下的面积即为AP。
- 计算mAP：对所有类别的AP求平均得到mAP。
重要性：mAP综合考虑了检测模型的精确度（Precision）和召回率（Recall），是衡量模型在准确检测目标的同时，能否尽可能多地找出所有目标的能力。因此，mAP值越高，表示模型的整体性能越好。
变体：mAP的计算可以根据不同的应用场景有所变化，比如在某些情况下，会根据不同的IoU阈值计算多个mAP值，或者分别计算不同难度级别（如小目标、中目标、大目标）的mAP，以更全面地评估模型性能。
应用场景：mAP常用于评估和比较各种目标检测算法，如Faster R-CNN、YOLO、SSD等，在学术研究和工业界均有广泛应用，特别是在自动驾驶、监控系统、医疗影像分析等领域。

在我们使用目标检测网络训练时，最后在验证集上会得到一个coco的评价列表。那么它每个数据的含义都代表什么呢？

1.2 目标检测中常见指标

Precision和Recall

假阳性FP：本来不是目标，但是预测成了目标。

假阴性FN：漏检的目标个数，或者说本来有目标但没有预测出来。

对于Precision和Recall，我们来举几个例子：

图片里有5个GT，模型检测出来一个，那么Precision就是1（TP/(TP+FP)），Recall就是0.2(TP/(TP+FN))。

第二个例子，同样5个GT，查准率大概是5/11，查全率是1。

很显然，只看查准率或者只看查全率是不靠谱的，需要综合起来看。

AP和P-R曲线

AP（Average Precision，平均精度）是一个关键的性能评估指标，用来衡量模型在某一特定类别上检测性能的好坏。

定义：AP是 Precision（精确率）和 Recall（召回率）之间关系的一种综合度量。它通过计算Precision-Recall曲线（PR曲线）下的面积得到，反映了模型在不同召回率水平下的平均精确度。
PR曲线：在计算AP之前，需要绘制Precision-Recall曲线。随着阈值的调整，模型会输出不同数量的预测框，对应不同的Precision和Recall值。将这些点连接起来形成的曲线即为PR曲线，反映了精确率与召回率之间的权衡。
计算AP：
- 通常，会在Recall的0到1范围内均匀选取一些点（例如11个点，从0到1每隔0.1取一个点），然后在这些点上计算相应的Precision值。
- 接着，将这些点的Precision值相加后除以点的数量，得到的就是AP的近似值。有时也会使用数值积分或插值方法来更准确地计算曲线下的面积。
IoU阈值的影响：在计算AP时，通常会涉及到交并比（Intersection over Union, IoU）阈值，用以判断预测框与真实框是否匹配。不同的IoU阈值会得到不同的AP值，常见的IoU阈值有0.5或者更高，这取决于具体的评估标准。
用途：AP值越高，说明模型在确保召回率的同时，也能保持较高的精确率，是衡量目标检测算法性能好坏的重要标准。在多类别目标检测任务中，还会计算所有类别的AP值的平均值，即mAP（mean Average Precision），以评估模型在所有类别上的平均性能。

AP是目标检测中衡量单一类别检测效果的核心指标，通过综合考虑精确率和召回率，提供了对模型性能全面且直观的评估方式。

举个例子：假设我们已经训练好了模型，下面是用于验证的三张图片。首先累加训练集中目标的个数。接下来通过一个列表来统计我们的网络所检测到的目标信息。第二个检测ID=1的bounding box 的IOU值明显小于0.5，所以被标记为false。

整张表格是按置信度(confidence)排序的。

下面检测下一张图片，此时num_ob的值变为3，表格如下所示：

再检测下一张图片。

接下来我们用拿到的这个表格去计算查准率和查全率。我们将阈值设置到0.98，那么只有一个被筛选出来，我们计算一下此时的查准率和查全率。以此类推，不断降低阈值来计算。

我们以Recall为横坐标，Precision为纵坐标，就能得到一个PR曲线。我们要注意一个问题，对于Recall，我们需要过滤掉一些重复的信息，像0.57的时候我们有三个值，此时我们只需要保留precision最大的这个情况就可以了。右图方框框住的点就是我们的数值。

计算出该类别的AP后，我们再计算出其他类别的AP，然后再求和求均值就得到了MAP。

需要注意的是，网络最终给出的预测结果都是经过NMS（非极大值抑制）之后所得到的目标边界框。

1.3 COCO评价指标每一条数据的含义

虽然下图说的是AP，实际上就是我们之前说的mAP

第一类,就是IOU阈值不同的情况下的mAP,第一行是从IOU0.5开始以步长0.05，直到0.95的是个mAP

对于第二类（AP Across Scales），是针对检测小、中、大物体的mAP。小物体的定义是像素面积小于32的平方，中等物体，大物体如下图所示。第二类就可以衡量模型对不同尺度的目标的检测效果

对于第三类（AR不是AP），先看最后一行是AR max=100, 就是我们每张图片限定只检测100个目标，就是经过NMS后我们最多只提供100个目标。我们得到的相应的recall值

AP和AR的区别

Average Precision (AP):

定义: AP衡量的是模型在不同召回率（Recall）水平下的平均精确度（Precision）。它通过计算Precision-Recall曲线下的面积得到，体现了模型在提升召回率的同时保持高精确度的能力。
计算: AP计算过程中，首先会根据预测框与真实框的交并比（IoU）设定阈值，以此来确定预测是否为真阳性（TP）。然后，通过改变置信度阈值，计算出一系列的Precision和Recall值，进而绘制出PR曲线。AP即为该曲线下方的面积，反映了模型在不同决策阈值下的综合性能。
意义: AP值越高，说明模型在召回所有相关对象（即高召回率）的同时，预测正确的比例也很高（即高精确度），是衡量目标检测算法准确性和全面性的重要指标。

Average Recall (AR):

定义: AR侧重于衡量模型在不同IoU阈值下的平均召回率。与AP不同，AR主要关注模型找到所有相关对象的能力，而不直接考虑预测的精确度。
计算: 在COCO数据集中，AR通常是在多个固定的IoU阈值（例如从0.5到0.95，步长为0.05）下计算召回率，然后取这些召回率的平均值。这种做法考虑了模型在不同定位精度要求下的召回表现。
意义: AR强调模型的召回能力，即检测出所有应该检测到的目标的比例。高AR意味着模型很少漏检，即使某些预测框可能不够精确。

总结: