YOLOv5训练结果分析

news2026/2/15 12:32:38

本文的目的是帮助理解每次训练后，在runs/train文件夹下出现的一系列文件，并探索如何评估准确率以及模型的好坏。

一.混淆矩阵—confusion_matrix.png

毕设跑的train有混淆矩阵，但是有点扯，需要跑一下鸟类的验证一下(待验证)

1.概念

混淆矩阵是对分类问题预测结果的总结。使用计数值汇总正确和不正确预测的数量，并按每个类进行细分，显示了分类模型进行预测时会对哪一部分产生混淆。

混淆矩阵不仅可以让我们直观的了解分类模型所犯的错误，更重要的是可以了解哪些错误类型正在发生，正是这种对结果的分解克服了仅使用分类准确率带来的局限性。

2.图文理解

		实际
		类1	类2	类3
预测	类1	43	5	2
	类2	2	45	3
	类3	0	1	49

(1)横轴时预测类别，纵轴是真实类别；

(2)表格里的数目总数为150，表示共有150个测试样本；

(3)每一行之和为50，表示每类各有50个样本，每一行代表了真实的目标被预测为其他类的数量，比如第一行：43代表真实的类一中有43个被预测为类一，5个被错预测为类2,2个被错预测为类3；

二.TP/TN/FP/FN

1.逻辑关系

T(True)：最终预测结果正确。

F(False)：最后预测结果错误。

P(Positive)：模型预测其是正例(目标本身是个鱼，模型也预测它是个鱼)。

N(Negative)：模型预测其是负例(目标本身是个鱼，但模型预测它是个猫)。

TP：样本的真实类别是正例，并且模型预测的结果也是正例，预测正确(目标本身是个鱼，模型也预测它是鱼，预测正确；还有一种理解方式，模型预测它是正例，最终预测结果是正确的，所以目标是个正例))。

TN：样本的真实类别是负例，并且模型将其预测成为负例，预测正确(目标本身不是鱼，模型预测它不是了鱼，是个其他的东西，预测正确；还有一种理解方式，模型预测它是负例，最终预测结果是正确的，所以目标是个负例))。

FP：样本的真实类别是负例，但是模型将其预测成为正例，预测错误(目标本身不是鱼，模型预测它是鱼，预测错误；还有一种理解方式，模型预测它是正例，最终预测结果是错误的，所以目标是个负例)。

FN：样本的真实类别是正例，但是模型将其预测成为负例，预测错误(目标本身是鱼，模型预测它不是鱼，是个其他的东西，预测错误；还有一种理解方式，模型预测它是负例，最终预测结果是错误的，所以目标是个正例)。

2.几个指标

(1)正确率/准确率(accuracy)= $\frac{}{}$ $\frac{TP+TN}{TP+TN+FP+FN}$ ;

注：通常来说正确率越高，模型越好。

(2)错误率= $\frac{FP+FN}{TP+TN+FP+FN}$ ;

(3)灵敏度(sensitive)= $\frac{TP}{TP+FN}$ ；

注：表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力；

(4)特征度/特异度(specificity)= $\frac{TN}{TN+FP}$

注：表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力；

(5)精确率(precision)= $\frac{TP}{TP+FP}$

注：表示被分为正例的示例中实际为正例的比例；

(6)召回率(recall)= $\frac{TP}{TP+FN}$

注：度量有多个正例被分为正例；

3.label.jpg

第一张图：classes(每个类别的数据量)

第二个图：labels(框的尺寸和数量)

第三个图：center (框的中心点坐标)

第四个图：labels width and height(框的长和宽)

4.P_curve(精确率和置信度的关系图)

精确率(查准率)：表示被分为正例的示例中实际为正例的比例

解释：设置置信度为某一数值的时候，各个类别识别的精确率。

可以看到，当置信度越大的时候，类别检测的越准确。这也很好理解，只有置信度很大，才被判断是某一类别。但这样的话，会漏检一些置信度低的类别。

比如运行程序时，即便某个目标是鱼，模型预测它也是鱼，但是给它的置信度只有70%，当置信度设置在80%时才认为是鱼时，这个目标就会被忽略了。

5.R_curve(召回率和置信度的关系图)

召回率(查全率)：度量有多个正例被分为正例

解释：设置置信度为某一数值的时候，各个类别查全的概率。可以看到，当置信度越小的时候，类别检测的越全面。

6.先验知识 $\rightarrow$ 综合recall和precision

Precision和Recall通常是一对矛盾的性能度量指标。一般来说，Precision越高时，Recall往往越低。

原因是：如果我们希望提高Precision，即二分类器预测的正例尽可能是真实正例，那么就要提高二分类器预测正例的门槛。例如，之前预测正例只要置信度 $\geq$ 0.5的样例我们就标注为正例，那么现在要提高到置信度 $\geq$ 0.7我们才标注为正例，这样才能保证二分类器挑选出来的正例更有可能是真实正例；而这个目标恰恰与提高Recall相反，如果我们希望提高Recall，即二分类器尽可能地将真实正例挑选出来，那么势必要降低二分类器预测正例的门槛，例如之前预测正例只要置信度 $\geq$ 0.5的样例我们就标注为真实正例，那么现在要降低到 $\geq$ 0.3我们就将其标注为正例，这样才能保证二分类器挑选出尽可能多的真实正例。