目标检测模型的决策依据与可信度分析
- 本文贡献及原文
- 1 相关工作(略看)
- 1.3 目标检测模型
- 2 背景知识(LIME)
- 2.2 LIME
- 3 目标检测决策依据及可信度分析
- 3.1 决策依据
- 3.2 对目标检测模型的预测进行可信度评价
- 4 基于 LIME 的目标检测模型解释
- 4.1 传统 LIME 在目标检测模型上应用的局限性
- 4.2 改进 LIME
- 4.2.1 问题分析
- 4.2.2 新的图像分割方法
- 4.2.3 替换原始 LIME 的图像分割方法
- 5 实验设置
- 6 实验结果
- 7 结论与展望
本文贡献及原文
本文主要贡献包括以下几点.
(1) 提出利用语义分割模型 DeepLab 代替 LIME 所使用的图像分割方法, 从而使 LIME 适用于目标检测模型.
(2) 分析并揭示 LIME 解释目标检测模型时的问题: 局部线性回归模型的忠诚度太低、权重太小. 详见第 4 节.
(3) 在解释目标检测模型时, 将其输出改造为关注每一类物体存在性概率的具体回归问题. 详见第 3.1 节.
(4) 提出使用 IoU, 在得到决策依据后, 可以在有标签数据集中对模型每一次预测的可信度进行定量计算.
- 有需要的小伙伴直接私信我就可以拿原文,或者等我会在后面看到一定数量的时候集中上传。
1 相关工作(略看)
1.3 目标检测模型
近年来, 学界对目标检测问题的研究越发深入, 提出了大量基于深度学习的目标检测模型, 并在各类数据集中
表现出较好的性能. 一些基于传统 CNN 的目标检测模型, 如 Faster R-CNN[11]、YOLOv1[12]、YOLOv2[13]、YOLOv3[14]、YOLOv4[15]、YOLOX[16]等, 能在 PSACALVOC、COCO等数据集中达到相当高的准确率. 除了基于CNN 的模型, 随着自注意力机制[17]的广泛运用, 有大量基于 Transformer 的目标检测模型被提出, 如 DETR[18]、TPH-YOLOv5[19]、ViT-FRCNN[20]、Deformable DETR[21]等, 同样有不俗的性能. 此外, 也有许多基于某些特殊网络架构的模型, 比如基于脉冲神经网络的 Spiking-YOLO[22]
和基于 Matrix Nets 的模型[23], 这些模型在某些特定领域(比如小目标检测) 中有相当惊艳的表现.
2 背景知识(LIME)
因为目标检测的基础知识已经很熟悉了,就不过多介绍,具体内容可以看看之前得论文笔记,这篇论文所用的LIME倒是第一次看到,所以把它的介绍放上来给大家看看,
2.2 LIME
LIME (局部可解释的模型无关解释)是一种将回归问题模型 (Regressor) 看作黑箱的局部解释方法. 该方法针对模型的每一次预测 (Instance) 进行解释, 通过在局部使用线性回归模型对回归器的行为进行拟合, 给出每一个输入变量 (Feature) 对模型输出结果的影响. 理论上, LIME 的原理适用于所有回归器, 因此我们从 LIME 出发,对目标检测模型进行解释.
3 目标检测决策依据及可信度分析
本文核心内容是对目标检测模型进行决策依据和可信度分析, 因此也属于对深度学习模型的可解释性研究.
3.1 决策依据
对决策依据的分析理应从以上两方面出发.
- 物体存在性预测:
举例说明, 若模型预测图片中存在两个不同位置与置信度的“dog”类物体, 我们不具体分析每个“dog”被预测的原因, 仅分析其认为图片中存在“dog”类的原因. - 边界框定位:
对边界框定位作决策依据分析, 就是分析图像块会如何影响边界框的坐标值.
3.2 对目标检测模型的预测进行可信度评价
- 探究模型可靠性时, 我们不仅要知道“模型依据哪些图像块进行决策”, 还要知道“模型应该根据哪些图像块进行决策”.
- 在 CV 领域中, 交并比 (IoU) 常被用于计算图片中的区域重合度, 且是计算目标检测模型性能的重要指标之一. 因此, 我们在计算模型可信度时直接套用这一方法.本文认为若 IoU 达到 0.5 以上, 则可说明模型的该次预测较为可信.
4 基于 LIME 的目标检测模型解释
4.1 传统 LIME 在目标检测模型上应用的局限性
- 增加 QuickShift分割算法的核值, 使其对图像块边界更不敏感, 即在分割后, 得到的每个图像块面积更大, 图像块总数更少, 更改核值前后的分割结果对比如图 5 所示.
- 初步可以证明小块的图像分割算法不适用于解释目标检测模型.
- 使用原始 LIME 方法对目标检测模型进行解释时的另一个问题是: 局部线性回归模型的权重值非常小, 基本处于 10^−2级别, 偶尔有值会大于 0.1. 此问题说明原始 LIME 方法无法从输入图像中找出对目标检测模型决策影响力较大的图像块, 即无法找出有效决策依据.
上述问题可总结为 3 点.
(1) 特征图像块权重整体偏小.
(2) 有效特征数量低.
(3) 原始分割方法泛用性差
4.2 改进 LIME
本节使用 DeepLab 代替原本的图像分割方法, 得到了可用于解释目标检测模型的解释器 (LIME+DeepLab).
4.2.1 问题分析
通过对第 4.1 节中两个问题的研究发现, 图像块的分割大小与 R2、权重值、变化率之间可能存在某种正相关的联系, 可能与目标检测模型在局部行为的线性程度有关. 因此, 使用原分割算法, 并增大其核值可能是一种方法.
但增大核值本质是使分割算法对分割块的边界更加不敏感, 会导致部分背景与物体无法区分, 从而无法解释目标检测模型的决策依据是物体还是背景.
4.2.2 新的图像分割方法
(1) 能够区分物体与背景;
(2) 能够区分不同的物体;
(3) 尽可能保留每个物体的完整性.
使用语义分割 (semantic segmentation) 模型: DeepLab, 可以满足以上条件. DeepLab 是一种基于深度学习的语义分割模型, 其图像分割结果如图 7 所示.
4.2.3 替换原始 LIME 的图像分割方法
LIME 解释模型预测的过程如下.
(1) 对输入进行分割;
(2) 对输入进行扰动, 得到数据集;
(3) 训练局部线性回归模型, 得到解释.
- 本文对原始分割算法的替换非常直接:在第 (1) 步中, 舍弃原有的分割方法,使用 DeepLab V3 模型对输入图片进行分割
5 实验设置
并没有太多细节的介绍,在这也不写太多混淆思路了。
6 实验结果
将图片扰动算法改变为 DeepLab 后, 在大物体数据集中进行实验, 得到的局部线性回归模型的 R2 对比结果如表 6 所示. 从表中数据可以发现, 更换分割算法为 DeepLab 后, R2 的平均值达到 0.95, 说明几乎在每一次解释中,产生的线性回归模型都能在局部非常忠实地拟合目标检测模型的行为.
7 结论与展望
- 在用 LIME 直接对目标检测模型进行解释时, 发现局部线性回归模型的忠诚度与权重值过小这两个问题. 我们通过实验分析, 揭示了目标检测模型在预测时关注物体整体这一性质, 并将问题的原因定位在图像分割方法不合理. 本文通过将图像分割方法替换为语义分割模型 DeepLab, 并对解释内容作出定义, 成功解决 LIME 存在的问题, 并将其应用于解释目标检测模型. 通过实验证明, 采用 DeepLab+LIME, 可以得到可信度较高且直观的决策依据分析结果.
- 另一方面, 基于 IoU、模型解释结果、基准决策依据, 本文提出了一种在有标签数据集中评价目标检测模型可信度的方法, 一定程度上填补了目标检测领域模型中, 对模型可信度评价的空白.