Abstract
我们提出了一种基于卷积神经网络 (CNN) 的模型的决策生成“视觉解释”的技术,使它们更加透明。我们的方法——梯度加权类激活映射(Grad-CAM),
使用任何目标概念的梯度(例如“狗”甚至标题的 logits),流入最终的卷积层以产生粗略的定位图,突出显示图像中的重要区域来预测概念。
与以前的方法不同,GradCAM 适用于各种 CNN 模型家族:
(1)具有全连接层(例如 VGG)的 CNN,
(2)用于结构化输出的 CNN(例如字幕),
(3)用于多模态输入(例如视觉问答)或强化学习的任务中使用的 CNN,
没有架构更改或重新训练。
我们将Grad-CAM与现有的细粒度可视化相结合,创建了一个高分辨率的类判别可视化,Guided Grad-CAM,并将其应用于图像分类、图像字幕和视觉问题回答(VQA)模型,包括基于resnet的架构。
在图像分类模型的背景下,我们的可视化
(a) 深入了解这些模型表现不佳的地方(表明看似不合理的预测具有合理的解释),
(b) 在 ILSVRC-15 弱监督定位任务上优于以前的方法,
(c) 更忠实于底层模型,
(d) 通过识别数据集偏差来帮助实现模型泛化。
对于图像字幕和 VQA,我们的可视化显示即使是基于非注意力的模型也可以定位输入。
最后,我们设计并进行了人体研究来衡量 Grad-CAM 解释是否帮助用户对深度网络的预测建立适当的信任,并表明 Grad-CAM 帮助未经训练的用户从“较弱”成功识别“更强”的深度网络,即使两者都做出相同的预测。
Introduction
存在的问题
While these deep neural networks enable superior performance, their lack of decomposability into intuitive and understandable components makes them hard to interpret [26].
深度学习模型好 为什么好
太黑盒了 导致出现大眼瞪小眼的情况(其实再加重问题)
Interpretability matters. In order to build trust in intelligent systems and move towards their meaningful integration into our everyday lives, it is clear that we must build 'transparent' models that explain why they predict what they predict.
就是说呢。可解释非常重要
然后再后来画一个饼 人工智能教人类做事 (也不是不行,被chatgpt支配的科研民工)
我们的方法对于卷机具有普适性 很方便也确实如此
什么是一个好的视觉解释?
What makes a good visual explanation?
Consider image classification [9] – a 'good' visual explanation from the model for justifying any target category should be
(a) classdiscriminative (i.e. localize the category in the image) and
(b) high-resolution (i.e. capture fine-grained detail).
a) 类判别(即在图像中定位类别)和(b)高分辨率(即捕获细粒度细节)。
为了将两全其美结合起来,我们展示了将现有的像素空间梯度可视化与Grad CAM相融合,
以创建高分辨率和类判别性的引导Grad CAM可视化是可能的。
因此,即使图像包含多个可能概念的证据,与任何感兴趣的决策相对应的图像的重要区域也会以高分辨率的细节可视化,如图1d和1j所示。
当为“老虎猫”可视化时,Guided Grad CAM不仅突出了猫的区域,还突出了猫身上的条纹,这对于预测特定种类的猫很重要。
contribution
- 我们提出了Grad-CAM,这是一种类判别定位技术,可以从任何基于CNN的网络生成视觉解释,而无需架构更改或重新训练。
- 我们将Grad CAM应用于现有性能最佳的分类、字幕(第7.1节)和VQA(第7.2节)模型。对于图像分类,我们的可视化有助于识别数据集偏差(第6.2节),并深入了解当前细胞神经网络的故障(第6.1节),表明看似不合理的预测有合理的解释。对于字幕和VQA,我们的可视化揭示了一个有点令人惊讶的见解,即常见的CNN+LSTM模型通常善于定位有区别的图像区域,尽管没有在基于基础的图像-文本对上进行训练。
- 我们可视化了应用于图像分类的ResNets[16]619和VQA(第7.2节)。从深层到浅层,当我们遇到具有不同输出维度的层时,Grad-CAM的辨别能力显著降低。
- 我们进行的人类研究(第5节)表明,引导式梯度CAM解释具有阶级歧视性,不仅有助于人类建立信任,而且有助于未经训练的用户成功区分“更强”的网络和“较弱”的网络,即使两者都做出了相同的预测。
Grad-CAM,即梯度加权类激活映射 (Gradient-weighted Class Activation Mapping)_:)�东东要拼命的博客-CSDN博客里面包含代码和论文原文