Grad-CAM 小陈读paper系列(摘要加引言)

news2024/11/25 1:38:49

Abstract

我们提出了一种基于卷积神经网络 (CNN) 的模型的决策生成“视觉解释”的技术,使它们更加透明。我们的方法——梯度加权类激活映射(Grad-CAM),

使用任何目标概念的梯度(例如“狗”甚至标题的 logits),流入最终的卷积层以产生粗略的定位图,突出显示图像中的重要区域来预测概念。

与以前的方法不同,GradCAM 适用于各种 CNN 模型家族:

(1)具有全连接层(例如 VGG)的 CNN,

(2)用于结构化输出的 CNN(例如字幕),

(3)用于多模态输入(例如视觉问答)或强化学习的任务中使用的 CNN,

没有架构更改或重新训练。

我们将Grad-CAM与现有的细粒度可视化相结合,创建了一个高分辨率的类判别可视化,Guided Grad-CAM,并将其应用于图像分类、图像字幕和视觉问题回答(VQA)模型,包括基于resnet的架构。

在图像分类模型的背景下,我们的可视化

(a) 深入了解这些模型表现不佳的地方(表明看似不合理的预测具有合理的解释),

(b) 在 ILSVRC-15 弱监督定位任务上优于以前的方法,

(c) 更忠实于底层模型,

(d) 通过识别数据集偏差来帮助实现模型泛化。

对于图像字幕和 VQA,我们的可视化显示即使是基于非注意力的模型也可以定位输入。

最后,我们设计并进行了人体研究来衡量 Grad-CAM 解释是否帮助用户对深度网络的预测建立适当的信任,并表明 Grad-CAM 帮助未经训练的用户从“较弱”成功识别“更强”的深度网络,即使两者都做出相同的预测。

Introduction

存在的问题

While these deep neural networks enable superior performance, their lack of decomposability into intuitive and understandable components makes them hard to interpret [26].

深度学习模型好 为什么好 

太黑盒了 导致出现大眼瞪小眼的情况(其实再加重问题)

Interpretability matters. In order to build trust in intelligent systems and move towards their meaningful integration into our everyday lives, it is clear that we must build 'transparent' models that explain why they predict what they predict.

就是说呢。可解释非常重要

然后再后来画一个饼 人工智能教人类做事 (也不是不行,被chatgpt支配的科研民工)

我们的方法对于卷机具有普适性 很方便也确实如此

什么是一个好的视觉解释?

What makes a good visual explanation?

Consider image classification [9] – a 'good' visual explanation from the model for justifying any target category should be

(a) classdiscriminative (i.e. localize the category in the image) and

(b) high-resolution (i.e. capture fine-grained detail).

a) 类判别(即在图像中定位类别)和(b)高分辨率(即捕获细粒度细节)。

为了将两全其美结合起来,我们展示了将现有的像素空间梯度可视化与Grad CAM相融合,

以创建高分辨率和类判别性的引导Grad CAM可视化是可能的。

因此,即使图像包含多个可能概念的证据,与任何感兴趣的决策相对应的图像的重要区域也会以高分辨率的细节可视化,如图1d和1j所示。

当为“老虎猫”可视化时,Guided Grad CAM不仅突出了猫的区域,还突出了猫身上的条纹,这对于预测特定种类的猫很重要。

contribution

  1. 我们提出了Grad-CAM,这是一种类判别定位技术,可以从任何基于CNN的网络生成视觉解释,而无需架构更改或重新训练。
  2. 我们将Grad CAM应用于现有性能最佳的分类、字幕(第7.1节)和VQA(第7.2节)模型。对于图像分类,我们的可视化有助于识别数据集偏差(第6.2节),并深入了解当前细胞神经网络的故障(第6.1节),表明看似不合理的预测有合理的解释。对于字幕和VQA,我们的可视化揭示了一个有点令人惊讶的见解,即常见的CNN+LSTM模型通常善于定位有区别的图像区域,尽管没有在基于基础的图像-文本对上进行训练。
  3. 我们可视化了应用于图像分类的ResNets[16]619和VQA(第7.2节)。从深层到浅层,当我们遇到具有不同输出维度的层时,Grad-CAM的辨别能力显著降低。
  4. 我们进行的人类研究(第5节)表明,引导式梯度CAM解释具有阶级歧视性,不仅有助于人类建立信任,而且有助于未经训练的用户成功区分“更强”的网络和“较弱”的网络,即使两者都做出了相同的预测。

Grad-CAM,即梯度加权类激活映射 (Gradient-weighted Class Activation Mapping)_:)�东东要拼命的博客-CSDN博客里面包含代码和论文原文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/973866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新品登场!雅特力发布AT32F402与AT32F405高速USB2.0 OTG MCU

因应高速USB市场需求,产品技术不断推陈出新,USB2.0发展带来的高速连接能力,优化消费者的产品使用体验,且由于支持即插即用和热插拔,提高设备易用性,USB接口在各项设备中成为主流通用接口。在USB2.0标准中&a…

网站做SEO为什么见效慢?都有哪些原因导致?

SEO是一种具有一定运营周期的网络营销模式,与其他网络营销方式不同,它在短时间内可能不会产生营销效果,因为网站SEO优化是一项依赖于积累和坚持的工作。一般来说,搜索引擎优化的结果在一年左右会更加稳定。之所以在一些情况下见效…

【⑰MySQL】 变量 | 循环 | 游标 | 处理程序

前言 ✨欢迎来到小K的MySQL专栏,本节将为大家带来MySQL变量 | 循环 | 游标 | 处理程序的分享✨ 目录 前言1. 变量1.1系统变量1.2 用户变量 2. 定义条件与处理程序2.1 案例分析2.2 定义条件2.3 定义处理程序2.4 案例解决 3. 流程控制3.1 分支结构3.2 循环结构3.3 跳转…

leaflet · 初体验

首先关于地图的组件有很多,leaflet就是其一,Leaflet 是一个开源的 JavaScript 库,用于在网页上创建交互式地图。它提供了一系列易于使用的函数和方法,使开发者可以轻松地添加地图、标记、图层和交互功能。 通过命令下载插件l…

Astro建站教程:安装nodejs,npm下载Astro,安装扩展

下载Nodejs LTS版:https://nodejs.org/en 安装步骤全默认即可,安装路径可以根据自己的爱好更改在桌面右键打开cmd或powershell,输入node -v和npm -v测试是否安装成功 浏览器打开https://docs.astro.build/en/install/auto/ 复制里面的npm cre…

Sigrity Power DC 19 导入translator转换后文件显示unsupported file

Sigrity Power DC 19 导入translator转换后文件显示unsupported file的解决办法 先create New Workspace,然后load Layout 选择Load an existing Layout 选择spd文件 List item

Transform和小写transform的关系

1.为什么Transform类是保护的不能通过new 来实例化对象,也没有静态函数,而Rotate()这种方法却属于它,该如何访问? Transform 类还是被保护的不允许用户修改! protected Transform(); 是一个受保护的构造函数,不能直接实例化 Transform 类。 2.为甚么transform可以访问Tr…

华为数通方向HCIP-DataCom H12-821题库(单选题:281-300)

第281题 OSPF 协议对邻居路由器之间交换的所有数据包都具有认证能力,在VRP系统中,OSPF支持以下哪一种算法? A、DES B、MD5 C、AES D、RSA 答案:B 解析: 在VRP系统中,OSPF协议支持的认证算法是MD5。 第282题 以下关于堆叠拓扑连接方式的描述,错误的是哪一项? A、根…

Meta AI 多语言阅读理解数据集 Belebele

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵盖了 29 种脚本和 27 个语系中…

2.4 PE结构:节表详细解析

节表(Section Table)是Windows PE/COFF格式的可执行文件中一个非常重要的数据结构,它记录了各个代码段、数据段、资源段、重定向表等在文件中的位置和大小信息,是操作系统加载文件时根据节表来进行各个段的映射和初始化的重要依据…

百度自研高性能ANN检索引擎,开源了

作者 | Puck项目组 导读 Puck是百度自研的开源ANN检索引擎。Puck开源项目包含两种百度自研的检索算法,以高召回、高准确、高吞吐为目标,适用于多种数据规模和场景。随着业务发展不断的优化和迭代,进行充分的技术开发和测试,确保了…

深入剖析计算机网络和操作系统:面试必备知识解析

深入剖析计算机网络和操作系统的核心概念和面试题,帮助大家全面理解和掌握这两个重要领域的关键知识,为面试做好准备。 计算机网络 什么是TCP拥塞控制?它的目的是什么? TCP拥塞控制是一种机制,用于在网络中控制数据流…

简述电子企业MES管理系统解决方案的实施策略

引言:在电子制造企业中,随着产品种类的增多和订单数量的增长,传统的手工管理方式已经无法满足企业的生产需求。为了提高生产效率,降低成本,提高订单的履行速度和准确性,电子企业需要实施MES管理系统。本文将…

【C++】STL-函数对象 + 谓词

1.函数对象使用 #include <iostream> using namespace std;//STL-函数对象&#xff08;仿函数&#xff09;class MyAdd { public:int operator()(int v1, int v2){return v1 v2;} }; //1、函数对象在使用时&#xff0c;可以像普通函数那用调用&#xff0c;可以有参数&am…

NineData 中标移动云数据库传输项目

导读近日&#xff0c;玖章算术 NineData 智能数据管理平台成功中标《2023 年移动云数据库传输服务软件项目》&#xff0c;中标金额为 406 万。这标志着玖章算术 NineData 平台已成功落地顶级运营商行业&#xff0c;并在数据管理方面实现了大规模应用实践。 NineData 中标 2023 …

2023年Python依然是霸主?十大企业编程语言揭秘!

计算机编程语言是现代企业和科技领域不可或缺的一部分&#xff0c;它们为程序员提供了与计算机进行交流的工具。就像人类有多种交流语言一样&#xff0c;计算机编程语言也多种多样&#xff0c;每种语言都有其独特的特点和用途。随着数字化时代的来临&#xff0c;企业在选择编程…

ChatGPT AIGC 一键总结SQL优化所有知识点

SQL优化一直是程序员非常关注的内容,使用ChatGPT AIGC结合思维导图进行总结SQL优化的所有知识点内容。 非常简单实用的操作,就得到了如何进行SQL优化的所有细节。 更多内容见: AIGC ChatGPT ,BI商业智能, 可视化Tableau, PowerBI, FineReport, 数据库Mysql Oracle, Off…

Cyber RT学习---5.Cyber RT通信机制解析与实践

5.Cyber RT通信机制解析与实践 5.1 通信机制简介 5.1.1 话题通信 模式&#xff1a; 以发布订阅的方式实现不同节点之间数据交互的通信模式。 如图1-1所示&#xff0c;Listener-Talker通信首先创建了两个Node&#xff0c;分别是Talker Node和 Listener Node。 每个Node实例化…

精通期权短线交易的技巧,从此成为投资高手!

投资期权最常见的两种交易方式就是长线交易和短线交易&#xff0c;每一种交易方式都有自己的特点和优势&#xff0c;适合不同类型和目的的投资者。下面给大家分享一些精通期权短线交易的技巧&#xff0c;从此成为投资高手&#xff01;希望能帮到大家。本文来自&#xff1a;期权…

中国人保为天能电力器具承保产品责任险,为消费者保驾护航!

战略达成&#xff0c;保驾护航 2023年7月&#xff0c;河北天能电力器具制造有限公司与世界五百强之一的综合性保险公司——中国人民财产保险股份有限公司达成战略合作&#xff0c;签署产品安全责任险保单&#xff0c;携手为消费者保驾护航&#xff01; 产品质量是当下企业生存发…