CAM Back Again论文详解

news2024/9/21 21:42:18

 论文名称:Large Kernel CNNs from a Weakly Supervised ObjectLocalization Perspective

论文地址:[2403.06676] CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective (arxiv.org)

出发点

       据报道,大尺度卷积核的cnn在下游视觉任务和分类性能方面表现良好,表现优异的原因被认为是由于大核产生的大有效接受场(ERF),然而这一观点在当前尚未得到充分的验证。作者选择弱监督对象定位(weakly supervised object localization简称WSOL)作为一个新的角度探索大卷积核CNN能力。作者研究比较了现代大型内核cnn ConvNeXt、RepLKNet和SLaK,以测试ERF大小对提高下游任务性能很重要的朴素期望的有效性。作者发现现代CNN对被激活物体局部区域的CAM问题具有鲁棒性,这在WSOL中已经被讨论了很长时间。

主要贡献

1、具体来说,作者表明很难将erf的大小定位为性能改进的主要因素,至少对于WSOL来说是这样,并且大型内核cnn的高性能是由于改进的特征映射。

2、作者发现上面描述的特征映射改进有效地避免了激活对象局部区域的CAM问题,这个问题在WSOL中已经讨论了很长时间。

3、在CUB-200-2011数据集上的WSOL实验表明,简单地将最新的大核CNN与最经典的WSOL方法(CAM)和简单的数据增强技术相结合,可以获得与最先进的基于CNN的WSOL方法相当的性能。此外,基于我们的发现提出的新的简单方法比基于cnn的最先进的分数高出0.43%。

主要实验

1、ConvNeXt、RepLKNet、SLaK和经典CAM的简要知识

        1)ConvNeXt架构图(ConvNeXt详细解答)

        2) RepLKNet架构(RepLkNet详解)

        3)SlaK详解

        4)经典的CAM (详解)

        用卷积神经网络(CNN)最后一层的特征图来生成一个热图,突出显示图像中对分类结果有贡献的区域。

2、传统CNN与和最新CNN实验

        1)实验结果

        实验1证明了简单地将最新的大核cnn与最经典的WSOL方法(CAM)和简单的数据增强方法相结合,可以获得与最先进的基于cnn的WSOL方法相当的性能。下图显示了传统CNN (ResNet50[16])和最新CNN在CUB-2002011数据集上的WSOL得分。

         下表显示了我们的最佳得分和其他基于cnn的WSOL方法的得分。我们的带有RepLKNet骨干网的CAM得分明显优于带有ResNet骨干网的wsol优化CAM,击败了所有2021年之前的方法。我们的模型与较新的WSOL方法相比也具有竞争力。由于CAM存在各种问题,例如倾向于只激活对象的局部区域,因此尝试了各种改进,如表1所示。这些改进包括从数据增强策略到更复杂的训练方法和后处理。然而,我们已经证明,简单地将最新的大核cnn与最经典的WSOL方法(CAM)和简单的数据增强方法相结合,可以获得与最先进的基于cnn的WSOL方法相当的性能。

         2)CAM在WSQL任务中遇到的问题、产生的原因和如何解决

            问题1:CAM倾向于生成局部激活的映射,是不正确的定位(如下图1,CAM得到的只有鸟的头部)

                 产生上述问题的原因有两个:1)由于GAP层的存在,激活区域和权重的乘积对logit有贡献,CNN训练倾向于增加激活对识别重要的局部区域的特征映射对应的权重。这种效应增强了局部特征映射对CAM的贡献。2)如果在目标区域(特别是对分类不重要的区域)激活负权重对应的特征映射,则定位将进一步缩小到目标的可识别区域。上图1用实际的特征图说明了这些问题。

                解决1:现代CNN模型可以解决CAM存在的问题1(效果图2如下)

 

         对于ConvNet、RePLKNet和SLak生成的CAM,我们可以看到,特别是ConvNeXt和RepLKNet生成的CAM,整个对象被激活而不是局部。

                问题2:CAM在图1中Fj所示的负权重问题

                解决2:现代CNN模型解决CAM在图1中Fj所示的负权重问题(效果图3如下)

       上图3显示了三种不同最新cnn的大正负权特征图。下面,我们将正负权值对应的特征映射分别称为Fpos和Fneg。ConvNeXt和SLaK激活了许多Fneg,而RepLKNet激活的地图较少。Fneg具有抑制正确类别的最终logit激活的作用,不应该在分类任务中激活它。因此,从分类任务的角度来看,RepLKNet特征映射处于理想状态。对于WSOL任务来说,这种非激活状态也是避免这种局部化问题所需要的。RepLKNet似乎避免了这个问题,因为它倾向于自动停用Fneg。

                问题3:激活面积大小和权重大小的问题

                解决3:现代cnn如何避免图2中Fi的问题即激活面积大小和权重大小的问题(效果图4如下)

       ConvNeXt和RepLKNet产生的CAMs往往会被全局激活(如图2)。这可能是由于显著改进了特征映射本身的全局性,从而减少了迄今为止所描述的问题的影响。为了证实这一点,我们对得到的特征图进行了主成分分析。上图4显示了对鸟类图像生成的特征图进行主成分分析得到的第一主成分(以下简称PC1)的特征。 通过生成全局激活的特征图,ConvNeXt和RepLKNet避免了由于激活区域和权重的大小而导致的局部激活问题。从图4中,我们观察到PC1在ConvNeXt中倾向于激活物体周围的全局区域。另一方面,RepLKNet的PC1可以不浪费地将物体包裹起来,使其具有理想的定位映射形状。SLaK的PC1倾向于局部激活,还有一个明显的趋势是激活与物体无关的区域。

        因此,通过生成全局激活的特征图,ConvNeXt和RepLKNet避免了由于激活区域和权重的大小而导致的局部激活问题。

疑惑解答

1、内核大小越大,ERF越大吗? 最新CNN模型的ERF总体上比经典CNN模型(如ResNet)大得多,但我们观察到这些报告模型的核大小不一定是ERF大小的主要决定因素。

2、ERF越大,WSOL得分就越高吗?在最新的CNN模型中,ERF大小对下游任务的性能很重要,很难将ERF大小定位为性能提升的主要驱动因素。

3、为什么CAM对于ConvNeXt和RepLKNet趋向于全局,而对于SLaK趋向于局部?GAP值反映了通过全局池化激活区域的面积。对于SLaK, GAP值和权重之间的关系分布为以原点为中心的二维高斯分布。另一方面,ConvNeXt和RepLKNet在GAP值的方向上具有广泛分布的偏差。SLaK的高斯形状与cnn的一般趋势非常相似,特征图中激活区域越小(越大),权重就越大(越小)。因此,由于本文实验部分问题3解释的相同原因,从初始化开始,SLaK固有地倾向于产生局部激活的cam。另一方面,在ConvNeXt和RepLKNet的图中,大权重并不一定意味着小GAP值,从而避免了上面提到的一般CNN趋势。因此,在初始化时,就已经表明ConvNeXt和RepLKNet具有强烈的生成全局激活特征映射的倾向。

总结

1、与最新的大核cnn相结合时,简单的CAM方法在WSOL任务中的表现优于最先进的基于cnn的WSOL方法。

2、提出了一些材料证明无法将ERF的大小作为高性能背后的主要因素。

3、提供了一种新的观点,即WSOL任务中的高性能是由于体系结构的固有能力(例如,有助于生成具有大GAP值或激活区域的特征图的结构)以及特征图的改进。改进的feature map有效地解决了WSOL中讨论已久的被激活物体局部区域的CAM问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通配符证书的简介和申请方法

通配符证书是一种SSL证书,它利用域名字段中的通配符(*)来指示,允许用户在一个证书中关联多个顶级域名及其子域,从而简化证书管理流程,节省成本和时间。以下是通配符证书的简介和申请方法的详细说明&#xf…

微信小程序开发--详情【开发一次 多端覆盖】

目录 1、准备工作 了解 uni-app : 准备开发工具: 下载 : 安装完成后,打开这个开发者工具: 对微信小程序进行配置: 使用开发工具HBuilderX:: 先安装终端插件 2、初始化一个demo 创建项目&#xff1…

分类预测|基于麻雀优化核极限学习机的数据分类预测Matlab程序SSA-KELM 多特征输入多类别输出 含基础KELM

分类预测|基于麻雀优化核极限学习机的数据分类预测Matlab程序SSA-KELM 多特征输入多类别输出 含基础KELM 文章目录 前言分类预测|基于麻雀优化核极限学习机的数据分类预测Matlab程序SSA-KELM 多特征输入多类别输出 含基础KELM 一、SSA-KELM模型SSA-KELM 分类预测的详细原理和流…

软考 -- 软件设计师 -- 二轮复习(1) -- 计算机系统基础知识错题集和重点知识(持续更新)

软考 – 软件设计师 – 二轮复习(1) – 计算机系统基础知识错题集和重点知识(持续更新) 文章目录 软考 -- 软件设计师 -- 二轮复习(1) -- 计算机系统基础知识错题集和重点知识(持续更新)前言一、CPU二、内存编址计算三、原码、反码、补码、移码计算四、浮点数 前言 考试时间&a…

led台灯对眼睛好不好?护眼台灯怎么选对眼睛好?收下这份攻略

随着年级的升高与学业内容的日益丰富,学生们待在书桌前的时间却越来越长。同时电子产品的广泛普及,让我国青少年的用眼负担显著增加。权威机构预测,到2050年,全球近视人群将达到惊人的49.49亿人,患病率高达52%。这一严…

MySQL编译安装

1.源码包地址 2.编译/安装 3.设置环境变量 4.初始化/登录 地址: MYSQL源码包下载 右键复制链接 使用wget 下载到/usr/local/src下 再使用rpm –ivh 安装 --这个时候跳转到 cd /root/rpmbuild/SOURCES 使用ll查看有什么东西 yum -y install gcc gcc-c ncurses ncurses-d…

java设计模式day01--(类之间的关系、软件设计原则、单例设计模式)

视频网址:s1.设计模式-课程介绍_哔哩哔哩_bilibili 1,设计模式概述 1.1 软件设计模式的产生背景 "设计模式"最初并不是出现在软件设计中,而是被用于建筑领域的设计中。 1977年美国著名建筑大师、加利福尼亚大学伯克利分校环境结构…

Apache RocketMQ 批处理模型演进之路

作者:谷乂 RocketMQ 的目标,是致力于打造一个消息、事件、流一体的超融合处理平台。这意味着它需要满足各个场景下各式各样的要求,而批量处理则是流计算领域对于极致吞吐量要求的经典解法,这当然也意味着 RocketMQ 也有一套属于自…

ImportError: DLL load failed while importing _wrapper: 找不到指定的模块

今天使用pyinstaller打包好脚本,执行打包好的程序后,出现如下的报错: 这个问题花了我一个上午,在网上查找相关的解决方法,然而不知道是我的搜索方式有问题,还是这个资料比较少,找了很久,只找到了一篇极度相关的文章:https://blog.csdn.net/weixin_46457351/article/d…

C Primer Plus第十五章编程练习,仅供参考

第十五章编程练习 本章第一个编程练习的内容是让我们将二进制字符串转换为一个数值&#xff0c;传递字符串指针&#xff0c;逻辑并不复杂&#xff0c;完整程序代码以及运行结果如下&#xff1a; #include<stdio.h> #include<string.h> #include<math.h> in…

从C向C++28——设计模式

一.设计模式 1.设计模式理解 ​ C程序设计模式是针对在C编程中常见问题的通用、可重用的解决方案。设计模式主要是在软件工程领域&#xff0c;特别是在面向对象编程中发展起来的&#xff0c;它们提供了一种标准的术语和解决方案&#xff0c;可以帮助程序员更好地设计软件架构…

豆包 MarsCode试用体验

1.前言 豆包 MarsCode 是一款为你提供了AI编程助手和云端集成开发环境来协助你完成编程任务的产品。 2.功能介绍 2.1.豆包 MarsCode 编程助手 豆包 MarsCode 编程助手是豆包旗下的 AI 编程助手&#xff0c;提供以智能代码补全为代表的 AI 功能。它支持主流的编程语言和 IDE…

Luma AI,让你的视频像电影一样精彩!附带使用教程

Luma 视频生成 API 对接说明 随着 AI 的应用变广&#xff0c;各类 AI 程序已逐渐普及。AI 已逐渐深入到人们的工作生活方方面面。而 AI 涉及的行业也越来越多&#xff0c;从最初的写作&#xff0c;到医疗教育&#xff0c;再到现在的视频。 Luma 是一个专业高质量的视频生成平…

tomcat实验

Tomcat 服务器是一个免费的开放源代码的Web 应用服务器&#xff0c;属于轻量级应用服务器&#xff0c;在中小型系统和并发访问用户不是很多的场合下被普遍使用&#xff0c;Tomcat 具有处理HTML页面的功能&#xff0c;它还是一个Servlet和JSP容器。 下载文件 安装javajdk 解压 …

ComfyUI基础操作教学!小白入门必看!

在我们打开comfyui后会面对一堆节点&#xff0c;那么这些节点都是什么意思呢&#xff1f;今天跟着小元老师来学习一下吧&#xff5e; 一、拆解文生图基本工作流 这个是Comfyui默认的文生图工作流它的基本逻辑是&#xff1a; 条件输入板块——潜空间——像素空间 01 条件输入模…

AiThinkerIDE_V1.5.2工程随意移动地方,路径不能有空格

路径不能有空格&#xff0c;例如usr_sdk不能改为usr sdk IDF_PATH&#xff1a; ${workspace_loc:/AiThinkerProjectForESP}${workspace_loc:/AiThinkerProjectForESP}/examples/get-started/hello_world

2024年入职_转行网络安全,该如何规划呢?

前言 前段时间&#xff0c;知名机构麦可思研究院发布了 《2023年中国本科生就业报告》&#xff0c;其中详细列出近五年的本科绿牌专业&#xff0c;其中&#xff0c;信息安全位列第一。 网络安全前景 对于网络安全的发展与就业前景&#xff0c;想必无需我多言&#xff0c;作为…

C#中的批量引用已有的NuGet包

引言 小伙伴们有没有遇到过一个问题&#xff0c;就是我有一个类库A引用了很多NuGet包&#xff0c;但是到B类库中也需要使用&#xff0c;但是不想一个一个引用&#xff0c;很麻烦&#xff0c;所以我教大家一招&#xff0c;直接复制NuGet包&#xff1a; 第一步&#xff1a; 找…

【开发实战】QT5 + 深度学习六大应用案例

点击这里&#xff0c;即可一键获取六大案例源码与相关资料 QT5 OpenCV4.8 QT5 OpenCV4.8 开发与配置环境搭建&#xff0c;请看博客文章 QT5 OpenCV4 开发环境配置应用演示 深度学习模型部署 深度学习模型部署有很多成熟的框架&#xff0c;当前经常使用的深度学习模型推理…

linux 上传文件报错 -bash: rz:command not found

linux 上传文件报错 -bash: rz:command not found 新创建的纯净虚拟机无法上传文件安装lrzsz 新创建的纯净虚拟机无法上传文件 这个错误表明系统中没有安装 rz&#xff08;上传文件工具&#xff09;命令。 如果是在 CentOS 或 Red Hat 等基于 RPM 的系统上&#xff0c;可以使用…