CVPR 2024最佳论文分享:通过解释方法比较Transformers和CNNs的决策机制

news2024/10/4 20:52:56

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

本推文详细介绍了CVPR 2024最佳论文《Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods》。该论文的第一作者为俄勒冈州立大学博士生江明琪。论文通过将深度解释算法系统地应用于数据集,并比较所生成解释的数量和性质,揭示了不同视觉识别模型决策过程中的差异。本推文由陆新颖撰写,审校为朱旺和李杨。

1.研究背景与解决的关键问题

论文研究了深度学习领域中不同视觉识别模型在决策机制上的差异,特别关注卷积神经网络(Convolutional Neural Networks, CNNs)和Transformer模型在组合性和不连续性方面的表现。传统的CNN模型在处理复杂场景时存在泛化能力不足的问题,而近年来兴起的Transformer模型在整合全局信息和处理长距离依赖关系上展现出优异性能。论文提出了一种新的评估方法,通过最小充分解释(Minimally Sufficient Explanations, MSEs)和子解释计数等技术,深入分析了不同模型在部分证据上的表现和特征使用情况。此外,还通过交叉测试方法评估了不同模型在特征使用上的相似性。研究发现,新模型(如ConvNeXt和Transformer)在处理复杂场景时表现出更好的组合性和泛化能力,而经典CNN模型在部分证据上的表现较差。论文的研究为理解和优化深度学习模型的决策机制提供了新的视角和方法。

2.方法

1)最小充分解释和结构解释

MSEs和结构解释方法旨在深入理解深度神经网络的决策过程。传统的单一热图无法全面展示网络的决策机制,因此本文提出了一种新的系统性方法。首先,将图像分割成不重叠的小块,并通过波束搜索在低分辨率下组合这些小块,找到能导致高分类置信度的区域组合。接着,通过仅保留部分图像区域,观察分类是否保持不变,从而识别出在决策过程中起关键作用的图像部分。这个方法不仅揭示了网络在做出分类决策时依赖的关键特征,还提供了一种系统化的方式来解释模型的行为。如图1所示,原图是被识别分类在教堂类别中的,通过将图像分割若干小块,并组合不同数目的小块,当一定的组合在分类置信度高于90%时,同时组合中小块数目最少时,判断为MSEs。

图1 最小充分解释(MSE)和子解释的说明

2)子解释计数

子解释计数方法旨在研究深度网络在部分证据基础上的决策行为。具体做法是,从MSEs中删除部分图块,然后计算这些子集上的预测条件概率与完整图像的置信度比值。通过这种方式,可以评估网络在仅有部分信息时的决策能力,从而了解网络在处理不完整信息时的表现。这种方法有助于揭示模型在面对部分信息时的可靠性和鲁棒性。

3)设计选择的影响

为了分析不同设计选择对模型解释数量的影响,本文研究了归一化方法和感受野大小的选择。具体来说,训练了使用不同归一化方法(如批归一化、层归一化和组归一化)和不同感受野大小的模型,然后比较这些模型在ImageNet上的性能。结果表明,归一化方法的选择对模型的组合性和不连续性有显著影响,这表明设计选择在深度学习模型的决策机制中起着重要作用。

4)交叉测试特征

交叉测试方法进一步分析了不同模型在使用视觉特征上的差异。具体步骤包括:首先,使用一个深度模型生成归因图;然后,基于该归因图对第二个深度模型的插入/删除指标进行评估;最后,根据原始图像和完全模糊图像的平均分类置信度进行归一化比较。通过这种方法,可以评估不同模型在特征使用上的相似性和差异性,从而更好地理解不同模型的决策机制。

3.实验结果

论文的实验设置主要使用ImageNet数据集来评估不同视觉识别模型的表现,包括经典CNN模型(如ResNet50和VGG19)、现代数据增强后的CNN模型(如ResNet50-C1、ResNet50-C2和ResNet50-D)、混合模型ConvNeXt-T,以及多种Transformer模型(如Swin-T、Nest-T、DeiT-S和PiT-S),评估指标主要是Top-1和Top-5分类准确率,并通过最小充分解释和子解释计数方法深入分析模型的决策机制,以揭示不同模型在处理全局信息和部分证据时的行为差异,得到了以下的实验结果:

表1 不同模型之间的MSEs数和子解释数

在表格1中,统计了不同模型之间的MSEs数和子解释数。大多数CNN、ConvNeXts和经蒸馏的Transformers具有较高的MSEs数和较小的MSEs大小。相反,Swin Transformers和其他未经蒸馏的Transformers具有较小的MSEs数和较大的MSEs大小。回顾MSEs的定义,更高的数量和较小的大小意味着模型需要更少的补丁组合来形成一个自信的分类。然而,如果某个重要特征不可见,模型可以使用不同的组合,因此它可能对遮挡或缺失的视觉特征具有鲁棒性。

表2 ConvNeXt和Swin-T变体的归一化与感受野实验结果

作者调整了ConvNeXt-T-3和Swin-T-4模型的核尺寸和窗口大小,并尝试了批量归一化和组归一化替代层归一化。结果意外地显示,批量归一化显著减少了子解释的数量,使ConvNeXt和Swin Transformer的表现接近CNN模型的水平。这突显了归一化选择在模型组合性中的关键作用,比感受野大小更为重要。

图2 交叉测试的定性结果

作者还进行了交叉测试研究探索了不同类型的神经网络在分类任务中使用相似特征的情况。使用iGOS++方法生成的归因图热图揭示了不同网络对于相同图像的分类依赖程度。通过Kernel PCA将插入分数投影到二维空间,图2展示了交叉测试的定性结果。

通过分析以上的实验结果可以得到以下结论:

·  经典CNN模型在交叉测试中得分较低,表明它们的特征使用单一,依赖于特定的视觉特征。

·  新模型(如ConvNeXt和Transformer)在交叉测试中得分较高,表明它们使用了更多样化的特征,具有更好的泛化能力。

5. 结论

论文通过实验和分析,探讨了CNNs和Transformer模型在视觉识别任务中的决策机制,发现这些模型在组合性和不连续性特征上存在显著差异。研究表明,经典的CNNs依赖特定图像区域进行分类,泛化能力较差;而新模型如ConvNeXt和Transformer能够更好地整合全局信息,具有更强的泛化能力和鲁棒性。归一化方法的选择对模型决策机制有重要影响,批归一化导致组合性较差,而组归一化和层归一化则提高了组合性。此外,新模型在部分证据上的表现优于经典模型,使用特征更加多样化。这些发现为未来视觉识别模型的设计和优化提供了新的视角和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1900857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Maximin的异常检测方法(MATLAB)

异常存在于各个应用领域之中,往往比正常所携带的信息更多也更为重要。例如医疗系统中疾病模式,信用卡消费中的欺诈行为,数据库中数据泄露,大型机器故障,网络入侵行为等。大数据技术体系的快速兴起与发展,加…

奥威BI方案:多行业、多场景,只打高端局

奥威BI方案,确实以其卓越的性能和广泛的应用领域,在高端数据分析市场中占据了一席之地。以下是对奥威BI方案的详细解析。 奥威BI方案是一款针对多行业、多场景的全面数据分析解决方案,它结合了大数据、云计算等先进技术,为企业提…

2024年地理信息技术与应用技能大赛·决赛(2024年地理信息技术与应用能力水平考试·中级)

目录 1 请将所有数据的空间参考统一。(2分) 1.1 题目要求 1.2 详细解析 2 制作台风轨迹图。(10分) 2.1 题目要求 2.2 详细解析 3 分析台风影响城市,并将结果以独立专题图的形式展示。(13分&#xff…

固态继电器的未来浅析

固态继电器(SSR)已成为传统机电继电器的可靠替代品,具有开关速度更快、使用寿命更长、电磁干扰更少等诸多优势。随着技术的不断进步,SSR的未来有望在设计和应用的各个方面实现更显著的改进和创新。 1.小型化和集成化: 固态继电器开发的主要趋…

django高校教务系统-计算机毕业设计源码81661

目 录 摘要 1 绪论 1.1 研究背景 1.2目的及意义 1.3论文结构与章节安排 2 高校教务系统设计分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 2.4…

Windows 玩转大模型第一天:大模型本地部署,调用大模型API可直接工程化应用(全部代码和详细部署流程)

Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。 以下是其主要特点和功能概述: 1. 简化部署:Ollama 目标在于简化在 Docker 容器中部署大型语言模型的过程,使得非专业用…

全能PDF工具集 -- PDF Shaper Professional v14.3 特别版

软件简介 PDF Shaper是一款功能强大的PDF工具集,它提供了一系列用于处理PDF文档的工具。这款软件使用户能够轻松地转换、分割、合并、提取页面以及旋转和加密PDF文件。PDF Shaper的界面简洁直观,使得即使是新手用户也能快速上手。它支持广泛的功能&…

Stream练习

运用点&#xff1a; 流内数据类型转换(map)、filter、limit、skip、concat(让两个流合并) 题目&#xff1a; 操作1、2&#xff1a; ArrayList<String> manList new ArrayList<>();ArrayList<String> womanList new ArrayList<>();Collections.addAl…

新产品或敏捷项目过程 SOP,附带流程图及流程规范

一、项目启动 项目背景和目标明确 市场调研结果分析&#xff0c;确定新产品的需求和市场机会。制定明确的项目目标&#xff0c;包括产品特性、上市时间、预期收益等。 组建项目团队 确定项目经理、产品经理、开发人员、测试人员、市场人员等角色。明确各成员的职责和权限。 项目…

STL--求交集,并集,差集(set_intersection,set_union,set_difference)

set_intersection(重要) 求两个有序的序列的交集. 函数声明如下: template<class InputIterator1, class InputIterator2, class OutputIterator>OutputIterator set_intersection(InputIterator1 _First1, //容器1开头InputIterator1 _Last1, //容器2结尾(不包含)Inp…

阿里云OSS文件上传不配置环境变量使用显式AccessKey验证

问题背景 在中阿里云官方文档中介绍文件上传时&#xff0c;推荐配置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。这里用简单的方法&#xff0c;直接在Demo.java中显式指定accessKeyId和accessKeySecret&#xff0c;同时修改OSSClientBuilder()的入参。 解决方法 首先…

秒杀圣经:10Wqps高并发秒杀,16大架构杀招,帮你秒变架构师

高并发下&#xff0c;如何设计秒杀系统&#xff1f;这是一个高频面试题。 在40岁老架构师 尼恩的读者交流群(50)中&#xff0c;最近有小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、shein 希音、shopee、百度、网易的面试资格&#xff0c;遇到很多很重要的面试题…

如何选择TikTok菲律宾直播网络?

为了满足用户对于实时互动的需求&#xff0c;TikTok推出了直播功能&#xff0c;让用户能够与粉丝即时交流。本文将探讨如何选择适合的TikTok菲律宾直播网络&#xff0c;并分析OgLive是否是值得信赖的选择。 TikTok菲律宾直播网络面临的挑战 作为全球领先的短视频平台&#xff…

Redis 中 Set 和 Zset 类型

目录 1.Set类型 1.1 Set集合 1.2 普通命令 1.3 集合操作 1.4 内部编码 1.5 使用场景 2.Zset类型 2.1 Zset有序集合 2.2 普通命令 2.3 集合间操作 2.4 内部编码 2.5 使用场景 1.Set类型 1.1 Set集合 集合类型也是保存多个字符串类型的元素&#xff0c;但是和列表类型不同的是&…

【Android】自定义换肤框架01之皮肤包制作

前言 目前为止&#xff0c;市面上主流的安卓换肤方案&#xff0c;其实原理都是差不多的 虽然大多都号称一行代码集成&#xff0c;但其实想要做到完全适配&#xff0c;并不简单 这个系列&#xff0c;就是让大家从零开始&#xff0c;完全掌握这方面知识&#xff0c;这样才能对…

理解MySQL核心技术:存储过程与函数的强大功能

在大型应用程序和复杂的数据库操作中&#xff0c;存储过程与函数扮演着至关重要的角色。它们不仅可以提高代码的可维护性&#xff0c;还能加强数据库的安全性和性能。本篇文章将深入探讨MySQL存储过程与函数的基础知识、创建、管理及其在实际应用中的优势。 什么是存储过程和函…

数据结构+算法-实现一个计算器

在学习栈的数据结构的时候讲到可以用栈来实现一个计算器的功能&#xff0c;那么这个功能是如何实现的呢&#xff1f; 采用栈模拟得方式来实现一个计算器 要实现如下的功能: 字符串如何转为整数 2.处理加减法 如何处理加减法呢&#xff1f; 5-128 给第一个数字前面放一个号…

Java基础-接口与实现

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;请留下您的足迹&#xff09; 目录 Java 接口 什么是接口&#xff1f; 声明接口 实现接口 继承接口 接口的多继承 标记接口 Java 接口 …

代理模式的实现

1. 引言 1.1 背景 代理模式&#xff08;Proxy Pattern&#xff09;是一种常用的设计模式&#xff0c;它允许通过一个代理对象来控制对另一个对象的访问。在面向对象编程的框架中&#xff0c;代理模式被广泛应用&#xff0c;尤其在Spring框架的AOP&#xff08;面向切面编程&am…

优雅谈大模型:揭开计算机视觉任务神秘面纱

人工智能在第四次工业革命发挥着至关重要的作用&#xff0c;它广泛的融入日常生活&#xff0c;例如Google助手、Siri、智能手机摄像头、社交媒体过滤器、自动标记、医疗成像、导航等&#xff0c;所有这些技术都切实的改进和增强日常活动的便利性和习惯。 大模型技术发展到现在…