揭秘视觉Transformer之谜,TokenTM新法,全面提升模型解释性能

news2024/12/27 17:44:20

5fda5ece028730e3bcc1789c8ab1371e.jpeg

引言:揭示视觉Transformer的解释挑战

在计算机视觉应用中,Transformer模型的流行度迅速上升,但对其内部机制的后置解释仍然是一个未探索的领域。视觉Transformers通过将图像区域表示为转换后的tokens,并通过注意力权重将它们整合起来来提取视觉信息。然而,现有的后置解释方法仅考虑这些注意力权重,忽略了转换tokens中的关键信息,这无法准确地展示模型预测背后的逻辑。为了将token转换的影响纳入解释中,我们提出了TokenTM,这是一种新颖的后置解释方法,它利用我们引入的token转换效应的度量。具体来说,我们通过测量token长度的变化和它们方向上的相关性来量化token转换效应。此外,我们开发了初始化和聚合规则,以跨所有层次整合注意力权重和token转换效应,捕获模型中整体token的贡献。实验结果表明,我们提出的TokenTM在分割和扰动测试中的性能优于现有的最先进的视觉Transformer解释方法。

论文标题:Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer

作者与机构:Junyi Wu, Bin Duan, Weitai Kang, Hao Tang, Yan Yan - Department of Computer Science, Illinois Institute of Technology, USA; Robotics Institute, Carnegie Mellon University, USA

论文链接:https://arxiv.org/pdf/2403.14552.pdf

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

概述视觉Transformer的内部机制及其解释性问题

视觉Transformer是一种在计算机视觉应用中迅速流行的模型,它通过将图像区域表示为转换后的tokens,并通过注意力权重将它们整合起来来提取视觉信息。然而,对于这些模型内部机制的后置解释仍然是一个未探索的领域。现有的后置解释方法主要考虑注意力权重,忽略了转换后tokens中的关键信息,这导致无法准确揭示模型预测背后的逻辑。例如,即使某些背景区域通过高注意力权重进行了放大,如果它们被转换成更小或方向发散的tokens,它们的实际贡献可能会减少。相反,一个前景对象,尽管接收到的注意力权重很小,但由于在模型内部发生了显著的转换,它可能在预测中扮演了关键角色。因此,需要一种全面的解释方法来同时解决注意力权重和token转换这两个因素。

2ee09d283ff319eb9f023da8267783e1.jpeg

提出TokenTM:一种新的后置解释方法

1. TokenTM的核心思想:整合注意力权重与Token变换效应

TokenTM是一种新的后置解释方法,它的核心思想是将注意力权重与token变换效应结合起来。TokenTM通过引入token变换效应的度量来实现这一点,具体来说,通过测量token长度和方向的变化来量化token变换效应。此外,TokenTM还开发了初始化和聚合规则,以跨所有层整合注意力权重和token变换效应,捕捉模型整体的token贡献。

2. Token变换的度量:长度和方向的变化

TokenTM通过两个基本属性来衡量token变换的影响:长度和方向。长度函数L(x)用于测量token的长度,通常使用L2范数来实例化。方向函数C(x, (cid:101)x)使用余弦相似度来量化方向上的相关性。TokenTM将这两个组件结合起来,定义了转换权重W,这些权重反映了原始信息在转换后tokens中保留或改变的程度,以真实评估它们的贡献。

3. 跨层聚合框架:捕捉模型整体Token贡献

TokenTM引入了一个聚合框架,用于跨整个模型衡量上下文化和转换的综合影响。整体贡献图C由tokens的数量n决定,其中Cij累积了第j个输入token对第i个输出token的影响。在模型的初始状态,每个输入token仅包含自身,没有经过上下文化或转换。聚合框架使用输入tokens的长度进行初始化,并使用更新映射Ul追踪tokens在层间的演变。最终,通过提取与[CLS] token相关的行并将其重塑为图像的空间维度,形成了最终的解释热图,突出了对预测结果影响最大的区域。

7a97663cc9e91c98b58a81b913fc6589.jpeg

ee5b4c29fbf75db28b1703be01438751.jpeg

实验设计与评估方法

1. 基线方法:与现有技术的比较

在进行实验设计时,我们首先确定了一系列基线方法,以便与我们提出的TokenTM方法进行比较。这些基线方法包括广泛使用的三种类型:(i) 基于梯度的方法,如Grad-CAM [37];(ii) 基于归因的方法,如LRP [9]、Conservative LRP [3]和Transformer Attribution [13];以及(iii) 基于注意力的方法,如Raw Attention [26]、Rollout [1]、ATTCAT [35]和GAE [12]。

2. 评估属性:定位能力、对准确性的影响、对概率的影响

在评估方法的设计中,我们关注了三个主要属性:

- 定位能力:这一属性评估解释方法在定位模型识别的前景对象方面的效果。理想情况下,一个可靠的解释应该是以对象为中心的,即准确突出模型用于做出决策的对象。

- 对准确性的影响:这一方面关注解释如何捕捉像素与模型准确性之间的相关性。我们通过在CIFAR-10、CIFAR-100 [28]和ImageNet [36]上进行扰动测试来评估这一属性。

- 对概率的影响:这一属性进一步衡量解释如何捕捉模型预测概率中重要像素的效果。同样,通过扰动测试来评估,并在ViT-B和ViT-L [17]上报告结果。

实验结果与分析

1. 定性评估:TokenTM的解释热图更为精确

在定性评估中,我们通过可视化解释热图来展示TokenTM的效果。如图4所示,TokenTM的解释热图更加精确和详尽,与仅使用注意力权重的方法相比,TokenTM有效地消除了噪声区域,提供了更以对象为中心的分析。

2. 定量评估:TokenTM在各项指标上的表现

在定量评估方面,我们的TokenTM在多个指标上表现出色:

定位能力:在ImageNet-Segmentation数据集上的分割结果(表1)显示,TokenTM在像素精度、平均交并比(mIoU)和平均精度(mAP)上显著优于所有基线方法,证明了其更强的定位能力。

7730e47069004e8d77a410e04e8d5ece.jpeg

对准确性的影响:在CIFAR-10、CIFAR-100和ImageNet上的扰动测试结果(表2、表3和表4)表明,TokenTM在正面和负面测试中均优于基线方法。在正面测试中,较低的AUC指标表明性能更好;而在负面测试中,较高的AUC则更为理想。

d2b25b39ca6fe572c97ef992d91dcc8e.jpeg

231f1691f78308b81b216206e5082c76.jpeg

对概率的影响:在ViT-B和ViT-L模型上的扰动测试结果(表5)显示,TokenTM在AOPC和Log-odds分数(LOdds)上的表现突出,这些指标量化了输出概率相对于预测标签的平均变化。

30e712370218a7ab8249bfbd8caf0918.jpeg

此外,我们还进行了消融研究,以验证所提出的转换测量(长度L和归一化指数余弦相关性NECC)和聚合框架(AF)的效果(表6)。结果表明,每个提出的组件都在视觉变换器解释上提高了性能。我们还研究了聚合深度对TokenTM性能的影响(表7),结果表明,随着聚合层数的增加,性能稳步提升,这表明深层聚合对于捕捉模型推理的真实理由至关重要。

fb71936f1e1b0bec907a212b33116adc.jpeg

680b35f44f76eda7fc20947019fbb0ca.jpeg

消融实验:验证提出组件的有效性

1. 提出组件的消融研究:L和NECC的影响

在进行消融实验时,研究者们关注了提出的TokenTM方法中两个关键组件——长度函数L和归一化指数余弦相关性(NECC)——对模型解释性的影响。长度函数L通过计算嵌入空间中的L2范数来衡量原始或变换后的token的长度。NECC则用于量化变换后的token与其原始对应token之间的方向相关性,采用余弦相似度来衡量两个token之间的角度。

消融研究的结果表明,每个提出的组件都能够提高模型在图像分割和扰动测试中的性能,这验证了它们在视觉Transformer解释中的有效性。具体来说,当仅使用基线方法(即不应用提出的组件)时,性能是最低的。随着逐步引入长度函数L和NECC,性能得到了显著提升,这表明这两个组件对于捕捉Transformer层中token变换的影响至关重要。

2. 聚合深度的消融研究:深度对解释性的影响

研究者们还探讨了聚合深度对TokenTM方法解释性的影响。通过逐渐增加模型中被聚合的层数,从最初的几层到整个网络的深度,他们观察到性能的持续提升。这一发现表明,深层聚合token变换和上下文化效应对于捕捉模型推理过程中的真实逻辑至关重要。随着聚合包含更多层,解释性热图逐渐细化并更集中于模型识别的对象,从而更精确地定位了模型预测背后的理由。

总结与展望:TokenTM方法的意义与未来研究方向

TokenTM方法通过引入token变换测量和跨所有层的聚合框架,为视觉Transformer的解释提供了一个新的视角。它不仅考虑了注意力权重,还考虑了token变换的影响,从而生成了更忠实的后验解释。实验结果表明,TokenTM在定位能力、准确性影响和概率影响方面均优于现有的最先进方法。

未来的研究可以在几个方向上进行拓展。首先,TokenTM方法可以应用于其他类型的Transformer模型,如自然语言处理或音频处理中的模型,以验证其泛化能力。其次,可以进一步探索token变换的其他属性,如形状或纹理,以提高解释性。最后,可以研究如何将TokenTM与其他解释性方法结合,以提供更全面的模型解释。随着对模型透明度和可解释性需求的增加,TokenTM及其未来的改进将在提高人们对复杂机器学习模型决策的信任中发挥重要作用。 



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1571051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一篇文章带你掌握二叉树(附带二叉树基本操作完整代码演示,和两种思路)

【本长内容】 1. 掌握树的基本概念 2. 掌握二叉树概念及特性 3. 掌握二叉树的基本操作 4. 完成二叉树相关的面试题练习 1. 树形结构 1.1 概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合。把它叫做树是…

RK3568平台 Uart驱动框架

一.TTY子系统 在Linux kernel中,tty驱动不像于spi,iic等那么架构简单,它是一个庞大的系统,它的框架大体如下图一。我们作为普通的驱动开发移植人员,不会从零写tty驱动,一般都是厂家根据现有的tty驱动和自家…

SpringBoot整合MyBatis四种常用的分页方式

目录 方式1 一、准备工作 1. 创建表结构 2. 导入表数据 3. 导入pom.xml依赖 4. 配置application.yml文件 5. 创建公用的实体类 项目结构 2. 创建controller层 3. 创建service层 4. 创建mapper层 5. 创建xml文件 6. 使用postman进行测试,测试结果如下…

基于JAVA+SpringBoot+Vue的前后端分离的大学健康档案管理系统

一、项目背景介绍: 随着社会的发展和科技的进步,人们越来越重视健康问题。大学作为培养人才的摇篮,学生的健康状况直接影响到国家的未来。然而,传统的大学健康档案管理方式存在诸多问题,如信息不透明、数据分散、更新不…

从零开始为香橙派orangepi zero 3移植主线linux——2.kernel + rootfs

从零开始为香橙派orangepi zero 3移植主线linux——2.kernel rootfs 参考文章:一、linux kernel移植二、根文件系统2.1 buildroot构建1.修改toolchain下的交叉编译链2.修改系统配置3.去除内置kernel和uboot编译4.添加rootfs.tar格式的输出 2.2 ubuntu-base移植 三、…

WebAuthn:更好地保护线上敏感信息

1. 引言 2023年知乎博客 WebAuthn: 真正的无密码身份认证 总结得很赞。 在数字时代,密码已成为人们日常生活和在线活动中不可或缺的一部分。尽管互联网已经发展了 20 多年,许多方面都有了巨大的改进,但只有密码,还是 20 年前的用…

【数据结构】--- 探索栈和队列的奥秘

关注小庄 顿顿解馋૮(˶ᵔ ᵕ ᵔ˶)ა 💡个人主页:9ilk 💡专栏:数据结构之旅 上回我们学习了顺序表和链表,今天博主来讲解两个新的数据结构 — 栈和队列 , 请放心食用 文章目录 🏠 栈&#x1…

牛客 2024春招冲刺题单 ONT102 牛牛的果实排序【simpe 要知道如何判断是否是质数 Java,Go,PHP】

题目 题目链接: https://www.nowcoder.com/practice/975a263e2ae34a669354e0bd64db9e2a 核心 需要牢牢记住下面的代码//判断是否为质数public boolean isPrime(int n){if(n1) return false;if(n2 || n3) return true;if(n%6!1 && n%6!5) return false; /…

C++(语法以及易错点2)

1.内联函数 1.1 概念 以inline修饰的函数叫做内联函数,编译时C编译器会在调用内联函数的地方展开,没有函数调 用建立栈帧的开销,内联函数提升程序运行的效率。 ​int ADD(int a,int b) {return ab; }​ 1.2 特性 1. inline是一种以空间换时间…

spring security6重写登陆验证

spring security的认证流程 2. 从文档上可以看出来,UsernamePasswordAuthenticationFilter和AuthenticationManager是认证的关键步骤,/login传过来的username和password由UsernamePasswordAuthenticationFilter接收处理成UsernamePasswordAuthenticatio…

设计模式总结-组合模式

组合设计模式 模式动机模式定义模式结构组合模式实例与解析实例一:水果盘实例二:文件浏览 更复杂的组合总结 模式动机 对于树形结构,当容器对象(如文件夹)的某一个方法被调用时,将遍历整个树形结构&#x…

基于SSM的品牌银饰售卖平台(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的品牌银饰售卖平台(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring …

LeetCode - 边积分最高的节点

2374. 边积分最高的节点 这是一个有向图,且每个节点都只有一条出边,指向0的边有1,2,3,4 10, 指向7的有5,6 11. 我们只需要一次遍历就可以解决,先搞一张哈希表,k存节点…

docker安装nacos,单例模式(standalone),使用内置的derby数据库,简易安装

文章目录 前言安装创建文件夹docker指令安装docker指令安装-瘦身版 制作docker-compose.yaml文件查看页面 前言 nacos作为主流的服务发现中心和配置中心,广泛应用于springcloud框架中,现在就让我们一起简易的部署一个单例模式的nacos,版本可…

Qt+OpenGL-part3

1-4EBO画矩形_哔哩哔哩_bilibili 可以绘制两个三角形来组成一个矩形&#xff08;OpenGL主要处理三角形&#xff09; 直接画两个三角形&#xff1a; #include "openglwidget.h" #include <QDebug>unsigned int VBO,VAO; unsigned int shaderProgram;//顶点着…

快排序解读

排序算法是计算机科学中不可或缺的一部分&#xff0c;它们在各种数据处理场景中发挥着关键作用。在众多排序算法中&#xff0c;快速排序以其高效的性能和简洁的实现成为了许多程序员的首选。今天&#xff0c;我们就来深入剖析快速排序算法&#xff0c;了解其原理、实现方式以及…

【【萌新的Pytorch入门之Python的学习】】

学习记录 - 参考记录来自B站up主 -爆肝杰哥 ① NumPy 包为 Python 加上了关键的数组变量类型&#xff0c;弥补了 Python 的不足&#xff1b; ② Pandas 包在 NumPy 数组的基础上添加了与 Excel 类似的行列标签&#xff1b; ③ Matplotlib 库借鉴 Matlab&#xff0c;帮 Python 具…

mysql 基本查询

学习了mysql函数&#xff0c;接下来学习mysql基本查询。 1&#xff0c;基本查询语句 MySQL从数据表中查询数据的基本语句为SELECT 语句。SELECT语句的基本格式是&#xff1a; SELECT (*I <字段列表>} FROM <表1>,<表2>..[WHERE<表达式> [GROUP BY <…

C++入门(以c为基础)——学习笔记2

1.引用 引用不是新定义一个变量&#xff0c;而是给已存在变量取了一个别名&#xff0c;编译器不会为引用变量开辟内存空 间。在语法层面&#xff0c;我们认为它和它引用的变量共用同一块内存空间。 可以取多个别名&#xff0c;也可以给别名取别名。 b/c/d本质都是别名&#…

QA测试开发工程师面试题满分问答3: python的深拷贝和浅拷贝问题

在 Python 中&#xff0c;深拷贝&#xff08;deep copy&#xff09;和浅拷贝&#xff08;shallow copy&#xff09;是用于创建对象副本的两种不同方式。 浅拷贝是创建一个新的对象&#xff0c;该对象与原始对象的内容相同&#xff08;包括内部嵌套对象的引用&#xff09;&…