PIP-Net:用于可解释图像分类的基于patch的直观原型

news2024/10/7 16:27:07

文章目录

  • PIP-Net: Patch-Based Intuitive Prototypes for Interpretable Image Classification
    • 摘要
    • 本文方法
      • 模型结构
      • Self-Supervised Pre-Training of Prototypes
      • Training PIP-Net
      • Scoring Sheet Reasoning
      • Compact Explanations
    • 实验结果

PIP-Net: Patch-Based Intuitive Prototypes for Interpretable Image Classification

摘要

基于原型patch的可解释方法识别图像中的各种成分,以便向人类解释其推理。然而,现有的基于原型的方法可以学习不符合人类视觉感知的原型,即同一个原型可以指代现实世界中的不同概念,使得解释不直观。
本文方法

  1. 在设计可解释性原则的驱动下,我们引入了PIP-Net(基于patch的直觉原型网络):一种可解释的图像分类模型,它以自我监督的方式学习原型零件,更好地与人类视觉相关
  2. PIP-Net可以被解释为稀疏的评分表,其中图像中原型部分的存在为类别添加了证据。
  3. 该模型还可以通过说“我以前从未见过这种情况”来放弃对分发数据不足的决定
  4. 只使用图像级别的标签,不依赖于任何零件注释
  5. PIP-Net是全局可解释的,因为所学习的原型集显示了模型的整个推理。
  6. 一个较小的局部解释将相关原型定位在一张图像中
  7. PIP-Net缩小了潜在空间和像素空间之间的“语义差距”
  8. PIP-Net具有可解释的原型,使用户能够以直观、忠实和语义有意义的方式解释决策过程
    代码地址

本文方法

在这里插入图片描述
包含两个类的玩具数据集(左)。现有模型可以学习与人类视觉感知的相似性(中心)不一致的原型的表示。我们的目标是学习代表与人类相似概念的原型(右)。
在这里插入图片描述
分类器是基于图像中原型部分的存在的评分表。推理是直观的,因为单对象分类器可以处理多对象图像和分布外数据。因此,我们的模型可以放弃一个决定,而是说“我以前从未见过”。图显示了在PETS(37种猫和狗)上训练的PIP-Net的实际预测和原型位置。
在这里插入图片描述

模型结构

在这里插入图片描述
PIP-Net由CNN主干(例如ConvNeXt)组成,用于学习原型表示z。特征表示被汇集到原型存在分数p的向量中。对比学习实现了一个目标,即图像对的两个patch表示应在潜在特征空间中分配相同的原型(损失LA)。tanh loss LT防止琐碎的解决方案,并正则化模型以利用所有可用的原型。因此,PIP-Net将潜在空间分解为与特定物体部分相关的神经元。学习的零件原型和类通过稀疏线性层连接。LC是标准的负对数似然损失。测试期间的模型输出没有标准化,允许将输出解释为简单的评分表。

Self-Supervised Pre-Training of Prototypes

与对比学习方法类似,我们对表示的对齐和一致性进行了优化。

然而,我们不是在图像级别上优化对齐,而是通过优化模型将相同的原型分配给增强图像补丁的两个视图来优化补丁对齐。具体来说,为了预训练原型,我们只使用两个损失项的线性组合:λALA+λT LT。对准损失LA优化了同一图像块的两个视图,使其属于同一个,理想情况下是单个原型。我们计算图像块(z′h,w,:和z′′h,w,:)的两个视图的潜在块之间的相似性作为它们的点积:
在这里插入图片描述
模型得到LA=0的一个简单解决方案是让数据集中每个图像中的所有图像块上激活一个原型节点。为了防止这种琐碎的解决方案,并学习利用D原型的整个空间的不同图像表示,我们引入了我们的tanh loss LT,该LT规定每个原型在一个小批量中至少存在一次:
在这里插入图片描述

Training PIP-Net

在对原型进行预训练后,我们解冻最后一个线性层,并将模型作为一个整体进行训练。为了优化分类性能,我们添加了一个分类损失项LC,它简单地是一个标准的负对数似然损失,位于预测和一个热门编码的基本事实标签y之间。LC主要影响线性层的权重,但也微调原型,使其与下游分类任务相关

Scoring Sheet Reasoning

将线性分类层实现为一个可解释的评分表,它在输入样本中寻找(只有积极的)类证据。总结当前原型部分的相关性可以使模型找到多个类别或无类别的证据。
尽管通常使用类置信度分数来训练神经网络,但评分表推理会导致未规范化的输出分数。为了在第二个训练阶段(在原型预训练之后)使用规则的负对数似然损失进行训练,我们在训练期间将softmax激活函数σ应用于线性层o的输出,以将未规范化的logits转换为类置信度得分。

然而,天真地应用softmax将与我们在评分表推理中的紧凑性和决策弃权的目标相冲突,因为softmax不是标度不变的,如果输出分数最初很大(例如,当存在许多具有大权重的类的相关原型时),则softmax输出高度偏斜的分布。

相反当类分数低时(因此当权重或原型存在分数很小时),softmax输出接近均匀分布,例如σ([0.12,0.65,0.21])=[0.26,0.45,0.29]。

Compact Explanations

softmax的过度自信也会与我们的紧凑目标相竞争。考虑以下三类场景中的激活示例:σ([1.2,6.5,2.1)]=[0.005,0.983,0.012]。第二类的置信度分数已经接近1,因此模型没有动机进一步降低其他类的输出分数。原型实际上与类无关,因此可能保持正权重,这会导致解释超出必要范围。原型和类之间的稀疏权重将提高可解释性,因为每个类的相关原型数量和解释大小都减少了。

现有的稀疏性和修剪方法主要是为了降低内存和计算成本而开发的,通常稀疏率必须由用户预先确定,这使得它们与我们的可解释性目标没有直接关系(在增刊中进一步讨论)。相反,我们引入了一种新的函数,可以同时优化分类性能和紧凑性。
为了在训练过程中正则化稀疏性,我们计算输出分数o,用作softmax的输入,如下所示
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/600819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

bug 记录 - 接口被重复调用,响应时长不同,结果被覆盖的问题

发现问题与调试过程 需求:输入框中输入关键字,根据关键字去调用接口,返回模糊查询的结果集合。问题:输入的关键字越少,接口响应时间越长。例如:输入“阿”,接口响应时间大概是 5 秒&#xff0c…

【计算机网络中ip概念总结】【平时我们说的ip 到底是什么】【计算机网络中 ip地址是什么】

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

【Linux】重定向dup

文章目录 前言重定向的原理dup函数添加重定向功能到myshell 前言 了解重定向之前需要明白文件描述符的工作规则,可以看这篇文章:文件系统 最关键的一点是:在进程中,在文件描述符表中,会将最小的、没有被使用的数组元…

vscode整合gitee

vscode需要下载的插件 第一个可以多仓库进行操作 第二个主要是用于仓库的管理和展示 vscode的gitee操作 1、按F1,搜索gitee 2、根据提示进行操作 标1的是第一个插件的操作 标2的是第二个插件的操作 绑定用户私钥 两个插件绑定私钥的方式不同, gitee的私…

这本数智平台白皮书讲透了大型企业数智化升级业务痛点

在以“升级企业数智化底座”为主题的2023用友BIP技术大会上,用友联合全球权威咨询机构IDC共同发布《建设数字中国 升级数智底座——企业数智化底座白皮书》,在这本数智平台白皮书里深入剖析了大型企业的数智化升级痛点。 大型企业普遍具有广域的业务覆盖…

六级备考15天|CET-6|翻译真题练习|北京大兴国际机场|9:15~10:20

目录 中文 英文 词汇 订正 解析 练习 中文 英文 词汇 put sth. into use 投入使用 距离south of地点 “...以南....公里处” construction 开工建设 the giant project 巨型工程 on the site …

LED显示屏驱动IC基本原理

LED显示屏驱动IC(Integrated Circuit,集成电路)是一种专门设计用于控制和驱动LED显示屏的电子元件。LED显示屏驱动IC的基本原理涉及到LED的电流控制、亮度调节、扫描控制和图像数据处理等方面。 以下是LED显示屏驱动IC的基本原理的详细说明&a…

只需简单几步,就能在报表工具FastReport .NET 中使用 RFID 标签

FastReport 是功能齐全的报表控件,可以帮助开发者可以快速并高效地为.NET,VCL,COM,ActiveX应用程序添加报表支持,由于其独特的编程原则,现在已经成为了Delphi平台最优秀的报表控件,支持将编程开…

喜讯丨计讯物联5G物联网数据网关TG463荣登2022年度中国物联网行业创新产品榜

近日,备受瞩目的2022‘物联之星’中国物联网产业年度榜单颁奖典礼在上海世博展览馆会场隆重举行。经由申报筛选、网络人气投票、专家评委投票等多重环节,计讯物联旗下5G物联网数据网关TG463荣登2022年度中国物联网行业创新产品榜。 作为中国物联网行业…

chatgpt赋能python:Python编写抽奖程序——让你的活动更加有趣

Python编写抽奖程序——让你的活动更加有趣 在现代社会中,抽奖活动已经成为了许多商家和组织吸引关注、增强互动的重要手段。而使用Python编写抽奖程序可以帮助我们更加方便地进行这一活动。本文将介绍Python编写抽奖程序的方法,以及如何在实际应用中优…

【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等)、趣味项目实现、学术应用项目实现

【强化学习原理项目专栏】必看系列:单智能体、多智能体算法原理项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现 对于深度强化学习这块规划为: 基础单智能算法教学(gym环境为主)主流多智能算法教学…

Hive和Hadoop关系

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成Ma…

vue组件库 vue marquee vue跑马灯 vue走马灯 ​vue-marquee-text-component​中文

vue2运行安装 npm install vue-marquee-text-component1.2.0 Name说明DescriptionConfigduration持续时间动画持续时间{类型:数字,默认值:15}Animation Duration{ type: Number, default: 15 }repeatrepeat重复插槽的…

chatgpt赋能python:Python内置函数:如何查找和使用?

Python内置函数:如何查找和使用? 作为一名有10年Python编程经验的工程师,我想与大家分享一下Python内置函数的使用技巧。Python内置函数是指已经定义好的函数,无需另外安装也无需导入就可以直接在Python中使用的函数。这篇文章将…

chatgpt赋能python:Python编程教程:如何用Python写抢购程序

Python编程教程:如何用Python写抢购程序 随着网购的流行和限量商品的推出,抢购已经成为了一个非常热门的话题。有些人甚至会通过软件或程序来提高他们成功抢到商品的机会。在本篇文章中,我们将介绍如何用Python编写一个简单易用的抢购程序&a…

客户频繁变更需求,项目经理该如何应对?

王博刚当上项目经理,接手了一个中型软件项目。公司高层多次提醒他要尊重客户需求,并充分满足客户的期望。 一开始项目进展顺利,但后来客户频繁变更需求给团队带来了很多额外工作。王博动员大家加班保证项目进度,让客户非常满意。…

【面上对象三大特性之多态】

目录 1.什么是多态2.多态的条件 3.向上转型3.1向上转型的三种写法3.2 优缺点 4.向下转型(用得少)5.避免在构造方法中调用重写的方法6.重写6.1什么是重写6.2 重写和重载的区别 1.什么是多态 多态的概念:通俗来说,就是多种形态&…

PARSeq论文翻译

《Scene Text Recognition with Permuted Autoregressive Sequence Models》论文翻译 文章目录 《Scene Text Recognition with Permuted Autoregressive Sequence Models》论文翻译Abstract1、Introduction2、Related Work3、Permuted Autoregressive Sequence Models3.1、Mod…

MySQL数据库优化看这一篇就够了(最全干货篇)

文章目录 一、MySQL 主备切换以及读写分离二、SQL优化1、如何定位低效率的SQL语句-慢查询日志?EXPLAIN 执行计划怎么分析?2、sql语句优化常用的方法有哪些?3、如何优化索引?优化CRUD操作?优化分页?4、通过s…

C语言进阶之数据的存储

数据的存储 1. 数据类型介绍1.1 类型的基本归类 2.整型在内存中的存储2.1原码、反码、补码大小端介绍2.3练习 3. 浮点型在内存中的存储3.1浮点数存储规则 1. 数据类型介绍 在C语言初阶之数据类型这篇博客中,我们提到了关于数据内存的大小和基本用法 链接&#xff1…