Transformer——day63 读论文:SST:用于多标签图像识别的空间和语义变压器

news2025/1/19 13:06:13

SST:用于多标签图像识别的空间和语义变压器

  • SST:用于多标签图像识别的空间和语义变压器
  • I. INTRODUCTION
  • II. RELATED WORK
    • A. Multi-Label Image Recognition
    • B. Transformer in Computer Vision
  • III. APPROACH
    • A. Motivation
    • B. Recap of Transformer
    • C. Modeling Spatial Label Correlations
    • D. Modeling Semantic Label Relationship
    • E. Shared Transformer Encoder
    • F. Network Architecture
  • IV. EXPERIMENTS
    • A. Evaluation Metrics
    • B. Implementation Details
    • C. Datasets
    • D. Comparisons With State-of-the-Art Methods
    • E. Ablation Studies
      • 1) Spatial Transformer:
      • 8) Uncorrelated Labels:
  • V. CONCLUSION

SST:用于多标签图像识别的空间和语义变压器

Index Terms—Multi-label image recognition, transformer, label correlation.

I. INTRODUCTION

普通的ResNet-101方法的激活往往是不完整的,置信度较低。

image-20230113121511587

总之,我们的贡献有三方面:

  1. 我们提出了一个即插即用的模块,即SST模块,用于在多标签图像识别任务中同时建模空间和语义标签相关性。
  2. 我们探索了空间和语义相关的工作机制,我们的SST改进了长期空间相关建模,并消除了捕获语义相关的复杂人工设计。
  3. 我们提出的方法在四个流行的多标签基准数据集上取得了优秀的结果。

II. RELATED WORK

A. Multi-Label Image Recognition

一般说来,多标签图像的代表性方法可以分为三种,即相关性不可知法、语义相关法和空间相关法。 这是首次同时捕获语义和空间相关性的工作,证明了这些相关性在多标记图像识别中是相辅相成的,值得同等重视。

B. Transformer in Computer Vision

Transformer具有捕捉远程依赖关系的能力,在自然语言处理(NLP)中取得了巨大的成功 。

在本工作中,我们探索如何将变压器集成到流行的多标签图像识别方法中。 考虑到Transformer在捕获长程关联方面的突出能力,我们主要关注利用Transformer捕获空间和语义关联。

III. APPROACH

具体的模型内容移步原文,emm这篇是为了多了解一下transformer,dddd

image-20230113134149261

A. Motivation

B. Recap of Transformer

C. Modeling Spatial Label Correlations

D. Modeling Semantic Label Relationship

E. Shared Transformer Encoder

我们提出的方法的训练方案

image-20230113134320289

F. Network Architecture

线性聚合两种变换的预测有两个优点:

  • 首先,多标记图像识别(二值交叉)损失可以直接应用于类别感知特征映射,极大地有利于分类特征的分离。
  • 其次,它更有利于梯度的反向传播,有利于空间和语义相关性的整合。

IV. EXPERIMENTS

A. Evaluation Metrics

Specifically, we compute the average per-class precision (CP), recall (CR), F1 (CF1) and the average overall precision (OP), recall (OR), F1 (OF1) in Eq,即均每类精度(CP)、查全率(CR)、F1(CF1)和平均总体精度(OP)、查全率(OR)、F1(OF1)

上述评价指标的计算公式如下:

image-20230113115514233

B. Implementation Details

在我们的实验中,输入的图像被随机裁剪成448×448的分辨率,并通过随机的水平翻转进行数据增强。在[1]-[3]之后,选择ResNet-101 作为我们提出的模型的主干,该模型在ImageNet 上进行预训练,以进行模型参数初始化。

C. Datasets

  1. MS-COCO 2014 Dataset
  2. NUS-WIDE Dataset
  3. Pascal VOC 2007 & 2012 Dataset

D. Comparisons With State-of-the-Art Methods

1) Performance on the MS-COCO 2014 Dataset:

image-20230113115905033

2) Performance on the NUS-WIDE Dataset:

image-20230113115918932

3) Performance on the VOC Dataset:

image-20230113115952280

从上面这三张表已经能很明显的看出来本文所述方法在各项指标上的优越性,证明了研究价值。

E. Ablation Studies

1) Spatial Transformer:

我们提供了仅用空间变压器捕获的注意力的可视化。这个图中的注意图说明了物体可以被精确地定位并被强烈地激活。然而,小物体往往只被忽略了空间相关性

image-20230113121120187

8) Uncorrelated Labels:

在所有类别上的注意力地图的说明。与基线方法相比,我们的方法可以产生了干净和强激活的注意图。地面真相类别用红色矩形标记。

image-20230113121246789

V. CONCLUSION

  • 在这项工作中,我们提出了空间和语义变压器(SST)模块,这是一个即插即用的模块,用于同时捕获多标签图像中的空间和语义相关性。我们的方案主要由两个独立的转换器组成,即空间转换器和语义转换器。

  • 空间转换器被指定用于从所有空间位置捕获特征之间的空间相关性,而语义转换器被设计用于捕获没有手动定义规则的标签共存。

  • 此外,同样重要的是,我们证明空间和语义相关性是互补的。换句话说,同时建模两种类型的标签相关性被证明对多标签图像识别非常有益。在MS-COCO、NUS-CODE和VOC2007这三个流行的多标签图像分类数据集上的最新结果证明了我们所提出的方法的有效性。

  • 此外,定量和定性的消融研究和可视化也有力地支持了我们的方法中的基本成分。由于这项工作仍然依赖于cnn来提取整体的深度特征,我们希望探索纯粹的基于变压器的网络,例如,设计一个基于变压器的主干来提取整体的深度特征。

  • 此外,我们还想探讨如何通过设计变压器中的一种新的前馈网络块来减少额外的计算成本,例如,瓶颈架构和分组全连接层。此外,我们还将进一步探讨不同标签分布中空间和语义相关的趋势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/161600.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java寒假打卡】Java基础-多线程

【Java寒假打卡】Java基础-多线程概述读线程实现方式-继承Thread多线程实现方式-Callable三种实现方式的对比Thread方法守护线程线程的优先级概述 并发和并行 进程和线程 读线程实现方式-继承Thread 继承Thread类进行实现 package com.hfut.edu.test11;public class MyThr…

2022年最新年终奖个人所得税计算计算方法及扣税标准

1、2021年12月30号,国务院决定年终奖等三项个税优惠续期:http://www.gov.cn/zhengce/2021-12/30/content_5665553.htm2、税务总局公告2019年第35号《关于非居民个人和无住所居民个人有关个人所得税政策的公告》:http://www.gov.cn/zhengce/zh…

一、Django项目创建

一. Python项目虚拟环境创建 在项目开发过程中会下载很多第三方库,有时不同项目对同一个库的依赖版本不同,如果所有项目都使用同一个python环境就会起冲突不便于管理。因此,实际开发中会为每一个项目都单独创建一个python的虚拟环境。这里的…

多线程~POSIX信号量实现生产者消费者模型,PV操作

目录 1.信号量的概念 2.sem_t信号量的操作函数 (1).原理 (2).sem_t函数的使用 (3).基于信号量和环形队列的生产者消费者模型 1).大致实现思路 Task.hpp circular_queue.hpp circular_c…

基于java SSH框架的简单医疗管理系统源码+数据库,医疗管理系统基于springmvc+spring+hibernate

医疗管理系统 基于java SSH框架的简单医疗管理系统 环境说明 1、语言及开发环境: 语言实现说明JAVA后端用springmvcspringhibernate,前端使用htmlajax开发环境使用eclipse,maven管理。 数据库使用mysql; 完整代码下载地址&…

3D设计软件SolidWorks特征研究—— 3种放样方式 | 附视频教程

SolidWorks 是世界上第一个基于Windows开发的三维CAD系统,是可实现设计、模拟、成本估算、可制造性检查、CAM、可持续设计和数据管理等多种功能的三维设计软件,包含适用于钣金、焊件、曲面、模具、产品配置、DFM和CAM的专业工具,同时支持ECAD…

跑步耳机入耳式好还是半入耳式好、跑步用的耳机推荐

运动耳机一定是要跟佩戴舒适性、音质、性能关联在一起的,尤其是专业的运动耳机,还要具有久戴舒适运动时还不掉的特点,这个是我认为无论任何价价位的运动耳机都必须首要具备的条件,戴久了不舒服或者总掉,音质再好估计都…

带你了解防火墙

目录 1、什么是防火墙? 2、iptables 3、firewalld 如何实现端口转发? 1、什么是防火墙? 防火墙:防火墙是位于内部网和外部网之间的屏障,它按照系统管理员预先定义好的规则来控制数据包的进出。防火墙又可以分为硬件…

Error: Can‘t find Python executable “python“, you can set the PYTHON env var

亲测可用,若有疑问请私信 此问题,自己分析了好久才找到问题。其实有两种解决方案,我这里举例了一个,另一种环境变量配置也是可以的。希望能帮到大家。 问题描述: 在执行npm install 过程中出现 V未安装 解决方案&…

Python学习笔记-PyQt6工具栏

工具栏工具栏可以有多个,而且可以设置不同的位置参数。4.1工具栏位置参数QtCore.Qt.ToolBarArea.LeftToolBarAreaQtCore.Qt.ToolBarArea.RightToolBarAreaQtCore.Qt.ToolBarArea.TopToolBarAreaQtCore.Qt.ToolBarArea.BottomToolBarAreaQtCore.Qt.ToolBarArea.AllTo…

库的制作相关信息

库 通过把函数进行打包,然后形成相应的库,供其他的主函数使用。 静态库 以.a进行结尾,把库的东西(头与库文件进行打包到之中)打包到可执行程序之中。 静态库不是使用相对的位置信息,直接的信息。 bank…

如何通过Java导出带格式的 Excel 数据到 Word 表格

在Word中制作报表时,我们经常需要将Excel中的数据复制粘贴到Word中,这样则可以直接在Word文档中查看数据而无需打开另一个Excel文件。但是如果表格比较长,内容就会存在一定程度的丢失,无法完整显示数据。并且当工作量到达一定程度…

.net6 Web Api使用JWT-从后端到前端全部过程

jwt是做验证的必经之路,至于原理,就不在叙述了,可以参考官网 jwt官网介绍 JSON Web Tokens - jwt.io 原理介绍 JSON Web Token 入门教程 - 阮一峰的网络日志 看完之后,结合这个图,就明白了。 本案例使用vs2022&…

从技术专家到总经理,在不确定中探索和成长

你好,我是石东海。 前段时间我应邀跟一些企业做过一些交流,探讨在这个数字化时代,怎么去解决技术团队所面临的一些共性问题,包括技术思维转变和管理思维转变方面所经历的挑战。期间谈到了一些我个人的经历,以及这两年…

哈希表(一)—— 闭散列 / 开放地址法的模拟实现

哈希表的基本思路是通过某种方式将某个值映射到对应的位置,这里的采取的方式是除留余数法,即将原本的值取模以后再存入到数组的对应下标,即便存入的值是一个字符串,也可以根据字符串哈希算法将字符串转换成对应的ASCII码值&#x…

这家十年磨剑的企业级存储厂商,为什么将分布式块存储也开源了?

只要提到企业级存储,任何成功的厂商无不以十年为单位的积累,才能实现真正的创新。当然,作为存储领域相对更为复杂的分布式块存储,存储创新公司一般都不太愿意碰它。原因很简单,在技术自研的道路上,更需要坐…

Nginx之限流

文章目录Nginx如何限流配置基本的限流处理突发无延迟的排队高级配置示例location包含多limit_req指令配置相关功能发送到客户端的错误代码指定location拒绝所有请求总结流量限制(rate-limiting),是 Nginx 中一个非常实用,却经常被错误理解和错误配置的功…

JavaScript 数据处理 · 基本统计(文末附视频)

第 5 节 基本数据处理 基本统计 学习了如何对 JavaScript 中的数组数据进行操作之后,我们就要回到刚开始选择购买这本小册的目的了:使用 JavaScript 开发灵活的数据应用。既然说是数据应用,那么便离不开统计计算,而数组就可以说…

Android 设备自动重启分析[低内存]——MTK平台 debuglogger

大家有没有遇到和我一样的问题,android设备(我这里android 平板)用着用着突然就黑屏自动重启了,重启后一切正常,这个问题还是概率性的,复现都不好复现... 本人公司是做平板定制的,主要针对平板进行上网限制&#xff0c…

C语言进阶——字符函数

目录 一.前言 二.strlen 1.函数介绍 2.三种模拟实现 三.长度不受限制函数 1.strcpy 模拟实现 2.strcat 模拟实现 3.strcmp 模拟实现 四.长度受限制函数 1.strncpy 模拟实现 2.strncat 模拟实现 3.strncmp 模拟实现 五.字符串查找 1.strstr 模拟实现 2.st…