全新Transformer模型:全球与局部双重突破!

news2024/11/24 8:42:06

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

引言:探索视觉变换器在对象重识别中的全局与局部特征

在对象重识别(Re-ID)的研究领域中,如何有效地从不同时间和地点捕获的图像中识别和检索特定对象一直是一个挑战。最近,随着视觉变换器(Vision Transformers,简称ViT)的发展,对象重识别取得了显著的进展。然而,对于对象重识别,全局与局部特征的相互关系和作用尚未被充分探索。

在本研究中,我们首先探讨了ViT中全局和局部特征的影响,然后进一步提出了一种新颖的全局-局部变换器(Global-Local Transformer,简称GLTrans)以实现高性能的对象重识别。我们发现,ViT的最后几层已经具有很强的表征能力,全局和局部信息可以相互增强。基于这一发现,我们提出了全局聚合编码器(Global Aggregation Encoder,简称GAE),有效地利用最后几层变换器的类别标记来学习全面的全局特征。同时,我们提出了局部多层融合(Local Multi-layer Fusion,简称LMF),它利用GAE的全局线索和多层补丁标记来探索具有辨别力的局部表征。

通过在四个大规模对象重识别基准上的广泛实验,我们的方法展示了优于大多数最先进方法的性能。

  • 论文标题:Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification
  • 机构:Dalian University of Technology
  • 论文链接:https://arxiv.org/pdf/2404.14985.pdf
    在这里插入图片描述

对象重识别的挑战与现状

1. CNNs在对象重识别中的应用与局限

在过去的二十年中,基于卷积神经网络(CNNs)的方法主导了对象重识别(Re-ID)领域。这些方法通过分割特征图来获取细粒度线索,例如将特征图水平分割以学习区分性的局部特征。尽管这些方法取得了卓越的表现,但它们受限于卷积操作的全局表示能力较弱,这可能导致过拟合并忽略全局重要信息。

2. Transformers引入对象重识别的新视角

Transformers由于其全局建模能力,在自然语言处理(NLP)领域已成为主流模型。近年来,研究者们开始将Transformers引入到视觉任务中,例如Vision Transformer(ViT)。这些方法通常使用类标记来代表整个图像,但常常忽略了patch标记中丰富的细粒度线索。为了解决这一问题,一些研究通过将patch标记划分为多个独立区域来挖掘局部区分性线索,但这种方法可能会遗漏结构信息。
在这里插入图片描述

GLTrans方法介绍:结合全局与局部的视觉变换器

1. Vision Transformer (ViT)的基本工作原理

Vision Transformer(ViT)通过将图像分解为重叠的图像块,并将每个块线性投影到一个高维空间,从而获得一系列的向量。这些向量通过多头自注意力机制进行信息聚合,使模型能够关注长距离依赖,从而捕捉全局信息。

2. 全局聚合编码器(GAE)的设计与功能

全局聚合编码器(GAE)利用从ViT的最后几层获得的类标记,通过一个全连接层和GeLU激活函数生成一个综合的全局特征表示。这种方法不仅考虑了最后一层的类标记,还结合了前几层的类标记,以获得更全面的全局特征。

3. 局部多层融合(LMF)的策略与实现

局部多层融合(LMF)模块包括Patch Token Fusion(PTF)、Global-guided Multi-head Attention(GMA)和Part-based Transformer Layers(PTL)。PTF通过聚合多层的patch标记并增强它们之间的空间关系来获取紧凑的局部表示。GMA进一步通过全局特征引导增强patch标记的区分性表示。PTL则利用分割后的patch标记和全局类标记,通过多头自注意力层和前馈网络,提取区分性的局部特征。
在这里插入图片描述

实验设置与数据集描述

在本研究中,我们采用了四个大规模的对象重识别(Re-ID)基准数据集,包括Market1501、DukeMTMC-ReID、MSMT17和VeRi-776。这些数据集广泛用于评估Re-ID算法的性能。Market1501和DukeMTMC-ReID主要用于行人重识别,而MSMT17和VeRi-776则包括更多场景和更复杂的环境条件。

我们的实验框架基于Vision Transformer (ViT)模型,结合了全局聚合编码器(Global Aggregation Encoder, GAE)和局部多层融合(Local Multi-layer Fusion, LMF)模块。我们首先从ViT获取多层的类标记和补丁标记,然后通过GAE和LMF生成更具辨别力的全局和局部特征。此外,我们还引入了多头自注意力机制来增强补丁标记的判别表示。
在这里插入图片描述

与现有技术的比较

1. 在Market1501和DukeMTMC-ReID数据集上的表现

在Market1501数据集上,尽管我们的模型在Rank1得分方面略低于一些比较方法,例如ISP和HAT,但在平均精度(mAP)方面表现非常竞争。在DukeMTMC-ReID数据集上,我们的GLTrans方法在mAP得分上超过了TransReID、AAformer和PFD,显示了通过探索补充的局部和全局信息,我们的方法能够获得更鲁棒的表示。

2. 在MSMT17和VeRi-776数据集上的优势分析

在MSMT17数据集上,我们的模型在mAP和Rank1上均实现了最佳性能。这表明,通过全局线索引导的多层特征融合可以获得互补和细粒度的特征表示。此外,在VeRi-776数据集上,我们的GLTrans模型在mAP和Rank1上也表现最佳。这一结果强调了在车辆Re-ID中识别局部信息的重要性,我们的方法通过考虑局部和全局线索,实现了卓越的性能。

总体而言,这些实验结果验证了我们提出的GLTrans框架在处理多种复杂场景下的对象Re-ID任务时的有效性和优越性。
在这里插入图片描述

深入分析:局部与全局特征融合的影响

1. 不同组件的性能比较

在GLTrans方法中,局部多层融合(LMF)和全局聚合编码器(GAE)是两个关键组件。LMF通过融合多层的patch tokens来增强局部特征的表达能力,而GAE则聚合多层的class tokens以提取更全面的全局特征。实验结果表明,这两种策略的结合显著提高了对象重识别的性能,尤其是在处理复杂场景和多样化的视觉信息时。

2. 不同层聚合的效果分析

通过对比不同层级的特征聚合,发现最后几层的ViT特征包含了丰富的语义信息,这些信息对于提高模型的判别能力至关重要。然而,单一层次的特征往往无法全面表达对象的复杂性,因此GLTrans采用了多层特征聚合策略,以获得更加全面和鲁棒的特征表示。

3. 不同聚合策略的影响

在全局聚合编码器(GAE)中,采用了多层class tokens的聚合,而在局部多层融合(LMF)中,则是通过patch token fusion、全局引导的多头注意力(GMA)和部分感知的Transformer层(PTL)来实现局部特征的增强。这种局部与全局的聚合策略有效地提升了模型对于细节的捕捉能力,使得模型在多个重识别基准测试中取得了优异的性能。

总结与未来展望

1. GLTrans方法的主要贡献与创新点

GLTrans方法的主要创新在于它有效地融合了局部和全局特征,通过全局聚合编码器(GAE)和局部多层融合(LMF)两大组件,优化了特征的表达能力。此外,该方法还引入了多头注意力机制来进一步增强模型对复杂场景的适应性和鲁棒性。

2. 对象重识别领域的未来研究方向

未来的研究可以在以下几个方向进行深入:首先,探索更高效的特征融合技术,以进一步提升模型的性能和效率;其次,研究跨模态和跨领域的对象重识别问题,以应对更加多样化的应用场景;最后,考虑到隐私和安全的问题,研究如何在保护个人隐私的前提下进行有效的对象重识别。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1672231.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pytest教程-45-钩子函数-pytest_report_testitemFinished

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了pytest_report_collectionfinish钩子函数的使用方法,本小节我们讲解一下pytest_report_testitemFinished钩子函数的使用方法。 pytest_report_testitemFinished 钩子函数在每个测试…

7天精通Web APIs——正则阶段案例(理论+实战)(第六天)

正则表达式的定义和使用 定义:是一种匹配模式,用于匹配字符串中字符组合 作用:表单验证(匹配)、过滤敏感词(替换)、字符串中提取我们想要的部分(提取) 使用分为两步&…

MySQL-InnoDB数据存储结构

1、存储结构-页 索引结构提供了高效的索引方式,索引信息以及数据记录都保存在数据文件或索引文件中(本质存储在页结构中) 1.1、磁盘与内存交互的基本单位:页 在InnoDB中将数据划分为若干页,页的默认大小为&#xff…

SQLZOO:The JOIN operation

数据表:game-gaol-eteam game idmdatestadiumteam1team210018 June 2012National Stadium, WarsawPOLGRE10028 June 2012Stadion Miejski (Wroclaw)RUSCZE100312 June 2012Stadion Miejski (Wroclaw)GRECZE100412 June 2012National Stadium, WarsawPOLRUS... goal …

@游戏行业er!MongoDB广州线下沙龙邀您报名!

随着游戏和应用程序的发展,数据变得越来越重要。在为您的下一个游戏选择数据库时,数据库管理者常常会面对灵活性、可扩展性、可靠性、运营效率等问题或挑战。 MongoDB在游戏开发领域有着广泛的应用,灵活数据模型可以存储和处理各种类型的数据…

C++--String类

系列文章目录 文章目录 目录 系列文章目录 文章目录 前言 一、为什么要学习string 1.c语言的字符串 2.OJ上的使用 二、string类的接口介绍 1.string简介 2.string构造成员函数 3.operator函数 4.string容器size和length 5.重载operator[]和引用返回的意义 5.1 oper…

嫦娥六号揭秘真相:阿波罗登月是真是假?一文终结所有疑问!

近期,嫦娥六号的成功发射如同璀璨的星辰,再次将人们的视线聚焦于浩瀚的宇宙,与此同时,网络上关于美国阿波罗登月是否造假的争议也如潮水般涌现。一些声音宣称,嫦娥六号的发射为揭示美国阿波罗登月任务的真实性提供了关…

Java面试八股之String类的常用方法有哪些

Java中String类的常用方法有哪些 获取字符串信息: length():返回字符串的字符数。 isEmpty():判断字符串是否为空(即长度为0)。 访问单个字符: charAt(int index):返回指定索引处的字符。 …

InstantStyle —— 文本到图像生成中的风格保持新突破

在人工智能领域,文本到图像生成(Text-to-Image Generation)技术正迅速发展,其应用范围从娱乐到专业设计不断扩展。然而,风格一致性生成一直是该领域的一个技术难题。最近,InstantX团队提出了一种名为Instan…

GEVernova推出GEV新能源平台,引领新能源未来

近日,全球领先的能源设备制造和服务公司 GE Vernova 宣布推出 GEV 新能源平台,这是一个将金融、科技和产业深度融合的全新投资平台。GEV 新能源平台旨在为用户提供一站式可持续新能源投资解决方案,助力全球新能源转型和可持续发展。 新能源已…

vs-qt中无法加载qsqlite驱动,但是单独新建demo测试却又是正常的。。。

开发环境: Vs2015 + qt5.12 背景: 接手了一个项目,可以编译过去,也可以运行,, 但是登录一直失败,,但是数据库文件也是正常的。。。 最主要的是环境和同事的是一样的,,,但是他那边可以加载成功,我这边不可以。。 后来单独在vs中创建了一个demo,用来测试QSqlData…

如何高效管理微信?快速掌握捷径!

对于那些需要管理多个微信号的人来说,如何高效地管理这些账号成为了一个难题。今天,就给大家分享一个管理多个微信号的捷径——微信管理系统。 通过微信管理系统,你可以轻松实现高效管理多个微信号,一起来看看吧! 首…

一文汇总对比英伟达、AMD、英特尔显卡GPU

‍‍🏡博客主页: virobotics(仪酷智能):LabVIEW深度学习、人工智能博主 📑上期文章:『【仪酷LabVIEW AI工具包案例】使用LabVIEW AI工具包YOLOv5结合Dobot机械臂实现智能垃圾分类』 🍻本文由virobotics(仪酷…

C语言/数据结构——每日一题(环形链表)

一.前言 今天在力扣上刷到一道链表题——环形链表https://leetcode.cn/problems/linked-list-cycle 想着和大家们分享一下。让我们直接开始今天的分享吧。、 二.正文 1.1题目描述 1.2题目分析 这道题是想让我们做出分析,该链表是不是带环链表,如果是…

mac定时任务、自启动任务

https://quail.ink/mynotes/p/mac-startup-configuration-detailed-explanation <?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.d…

DIFT:Emergent Correspondence from Image Diffusion # 论文阅读

URL https://arxiv.org/pdf/2306.03881 主页&#xff1a;https://diffusionfeatures.github.io/ 代码&#xff1a;https://github.com/Tsingularity/dift TD;DR 23 年 6月 cornell 大学的文章&#xff0c;任务是做图片的特征匹配&#xff08;关联&#xff09;&#xff0c;特…

Github入门10问,收藏~

Github是Python开发中最常用到的工具和资源&#xff0c;Github上Python相关的仓库多达300多万个&#xff0c;但有很多人还不知道怎么去使用Github&#xff0c;这里来通过10个问题来科普下。 什么是GitHub&#xff1f;为什么要学习使用GitHub&#xff1f;如何创建GitHub账户&…

VTK —— 三、标准格式 - 示例1 - 读取建模不同格式模型(支持.ply、.vtp、.obj、.stl、.vtk、.g等模型格式)(附完整源码)

代码效果 本代码编译运行均在如下链接文章生成的库执行成功&#xff0c;若无VTK库则请先参考如下链接编译vtk源码&#xff1a; VTK —— 一、Windows10下编译VTK源码&#xff0c;并用Vs2017代码测试&#xff08;附编译流程、附编译好的库、vtk测试源码&#xff09; 教程描述 本…

宝塔面板各种疑难杂症处理命令教程

下载地址&#xff1a;宝塔面板各种疑难杂症处理命令教程 这份宝塔面板各种疑难杂症处理命令教程&#xff0c;可以解决市面上遇到的各种难题&#xff0c;建议有技术能行的下载使用&#xff0c;小白也可以下载来学习可以帮助你解决宝塔面板遇到的各种难题

Java面试八股之什么是Java反射

什么是Java反射 基本概念 反射是Java语言的一个重要特性&#xff0c;它允许我们在运行时分析类、接口、字段、方法等组件的信息&#xff0c;并能够动态地操作这些组件&#xff0c;包括创建对象、调用方法、访问和修改字段值等。简单来说&#xff0c;反射提供了在程序运行时对…