vit细粒度图像分类(七)TBNet学习笔记

news2025/1/23 5:57:02

1.摘要

细粒度鸟类图像识别致力于实现鸟类图像的准确分类,是机器人视觉跟踪中的一项基础性工作。鉴于濒危鸟类的监测和保护对保护濒危鸟类具有重要意义,需要采用自动化方法来促进鸟类的监测。在这项工作中,我们提出了一种新的基于机器人视觉跟踪的鸟类监视方法,该方法采用了一种名为TBNet的亲和关系感知模型,该模型结合了CNN和Transformer架构,并具有新颖的特征选择(FS)模块。具体来说,CNN是用来提取表面信息的。利用Transformer来开发抽象的语义亲和关系。引入了FS模块来揭示识别特征
综合实验表明,该算法在cub -200- 201数据集(91.0%)和nabbirds数据集(90.9%)上均能达到最先进的性能。

2.问题

细粒度鸟类图像识别是机器人视觉跟踪和图像处理的基础任务[1-3]。不受人类干扰,通过机器人自动跟踪鸟类对濒危鸟类保护至关重要。目前,由于环境恶化的威胁,一些濒危鸟类濒临灭绝。因此,濒危鸟类的监测与保护对鸟类保护具有重要意义。鉴于世界上近一半的鸟类种群数量在下降,其中13%的鸟类“处境相当严重”[4],濒危鸟类的保护日益受到人们的重视。为了加强鸟类保护,鸟类种群监测已成为研究热点。然而,由于极端的野外条件,例如热带地区的高温和热带雨林的高湿度,这一直是一项具有挑战性的任务。传统上,鸟类研究人员对栖息地濒危鸟类的信息进行人工观测和记录,这是一项费时费力的工作。近年来,随着人工智能的发展,人们提出了许多用于细粒度鸟类图像分类(FBIC)的深度学习方法。因此,下游的任务,如鸟类监视是失败的。

通过对鸟类外形的仔细观察,我们发现了鸟类各部位之间的亲和关系,这有助于FBIC的研究。如图1所示,鸟头和鸟喙的组合或鸟头、翅膀和尾巴上的颜色图案。这些亲和关系可以作为FBIC的判别特征。

2.1发现
然而,在野外识别鸟类也面临着一些挑战。首先,由于极端的野外环境,图像质量会有所不同。例如,从远处拍摄的图像可能会导致低分辨率(图2(a)),或者在低照度下拍摄的图像(图2(a))。2(b)),第二,有任意的鸟的姿势。例如,从图2(e)和图2(d)中可以看出,第一张图片显示的是一只飞行的银鸥,而第二张图片显示的是一只站立的银鸥。在每一幅图中,鸟类看起来都有不同的外观,这是另一个给FBIC带来困难的来源。第三,由于野外背景的隐蔽性和复杂性,鸟类可能在树枝和树叶中(图2(e)),也可能被树枝观察到(图2(f)),这给鸟类图像的分类带来了困难。

2.2发展

由于识别鸟类图像之间的语义长期依赖的亲和关系具有重要意义,因此,Transformer是一种天生擅长探索图像中微观的细粒度细节和微观的长期依赖的语义关系的语言。Transformer[5]最初用于自然语言处理。然后受到计算机视觉领域的启发。Carion等[6]提出了一种基于Transformer的端到端目标检测方法,在[7]中,Dosovitskiy等提出了vision Transformer (ViT),首次应用并证明了纯Transformer是一种可以与CNN竞争并占据其地位的结构。因此,ViT结构被用作我们的模型的骨干,以利用FBIC任务的亲和关系。

2.3创新

在这项工作中,我们提出了一种可以用于智能鸟类监视机器人的方法(图2),智能鸟类监视机器人可以安装在喂食器,鸟巢或鸟类栖息地附近。该机器人可以垂直和水平旋转,以提供更大的视野来探测鸟类。机器人以固定的间隔记录图像,并在图像中检测到鸟时增加频率。一个大的机器人内部安装了大容量电池,可以进行长时间的监控,机器人内部还安装了我们的TBNet模型程序芯片,可以实时对鸟类进行分类。

在监测期间,研究鸟类的出现频率将被计算和记录。然后,收集到的信息可以用于鸟类研究人员对鸟类种群的估计和保护。TBNet模型通过识别鸟类图像中的亲和关系来实现对鸟类图像的分类,从而为下游鸟类种群的估计提供便利。综上所述,本工作的主要贡献如下:
1)提出了一种新的用于鸟类保护的机器人视觉跟踪方法。智能监控机器人可以旋转到不同的方向,记录鸟类的数量。
2)建立了一个有效的TBNet模型。据我们所知,这种亲和关系是首次在鸟类图像中被揭示出来。因此,ViT被用来利用这些抽象的语义亲和关系。利用CNN提取表层信息,引入FS模块揭示判别特征。为TBNet模型的特征映射生成,提出了一种特征提取策略(CPG策略)。
3)在CUB-200-2011和NABirds两个鸟类数据集上进行实验。与现有的几种最先进的方法相比,所提出的TBNet具有更好的性能,从而验证了其有效性

3.网络

3.1整体结构

TBNet模型的管道如图3所示。该方法包括特征提取主干、FS模块和分类头三个部分。第一部分是特征提取主干,用于提取鸟类图像的细粒度和多尺度信息。一般来说,几个当前的骨干[1- 3,7]可以被认为是候选。由于CNN对表层信息的提取能力强,而Transformer在挖掘抽象语义亲和关系方面表现突出,因此本研究采用CNN与ViT的结合作为主干。骨干进一步修改,以提高性能。为了减轻过拟合,所开发的网络在主干的分类头部有dropout层。第二部分是FS模块,提取特定鸟类的判别特征。第三部分是分类头,在分类头中最终利用特征图进行最终分类。

1.使用CNN网络来提取图像初步特征,之后压缩成patch输入vit网络 ,能够较多的保留图像的全局信息,但同时一些低层次的细节信息因为层层卷积而被忽视掉了。

2.FS模块相当于图像增强,通过去掉transformer块中的贡献小的区域来增加显著区域的权重

3.2 Feature map generation

通过特征提取主干对鸟类图像进行处理并生成特征地图。这个过程可以概括为三个步骤:CNN处理,位置嵌入,并通过Transformer块(CPG策略)。该过程完成后,将原始输入图像转换成特征图进行分类。

Step I:CNN处理。在这一步中,通过CNN对原始输入图像进行初步处理,生成n个特征图。然后,将每个特征映射t平面化成一维向量。接下来,应用线性投影将pt投影到p[中。这个过程表示如下:

式中pt为第i个patch, E为线性投影,i为d维投影视觉向量。 

Step II:位置嵌入。由于Transformer层对输入patch序列的排列是不变的,因此需要位置嵌入来编码patch的空间位置和关系。具体来说,这些补丁是通过位置嵌入到补丁向量中来添加的。埋设公式如下:

式中,c_{0}表示由patch向量组成的矩阵,n表示patch的个数,E_{pos'}表示位置嵌入。位置嵌入的类型可以从几个选项中选择,即二维正弦、可学习和相对位置嵌入。 

Step III:穿过Transformer块。位置嵌入补丁然后通过M个Transformer块。每个Transformer块的计算方法如下:

其中c\hat{}^{}l和c^{l}分别为变压器块1的MSA模块和MLP模块的输出patch向量。LN(-)表示层归一化。MLP表示多个完全连接的层。MSA表示多头自我注意。这些变压器块可分为N级。 

3.3 FS module

原始补丁可能引入对分类有害的破坏性特征。图4显示了Transformer块中的特性映射列表。最后一阶段根据特征图的区分分数对特征图进行排序。如图4所示,在较低的层次中,例如阶段1和阶段2,Hits@ k特征彼此之间几乎没有相似性,而得分较差的特征彼此之间几乎相同。在更高的层中,例如阶段N, Hits@k特征更加相似且高度激活,而得分较差的特征似乎是嘈杂的。总的来说,在各个阶段,高分的显著特征比低分的显著特征更重要。因此,我们提出FS模块,以进一步利用这些独特特征提供的信息,有效减轻破坏性特征的破坏性影响。

设在阶段i中,输出为n个ID补丁向量,记为Qj,i e[1,2,3,…,]。首先,FS模块计算n个向量之间的相似度。从余弦相似度或者L2距离的逆选择相似性。余弦相似度定义如下

其中F ”和G ”为两个向量,Sc (F,G) ∈[0,1]。Sc的值表示F与g的相似度,其L2距离构造如下: 

其中“F ”和“G ”表示两个特征向量。相似度的计算公式如下: 

 

其中,\Omega _{i}\Omega _{j}.分别表示第i个和第j个补丁向量。Sc表示余弦相似度,L_{2}表示L_{2}距离。通过计算相似度,可以得到相似矩阵。包含所有patch之间相似度的相似度矩阵可以表示为:

其次,每个patch向量通过与其他patch向量的相似度相加并进行往复运算得到一个判别分数。这个操作公式如下:

 最后选择得分最高的Hits@k (k) patch vector输入到下一层。其余的补丁向量被丢弃,因为它们的鉴别性较差。

4.实验

4.1实验设置

4.1.1数据集

CUB-200-2011,NABirds 

4.1.2实验细节

提出的模型以以下方式实现。首先,将输入图像分辨率调整为448到448,以便进行公平的比较。为提高效率,批量大小设置为8。采用AdamW优化器,权重衰减为0.05。学习率初始化为0.0001。所有的实验都是在一个Nvidia TITAN GPU上使用PyTorch工具箱完成的。

4.2对比试验

 

4.3消融实验

4.4可视化

5.结语

在这项工作中,我们提出了一种新的鸟类保护机器人视觉跟踪方法。智能监控机器人可以旋转到不同的方向,记录鸟类的数量。在此基础上,建立了一个有效的TBNet模型。据我们所知,鸟类图像中的亲和关系首次被揭示。CNN被用来提取肤浅的信息。利用ViT来挖掘抽象的语义亲和关系。引入了FS模块来揭示识别特征。为TBNet模型的特征映射生成,提出了一种特征提取策略(CPG策略)。我们在两个FBIC数据集上测试了TBNet。实验结果表明,该方法可以识别鸟类图像中的亲和关系和判别特征。随着TBNet所取得的可喜成果,相信机器人对鸟类的视觉跟踪具有巨大的潜力是合理的。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1425062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt读写Execl:QXlsx库

Qt三方库开发技术:QXlsx介绍、编译和使用 我自己记录的实例代码:https://download.csdn.net/download/cao_jie_xin/88795216 目录 一、概述二、下载三、编译四、加载QXlsx静态库五、介绍一些常用的功能1、一些头文件和命名空间2、创建一个excel文件3、…

二进制安全虚拟机Protostar靶场(5)堆的简单介绍以及实战 heap0

前言 这是一个系列文章,之前已经介绍过一些二进制安全的基础知识,这里就不过多重复提及,不熟悉的同学可以去看看我之前写的文章 什么是堆 堆是动态内存分配的区域,程序在运行时用来分配内存。它与栈不同,栈用于静态…

外包干了8个月,技术退步明显...

先说一下自己的情况,大专生,18年通过校招进入武汉某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了四年的功能测…

2023安防行业十件大事,一定有你关心的

2023年对我国安防行业来说,可以说是既充满希望又充满不确定性的一年。经历三年的市场低迷,2023年安防市场开始逐渐回暖,行业景气度缓慢上升。 那么,2023年我国安防行业都发生了哪些值得铭记的大事?哪些事件对安防产业…

手把手教测试,全网内容最全最深-jmeter-Throughput Controller(吞吐量控制器)

5.1.6.15.Throughput Controller(吞吐量控制器) 用来控制后代组件的执行的次数。有两种模式:百分比和次数;不会影响取样器的 TPS,只影响执行次数。 1.按照次数执行: 1).勾选Per User: 2).不勾选Per User&#xff1a…

Skywalking trace UI页面中字段信息详解,包括端点、跨度类型和Peer

刚上手Skywalking的同学可能对 trace UI 页面信息中的字段信息不是很了解,在这里就给大家一一讲解,重点关注端点、跨度类型和Peer 服务 :服务的名称 实例:服务对应的实例 端点:端点(Endpoint) 对于特定服务所接收的请求路径, 如…

Wampserver 切换中文时无法启动报错处理

在使用 Wampserver 软件时默认为英语,可以看到有语言选择功能,切换其他语言。但选择中文切换后,软件重启时报如下错误: The configuration file contains a systax error on line 44:[EParseError] Mismatched or misplaced quoue…

【Linux】VMware Workstation16安装银河麒麟高级服务器操作系统V10 SP3 AMD64

目录 一、麒麟服务器概述 二、安装步骤 设置硬盘大小 完成配置 修改内存 处理器等设备配置 选择直接安装 配置磁盘 网络配置 设置root账号密码 开始安装 启动完成 一、麒麟服务器概述 银河麒麟高级服务器操作系统V10是针对企业级关键业务,适应虚拟化、云…

PyTorch 中神经网络库torch.nn的详细介绍

1. torch.nn torch.nn 是 PyTorch 深度学习框架中的一个核心模块,它为构建和训练神经网络提供了丰富的类库。 以下是 torch.nn 的关键组成部分及其功能: nn.Module 类: nn.Module 是所有自定义神经网络模型的基类。用户通常会从这个类派生…

vue3 watch和watchEffect

Watch监听ref定义的数据 1.ref数据基本数据类型 let sumref(0) const stopWatchwatch(sum,(new,old)>{ If(new>10){ stopWatch() } console.log(‘sum数据变化了’) })2.ref数据为对象类型,监听的是对象的地址值,若想监听…

一篇文章带你弄懂MySQL事务!(事务特性ACID、并发读的问题、事务的隔离等级、Read View 原理、可重复读和读提交分别怎么工作)

文章目录 一、什么是事务?二、事务有哪些特性?(ACID)三、认识事务的提交和回滚四、并行事务会引发什么问题?1.脏读2.不可重复读3.幻读 五、事务的隔离级别六、Read View 在 MVCC 里如何工作的?七、可重复读…

【PyRestTest】高级使用

本节主要涉及PyRestTest的高级特征的详细使用,主要指:generators(生成器), variable binding(变量绑定), data extraction(数据提取), content validators(文本验证) 它们是如何组合在一起的? 模板和上下文 测试和基准测试可以使用变量来模板化动态配置。使用基础的…

钉钉机器人关键词推送

钉钉机器人只勾选关键词,不选其它校验方式,只会校验发送内容中是否包含关键词 例如我设置关键词是robot {"msgtype": "text","text": {"content": "robot:抢票成功!"},"at":{"isAtAl…

【产业实践】使用YOLO V5 训练自有数据集,并且在C# Winform上通过onnx模块进行预测全流程打通

使用YOLO V5 训练自有数据集,并且在C# Winform上通过onnx模块进行预测全流程打通 效果图 背景介绍 当谈到目标检测算法时,YOLO(You Only Look Once)系列算法是一个备受关注的领域。YOLO通过将目标检测任务转化为一个回归问题,实现了快速且准确的目标检测。以下是YOLO的基…

安全防御第五次作业

拓扑图及要求如下: 实验注意点: 先配置双机热备,再来配置安全策略和NAT两台双机热备的防火墙的接口号必须一致双机热备时,请确保vrrp配置的虚拟IP与下面的ip在同一网段如果其中一台防火墙有过配置,最好清空或重启&…

操作日志应记录编辑的前后内容变化

总体思路是增加一个注解类,将注解加到要进行记录变化的Java类属性上却可。 上代码: 1. 实现注解类: Target(ElementType.FIELD) Retention(RetentionPolicy.RUNTIME) public interface FieldName {String value();boolean isIgnoreNull()…

lombok导致的IndexOutOfBoundsException

一、问题描述 ERROR 25152 --- [1.190-81-exec-9] o.a.c.c.C.[.[.[/].[dispatcherServlet] : Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Request processing failed; nested exception is org.mybatis.spring.MyBatisSyste…

ElementUI Form:Switch 开关

ElementUI安装与使用指南 Switch 开关 点击下载learnelementuispringboot项目源码 效果图 el-switch.vue &#xff08;Switch 开关&#xff09;页面效果图 项目里el-switch.vue代码 <script> export default {name: el_switch,data() {return {value: true,value1: …

Linux内核编译-ARM

步骤一、下载源码及交叉编译器后解压 linux kernel官网 ARM GCC交叉编译器 步骤二、安装软件 sudo apt-get install ncurses-dev sudo apt-get install flex sudo apt-get install bison sudo apt install libgtk2.0-dev libglib2.0-dev libglade2-dev sudo apt install libs…

【wine】Ubuntu 22.04 x86_64 源码编译 wine 9.1 编译版本不能启动微信,apt安装版本可以使用微信

git clone https://gitee.com/winehq/wine.git git checkout wine-9.1 x86_64 注意&#xff08;没有--enable-win32选项&#xff01;&#xff09; sudo apt install build-essential git libtool m4 autoconf automake pkg-config libc6-dev-i386 zlib1g-dev libncurses5-de…