Reid系列论文学习——无人机场景下基于 Transformer 的轻量化行人重识别

news2024/11/25 9:52:19

今天介绍的一篇论文是针对无人机场景下的行人重识别,论文题目为:"无人机场景下基于 Transformer 的轻量化行人重识别"。该论文针对无人机场景下行人呈现多角度多尺度的特点、以及传统CNN网络在行人重识别任务中受限于感受野和下采样导致的无法充分提取特征,同时也为了便于算法的部署而提出了一种基于Transformer轻量化Reid网络(Lightweight Transformer-based Person Re-Identification, LTReID)。

注:该论文并未开源任何资源(比如代码和数据集),因此论文的真实性并不清楚,本人这里并不负责复现,只是通过该论文为读者提供一个研究思路。

目录

国内外ReID研究难题

国内外ReID在无人机领域的研究现状

Transformer存在的问题

论文对于算法改进的思路

基于Transformer 的轻量化行人重识别关键技术

面向Transformer 的掩码搜索剪枝算法

损失函数设计 

面向无人机场景的空间信息嵌入

参考文献


国内外ReID研究难题

论文首先介绍了国内外围绕ReID的研究难题,比如人物遮挡问题的重识别、全局和局部特征提取效果差的问题。大多数研究主要从添加注意力机制、引入无监督学习和修改网络结构等多个方面提高网络性能,但这些方法无法避免由于卷积和池化带来的识别度下降的问题,同时部分算法会导致模型参数较大,推理实践慢

对上述部分,这里说一下个人观点供大家参考,首先为什么说卷积和池话带来识别度下降的问题,这是因为卷积获得的特征基本都是局部特征,无法像Transformer一样获取全局特征(或者可以理解为Transformer就是一个特殊的卷积),虽然网络的加深,网络的感受野势必也会受到影响,池化层也影响到周边像素的特征提取,因为这些种种问题会导致识别率低。


国内外ReID在无人机领域的研究现状

然后作者又讨论了国内外Reid在无人机领域的研究,例如,作者指出,近些年元学习迁移学习被引入无人机场景下的行人重识别[1],利用元学习提高特征提取能力,利用迁移学习改进所获得的元知识,用这两种策略解决无人机场景下人物图片差异较大的挑战。还有使用卷积后特征图的子空间池化来表征输入的图像[2],用该方法让网络学习到更具判别性紧凑性的特征表示。还有在模型训练中加入协方差信息提高网络的鲁棒性。但不论怎样,作者指出这只是将一些经典算法应用到无人机场景中,没有专门针对无人机场景下的特点对模型进行改进,比如没有利用最新基于注意力机制的 Transformer 模型对无人机场景下的行人图像进行全局特征的提取(我觉得这里说法有问题,只能说你可能没有找到这类论文,而不能说没有)。


Transformer存在的问题

随后作者又指出了Transformer存在的一些问题,比如参数量大导致推理和部署困难,因此作者想到了剪枝进行轻量化。通常剪枝分为结构化剪枝(通道剪枝)和非剪枝化剪枝(权重剪枝),非结构化剪枝一般是需要特定的硬件或者算法库的支持,所以作者选择了结构化剪枝(也是最为常用的方法)。多数结构化剪枝方法由于剪枝后或者剪枝期间需要进行额外的训练,并且剪枝流程需要引入额外的超参数进行调整,因此在实际中阻碍了结 构化剪枝方法的应用。(这里作者附上了一个参考文献,是说Transformer可以不用在训练中剪枝,而是在推理中进行动态剪枝,这个想法很有意思,后面有时间我会研究下并进行分享[3-4])


论文对于算法改进的思路

针对以上问题,我对作者在论文中的算法改进进行了以下总结:

1. 利用多头多注意力机制获取长距关联,提升网络的特征提取能力。

2.针对无人机场景下特点(多角度,多尺度),用Circle边界样本挖掘损失进行训练。

3.在transformer网络中加入边信息嵌入技术,将空间角度非视觉信息特征嵌入到输入中进行学习。

4.使用快速的掩码搜索剪枝[5]进行Transfomer轻量化,可在不进行重训练情况下的轻量化剪枝。

网络结构图如下所示:

图中的空间角度信息就是作者说的使用边信息嵌入技术,将空间信息嵌入到输入中进行训练学习。

基于Transformer 的轻量化行人重识别关键技术

面向Transformer 的掩码搜索剪枝算法

为了实现在不对模型进行重训练的情况下进行轻量化,通过费雪信息矩阵对Transformer 网络中头部和滤波器进行轻量化剪枝。(这部分也等我后面研究一下这个算法)

首先Transformer 的剪枝问题可以归纳为以下优化方法:

其中L为损失函数,m为掩码向量,C 为对浮点运算或时延等成本限制,为了有效的优化该方法,对损失函数围绕 m = 1 进行二阶泰勒展开,并且假设模型收敛到局部最优,损失函数优化可以表示如下:

其中, l表示 K 维全 1 向量, H 为损失函数对应掩码向量的海森矩阵,海森矩阵 H 是二阶偏导数矩阵,计算过于复杂,因此 H 需要进一步简化为对角矩阵形式的费雪信息矩阵,则简化为:

损失函数设计 

由于无人机多视角多尺度特点,不同行人之间的图像差别度减少,相同行人不同视角和高度的图像差距增加,常用的交叉熵和三元组损失函数很难 满足模型训练要求。因此采用Circle 损失函数和边界样本挖掘损失函数。

L_{c}为 Circle 损失函数 ,在 Circle 损失函数中,相较于一般的交叉熵损失函数,从最小化s_{n}^{j}-s_{p}^{j}为优化目标(n表示的类间相似,也就是负样本,p表示类内)扩展为\alpha _{n}^{j}(s_{n}^{j}-\Delta _{n})-\alpha _{p}^{i}(s_{p}^{i}-\Delta _{p}).

边界样本挖掘损失:

 这种就是在寻找最困难的正样本和最困难的负样本。

面向无人机场景的空间信息嵌入

由于无人机多视角的特点,提出了 面向无人机场景的空间信息嵌入,将空间角度信息等非视觉信息嵌入到输入序列中,以学习相同对象不同空间视角的不变特性。作者指出,空间角度信息可以分为两种:(1)以行人所在地为原点,人脸朝向为 X 轴,设无人机地面投影点和原点的连线 X 轴正方向的顺时针夹角为方向角 φ [0, 2π]。以人身为 Z 轴,设无人机和原点连线与 Z 轴 正 方 向 的 顺 时 针 夹 角 为 仰 角 θ ∈ [0,π/ 2] 。在两个方向上分别等间隔取N个区间

论文引用:

胡海峰,倪宗煜,赵海涛,等. 无人机场景下基于 Transformer 的轻量化行人重识别[ J]. 南京邮电大学学报(自然科学版),2024,44 (3):48 62.

参考文献

[1] XU L L, PENG H F, LU X, et al. Learning to generalize aerial person re-identification using the meta-transfer method[ J]. Concurrency and Computation: Practice and Experience, 2023, 35(12): e7687.

[2] ZHANG S Z, ZHANG Q, YANG Y F, et al. Person reidentification in aerial imagery[ J]. IEEE Transactions on Multimedia, 2021, 23: 281-291.

[3] HOU L, HUANG Z, SHANG L, et al. DynaBERT: dynamic BERT with adaptive width and depth [ J ]. Advances in Neural Information Processing Systems, 2020, 33: 9782-9793.

[4] LIU Z J, LI F R, LI G, et al. EBERT: efficient BERT inference with dynamic structured pruning[C]//Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 4814-4823.

[5] KWON W, KIM S, MAHONEY M W, et al. A fast post-training pruning framework for transformers [ J ]. Advances in Neural Information Processing Systems,2022, 35: 24101-24116.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1876192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Go-知识测试-单元测试

Go-知识测试-单元测试 1. 定义2. 使用3. testing.common 测试基础数据4. testing.TB 接口5. 单元测试的原理5.1 context 单元测试的调度5.1.1 等待并发执行 testContext.waitParallel5.1.2 并发测试结束 testContext.release 5.2 测试执行 tRunner5.3 启动测试 Run5.4 启动并发…

《晨集》开源软件平台的创新与发展

一、引言 在数字化浪潮的推动下,开源软件平台已成为推动软件创新、促进知识共享的重要力量。《晨集》作为新兴的开源软件平台,其上线标志着开源生态圈的又一重要里程碑。本文旨在探讨《晨集》开源软件平台的创新特点、对开发者社区的影响以及未来发展趋…

Flink作业执行之 4.JobGraph

Flink作业执行之 4.JobGraph 1. 入口 前文了解了由Transformation到StreamGraph的过程,StreamGraph即作业的逻辑拓扑结构。 生成逻辑结构后,接下来的操作往往是对逻辑结构的优化。在很多组件中都是这样的处理,如hive、spark等都会执行“逻辑…

【linux】从零到入门

linux概述 Linux是一个免费使用和自由传播的一套操作系统。用户可以无偿地得到它地源代码,和大量地应用程序,并且可以随意修改和增加它们。 Linux的内核起初由林纳斯编写。内核是啥? 驱动设备,文件系统,进程管理&…

『MySQL 实战 45 讲』22 - MySQL 有哪些“饮鸩止渴”提高性能的方法?

MySQL 有哪些“饮鸩止渴”提高性能的方法? 需求:业务高峰期,生产环境的 MySQL 压力太大,没法正常响应,需要短期内、临时性地提升一些性能 短连接风暴 短连接模式:执行很少的 SQL 语句就断开,…

【Sklearn-驯化】一文搞懂机器学习树模型建模可视化过程

【Sklearn-驯化】一文搞懂机器学习树模型建模可视化过程 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 免费获取相关内容文档关注&#xff…

LeetCode刷题之HOT100之数组中的第K个最大元素

2024 6/29 今天天气很好啊,想爬山,奈何下午还有最后的一个汇报。做个题先 1、题目描述 2、算法分析 看到这个题我想到的就是: public int findKthLargest(int[] nums, int k) {Arrays.sort(nums);return nums[nums.length - k ];}哈哈,我提…

计算机网络 —— 基本概念

基本概念 1. 通信协议2. 面向连接 v.s. 面向无连接3. 电路交换 v.s. 分组交换4. 单工通信 v.s. 双工通信 1. 通信协议 通信协议就是计算机与计算机之间通过网络实现通信时事先达成的一种“约定”。这种“约定”使那些由不同厂商的设备、不同的CPU 以及不同的操作系统组成的计算…

记录一下MATLAB优化器出现的问题和解决

今天MATLAB优化器出了点问题。我想了想,决定解决一下,不然后面项目没有办法进行下去。 我忘了截图了。 具体来说,是出现了下面的问题。 Gurobi: Cplex: 在上次为了强化学习调整了Pytoch环境以后(不知道是不是这个原因&#…

background 与 background-image

相同点:background 与 background-image都可以用于设置背景图 区别. background既可以用于设置背景图, 又可以用于设置CSS样式,还可以用于设置背景属性。 background-image只能用于设置背景图 background能设置的背景属性,如下&…

绝了!Stable Diffusion做AI治愈图片视频,用来做副业简直无敌!10分钟做一个爆款视频保姆教程

一 项目分析 这个治愈类视频的玩法是通过AI生成日常生活场景,制作的vlog,有这样的一个号,发布了几条作品,就涨粉了2000多,点赞7000多,非常的受欢迎。 下面给大家看下这种作品是什么样的,如图所…

大语言模型LLM基础:推理/不同模型/量化对显存、推理速度和性能的影响

通过本文,你将了解以下几个方面的内容: 要运行一个LLM需要多少显存?(我的GPU可以运行多大LLM?)不同LLM推理速度如何?量化对显存、推理速度和性能的影响?vLLM、DeepSeed等工具的加速…

智慧校园-档案管理系统总体概述

智慧校园档案管理系统,作为教育信息化进程中的重要一环,它运用现代信息技术的力量,彻底改变了传统档案管理的面貌,为学校档案资源的收集、整理、存储、检索与利用开辟了全新的途径。这一系统全面覆盖学生、教职工、教学科研及行政…

Rocky Linux设置静态IP

[connection] idens160 uuidcd246f67-c929-362a-809d-f1b44ddc5d25 typeethernet autoconnect-priority-999 interface-nameens160 timestamp1719094243[ethernet][ipv4] ## 在IPV4下面修改如下内容 methodmanual address192.…

常见的反爬手段和解决思路(爬虫与反爬虫)

常见的反爬手段和解决思路(爬虫与反爬虫) 学习目标1 服务器反爬的原因2 服务器长反什么样的爬虫(1)十分低级的应届毕业生(2)十分低级的创业小公司(3)不小心写错了没人去停止的失控小…

nuxt实现vuex持久化

前言: 此处不借助插件实现 store 本地持久化 所有状态持久化 使用 vuex 里面的 replaceState 方法还原 store 的根状态 API 参考 | Vuex 创建 store-cache.js 文件 在 plugins 目录下创建 store-cache.js 文件; store-cache.js export default (ctx) &g…

深度之眼(二十八)——神经网络基础知识(三)-卷积神经网络

文章目录 一、前言二、卷积操作2.1 填充(padding)2.2 步长2.3 输出特征图尺寸计算2.4 多通道卷积 三、池化操作四、Lenet-5及CNN结构进化史4.1 Lenet-5 一、前言 卷积神经网络–AlexNet(最牛)-2012 Lenet-5-大规模商用(1989) 二、…

如何保护磁盘数据?电脑磁盘数据怎么保护?

电脑磁盘是存储数据的基础,可以将各种重要数据保存在其中。为了避免数据泄露,我们需要保护磁盘数据。那么,电脑磁盘数据怎么保护呢?下面我们就一起来了解一下吧。 文件夹加密超级大师 文件夹加密超级大师是一款优秀的电脑数据加密…

收银系统源码-千呼新零售2.0【宠物、养生、大健康行业解决方案】

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物、中医养生、大健康等连锁店…

ubuntu丢失网络/网卡的一种原因解决方案

现象 开机进入ubuntu后发现没有网络,无论是在桌面顶部状态栏的快捷键 还是 系统设置中,都没有”有线网“和”无线网“的选项,”代理“的选项是有的使用数据线连接电脑和手机,手机开启”通过usb共享网络“,还是没有任何…