2023VALSE目标跟踪相关的Poster

news2024/11/16 23:40:08

前沿:本博文分享了2023 中国无锡举办的VALSE 中与目标跟踪相关的Poster。

1. Weakly Alignment-Free RGBT Salient Object Detection With Deep Correlation Network

IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 31, 20

摘要:RGBT显著性目标检测(salient object detection, SOD)关注于一对可见和热红外图像的共同的显著性区域。现存的方法在对齐的RGBT图像对上执行,但是被捕获的图像对总不是对齐的,且对齐图像对需要大量的人工代价

为了处理这个问题,本文提出一个新颖的深度相关网络DCNet),探索RGB和热红外两种模态的相关性用于弱对齐自由(weakly alignment-free) RGBT SOD。具体地,DCNet由一个1. 基于空间放射变换的模态对齐模块、2. 逐特征对齐变换、3. 动态卷积组成,来实现两种模态强相关性的建模。此外,提出双向解码模型,其结合了从粗到细和从细到粗的过程,以更好地增强特征。具体地,通过添加模态对齐模块前两个元素和一个全局上下文增强模块设计了一个模态相关ConvLSTM,用于以自上而下和按钮向上的方式解码层次特征。

在3个公开数据集上的实验结果表明本文方法实现了remarkable performance.

Contribution:

  1. 提出了一个新任务——弱对齐自由(weakly alignment-free) RGBT SOD,以缓解RGBT SOD中需要大量人工代价的问题并有效节约了时间;
  2. 提出了一个新方法——从空间、特征、语义层次考虑模态间的相关性,实现了更有效的表达;
  3. 设计了一个新模块——modality alignment module (MAM)处理两个模态的空间不对齐问题,并提出一个双向解码器让网络具有信息选择和抑制的能力。

2. Generalized UAV object detection via frequency domain disentanglement

通过频域解耦的广义无人机目标检测, CVPR, 2023

摘要:部署无人机目标检测(UAV-OD)网络在复杂且未见过的实际场景中,泛化能力由于domain shift将会降低

为了解决该问题,本文提出了频域解耦方法来提升UAV-OD的泛化能力。具体地,先验证了图像中不同波段的光谱对无人机泛化能力有不同的影响。基于此,设计了2个可学习的滤波器来提取域不变谱和域特定谱。前者可用于训练UAV-OD网络并提升泛化能力。此外,设计了一个实例级对比损失来指导网络训练,该损失使网络集中于提取域不变光谱和域特定谱,以实现更好地解耦结果。

在3个未见过目标域上的实验结果展示本方法比baseline和SOTA算法具有更好的泛化能力。

Contribution:

  1. 提供了一个新的视角提升UAV-OD网络在未见过目标域上的泛化能力。这是第一个通过频域解耦学习泛化的UAV-OD;
  2. 基于频域解耦,提出了新的框架,利用可学习的滤波器提取域不变谱和域特定谱,并设计了一个实例级对比损失指导解耦过程;
  3. 在3个未见过目标域上的实验结果展示本方法比baseline和SOTA算法具有更好的泛化能力。

 

3. LRRNet: A Novel representation learning guided fusion network for infrared and visible images

江南大学人工智能与计算机学院吴小俊教授团队, 2023, TPAMI

摘要:基于混合模型的深度学习已经在图像混合任务中实现了很好的效果,这是因为网络结构在混合过程中扮演了一种重要的角色。但是一般来说,很难指定一个好的融合架构,因此,融合网络的设计仍然是一门魔法,而不是科学。

为了解决这个问题,我们将混合任务数学化,建立最优解和网络架构之间的连接。该种方法提出了一种构建轻量级融合网络的新方法,通过试验和测试策略避免了耗时的经验网络设计。具体地,采用了一个可学习的表达方式用于混合任务,其中混合网络架构的构建由最优化算法指导低秩表达(low-rank representation, LRR)目标是可学习模型的基础。解决方案的核心 矩阵乘法 被转化为卷积运算,优化的迭代过程被一个特殊的前馈网络所取代。基于该网络架构,一个端到端的轻量级混合网络被构建以混合热红外和可见光图像。它的成功训练得益于一个细节到语义信息损失函数(a detail-to-semantic information loss function),该函数保留了图像细节并增强源图像的显著特征。

Contribution:

  1. 提出了一个新的网络设计方法用于图像混合任务。由一个可学习表达模型指导,网络架构的设计有了清晰的目标;
  2. 提出可学习表达模型用于图像分解,产生轻量化的混合多模态图像网络;
  3. 提出a detail-to-semantic information loss function,包括了4种级别的损失,pixel level, shallow level, middle feature level, deep feature level;
  4. 实验结果表明提出的方法比SOTA混合方法效果更好。

 

 

 

4. GRM: Generalized relation modeling for transformer tracking

摘要:相比于之前的双流跟踪器,最近的单流跟踪pipeline,允许模板和搜索区域更早的交互同时实现了显著的性能提升。但是现存的单流跟踪器通过所有的解码层总是允许模板和搜索区域内所有部分交互,可能使得当提取的特征表达不是特别显著时,目标-背景会发生混乱

为了解决这个问题,提出了一个基于自适应token划分的泛化关系建模方法。所提方法时基于注意力建模的泛化模式,继承了双流和单流pipeline的优点并通过选择合适的搜索tokens和模板tokens交互进行更灵活的关系建模。引入注意力掩码策略和Gumbel-Softmax技术促进token划分模块的端到端学习和并行计算。

实验结果表明本方法比双流和单流pipeline更好在6个数据集上,实时运行速度。

Contribution:

  1. 展示了一个用于Transformer跟踪器关系建模的范式,将输入tokens分为3类,使模板和搜索区域交互更灵活;
  2. 为了实现泛化关系建模,设计了一个token划分模块以自适应分类输入tokens。引入注意力掩码策略和Gumbel-Softmax技术促进token划分模块的端到端学习和并行计算;
  3. 进行了大量的实验和分析验证了本文方法的有效性。

5. ARTrack: Autoregressive Visual Tracking

摘要:展示了ARTrack,一个用于视觉目标跟踪的自回归框架。ARTrack将跟踪问题看作逐步估计对象轨迹的坐标序列解释任务,其中当前估计由先前的状态引起并反过来影响子序列。这种时间自回归方法对轨迹的顺序演变(sequential evolution)进行建模,以保持跨帧跟踪对象,使其优于仅考虑每帧定位精度的现有基于模板匹配的跟踪器。

ARTrack简单且直接,消除了特有的定位头和后处理过程。 尽管ARTrack很简单,但其在流行的基准数据集上实现了最先进的性能。

(引入时序信息很常见的思想,但通过spatio-temporal prompts引入比较新~)

 

6. SparseTT: Visual Tracking with Sparse Transformers

摘要:Transformers已经成功应用于视觉跟踪任务并显著提升了跟踪的性能。自注意力机制是Transformers成功的关键,其建模了long-range依赖关系。然而,自注意力缺乏关注搜索区域中最相关的信息,易于被背景干扰

为了解决该问题,本人通过聚焦搜索区域中最相关的信息 提出sparse attention mechanism。进一步,引入双头预测器double-head predictor以提升前背景分类精度和边界框的回归精度,其进一步提升了跟踪性能。

大量的实验展示,本文以40FPS的速度运行,并显著提升了跟踪效果在LaSOT, GOT-10k, TrackingNet, UAV123上。

Contribution:

  1. 提出了一个目标关注网络,聚焦于搜索区域中感兴趣的区域并强调最相关的信息特征以更好地估计目标状态;
  2. 提出了一个sparse Transformer based siamese tracking framework,有强大的能力处理目标形变,部分遮挡,尺度变换等问题;
  3. 大量实验展示本文以40FPS运行并在LaSOT, GOT-10k, TrackingNet, UAV123上表现良好。

 

7. Toward Robust Visual Object Tracking with Independent Target-Agnostic Detection and Effective Siamese Cross-Task Interaction

通过独立的目标不可知检测和有效的 Siamese 跨任务交互实现稳健的视觉对象跟踪

TIP,2023

摘要:Siamese 视觉目标跟踪架构使用成对输入图像进行联合训练,以执行目标分类和边界框回归,他们已经实现了不错的效果。但是,现存的方法有2大缺陷:1. 尽管Siamese结构能在每个实例帧内估计目标状态,但前提是目标外观不会偏离模板太多,在存在严重外观变化的情况下无法保证检测结果。2. 尽管分类和回归任务共享了backbone的输出,但他们特有的模块和损失函数都是独立设计的,没有任何交互,但是在一个跟踪任务中,中心分类和边界框回归任务协同工作以估计最终目标位置。

为了解决以上问题,实施目标不可知检测是非常重要的以提升在Siamese-based tracking中的跨任务交互。本文提出了一个具有目标不可知对象检测模块的新型网络,以补充direct target inference,并避免或最小化潜在template-instance matches的关键线索的错位。为了统一多任务学习范式,提出了一个跨任务交互模块确保分类和回归分支的一致监督,提高不同分支的协同作用。为了消除多任务架构中可能出现的潜在不一致,我们分配自适应标签,而不是固定的硬标签,以更有效地监督网络训练。

实现结果证明在OTB100, UAV123, VOT2018, VOT2019,LaSOT上证明了提出的目标检测模块和跨任务交互模型的先进性。

 

 

 

8. BeamTracking:Beyond Greedy Search: Tracking by Multi-agent Reinforcement learning-based beam search

超越贪婪搜索:基于多代理强化学习的波束搜索进行跟踪

TIP

摘要:常见的跟踪器往往采用贪婪搜索在每一帧中定位目标,即,具有最大响应值的候选区域被选择跟踪结果。但是,作者发现这可能不是最优选择,特别是在一些严重遮挡/快速移动的复杂场景中。具体地,如何一个跟踪器发生了漂移,误差将会累计并使得未来帧中的响应分数都不可靠。

为了解决该问题,本文提出维持多个跟踪轨迹并应用beam搜索策略进行跟踪,使得拥有更少累积误差的轨迹被识别。本文引入了基于beam搜索的多智能体强化学习跟踪策略,称为BeamTracking。受到图像字幕任务的启发,其将一张图像作为输入并利用beam搜索算法生成各种各样的描述,所以本文将跟踪任务建模为由多个并行决策过程完成的样本选择问题,每个决策过程都挑选一个样本作为它们在每一帧中的跟踪结果。每个轨迹都与一个智能体相关联,以执行决策并确定应该采取什么行动来更新相关信息。此外,使用基于分类的跟踪器作为baseline,先采用 bi-GRU 将target feature, proposal feature, response score编码为统一的状态表示,然后将状态特征和贪心搜索结果输入第一个智能体进行独立的动作选择。 之后,输出的动作和状态特征被馈送到后续的代理中进行不同的结果预测。 当处理完所有帧后,选择具有最大累积分数的轨迹作为跟踪结果。

在7个数据集山证明了本文方法的有效性。

Contribution:

  1. 视觉目标跟踪任务建模为样本选择问题可以使用多个平行的马尔可夫决策过程解决。提出了一个多智能体学习框架完成顺序决策问题
  2. 将MARL beam搜索策略嵌入多个跟踪器并在多个流行的跟踪数据集上执行实验,实验充分验证了提出方法的有效性和通用性。

 

 

9. RGBD1K: A large-scale dataset and benchmark for RGB-D object tracking

摘要:RGB-D 目标跟踪最近已经引起了许多关注,并由于视觉通道和深度通道之间的共生性实现了很好的性能。然而,只有少量的有标注的RGB-D跟踪数据,大部分SOTA的RGB-D跟踪器只是RGB跟踪器的简单扩展,没有在离线训练阶段充分探索深度通道的潜力

为了解决数据集低效的问题,本文提出了一个新的RGB-D数据集称为RGBD1K,共包含1050个序列和2.5M帧。为了展示在更大的 RGB-D 数据集(尤其是 RGBD1K)上训练的优势,我们开发了一个基于Transformer的 RGB-D 跟踪器,SPT,作为未来使用新数据集进行视觉对象跟踪研究的baseline。大量实验展示SPT提升RGB-D跟踪的可能性。

 

10. ARKitTrack: A new diverse dataset for tracking using mobile RGB-D Data

摘要:相比传统的RGB-only跟踪,几乎没有数据集用于RGB-D跟踪。

本文提出了ARKitTrack,一个新的 RGB-D 跟踪数据集,使用iPhone和iPad上配备的LiDAR 扫描仪捕获静态和动态场景。ARKitTrack包括300个RGB-D序列,455个目标和229.7K视频帧。除了边界框注释和帧级别的属性外,也用了123.9K 像素级别的目标掩码进行标注。此外,每一帧中相机位姿和属性也提供了。为了验证该数据集的潜在用途,进一步为框级和像素级跟踪提供了一个统一的baseline,将 RGB 特征与鸟瞰图表示相结合,以更好地探索跨模态3D几何。

深入的实验表明ARKitTrack数据集能够显著促进RGB-D跟踪的发展。

Contribution:

  1. 新的RGB-D跟踪数据集,包含各种静态和动态的场景,以及框级别和像素级别的精准注释;
  2. 一个统一的baseline方法用于RGB-D视频目标跟踪和目标分割,结合RGB和3D形态用于有效的RGB-D跟踪;
  3. 深度的评估和分析为促进 RGB-D 跟踪的未来研究提供新知识。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/642368.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux5.4 Mysql数据库初体验及管理

文章目录 计算机系统5G云计算第四章 LINUX Mysql数据库初体验及管理一、数据库相关概念1. 数据 (Data)的概念2.表的概念3.数据库的概念4.数据库管理系统5.数据库系统 二、数据库的发展1.第一代数据库2.第二代数据库3.第三代数据库 三、主流的数据库介绍四、关系数据库1.概念2.E…

最强Postman替代品,国产软件Apifox到底有对牛?

目录 前言: 接口管理现状 一、常用解决方案 二、存在的问题 Apifox 解决方案 一、如何解决这些问题 二、Apifox 做的不仅仅是数据打通 三、后续功能规划 四、更多 Apifox 功能截图 前言: Apifox是一款国产的API接口管理工具,可以帮…

Linux之用户组管理

目录 Linux之用户组管理 创建用户组 --- groupadd命令 语法格式 参数及作用 案例 添加/删除组成员 --- gpasswd命令 命令格式 参数及作用 案例 修改用户组属性 --- groupmod命令 语法格式 参数及作用 案例 删除组账户 --- groupdel命令 语法格式 案例 用户和组…

ASP.NET实验室信息管理系统源码 LIMS系统源码

ASP.NET实验室信息管理系统源码 LIMS系统源码 lims 实验室信息管理系统(LIMS)。它是由计算机硬件和应用软件组成,能够完成实验室数据和信息的收集、分析、报告和管理。 LIMS实验室信息管理系统专门针对实验室的整体环境而设计,以…

两个链表相加

描述 假设链表中每一个节点的值都在 0 - 9 之间,那么链表整体就可以代表一个整数。 给定两个这种链表,请生成代表两个整数相加值的结果链表。 数据范围:0≤n,m≤1000000,链表任意值 0≤val≤9 要求:空间复杂度 O(n)…

Docker使用记录

文章目录 Docker基本使用Docker配置查看状态卸载安装使用 apt 存储库安装在 Ubuntu 上安装 Docker 桌面(非必要) Docker实例使用现有的镜像查找镜像拖取镜像列出镜像列表更新镜像导出镜像删除镜像导入镜像清理镜像查看容器导出容器导入容器-以镜像的方式创建容器重启容器进入容…

Springboot Apollo配置yml

1.背景: 项目都是配置的Apollo配置中心来进行配置的。新功能需要yml格式的数据(层级结构更清晰) 2.问题: 1)Apollo是否支持yml格式的配置信息? 2)配置好了以后读取不到Apollo配置的yml。 3…

平心而论,做电商数据分析还得这款大数据分析平台

各个业务系统上的数据能放一起分析了吗?根据物流周期做好库存计划了吗?广告投入分析评估报表出来吗?运营、物流、财务等部门环节间的信息脱节解决了吗?做电商数据分析不仅仅是做一两个销售分析报表,而是要综合各个部门…

vue3 - 内置组件Teleport的使用

<Teleport> 是一个内置组件&#xff0c;它可以将一个组件内部的一部分模板“传送”到该组件的 DOM 结构外层的位置去。 1&#xff0c;使用场景&#xff1a; 一个组件模板的一部分在逻辑上从属于该组件&#xff0c;但从整个应用视图的角度来看&#xff0c;它在 DOM 中应该…

Python网络爬虫使用教程

文章目录 一、URL资源抓取1.urllib2.requests3.requests-html二、正则表达式三、数据解析1.Beautiful Soup2.lxml3.selectolax四、自动化爬虫selenium五、爬虫框架1.Scrapy2.pyspider框架六、模拟登录与验证码识别七、autoscraper&#xff08;不需要编程基础&#xff09; 一、U…

小鱼深度产品测评之:阿里云新款通用算力型ECS云服务器Universal实例,实力与能力并存的一款产品。

ECS U实例评测 1、引言2、购买流程3、向导展示4、实例4.1 创建实例4.2 迁移上云4.3 查询功能4.3.1 下拉框选项4.3.2 查询结果保存 4.4 默认定位4.5 分组4.6 监控4.6.1 查看监控大盘4.6.2 自定义报警规则4.6.3 一键报警 4.7 列表操作4.7.1 资源变配4.7.2 远程链接4.7.3 续费 4.8…

深入探究测试用例设计的底层逻辑

测试用例是每位测试人员都绕不开的话题&#xff0c;也是大家习以为常的事情。几乎所有测试相关的公众号、博客、专栏&#xff0c;都会提及测试用例&#xff0c;由此可见它的重要性。但是&#xff0c;有许多从业者&#xff0c;对测试用例的设计仍然依靠经验积累&#xff0c;即使…

达梦8命令行方式安装创建数据库

在实际生产环境中&#xff0c;有很多linux服务器并没有安装桌面&#xff0c;无法调用图形化界面来安装、创建和配置数据库。下面讲解在linux操作系统中&#xff0c;以命令行的形式创建、安装、启动DM8数据库。 一、命令行安装数据库软件 1.用root账号将数据库安装包dm8_setup…

DJ4-3 动态分区分配算法

目录 一、基于顺序搜索的分配算法 1、最佳适应算法&#xff08;BF&#xff09; 2、最坏适应算法&#xff08;Worst fit&#xff0c;WF&#xff09; 3、首次适应算法&#xff08;First Fit&#xff0c;FF&#xff09; 4、下次适应算法&#xff08;Next fit&#xff0c;NF&a…

机器人技术在 PCB 制造中的关键优势

原创 | 文 BFT机器人 印刷电路板或 PCB 相当于神经系统的计算机。它是连接微型电子元件&#xff08;电阻器、微芯片、连接器和电容器&#xff09;的基础。它极其复杂&#xff0c;有些部分非常微小&#xff0c;只能在显微镜下才能看到。 机器人技术是 PCB 制造的核心。没有人能…

从事软件测试行业的你是“摆烂”还是“内卷”?

工作几年后&#xff0c;你还在持续地学习吗&#xff1f; 很多人可能在工作本身上已经耗掉了所有的精力&#xff0c;尤其是在软件行业&#xff0c;加班是常态&#xff0c;空余时间再想集中精力学习某方面的知识会很吃力。 如果像我一样&#xff0c;开始几年做的是基本的功能测…

API自动化测试:如何构建高效的测试流程

一、引言 在当前的软件开发环境中&#xff0c;API&#xff08;Application Programming Interface&#xff09;扮演了极为重要的角色&#xff0c;连接着应用的各个部分。对API进行自动化测试能够提高测试效率&#xff0c;降低错误&#xff0c;确保软件产品的质量。本文将通过实…

IT安全解决方案保护企业网络安全

全球每年报告数以万计的网络安全事件&#xff0c;云解决方案和远程工作的大规模采用意味着大多数组织的攻击面呈指数级增长。采用正确的网络安全解决方案是保护企业免受这些攻击的唯一方法。使用正确IT安全解决方案企业网络安全。 IT安全解决方案 ManageEngine IT安全解决方案…

5 月 Web3 游戏月报:增长有迹可循,但困局仍在

作者&#xff1a;lesleyfootprint.network 5 月 13 日&#xff0c;Line 旗下 NFT 子公司计划将于 2023 年发布五款 NFT 游戏。越来越多的游戏开发者和项目开始涌现&#xff0c;web3 游戏不再仅仅是投机的象征&#xff0c;而是真正有越来越多的项目方深耕与此。然而&#xff0c…

2023-6-13-IP配置知识补充学习

&#x1f37f;*★,*:.☆(&#xffe3;▽&#xffe3;)/$:*.★* &#x1f37f; &#x1f4a5;&#x1f4a5;&#x1f4a5;欢迎来到&#x1f91e;汤姆&#x1f91e;的csdn博文&#x1f4a5;&#x1f4a5;&#x1f4a5; &#x1f49f;&#x1f49f;喜欢的朋友可以关注一下&#xf…