小样本目标定位:Few-shot Object Localization

news2025/1/12 13:34:21

论文:Few-shot Object Localization

代码:https://github.com/Ryh1218/FSOL

核心贡献:

  • 1. 本文首次定义了小样本目标定位任务,为在标注数据有限的场景下进行目标定位提出了新的研究方向,并建立了高性能的基准。
  • 2. 提出的双路径特征增强模块旨在同时增强支持图像和查询图像之间的变形和梯度关联,从而显著提升定位性能。
  • 3. 提出的自查询模块通过相似性矩阵加权来利用查询图像,以增强相似性图,同时避免过多的噪声干扰。

摘要:

现有的目标定位方法主要针对特定类别的目标进行定位,严重依赖于大量标注数据进行模型优化。然而,在许多现实场景中,获取大量标注数据具有挑战性,这极大地限制了定位模型的广泛应用。为弥补这一研究空白,本文定义了一项新的任务,称为小样本目标定位(Few-Shot Object Localization, FSOL),旨在通过有限的样本实现精确定位。该任务通过利用少量标注的支持样本来查询对应图像中目标的位置信息,从而实现广义的目标定位。为了推进这一领域的发展,我们设计了一种创新的高性能基线模型。该模型集成了双路径特征增强模块,以增强支持图像和查询图像之间的形状关联和梯度差异,同时还包含自查询模块,以探索特征图与查询图像之间的关联。实验结果表明,我们的方法在小样本目标定位任务中显著提升了性能,建立了一个高效的基准,为进一步研究提供了基础。


任务框架:

小样本目标定位(FSOL)任务的演示。在训练阶段,模型根据给定的支持样本及其对应的查询图像预测位置图。然后,通过最小化真实值与预测位置图之间的均方误差损失来调整其参数。在测试阶段,训练好的模型预测在训练阶段未出现的新类别样本在对应查询图像中的位置图。

模型框架:

我们的FSOL流程示例如图。给定查询图像和支持图像,从查询图像中提取查询特征FQ,而支持特征FS则从FQ中裁剪出来。双路径特征增强(DFA)模块首先通过变形和梯度分支增强FQ和FS中的变形和梯度信息,输出变形增强的FDQ和FDS以及梯度增强的FCQ和FCS。然后,DFA对堆叠的FDQ和FDS进行3D卷积,使用堆叠的FCQ和FCS作为卷积核权重,获得查询图像和支持图像之间的相似性图S。接着,自查询(SQ)模块接受S作为输入,并使用原始FQ来引导S中的对象分布信息,随后输出优化后的相似性图SSQ。最后,将SSQ发送到回归头以获得最终的位置图。

引言:

目标定位是计算机视觉中的一项基础任务,随着深度学习技术的推动,取得了显著进展。在图像中实现精确的目标定位在多个应用领域中至关重要,包括自动驾驶汽车、监控系统、医学图像分析和人群管理等。尽管取得了重大进展,现有方法主要依赖大量标注数据来训练高精度模型。然而,在现实场景中获取此类标注数据集往往面临巨大的挑战,主要由于相关费用和时间限制。为应对这些挑战,小样本学习作为一种有前景的范式出现,旨在减少对大量标注数据集的依赖。通过使模型从有限数量的标注样本中学习,小样本学习增强了模型的泛化能力,特别适用于获取大量标注数据不切实际或不可行的场景。

随着小样本学习的进步,在没有大量标注数据的情况下实现精确的目标定位变得可行但尚未被充分探索。因此,我们进一步研究了小样本环境下的目标定位,即在给定仅有少量样本标注的图像时,仅借助这些标注样本来定位其他同类样本。我们将此问题称为小样本目标定位(Few-Shot Object Localization, FSOL)任务。与主要关注数量分析的小样本目标计数任务不同,FSOL强调识别目标并提供图像中精确的位置信息。如图1所示,模型在训练阶段从已知类别的标注支持样本中学习。在测试阶段,模型展示了对新类别的显著泛化能力,极大地提升了其整体适应性和性能。

本研究旨在通过引入一个高性能基准模型来推动少样本目标定位(FSOL)任务的研究。在这一任务中,我们识别出了两个主要挑战:

  1. 类内目标的外观差异:查询图像中同一类别的目标之间存在显著差异,与支持图像样本相比,产生了外观差距,影响了查询的准确性(见图2(a))。
  2. 目标间遮挡导致的漏检:模型难以准确区分查询图像中密集、重叠的目标,导致定位召回率下降(见图2(b))。

小样本目标定位中的困难会带来负面影响:a) 类内对象之间的外观差异;b) 由于对象间遮挡导致的对象遗漏。

为了解决FSOL任务中的关键挑战,我们设计了一个双路径特征增强模块。为了处理形状、大小和方向的类内变化,我们使用了可变形卷积分支,通过适应特征变化来增强定位性能。为了减少对象遗漏,我们实施了跨中心差分卷积分支,通过捕捉梯度差异来提高特征辨别能力。此外,我们引入了3D卷积来捕捉图像结构、纹理和模式,从而增强特征表示和模型性能。查询图像与支持图像进行3D卷积,以生成反映对象位置的相似性图。

此外,利用原始查询图像来增强获得的相似性图已成为一种有前途的策略。目前的方法通常将查询特征直接添加到相似性特征图中,使用残差连接技术来保留原始图像中的对象信息并优化相似性特征图。然而,这种直接添加策略会引入查询图像中的大量噪声,使其不适合需要高精度的定位任务。因此,受自支持匹配的启发,我们利用查询图像和相似性图之间计算的相似性矩阵进行加权。此方法旨在更准确地结合查询图像的信息,同时减少不良噪声。

在本文中,我们介绍了FSOL的开创性任务,并提出了一个创新的高性能基准。为了应对定位任务中显著的类内变化和目标遮挡带来的挑战,我们设计了一个双路径特征增强模块,旨在增强支持特征和查询特征之间的外观对应性和梯度辨别能力。此外,为了有效利用查询图像中的信息来增强相似性图,我们引入了一个自查询模块,以探索特征图和查询图像之间的复杂关联。实验结果表明,我们的方法在FSOL任务中显著提高了性能,为在有限数据场景下的目标定位研究建立了一个高效的基准。总之,本文的贡献可以概括如下:

  • 我们首次定义了少样本目标定位任务,为在有限标注数据场景下的目标定位提出了新的研究方向,并建立了一个高性能基准。
  • 提出的双路径特征增强模块旨在同时增强支持图像和查询图像之间的变形和梯度关联,显著提高定位性能。
  • 提出的自查询模块使用相似性矩阵加权来利用查询图像增强相似性图,同时避免过多的噪声干扰。



关键图展示:

演示了两种用于增强支持图像和查询图像中变形和梯度信息的卷积策略:(a) 可变形卷积:普通卷积使用固定的采样点,可能会引入噪声,而可变形卷积通过调整采样点来减少背景噪声并提高适应性。(b) 跨中心差分卷积(CCD-Conv):跨中心差分卷积计算中心像素周围相邻像素之间的差异,并使用这些差异作为权重生成最终输出。这种方法能够捕捉到图像的细微变化,如纹理、边缘和细节。

自查询(SQ)模块的演示。SQ模块通过整合相似性图S和原始查询图像特征FQ的信息,增强模型对对象分布的感知。首先,它对S和FQ应用一个共享的卷积层,从而引入非线性并捕捉相似的模式。接着,它计算S和FQ之间的余弦相似度以获得自查询权重W。这些权重逐元素地添加到S中,使S中的分布信息通过FQ引导优化。最后,经过另一个卷积层后,SQ模块生成优化后的相似性图SSQ。

性能展示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2122118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【详解!】什么是端点安全,端点安全策略如何设置?30秒带你了解端点安全!

端点,即接入网络的任何设备,如个人电脑、笔记本电脑、智能手机、平板电脑、服务器以及物联网(IoT)设备等,都是网络安全的潜在风险点。 端点安全,正是针对这些设备所采取的一系列安全措施,旨在保护它们免受恶意软件、未…

CSS【详解】图片相关样式(含object-fit ,object-position,lip-path,filter)

img 渲染图片,可以理解为一张镂空的白纸,通过镂空区域看到白纸下的图片。 图片尺寸 即镂空区域的大小 若未指定,则按图片原始尺寸显示;若指定,则默认按指定尺寸显示(若指定尺寸的宽高比与原始的宽高比不同…

【虚拟化】KVM-virsh离线工具进行客户机虚拟机磁盘访问

目录 一、简介 二、常用离线命令 三、具体使用实例 1.virt-inspector 2.virt-cat 3.virt-edit 4.virt-df 5.virt-copy-out/virt-copy-in 6.guestmount 7.virt-diff 8.virt-customize 9.virt-sparsify 一、简介 Red Hat Enterprise Linux 7 提供多个 libguestfs 工具…

Leetcode 最长连续序列

算法流程: 哈希集合去重: 通过将数组中的所有元素放入 unordered_set,自动去除重复元素。集合的查找操作是 O(1),这为后续的快速查找提供了保证。 遍历数组: 遍历数组中的每一个元素。对于每个元素,首先检…

OpenCV 与 YoloV3的结合使用:目标实时跟踪

目录 代码分析 1. YOLO 模型加载 2. 视频加载与初始化 3. 视频帧处理 4. 物体检测 5. 处理检测结果 6. 边界框和类别显示 7. 帧率(FPS)计算 8. 结果显示与退出 9. 资源释放 整体代码 效果展示 总结 代码分析 这段代码使用 YOLO&#xff08…

C++之函数的分文件编写

1.创建test.h的头文件 2.创建test.cpp的源文件 3.在头文件中写函数的声明 4.在源文件中写函数的定义 调用测试:

优雅的实现SSL证书的免费申请和续期【FreeSSL】

在今年上半年,各大厂商纷纷调整了免费SSL证书的有效期,将其从12个月缩短至3个月。这一变动给那些管理大量免费证书的人带来了很多麻烦,因为需要频繁地进行申请和部署。 今天我要介绍的是一种自动化申请证书的流程,可以实现多域名…

Python进阶——使用python操作数据库!

Python进阶——使用python操作数据库 一、数据库编程接口 为了对数据库进行统一操作,大多数语言都提供了简单的、标准的数据库接口python database api 2.0中,定义了python数据库api接口的各个部分,如模块接口、连接对象、游标对象、类型对…

物联网——DMA+AD多通道

DMA简介 存储器映像 某些数据在运行时不会发生变化,则设置为常量,存在Flash存储器中,节省运行内存的空间 DMA结构图 DMA访问权限高于cpu 结构要素 软件触发源:存储器到存储器传输完成后,计数器清零 硬件触发源&…

人员随机分组

如何实现男女比例平均分组? 在团队活动中,合理地将人员分组是一项重要的组织工作,它有助于提高团队合作的效率和质量。云分组小程序提供了一个便捷的解决方案,通过智能算法帮助用户快速实现人员分组。本文将详细介绍如何使用云分组…

网络通信安全:全面探索与深入分析

摘要:本文全面探索网络通信安全相关内容。首先阐述网络通信安全的基本概念与原理,包括网络通信模型、安全目标以及加密技术基础。接着详细分析其面临的威胁,涵盖恶意软件(病毒、蠕虫、特洛伊木马)、网络攻击&#xff0…

GAMES103——作业1 刚体碰撞

任务 1.更新位置、姿态与速度 2.碰撞检测 3.碰撞反馈 实现 更新位置、姿态与速度 对于速度的更新,采用显式的方法,对于位置的更新,采用隐式的方法。就是103中讲的两只青蛙的例子。 需要同时更新线速度和角速度。线速度受到重力的影响&#xf…

OpenGL软光栅化效果图

1.在测试Mesa库画正方形时,看到三角形光栅化过程,分享出来便于理解图形化过程。 2.在此应该和电脑的配置有关系,配置高的话应该可以画的更快。 需要下载的,下面 https://download.csdn.net/download/huzhifei/89734620 。

【机器学习】迁移学习概论

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 迁移学习概论什么是迁移学习?为什么需要迁移学习?迁移学习的应用场景和优势迁…

渲染农场是什么,怎么收费?

什么是渲染农场? 渲染农场是一组连接在一起以完成大型任务的计算机。在 3D 渲染的情况下,渲染农场通常会将动画的帧分发到多台计算机。您可以让 100 台计算机工作 1 天,而不是让一台计算机工作 100 天。 成都渲染101渲染农场如何工作&#…

【JS逆向学习】大学竞争力2021排行榜(md5加密)

逆向目标 网址:https://www.jizhy.com/44/rank/school接口:https://www.jizhy.com/open/sch/rank-list参数: sign 逆向过程 老一套先分析网络请求 经过比对 payload 参数发现,除了 page、ts、sign 三个参数外,其他…

操作系统 --- 进程通信(IPC)

目录 一、进程间的通信? 二、为什么进程间通信需要操作系统支持? 三、进程间通信的方法 3.1 共享存储 3.2 消息传递(消息队列) 3.2.1 直接通信方式【点名道姓的消息传递】 3.2.2 间接通信方式【以“信箱”作为中间实体进…

leetcode:2710. 移除字符串中的尾随零(python3解法)

难度:简单 给你一个用字符串表示的正整数 num ,请你以字符串形式返回不含尾随零的整数 num 。 示例 1: 输入:num "51230100" 输出:"512301" 解释:整数 "51230100" 有 2 个尾…

合宙低功耗4G模组Air780EX——硬件设计手册02

在上文我们介绍了合宙低功耗4G模组Air780EX的主要性能和应用接口, 上文链接:合宙低功耗4G模组Air780EX——硬件设计手册01-CSDN博客 本文我们将继续介绍Air780EX的射频接口,电气特性,实网功耗数据,结构规格等内容。 …

如何解决户用光伏项目管理难题?

户用光伏作为分布式能源的重要组成部分,正迎来前所未有的发展机遇。户用光伏项目的复杂性和多样性也给项目管理带来了诸多挑战,包括客户分散、安装周期长、运维难度大、数据监控不及时等问题。为解决这些难题,构建一套高效、智能的户用光伏业…