小样本图像目标检测研究综述——张振伟论文阅读

news2025/1/13 11:47:14

小样本图像目标检测研究综述——张振伟(计算机工程与应用 2022) 论文阅读

目前,小样本图像目标检测方法多基于经典的俩阶段目标检测算法Faster R-CNN作为主干网络,当然也有将YOLO,SSD一阶段目标检测算法作为主干网络的。

检测过程中不仅需要提取分类任务所关注的高层语义信息,还要获取低层级像素级信息实现目标的定位。

1、方法分类

1.2.1 基于度量学习方法

基于度量学习的方法是在获取潜在目标区域特征的前提下,将目标区域特征和支持图像特征转换到相同的嵌入空间,通过计算距离或者相似度对潜在的目标区域进行分类,进而实现对图像中不同目标的检测。

==基于度量学习的方法另一个研究的重点是损失函数设计。一个有效的损失函数应当能使得同类别具有高度的相似度,而不同类别之间相似度尽可能小。==如[23 One-shot Object Detection with co-attention and co-excitation_2019]设计了基于裕度的排名损失(margin-based rank loss),用于隐式学习一种度量来预测区域建议和查询特征的相似性。

度量学习主要体现在最后的分类器部分,用于类别相似度度量。

基于度量学习的方法更容易实现增量式学习,即模型在基类数据集上完成训练后可以直接用于新类别目标检测。但同时由于度量学习重点关注类别相似性,而定位信息则主要依赖于前一阶段区域建议网络,使得模型检测性能还需要进一步验证。

1.2.2 基于数据增强的方法

Wu等[10 Multi-scale positive sample sample refinement for few-shot object detection] 提出了一种多尺度正样本优化方法(MPSR),如下图所示,通过构建目标金字塔(object pyramids),形成多个尺度正样本,而后利用特征金字塔网络(feature pyramid net,FPN)构建特征金字塔(feature pyramids)进一步增强数据多样性,用于对网络进行训练。

image-20230705211550407

1.2.3基于模型结构的方法

image-20230705211719502

在常规检测模型基础上,通过构建新的模型结构提供有效的辅助信息,从而降低对样本数量的依赖,达到小样本条件下检测的目的。

[19 Context-transformer: tackling object confusion for few-shot detection]

直接采用迁移学习,在目标定位方面表现的比较好,但是在分类层面是就比较容易出现混淆等问题。因为目标定位只需要区分定位的目标属于前景还是背景,所以基于此,[19]提出了一种即插即用的上下文转换器模块,该模块由相似性发现(affinity discovery)和上下文聚合(context aggregation)俩个字模块构成,能够发现基类和新类的关联关系,通过上下文关联关系有效解决目标混淆问题。

[8 Few-shot object detection with attention-RPN and multi-relation detector - IEEE 2020]

认为区域候选网络在没有足够辅助信息支持的情况下,难以过滤掉与目标不相关的前景信息,导致网络产生大量的目标不相关信息,为解决上述问题,提出一种新的注意力网络,通过权值共享充分学习目标间的匹配关系以及同类别的通用知识。

[32 Leveraging bottom- up and top-down attention for few-shot object detection 20年7月]

[32] 结合元学习和迁移学习的优点,引入了新颖的注意力目标检测器,能够结合自下而上和自上而下的注意力,其中自下而上的注意力提供了显著区域的先验知识,自上而下的注意力从目标标注信息进行学习。同 时,在常规目标检测损失函数的基础上设计了目标聚焦损失和背景聚焦损失项,目标聚焦损失有助于将同一物体的特征聚集到一起,而背景聚焦损失有助于解决部分未标注目标被错分为背景的问题,最终通过混合训练策略,模型获得了较好的检测性能。

1.2.4基于元学习的方法

[12Meta RCNN: towards fast adaptation for few-shot object detection with Meta learing-2019]

在 Mask RCNN 的基础上提出了 Meta R-CNN,利用支持分支获取类别注意力向量后与兴趣区域特征相融合作为新的预测特征用于检测或分割

[35 Few-shot object detection and viewpoint estimation for objects in the wild-2020]

在 Meta R-CNN的基础上对融合网络进一步改进获得了更好的检测性能

[36 Incremental few-shot object detection-2020]

借鉴CenterNet的结构和思路提出一种中心点预测的元学习方法,该模型能够实现增量式学习,即在添加新类后无需再访问基类数据。

[38 Meta-DETR: few-shot object detection via unified image-level meta-learning]

认为现有的元学习方法主要局限于区域级预测,性能主要依赖于最初定位良好的区域建议。针对这一问题,在 Deformable DETR[39] 基础上,将近年来流行的Transformer[40] 与元学习相结合,提出了图像级元学习小样本目标检测模型,用编码、解码器替代了原有的非极大值抑(NMS)、锚框等启发式组件,实现了在图像层级上的目标定位和分类。

1.2.5 基于微调的方法

首先利用大量的基类数据对现有的模型进行预训练,然后利用少量的新类别对部分参数进行微调。

image-20230705214048665

其难点在于如何相对准确地区分类别相关和类别无关参数以及选择合适的超参数。尽管上述是将骨干网络部分和ROI池化部分作为类别无关的组件,但这种划分仍然缺乏足够的理论支撑。

1.2.6 基于集成的方法

就是将各种方法的优点集成到一起。

image-20230705214446132

2. 实验设计

2.1 数据集

image-20230705214603520

2.2实验设计

文献[16]首次详细介绍了PASCAL VOC和MSCOCO数据集划分设置,在之后的小样本目标检测研究中,基本沿用了文献[16]的数据集设置方式。对于 PASCALVOC 数据集,采用 3 种不同的类别分组,每种分组按照15 个类别作为基类,剩余 5 个类别作为新类进行设置;对于MSCOCO数据集则选择与VOC数据集类别重合的20个类作为新类,剩余80个类别作为基类。对于FSOD数据集则按照文献[8]的实验设置,选择与其他类别相似度较小的200类作为新类,其余800类作为基类。训练过程中,对于基类,均提供全部图片及标注信息,对于新类,则根据1/2/3/5/10-shot(VOC)或者10/30-shot(MSCOCO)等不同的实验设置选取相应的图片及标注信息。

image-20230705214910381

文献

[23 One-shot Object Detection with co-attention and co-excitation_2019]增量学习

[10 Multi-scale positive sample sample refinement for few-shot object detection] 数据增强

  • 模型结构

[19 Context-transformer: tackling object confusion for few-shot detection]

[8 Few-shot object detection with attention-RPN and multi-relation detector - IEEE 2020]

[32 Leveraging bottom- up and top-down attention for few-shot object detection 20年7月]

  • 域适应小样本目标检测

[64 Few-shot adaptive faster RCNN_IEEE2019] 首个真正意义上的域适应小样本目标检测

传统的小样本图像目标检测普遍采用俩段式Faster RCNN作为基础框架,模型相对复杂,不易部署,将来可以尝试使用YOLO作为基础框架,兼顾精度和检测速度俩个方面。让模型部署成为可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/722150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Studio实现内容丰富的安卓公交线路查询平台

如需源码可以添加q-------3290510686,也有演示视频演示具体功能,源码不免费,尊重创作,尊重劳动。 项目编号084 1.开发环境 android stuido jdk1.8 eclipse mysql tomcat 开发语言:java 2.功能介绍 安卓端: …

zabbix基础3——邮箱告警

文章目录 一、环境说明二、第三方邮箱告警2.1 开启第三方邮箱SMTP服务2.2 配置用户媒介2.3 定义媒介类型2.4 配置告警方式和动作2.5 触发告警,测试效果 三、本地邮箱脚本3.1 服务端设置脚本3.2 设置用户媒介3.3 定义媒介类型3.4 配置告警方式动作3.4 触发告警&#…

Leetcode-每日一题【92.反转链表Ⅱ】

题目 给你单链表的头指针 head 和两个整数 left 和 right &#xff0c;其中 left < right 。请你反转从位置 left 到位置 right 的链表节点&#xff0c;返回 反转后的链表 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], left 2, right 4输出&#xff1a;…

算法中的递推算法

递推算法 给定一个数的序列H0,H1,…,Hn,…若存在整数n0&#xff0c;使当n>n0时,可以用等号(或大于号、小于号)将Hn与其前面的某些项Hi(0<i<n)联系起来&#xff0c;这样的式子就叫做递推关系。 递推算法是一种简单的算法&#xff0c;即通过已知条件&#xff0c;利用特…

免费 Selenium各大浏览器驱动【谷歌chrme、火狐Firefox、IE浏览器】

aardio群 625494397 废话不多说 直接开整&#xff01; 竟然还有脸收费 服了 下载对应版本的浏览器驱动 目标网址 应用场景 Selenium库涉及到 安装selenium库 pip install selenium-i https://mirrors.aliyun.com/pypi/simple/下载对应浏览器驱动 https://registry.npmmirror.c…

The 14th Jilin Provincial Collegiate Programming Contest(暑期训练)

Attachments - The 14th Jilin Provincial Collegiate Programming Contest - Codeforces 目录 Problem A. Chord Problem B. Problem Select Problem C. String Game Problem E. Shorten the Array Problem F. Queue Problem G. Matrix Problem J. Situation Problem L. …

ESP32设备驱动-HTU31温湿度传感器驱动

HTU31温湿度传感器驱动 文章目录 HTU31温湿度传感器驱动1、HTU31介绍2、硬件准备3、软件准备4、驱动实现1、HTU31介绍 高性能 HTU31 湿度和温度组合传感器是市场上最小和最精确的湿度传感器之一。 HTU31 提供数字和模拟版本,即使在最恶劣的环境中也能提供快速响应时间、精确测…

阿里云美国服务器怎么样?

随着业务量的扩展&#xff0c;很多小伙伴的业务发展到了海外&#xff0c;那么阿里云服务器给大家提供了方便&#xff0c;那么今天我们来说一下阿里云美国服务器好不好用&#xff0c;首先阿里云在美国有两个地域供大家选择&#xff1a;美国西部1&#xff08;硅谷&#xff09;和美…

直播美颜工具和美颜SDK:从用户需求到技术实现的完整流程

随着直播行业的迅速发展&#xff0c;用户对于直播内容的质量和视觉享受有着越来越高的要求。直播美颜工具和美颜SDK作为一种技术解决方案&#xff0c;在实时视频中提供了美化和优化的功能&#xff0c;满足了用户的需求。本文将介绍直播美颜工具和美颜SDK的完整流程&#xff0c;…

STM32——GPIO配置

文章目录 一、GPIO八种模式1. 输入2. 输出3. 如何选择GPIO的模式 二、库函数GPIO配置1. 配置代码2.参数设置 一、GPIO八种模式 GPIO的输入输出是对于STM32单片机来说的。以下仅为个人粗略笔记&#xff0c;内部电路分析可参考博客https://blog.csdn.net/k666499436/article/det…

Impala3.4源码阅读笔记(二)data-cache的Lookup实现

前言 本文为笔者个人阅读Apache Impala源码时的笔记&#xff0c;仅代表我个人对代码的理解&#xff0c;个人水平有限&#xff0c;文章可能存在理解错误、遗漏或者过时之处。如果有任何错误或者有更好的见解&#xff0c;欢迎指正。 正文 本文介绍Lookup的具体流程和细节&…

基于matlab使用深度学习进行图像类别分类(附源码)

一、前言 此示例演示如何使用预训练卷积神经网络 &#xff08;CNN&#xff09; 作为特征提取器来训练图像类别分类器。 卷积神经网络 &#xff08;CNN&#xff09; 是深度学习领域的一种强大的机器学习技术。CNN使用大量不同图像进行训练。从这些大型集合中&#xff0c;CNN可…

【软考系统架构师】数据库三大模式:外模式、概念模式和内模式

目录 1 数据库的三种模式 1.1 内模式 1.2 概念模式 1.3 外模式 2 为什么要设置这些模式 2.1 物理层 2.2 概念层 2.3 用户层 1 数据库的三种模式 1.1 内模式 也称存储模式&#xff08;Storage Schema&#xff09;&#xff0c;内模式是整个数据库的最低层表示&#xff…

【macOS 系列】mac设置截屏或其他操作的默认保存位置

1、第一步、在用户/图片文件夹下&#xff0c;新建“截图”文件夹 2、第二步、打开终端&#xff0c;输入defaults write com.apple.screencapture location ~/Pictures/截图/后回车 3、第三步、操作完成后&#xff0c;再次输入killall SystemUIServer后回车 如果你在web前端开发…

对输入图像按比例压缩、居中填充

摘要&#xff1a; 图像在输入神经网络之前&#xff0c;通常需要进行尺寸压缩&#xff0c;如yolov5的输入为640x640&#xff0c;分类网络Resnet-50的输入为224x224。通常地&#xff0c;分类网络直接将输入进行resize处理&#xff0c;而对于目标检测网络&#xff0c;为了防止目标…

js封装公用from表单验证工具验证长度邮件电话身份证非空

效果 function validateRequiredFields(formId) {var form document.getElementById(formId);var elements form.elements;var valid true;for (var i 0; i < elements.length; i) {var element elements[i];if (element.hasAttribute("req")) {var value e…

Linux:YUM仓库服务

Linux的yum仓库有4种 网络yum源 本地yum源 ftpyum源 httpyum源 第一个网络yum源不用做任何设置&#xff0c;官方默认的yum仓库配置就是从公网上下载的 环境&#xff1a; 主centos 192.168.254.11 从centos 192.168.254.10 思路&#xff1a; 我们在一台主服务器上做个本地…

30.RocketMQ之消费者拉取消息源码

highlight: arduino-light 消息拉取概述 消息消费模式有两种模式&#xff1a;广播模式与集群模式。 广播模式比较简单&#xff0c;每一个消费者需要拉取订阅主题下所有队列的消息。本文重点讲解集群模式。 在集群模式下&#xff0c;同一个消费者组内有多个消息消费者&#xff0…

split()分割字符串【JavaScript】

分割字符串 在JavaScript中&#xff0c;我们可以使用split&#xff08; &#xff09;方法把一个字符串分割成一个数组&#xff0c; 这个数组存放的是原来字符串的所有字符片段。 有多少个片段&#xff0c;数组元素个数就是多少。 语法 字符串名.split&#xff08;"分割…

TypeScript——简介、开发环境搭建、基本类型、编译选项、webpack、babel、类、面向对象的特点、接口、泛型

文章目录 第一章 快速入门0、TypeScript简介1、TypeScript 开发环境搭建2、基本类型3、编译选项4、webpack5、Babel 第二章&#xff1a;面向对象1、类&#xff08;class&#xff09;2、面向对象的特点3、接口&#xff08;Interface&#xff09;4、泛型&#xff08;Generic&…