FSOD论文阅读 - 基于卷积和注意力机制的小样本目标检测

news2024/10/6 10:29:18

来源:知网

标题:基于卷积和注意力机制的小样本目标检测
作者:郭永红,牛海涛,史超,郭铖

郭永红,牛海涛,史超,郭铖.基于卷积和注意力机制的小样本目标检测 [J/OL].兵工学报. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002

摘要

  1. 典型的FSOD使用Fast R-CNN作为基本的检测框架
  2. 本文亮点:引入混合扩张卷积确保更大的感受野并减少图像信息的损失;提出支持特征动态融合模块,以每个支持特征和查询特征之间的相关性为权重,自适应地融合支持特征

引言

  1. 早期的FSOD算法遵循元学习范式,首先对训练数据进行采样,然后利用元学习方法训 练FSOD任务的模型,但是元学习器在学习迭代过程中容 易出现非收敛问题(学习算法无法达到一个稳定的解或最优解的状态)
  2. 基于微调的FSOD方法可有效解决非收敛问题(主要是因为这些方法利用了预先训练好的模型和知识,从而在面对有限数据时更有效地学习和适应新任务),基于微调的FSOD方法首先在大 规模基础类数据集上训练检测器,在微调过程中, 主干网络参数可被重用或冻结,而只有Box分类器和回归器是用新数据训练的
  3. Faster R-CNN算法:主要由三部分组成 - 特征提取器、区域候选网络(RPN)和检测头。
  4. Fast R-CNN的工作流程:特征提取器使用卷积神经网络来获得输入图像的feature maps。RPN将feature maps作为输入生成 候选框,并对候选框进行二元分类和粗略回归,将 分类好的候选框映射到feature maps得到感兴趣区域 (RoI)的特征矩阵,发送给后续检测网络,最后由 检测头输出分类和回归的结果
  5. 现有的二阶 段检测算法仍然存在两个明显的缺点。总结就是1、采样过程中的信息丢失. 2、用均值得到的类别融合特征向量会丢失信息
  6. 为解决以上两个问题,文章提出两个方法:1、在主干网络中引入混 合扩张卷积(HDC),以增加感受野. 2、提出了支持特征动态融合(SFDF)模块,使用每个支持特征和查询特征之间的相似性作为权重,动态地融合支持特征,充分利用支持数据

FSOD 任务概述

  1. 一阶段检测算法 - 使用主干网络对图像进行特征提取,直接对特征图像进行分类和回归,例如SSD、YOLO,优点是快,缺点是定位精度低
  2. 二阶段检测算法 - 先找到可能包含目标的RoI,然后对区域进行分类和回归,例如Fast R-CNN,优点是定位精度高,缺点是慢
  3. 综上,在做迁移学习的FSOD时,可以考虑使用以上模型做为基准模型,然后魔改模型中的某部分(本文就是这么干的),然后找到一个baseline,做效率对比
  4. 已有算法:Meta R-CNN(基于transformer)、TFA、MPSR、FSCE、CME、DeFRCN(回头可以考虑使用以上算法做为baseline然后魔改自己的模型测试性能提升)

基于卷积和注意力机制网络结构

  1. N-way K-shot: N个类别,每个类别K个样本
  2. 文章的主干网络是ResNet-101,在主干网络中加入HDC(混合扩张卷积模块)和SFDF(支持特征动态融合模块),模型示意图如下:在这里插入图片描述
  3. HDC模块:混合扩张卷积(扩张卷积:在卷积核之间引入空间,扩大卷积覆盖的范围),本文引入了一个(1, 2, 5)的扩张卷积,对比起(2, 2, 2)的扩张卷积来,感受野的范围更大,且保留了图像信息的连续性:在这里插入图片描述
  4. 扩张卷积引入了间隔,那么扩张卷积是如何保证图像信息不丢失的呢? - 卷积在滑动的过程中会走过每个像素:保证参数不变的同时扩大了感受野.
  5. SFDF模块:该模块首先计算查询特征与支持 集中每一类的每个特征之间的相似度,然后将该系数作为权重,对支持集中每一类的每个特征进行加权求和操作,这样生成的支持集特征可以包含对象最有鉴别性的信息

实验

  1. 使用 ImageNet 数据集上预训练 ResNet101 作为原始模型,使用 RoI Align 作为 RoI 特征提 取器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1211931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

行情分析——加密货币市场大盘走势(11.15)

大饼按照预期等待下跌即可,现在已经下跌到35500,昨日晚上跌破了35000,现在放心大胆空。笔者现在都是空单在手。 空单策略:入场36000附近 止盈34000-32000 止损39000 以太昨日策略进场,已经止盈了,最低跌到…

记录我常用的免费API接口

目录 1.随机中英文句子 2.随机中英文句子(带图片和音频) 3.随机一句诗 4.随机一句话 5.随机一句情话 6. 随机一句舔狗语录 7.历史上的今天 8.获取来访者ip地址 9:获取手机号信息 10. 垃圾分类查询 11.字典查询 12.QQ信息查询 1.随…

RFID技术在危险废物管理中的应用解决方案

一、背景介绍 随着我国经济的快速发展,轻纺、化工、制药、电子等行业的危险废物排放量逐年增加。然而,由于危险废弃物处理不当,可能导致大气、水体和土壤污染,对环境和人体健康造成严重威胁,制约了经济和健康的可持续…

Docker Rootfs

一、rootfs 介绍 rootfs 是一个操作系统所包含的文件、配置和目录,并不包括操作系统内核。在 Linux 操作系统中,这两部分是分开存放的,操作系统只有在开机启动时才会加载指定版本的内核镜像。 实际上,同一台机器上的所有容器&am…

墨西哥专线一次最多发几条柜?

墨西哥专线一次最多发几条柜这个问题涉及到海运业务中的一些复杂因素。墨西哥是一个重要的贸易国家,其与美国和加拿大之间的贸易往来非常频繁,因此海运业务也非常活跃。在墨西哥专线上,一次最多发几条柜通常取决于以下几个因素: 1…

4+糖酵解+预后模型,结合预后模型为文章加分,思路值得模仿

今天给同学们分享一篇生信文章“A glycolysis-related two-gene risk model that can effectively predict the prognosis of patients with rectal cancer”,这篇文章发表在Hum Genomics期刊上,影响因子为4.5。 结果解读: COAD和READ之间的…

模组知识(1)-CRA-光学知识

#灵感# CRA算是光学基础知识的一部分,而且最近项目确实color shading 挺严重的。以前记的知识不全,这次再次整理一下。常学常新。 目录 sensor CRA: CRA : Lens CRA: lens CRA和sensor CRA不同大小关…

python基于图卷积神经网络GCN模型开发构建文本数据分类模型(以论文领域数据为例)

GCN(Graph Convolutional Network)图卷积神经网络是一种用于处理图数据的深度学习模型。它是基于图结构的卷积操作进行信息传递和特征学习的。 GCN模型的核心思想是通过利用邻居节点的特征来更新中心节点的表示。它通过迭代地聚集邻居节点的信息&#x…

百望云斩获“新华信用金兰杯”ESG优秀案例 全面赋能企业绿色数字化

近年来,中国ESG蓬勃发展,在政策体系构建、ESG信披ESG投资和国际合作等方面都取得了阶段性成效,ESG生态不断完善。全社会对ESG的认识及实践也在不断深化,ESG实践者的队伍在不断发展壮大。 ESG作为识别企业高质量发展的重要指标&…

2023年 华为杯数学建模 E题

本科大三的时候,打过一次美赛,当时租了一个民宿,和队友一起度过了专注的四天。当时比赛结束之后,拿着手机,看到四天没回的消息,四天没刷过的朋友圈,有种很新奇的感觉,谢谢美赛给了我…

AM335x核心板LCD信号导致DDR3内存不稳定

调试核心板时,碰到了点问题,DDR3内存始终不稳定,经过仔细调试,发现只要打开LCD显示,DDR3的数据就不定期的会有错误。为此单独在boot下做过内存测试, 就是每个地址都往里写0,0xffffffff,再写0x55…

【坑】idea终端下执行maven命令行报错:mvn clean install -Dspring.profiles.active=dev

直接看报错信息 解决方法 方法一 命令改为:mvn clean install -Dspring.profiles.activedev方法二 使用 cmd 进入命令行执行:mvn clean install -Dspring.profiles.activedev在新版本中的idea终端已经默认使用了类似windons10下的PowerShell窗口的风格…

『亚马逊云科技产品测评』活动征文|阿里云服务器亚马逊服务器综合评测

授权声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 Developer Centre, 知乎,自媒体平台,第三方开发者媒体等亚马逊云科技官方渠道 文章目录 引言一、亚马逊&阿里云发展历史介绍1.1 亚马逊发展历史1.2…

【图像分类】【深度学习】【Pytorch版本】 GoogLeNet(InceptionV3)模型算法详解

【图像分类】【深度学习】【Pytorch版本】 GoogLeNet(InceptionV3)模型算法详解 文章目录 【图像分类】【深度学习】【Pytorch版本】 GoogLeNet(InceptionV3)模型算法详解前言GoogLeNet(InceptionV3)讲解Factorized Convolutions卷积分解InceptionV3结构ⅠInceptionV3结构ⅡInc…

CSGO游戏搬砖项目需要掌握哪些基础知识?

CSGO搬砖之90%饰品商人都不知道的玄学皮肤盘点 CSGO游戏搬砖主要就是倒卖装备,那具体是哪些装备,以及怎么去区分皮肤类型,今天童话就给大家介绍一下。 CSGO游戏搬砖虽然不要求会玩游戏,但是我们作为一个商人,要知道我…

Linux常用命令用法及实现方式有哪些?

接上一篇,它来啦! 5.文本文件编辑命令 (1)touch命令:touch命令用于创建空白文件或设置文件的时间,语法格式为“touch [参数] 文件名称”。 (2)mkdir命令:mkdir命令用于创建空白的目录,英文全称为“make dir…

excel数据文件的正常表达形式

正常有内容的excel文件是这样子 假若全部显示null 就没有修复的必要了 #数据恢复#

在vue项目里面使用index.ts进行统一导出

目录 一、概述 二、具体实践 2.1创建目录 2.2index.ts文件内容展示 2.2在需要的vue文件里面import 2.3vue全代码 三、实际效果 一、概述 一般我们在做项目的时候会发现vue文件里面没有export default 转而替代的是使用同目录下index.ts进行统一导出 好处:能…

翻牌器特效--vue3 封装组件

1.效果图 2.下面为封装好的代码&#xff0c;在页面中引入即可 html <template><div id"flip-container" v-if"flag false"><div id"digit-1"class"digit">0</div><div id"digit-2"class"…

京东API商品详情接口丨关键词搜索接口丨优惠券接口丨京东店铺所有商品接口

京东API商品详情接口&#xff0c;关键词搜索接口&#xff0c;优惠券接口&#xff0c;京东店铺所有商品接口如下&#xff1a; item_get-获得JD商品详情 公共参数 请求地址: https://o0b.cn/anzexi 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&…