CV——day82 读论文:遥感目标检测的改进注意力特征融合SSD (AF-SSD)方法

news2025/1/23 9:32:38

遥感目标检测的改进注意力特征融合SSD 方法

  • I. INTRODUCTION
  • II. RELATED WORK
    • B. 特征融合
    • C.注意力机制
  • III. PROPOSED METHOD
    • A. 特性融合模块——**FFM**
    • B.双路径注意模块——DAM
    • C. 多尺度接受域——MRF
  • IV. EXPERIMENTS
    • A. Data Sets and Training
  • V. CONCLUSION

Attention and Feature Fusion SSD for Remote Sensing Object Detection

为了进一步提高单阶段方法的遥感目标检测性能,本文提出了一种名为注意力特征融合SSD (attention and feature fusion SSD)的端到端网络。

指标项:卷积神经网络,双路径注意机制,特征融合,图像处理,目标检测,遥感。

I. INTRODUCTION

遥感图像与自然场景图像在拍摄角度、目标分布、成像范围等方面存在不同,这使得遥感目标的检测仍然存在困难,具体表现在:

  1. 大宽高比,类间相似度高:航空图像的宽高比大,类间相似度高。

  2. 分布密集、物体小:物体在某些区域分布密集,以小物体为主。

  3. 复杂背景:遥感图像背景比较复杂,有些物体与背景相差不大。

为了解决上述问题,本文提出了一种改进的注意力特征融合SSD (AF-SSD)方法。

首先,设计了自顶向下多层特征融合模块(FFM),将语义信息引入浅层特征映射;

然后,引入双路径注意模块(DAM)对特征信息进行筛选。该模块利用空间注意和通道注意抑制背景噪声并突出关键特征。

然后,设计了多尺度感受域(MRF)模块,通过添加多个并行分支从不同尺度的感受域提取特征;

最后,优化损失函数,缓解正负样本之间的不平衡和分类难度。

II. RELATED WORK

B. 特征融合

虽然现有的目标检测算法在自然场景下性能良好,但对于小目标检测效果并不理想,尤其是单阶段检测方法。特征融合是解决这一问题的有效策略之一。

Lin et al. 以自底向上和自顶向下的方式集成多尺度特征,丰富上下文信息来改进模型。

Caoet al. 设计了两种不同的特征融合结构,并使用较高层次的特征映射来丰富浅层的语义信息。

DSSD 采用反卷积层和跳过连接引入了额外的大规模上下文信息,提高了平均精度(AP),特别是对于小对象。

C.注意力机制

在图像识别、语义分割、目标检测等计算机视觉任务中,可以利用注意机制增强关键特征,抑制无用特征,提高准确率。

空间注意和通道注意是深度学习模型中常用的两种方法。

STN 设计了一个空间变换模块,实现了图像的空间变换。

Hu 等在其挤压激励模型中引入注意信息和全局汇聚,利用信道间信息,增强了网络的鲁棒性。

Wang 等人设计了一个编码器-解码器模块,并在其上构建了残差注意网络。

实验结果表明,通过细化特征图,可以获得更好的输出结果。

III. PROPOSED METHOD

MRF: multiscale receptive field - 多尺度感受野

DAM: dualpath attention module - 双路径注意模块

FFM: feature fusion module - 特征融合模块

image-20230304234602885

如图1所示,AF-SSD采用ResNet-50作为骨干进行特征提取,因为其结构轻量化可以缩短训练时间。三个模块分别是:特征融合、双路径注意和MRF。此外,我们在额外的特性层之前添加了一个MRF结构。

A. 特性融合模块——FFM

对于小对象,SSD主要使用浅层特征进行预测。但是,由于SSD的层数较浅,缺乏语义信息,因此对小对象的性能较差。因此,为了充分利用语义信息和纹理特征,设计了一种自顶向下的FFM,将语义信息引入到浅层。

image-20230304235254738

如图2所示,FFM 由1 × 1卷积和双线性插值上采样组成。特征融合的过程如下:

首先,通过反卷积运算对深度特征FB进行上采样,以降低计算量;

然后,使用1 × 1卷积层对feature map的通道进行压缩;

最后,利用元素和对深度特征和浅层特征进行积分。

经过上述处理后,融合特征的通道保持不变,但单个通道的语义信息更丰富。后续实验表明,这些步骤丰富了浅层特征的语义信息,提高了模型在小对象上的性能。

为了平衡精度和速度,FFM 分别嵌入到Res3d和Res5c分支中。

B.双路径注意模块——DAM

由于feature map会被几个卷积层不断压缩,小物体的信息在深层会减少,背景噪声也会掩盖它。因此,有必要抑制非对象信息。DAM基于SE-Net模块。

image-20230304235217190

DAM由两个平行的分支——空间注意分支和通道注意分支组成。利用空间注意分支保留空间信息,利用通道注意分支抑制无用信息。我们通过重新衡量输入特征图和注意图来获得精细化的地图。这样,关键特征将被突出显示,来自输入的背景噪声也将被抑制。精细映射 f 计算为image-20230305000059236

⊗表示元素乘法,FS为空间注意图,FC为通道注意图。在乘法之前,两个分支输出都被调整为RH×W×C。

空间注意图计算为:image-20230305000207962

通道注意图计算为:

C. 多尺度接受域——MRF

我们都知道,CNN的接受域是指feature map上的像素在原始图像上所映射的区域的大小。接受域越大,特征图中包含的全局信息就越多。接受域越小,特征图中的信息就越详细。接收域也是影响检测性能的因素之一。

image-20230304235240514

如图4所示,MRF通过设置不同大小的并行卷积来捕获更多的多尺度特征。

MRF由4个分支组成,分别采用1 × 1 卷积、3 × 3 卷积、5 × 5 卷积、7 ×7 卷积和平均池化拓宽接受域。同时,我们使用1×1 卷积压缩信道。此外,我们将k × k变换分解为1 × k变换和k × 1变换。这样既保持了接受野的大小不变,又缩短了AF-SSD的推理时间

  • MRF模块可以有效增强AD-SSD的浅层特征,用于小目标的检测。

IV. EXPERIMENTS

A. Data Sets and Training

数据集:我们认为一个好的遥感数据集应该具有四个特点:数据量大,每类实例数量合理,面向对象的标注正确,不同类型的对象多,这样比较接近实际应用。

DOTA数据集:是一种用于目标检测的公开可用的光学遥感数据集。它包含15类总计188282个来自不同传感器和平台的实例,主要来自谷歌地球,还有一小部分来自JL-1卫星和GF-2卫星。

NWPU VHR-10:也是西北工业大学公布的公共遥感数据集。它包含了800张高分辨率的卫星图像,这些图像是从谷歌Earth和Vaihingen数据集剪辑而来的,其中650张是正图像集,其余的是负图像集。它包含10个类别,总计3651个实例。

V. CONCLUSION

本文提出了一种单阶段遥感目标探测模型,我们称之为AF-SSD。为了解决物体小、背景复杂和尺度变化带来的问题,我们首先引入自顶向下的FFM融合浅层和上层的特征。然后,引入一个DAM来抑制背景噪声。然后,设计了一个MRF模块来扩大接收域和捕获多尺度特征。此外,我们对损失函数进行了改进,以缓解正、负样本之间的不平衡。在DOTA和NWPU VHR-10上的实验结果表明,该方法对航拍图像中的小目标具有较好的检测效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/389480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mac安装开发工具:clipy、iterm2、go、brew、mysql、redis、wget等

wget brew install wget clipy Releases Clipy/Clipy GitHub 环境变量 ~下有三个文件 .zshrc .zprofile .bash_profile > cat .zshrc export PATH$PATH:/usr/local/mysql/bin> cat .zprofile eval "$(/opt/homebrew/bin/brew shellenv)"> cat .bas…

[1.3.2]计算机系统概述——中断和异常

文章目录第一章 计算机系统概述中断和异常(一)中断的作用(二)中断的类型(三)中断机制的基本原理小结第一章 计算机系统概述 中断和异常 中断的作用中断的类型 内中断(也称“异常”)…

29- 迁移学习 (TensorFlow系列) (深度学习)

知识要点 迁移学习: 使用别人预训练模型参数时,要注意别人的预处理方式。 常见的迁移学习方式: 载入权重后训练所有参数.载入权重后只训练最后几层参数.载入权重后在原网络基础上再添加一层全连接层,仅训练最后一个全连接层.训练数据是 10_m…

滚蛋吧,正则表达式!

大家好,我是良许。 不知道大家有没有被正则表达式支配过的恐惧?看着一行火星文一样的表达式,虽然每一个字符都认识,但放在一起直接就让人蒙圈了~ 你是不是也有这样的操作,比如你需要使用「电子邮箱正则表达式」&…

面试之String、StringBuffer、StringBuilder区别

String、StringBuffer、StringBuilder区别 (1)是否可变 string对象不可变; StringBuffer、StringBuilder继承自AbstractStringBuilder类,实现原理都基于可修改的char数组,默认大小为16 (2)线程安全性 string中的对象不可变,可…

Java中String类intern()详解

1、背景在开发过程中很多朋友,由于不会正确使用intern(),导致开发的程序,执行效率比较差。同时最近发现一道非常有意思的关于intern()的面试题,这道面试题还是有不小的难度,相信很多朋友看到以后也不知道怎么解答&…

c++类与对象整理(上)

目录 1.类的引入 2.类的定义 3.类的访问限定符及封装 1)访问限定符 2)封装 4.类的作用域 5.类的实例化 6.类的对象大小的计算 1)类对象的存储方式 2)内存对齐和大小计算 ​编辑 7.类成员函数的this指针 1&#xff09…

linux配置网络详解

linux配置网络详解 文章目录linux配置网络详解前置准备配置流程错误排查前置准备 确定是否有网,比如在家里,确定是否连上网线?确定这个网线的网关是什么?(这个需要和给你办网的人确定),在公司的…

超详细JDK1.8所有版本下载地址

JDK1.8即为JDK8,JDK8是目前是最成熟最稳定的版本,本文将详细介绍JDK1.8历史版本的下载方式。 在此附上JDK1.8安装与配置教程 超详细JDK1.8安装与配置 一、JDK官网 首先打开oracle官网,官网首页地址为 JDK官网首页地址 点击Products 点击…

Kotlin实现简单的学生信息管理系统

文章目录一、实验内容二、实验步骤1、页面布局2、数据库3、登录活动4、增删改查三、运行演示四、实验总结五、源码下载一、实验内容 根据Android数据存储的内容,综合应用SharedPreferences和SQLite数据库实现一个用户信息管理系统,强化对SharedPreferen…

ks通过恶意低绩效来变相裁员(六)各方核心利益点分析

目录 公司利益点 管理层利益点 直接管理者利益点 一线干活的同学 一线嫡系同学 公司利益点 核心利益点:围绕财报营收,降本,拿到好看的财报数据,让资本市场继续看好自己 核心手段: 扩展新业务,挖掘已…

基于数据驱动的智能空调系统需求响应可控潜力评估研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

深入理解多线程

一、线程基本概念 1、概述 线程是允许应用程序并发的一种机制。线程共享进程内的所有资源。 线程是调度的基本单位。 每个线程都有自己的 errno。 所有 pthread 函数均以返回 0 表示成功,返回一个正值表示失败。 编译 pthread 程序需要添加链接库(…

【Java】反射机制和代理机制

目录一、反射1. 反射概念2. 反射的应用场景3. 反射机制的优缺点4. 反射实战获取 Class 对象的四种方式二、代理机制1. 代理模式2. 静态代理3. 动态代理3.1 JDK动态代理机制1. 介绍2.JDK 动态代理类使用步骤3. 代码示例3.2 CGLIB 动态代理机制1.介绍2.CGLIB 动态代理类使用步骤3…

程序员压力大?用 PyQt 做一个美*女GIF设置桌面,每天都有好心情

嗨害大家好鸭!我是小熊猫~ 要说程序员工作的最大压力不是来自于工作本身, 而是来自于需要不断学习才能更好地完成工作, 因为程序员工作中面对的编程语言是在不断更新的, 同时还要学习熟悉其他语言来提升竞争力… 好了&#xff0c…

使用Python通过拉马努金公式快速求π

使用Python通过拉马努金公式快速求π 一、前言 π是一个数学常数,定义为:圆的周长与直径的比值。 π是一个无理数,也是一个超越数,它的小数部分无限不循环。 π可以用来精确计算圆周长、圆面积、球体积等几何形状的关键值。 有关…

【电子学会】2022年12月图形化二级 -- 老鹰捉小鸡

老鹰捉小鸡 小鸡正在农场上玩耍,突然从远处飞来一只老鹰,小鸡要快速回到鸡舍中,躲避老鹰的抓捕。 1. 准备工作 (1)删除默认白色背景,添加背景Farm; (2)删除默认角色小…

进制间转换

md,离开学校好多年了,这些基础趁现在还记得记录一下,不然怕哪天还给老师就尴尬了,方便复习 基本概念 二进制:(逢2进1)由0和1组成。十六进制:(逢16进1)由0-9&a…

编码器SIQ-02FVS3驱动

一.简介 此编码器可以是功能非常强大,可以检测左右转动,和按键按下,所以说这一个编码器可以抵三个按键,而且体积非常小,使用起来比三个按键要高大尚,而且驱动也简单。唯一不足的点就是价格有点小贵6-8元才…

Faster RCNN 论文阅读

1.网络架构 VGG16网络 anchors:人工放上去的 RPN对anchors进行二分类,正样本,负样本 RoIP:前面的框框已经圈出目标,但还不知道具体属于哪个类,它就是干这个工作的 2.VGG网络 VGG网络可以任意替换其他的任意神经网络&am…