ASFF Learning Spatial Fusion for Single-Shot Object Detection 论文学习

news2024/11/23 1:37:40

1. 解决了什么问题?

目标检测取得了显著成绩,但是检测不同尺度的目标仍然是一个挑战。金字塔或多层级特征是解决目标检测中尺度变化的常用手段。但对于单阶段目标检测器而言,各特征尺度之间不一致性制约了算法的表现。与图像金字塔相比,特征金字塔在各尺度间是不一致的,要用到启发式的特征选取策略:大目标通常与高层级特征图有关,而小目标则和低层级特征图有关系。当某层级的特征图上的目标被分配为正样本,其它层级特征图的相应区域就会被看作为背景。这种不一致性会对梯度计算造成影响,使特征金字塔的效力降低。

2. 提出了什么方法?

ASFF 解决单阶段目标检测器中特征金字塔存在的不一致性。ASFF 使网络学习过滤掉其它层级有冲突的信息,只保留有用的信息。对于某层级特征,首先整合其它层级的特征,缩放到相同大小的分辨率,然后进行训练,找到最佳的融合方案。在每个空间位置上,自适应地融合不同层级的特征。一些特征因为它们携带了冲突信息,就会被滤掉;另一些特征因为信息更具判别度则发挥更加重要的作用。

2.1 Baseline

采用了 YOLOv3 框架,包含了 DarkNet-53 主干网络,以及三个层级的 FPN。采用了诸多 tricks 来提升性能,如 mixup 数据增强、余弦退火学习率机制,以及 Sync-BN。此外,使用了一个 anchor-free 分支,与 anchor-based 分支协同训练。在原来的 smooth L1 损失基础上,增加了 IOU 损失函数,更好地进行边框回归。

2.2 ASFF

之前的方法使用 element-wise 求和或 concat 操作来整合多层级特征,本方法则自适应地学习各尺度特征图在融合时的空间权重。包括了两个步骤:恒等缩放、自适应融合。
在这里插入图片描述

2.2.1 特征缩放

将第 l ∈ { 1 , 2 , 3 } l\in\lbrace1,2,3\rbrace l{1,2,3}层级的特征记做 x l \mathbf{x}^l xl。对于层级 l l l,将其它层级 n ( n ≠ l ) n(n\neq l) n(n=l)的特征 x n \mathbf{x}^n xn缩放至与 x l \mathbf{x}^l xl相同的大小。因为 YOLOv3 三个层级的分辨率和通道数都不相同,因此要修改每个尺度的上采样和下采样策略。对于上采样,首先用一个 1 × 1 1\times 1 1×1卷积来压缩特征通道数,与层级 l l l通道数相等,然后通过插值增大分辨率。对于 1 / 2 1/2 1/2比率的下采样,使用步长为 2 2 2 3 × 3 3\times 3 3×3卷积层,同时调整通道数和分辨率(对于尺度比率为 1 / 4 1/4 1/4的情况,在步长为 2 2 2的卷积层前增加一个步长为 2 2 2的最大池化层)。

2.2.2 自适应融合

在由层级 n n n缩放到 l l l的特征图上,位置 ( i , j ) (i,j) (i,j)的特征向量记做 x i j n → l \mathbf{x}_{ij}^{n\rightarrow l} xijnl。融合相应层级 l l l的特征:
y i j l = α i j l ⋅ x i j 1 → l + β i j l ⋅ x i j 2 → l + γ i j l ⋅ x i j 3 → l \mathbf{y}_{ij}^l = \alpha_{ij}^l \cdot \mathbf{x}_{ij}^{1\rightarrow l} + \beta_{ij}^l \cdot \mathbf{x}_{ij}^{2\rightarrow l} + \gamma_{ij}^l \cdot \mathbf{x}_{ij}^{3\rightarrow l} yijl=αijlxij1l+βijlxij2l+γijlxij3l
y i j l \mathbf{y}_{ij}^l yijl是输出特征图 y l \mathbf{y}^l yl上第 ( i , j ) (i,j) (i,j)个向量。 α i j l , β i j l , γ i j l \alpha_{ij}^l,\beta_{ij}^l,\gamma_{ij}^l αijl,βijl,γijl是特征图上三个层级相对于层级 l l l的空间权重,由网络自适应地学习得到。 α i j l , β i j l , γ i j l \alpha_{ij}^l,\beta_{ij}^l,\gamma_{ij}^l αijl,βijl,γijl可以是简单的标量变量,在所有通道之间共享。要求 α i j l + β i j l + γ i j l = 1 \alpha_{ij}^l+\beta_{ij}^l+\gamma_{ij}^l=1 αijl+βijl+γijl=1 α i j l , β i j l , γ i j l ∈ [ 0 , 1 ] \alpha_{ij}^l,\beta_{ij}^l,\gamma_{ij}^l\in \left[0,1\right] αijl,βijl,γijl[0,1]
α i j l = e λ α i j l e λ α i j l + e λ β i j l + e λ γ i j l \alpha_{ij}^l=\frac{e^{\lambda_{\alpha_{ij}}^l}}{e^{\lambda_{\alpha_{ij}}^l}+e^{\lambda_{\beta_{ij}}^l}+e^{\lambda_{\gamma_{ij}}^l}} αijl=eλαijl+eλβijl+eλγijleλαijl

这里 α i j l , β i j l , γ i j l \alpha_{ij}^l,\beta_{ij}^l,\gamma_{ij}^l αijl,βijl,γijl用 softmax 函数计算, λ α i j l , λ β i j l , λ γ i j l \lambda_{\alpha_{ij}}^l,\lambda_{\beta_{ij}}^l,\lambda_{\gamma_{ij}}^l λαijl,λβijl,λγijl是控制参数。使用 1 × 1 1\times 1 1×1卷积层分别从 x 1 → l , x 2 → l , x 3 → l \mathbf{x}^{1\rightarrow l},\mathbf{x}^{2\rightarrow l},\mathbf{x}^{3\rightarrow l} x1l,x2l,x3l计算权重标量图 λ α i j l , λ β i j l , λ γ i j l \lambda_{\alpha_{ij}}^l,\lambda_{\beta_{ij}}^l,\lambda_{\gamma_{ij}}^l λαijl,λβijl,λγijl。因而可用反向传播学习。于是,各尺度层级的特征都可自适应地融合起来。然后用 { y 1 , y 2 , y 3 } \lbrace\mathbf{y}^1,\mathbf{y}^2,\mathbf{y}^3\rbrace {y1,y2,y3}用于 YOLOv3 后续的检测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/772996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java版知识付费源码 Spring Cloud+Spring Boot+Mybatis+uniapp+前后端分离实现知识付费平台

知识付费平台主要指的是能够通过付费来满足用户知识需求的平台,用户可以通过该平台来消费知识或者开展知识买卖等行为。 此处的平台是一个广义的概念,可以是微信小程序或者论坛,也可以是网页或者手机APP,等,就我国的情…

新东方教育收入前景良好,估值低迷,股票回购令人失望

来源:猛兽财经 作者:猛兽财经 分析师对新东方的收入预测 考虑到新东方(EDU)的销售指引和卖方分析师的预测,猛兽财经认为,新东方目前的收入增长前景非常好。 根据其财务指引的中点,新东方预计其…

Mysql——》InnoDB内存结构和磁盘存储结构

推荐链接: 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Kafka】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 总结——》【Linux】 总结——》【MongoD…

options 预检测请求

文章目录 产生原因简单请求复杂请求携带了 cookie 情况 优化预检测请求 产生原因 在跨域的情况下,如果浏览器发送的是复杂请求,会先发送一个 OPTIONS 预检测请求,从而获知服务端是否允许该跨域请求。服务器确认允许之后,才发起实…

认识Spring(1)

hi,大家好,今天继续为大家带来Spring的相关内容 文章目录 🧁1.理解Spring和IOC🧁2.DI和DF🍸2.1什么是DI🍸2.2什么是DF🍸2.3DI和DF的区别 🧁3 Spring创建和使用🍸3.1创建Spring项目&#x1f361…

如何调整Vivado菜单栏字体大小

Vivado整体字体缩放开关 点击齿轮图标Settings 点击齿轮图标Settings Tool Settings下找到Display选项:找到Scaling选项选择User defined即可调整缩放倍率(100/125/150/175%…)。 点击Apply重启后生效

字符函数和字符串函数上篇(详解)

❤️ 作者简介 :RO-BERRY 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识,对纯音乐有独特的喜爱 📗 日后方向 : 偏向于CPP开发以及大数据方向,如果你也感兴趣的话欢迎关注博主,期待更新 字符函数和字符串函数 &a…

css之flex两端对齐,且元素自动换行、flex、flow

文章目录 效果图htmlstyleflex-flow 效果图 html <div class"parent_element"><div class"item">7</div><div class"item">7</div><div class"item">7</div><div class"item"…

红队打靶:KIOPTRIX1.2打靶思路详解(vulnhub)

目录 写在开头 第一步&#xff1a;主机发现和端口扫描 第二步&#xff1a;Web渗透与CMS漏洞利用 第三步&#xff1a;敏感信息搜索 第四步&#xff1a;SSH登录与提权 总结与思考 写在开头 本篇博客根据大佬红队笔记的视频进行打靶&#xff0c;详述了打靶的每一步思路&a…

ACL 2023 | 通过语音离散表示统一语音翻译和机器翻译

前言 在当今全球化和多元文化的时代&#xff0c;语音翻译技术正成为我们跨越语言障碍的得力助手&#xff01;语音翻译&#xff08;Speech Translation, ST&#xff09;旨在将源语言语音翻译成目标语言文本&#xff0c;广泛应用于会议演讲翻译、视频字幕翻译、AR增强翻译等各种…

【启发式算法】灰狼优化算法【附python实现代码】

写在前面&#xff1a; 首先感谢兄弟们的订阅&#xff0c;让我有创作的动力&#xff0c;在创作过程我会尽最大能力&#xff0c;保证作品的质量&#xff0c;如果有问题&#xff0c;可以私信我&#xff0c;让我们携手共进&#xff0c;共创辉煌。 路虽远&#xff0c;行则将至&#…

快速批量改名文件!随机字母命名,让文件名更有创意!

想要让文件名更加有创意和个性化吗&#xff1f;不妨尝试使用随机字母来批量改名文件&#xff01;无论是照片、文档还是其他文件&#xff0c;只需要简单的几个步骤&#xff0c;您就可以为它们赋予一个独特的随机字母命名。这不仅可以帮助您整理文件&#xff0c;还能增加一些乐趣…

AtCoder Beginner Contest 310-D - Peaceful Teams(DFS)

Problem Statement There are N sports players. Among them, there are M incompatible pairs. The i-th incompatible pair (1≤i≤M) is the Ai​-th and Bi​-th players. You will divide the players into T teams. Every player must belong to exactly one team, an…

SpringBoot整合SpringCloudStream3.1+版本的Kafka死信队列

SpringBoot整合SpringCloudStream3.1版本的Kafka死信队列 上一篇直通车 SpringBoot整合SpringCloudStream3.1版本Kafka 实现死信队列步骤 添加死信队列配置文件&#xff0c;添加对应channel通道绑定配置对应的channel位置添加重试配置 结果 配置文件 Kafka基本配置&#…

Python机器学习、数据统计分析在医疗中的应用

Python机器学习在医疗诊断领域的应用 随着人工智能技术的不断发展&#xff0c;机器学习已经在医疗领域的诊断治疗、预防等方面展现出强大的潜力。Python 作为一种广泛应用于机器学习的语言&#xff0c;在医疗领域也已经被广泛使用。本文将探讨 Python 机器学习在医疗领域的应用…

mysql 第五章

目录 1.order by 排序 2.区间判断 3.group by 分组 4.limit 5.别名 6.通配符 like 7.总结 1.order by 排序 2.区间判断 3.group by 分组 4.limit 5.别名 6.通配符 like 7.总结 对 mysql 数据库的查询&#xff0c;除了基本的查询外&#xff0c;有时候需要对查…

nginx官网与下载

官网 nginx: download 下载 解压 conf配置文件

[高通平台][WLAN] IEEE802.11mc 介绍

IEEE802.11mcWi-Fi协议(即Wi-FiRound-Trip-Time,RTT),利用此项技术及可以进行室内定位,因此为了使用此项技术,只有在硬件支持的设备上,应用才可以使用最新的RTT API以测量附近具有RTT功能的Wi-FiAP。 单面RTT :  距离是通过发送的分组和接收到的ACK之间的时间差来计算的…

SPSS中级统计--S05-5多个样本率的卡方检验及两两比较

小伙伴们&#xff0c;今天我们学习SPSS中级统计--多个样本率的卡方检验及两两比较。 例1、2 C列联表资料 上期我们学习了双向无序RC表资料&#xff08;c2&#xff09;的检验&#xff0c;案例如下&#xff0c;比较不同污染地区的动物畸形率是否有差异&#xff1f; H0&#xff…

哈医大一院电力监控系统 安科瑞 许敏

摘要&#xff1a;本文介绍基于Acrel-3000电力监控软件和电力监控仪表&#xff0c;设计并实现了一套分散式采集和集中控制管理的自动化报警系统。系统实现远程精细化及时性报警&#xff0c;避免因停电造成医疗事故&#xff0c;提高了供电质量和管理水平&#xff0c;具有简明实用…