Centralized Feature Pyramid for Object Detection解读

news2025/1/12 20:47:23

Centralized Feature Pyramid for Object Detection

问题

主流的特征金字塔集中于层间特征交互,而忽略了层内特征规则。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区域。

核心思想

提出了一种基于全局显式集中式特征规则的中心化特征金字塔(CFP)对象检测方法

  • 空间显式视觉中心策略,其中使用轻量级MLP来捕捉全局长距离依赖关系,并使用并行可学习视觉中心机制来捕捉输入图像的局部角区域
  • 以自上而下的方式对常用特征金字塔提出了一种全局集中的规则,其中使用从最深层内特征获得的显式视觉中心信息来调整正面浅层特征。

方法

Centralized Feature Pyramid(CFP)

作者提出的CFP不仅能够捕获全局长距离依赖关系,而且能够实现全面和差异化的特征表示

具体的流程如下:

  1. 将输入图像馈送到骨干网络,以提取五层的特征金字塔X,其中特征X i _{i} i(i=0,1,2,3,4)的每一层的空间大小分别为输入图像的1/2,1/4,1/8,1/16,1/32。
  2. 特征金字塔的顶层(即X4)使用了一个EVC结构:提出了一种lightweight MLP架构来捕获X 4 _{4} 4全局长距离依赖关系(与基于多头注意机制的transformer encoder相比,轻量级MLP架构不仅结构简单,而且体积更轻,计算效率更高);一个可学习的视觉中心机制与轻量级MLP一起用于聚集输入图像的local corner regions。基于所提出的ECV,为了使特征金字塔的浅层特征能够同时以高效模式从最深特征的视觉集中信息中受益,其中从最深的层内特征获得的显式视觉中心信息用于同时调节所有的前浅特征(使用GCR调节X3和X2)。
  3. 这些特征聚合到一个解耦的头部网络中进行分类和回归。
    在这里插入图片描述

Explicit Visual Center (EVC)

EVC主要由两个并行连接的块组成,lightweight MLP 和 LVC。这两个块的结果特征图沿着信道维度连接在一起,作为用于下游识别的EVC的输出。在X4和EVC之间,Stem块用于特征平滑,而不是直接在原始特征图上实现。Stem块由输出通道大小为256的7×7卷积组成,随后是批量标准化层和激活功能层。
在这里插入图片描述

Lightweight MLP

本文提出的轻量级 MLP 由两个残差模块组成:基于深度可分离卷积的模块(增加特征的表示能力并减少计算量)和基于通道MLP的模块。其中,MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath 操作以提高特征泛化和鲁棒性。与空间 MLP 相比,通道 MLP 不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。

空间 MLP 相比,通道 MLP 不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。最后,两个模块都实现了通道缩放、DropPath 和残差连接操作。

Learnable Visual Center (LVC)

LVC 是一个具有内在字典的编码器,由一个固有的码本(B={b1,b2,…,bK},其中N=H×W是输入特征的总空间数,其中H和W分别表示特征图的高度和宽度的空间大小)和一组可学习的视觉中心比例因子(S={s1,s2,…,sK})组成。

LVC 的处理过程包括两个主要步骤:

  1. 使用一组卷积层对输入特征进行编码,并使用 CBR 块进行进一步处理;

  2. 将编码后的特征通过一组可学习的比例因子与固有码本相结合。

  3. 为此,我们使用一组比例因子s按照顺序地使xi和bk映射相应的位置信息。整个图像中关于第k个码字的信息可以通过以下方式计算(可以看成一个softmax的值当作权重因子):
    在这里插入图片描述

    其中,xi是第i个像素点,bk是第k个可学习的视觉码字,sk是第k种比例因子也是设置的可学习的参数。 xi− bk是关于相对于码字的每个像素位置的信息。K是视觉中心的总数。

之后使用一个完全连接层和一个 1×1 卷积层来预测突出的关键类特征。最后,将来自 Stem 块 X i n _{in} in的输入特征和比例因子系数的局部角区域特征进行通道乘法通道加法

Global Centralized Regulation (GCR)

因为EVC计算的是特征层内部的关系,对每个层计算EVC是一笔不小的开销,所以作者使用全局集中特征规范 Global Centralized Regulation (GCR) 在整个特征金字塔上实现跨层特征规范化。

实现:将深层特征上采样到与低层特征相同的空间尺度,然后沿通道维度进行拼接,将拼接后的特征通过 1×1 卷积降采样到 256 个通道。

实验结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167042.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自动驾驶算法(四):RRT*算法讲解与代码实现(基于采样的路径规划)

目录 1 RRT算法和RRT*算法 2 RRT*代码相比于RRT的改进 3 RRT*完整代码 1 RRT算法和RRT*算法 从上篇博客我们可以看出,RRT算法找到最短路径特别快。因为它是一段一段的过去的,但同时它产生的路径也是非常糟糕、随机的只要找到了终点就会结束。 因此我们…

INFINI Labs 产品更新 | Agent 全新重构,优化指标采集,支持集中配置管理,支持动态下发等功能

INFINI Labs 产品又更新啦~ 本次更新主要有 Agent、Console、Loadgen 等产品,其中 Agent 进行全新重构升级,新版限制了 CPU 资源消耗,优化了内存,相比旧版内存使用率降低 10 倍,极大的降低了对宿主服务器造成资源占用…

Postgresql在linux环境下以源码方式安装

linux环境下源码方式的安装 1.下载安装包(源码安装方式) 安装包下载 https://www.postgresql.org/ftp/source/ 2.安装postgresql ① 创建安装目录 mkdir /opt/pgsql12② 解压下载的安装包 cd /opt/pgsql12 tar -zxvf postgresql-12.16.tar.gz ③编…

【UE5 Cesium】actor随着视角远近来变化其本身大小

效果 步骤 1. 首先我将“DynamicPawn”设置为默认的pawn类 2. 新建一个父类为actor的蓝图,添加一个静态网格体组件 当事件开始运行后添加一个定时器,委托给一个自定义事件,每2s执行一次,该事件每2s获取一下“DynamicPawn”和acto…

【优秀毕设】基于vue+ssm+springboot的校园交友网站系统设计(附源码论文)

摘要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&a…

智能客服系统应用什么技术?

随着科技的飞速发展,智能客服系统逐渐出现在我们的生活中。这些系统不仅能够提供即时的客户服务,还可以通过人工智能等技术实现更加高效和准确的服务。那么,智能客服系统究竟应用了哪些技术呢?本文将详细解析。 1、机器学习技术 …

专访虚拟人科技:如何利用 3DCAT 实时云渲染打造元宇宙空间

自古以来,人们对理想世界的探索从未停止,而最近元宇宙的热潮加速了这一步伐,带来了许多新的应用。作为元宇宙的关键入口,虚拟现实(VR)将成为连接虚拟和现实的桥梁。苹果发布的VISION PRO头戴设备将人们对VR…

YOLOv8改进之更换BiFPN并融合P2小目标检测层

目录 1. BiFPN 1.1 FPN的演进 2. YOLOv8改进之更换BiFPN并融合P2小目标检测层 1. BiFPN BiFPN(Bi-directional Feature Pyramid Network)是一种用于目标检测和语义分割任务的神经网络架构,旨在改善特征金字塔网络(Feature Pyram…

京东平台3个热门API接口的分享【附代码实例】

应用程序接口API(Application Programming Interface),是提供特定业务输出能力、连接不同系统的一种约定。这里包括外部系统与提供服务的系统(中后台系统)或后台不同系统之间的交互点。包括外部接口、内部接口&#xf…

微服务接口测试中的参数传递

这是一个微服务蓬勃发展的时代。在微服务测试中,最典型的一种场景就是接口测试,其目标是验证微服务对客户端或其他微服务暴露的接口是否能够正常工作。对于最常见的基于Restful风格的微服务来说,其对外暴露的接口就是HTTP端点(Endpoint)。 这…

基于SSM的餐饮掌上设备点餐系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

纸白银可以双向交易吗?

纸白银是指以合约形式进行交易的白银,投资者可以通过期货市场进行买入和卖出操作。因此,纸白银是可以双向交易的。投资者既可以选择做多(买入)纸白银合约,也可以选择做空(卖出)纸白银合约&#…

Qt中正确的设置窗体的背景图片的几种方式

Qt中正确的设置窗体的背景图片的几种方式 QLabel加载图片方式之一Chapter1 Qt中正确的设置窗体的背景图片的几种方式一、利用styleSheet设置窗体的背景图片 Chapter2 Qt的主窗口背景设置方法一:最简单的方式是通过ui界面来设置,例如设置背景图片方法二 &…

默认路由配置

默认路由: 在末节路由器上使用。(末节路由器是前往其他网络只有一条路可以走的路由器) 默认路由被称为最后的关卡,也就是静态路由不可用并且动态路由也不可用,最后就会选择默认路由。有时在末节路由器上写静态路由时…

重磅发布|美创科技新一代 数据安全管理平台(DSM Cloud)全新升级

重磅发布 新一代 数据安全管理平台(DSM Cloud) 美创科技新一代 数据安全管理平台(简称:DSM Cloud)全新升级,正式发布。 在业务上云飞速发展过程中,快速应对数据激增,同时有效保障数…

基于LDA主题+协同过滤+矩阵分解算法的智能电影推荐系统——机器学习算法应用(含python、JavaScript工程源码)+MovieLens数据集(一)

目录 前言总体设计系统整体结构图系统流程图 运行环境Python环境Pycharm 环境数据库 相关其它博客工程源代码下载其它资料下载 前言 前段时间,博主分享过关于一篇使用协同过滤算法进行智能电影推荐系统的博文《基于TensorFlowCNN协同过滤算法的智能电影推荐系统——…

win10提示mfc100u.dll丢失的解决方法,快速解决dll问题

在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是“mfc100u.dll丢失”。那么,mfc100u.dll是什么?mfc100u.dll是Microsoft Visual C Redistributable文件之一,它包含了用于MFC (Microsoft Foundation Class…

爆火的Swin Transformer到底是什么

文章目录 一、名称解读二、ViT回顾三、Swin Transformer vs ViT四、Swin Transformer结构4.1 Patch Merging模块4.2 相对位置编码4.3 shifted window 五 总结 爆火的Swin Transformer究竟是个啥?今天本篇文章系统讲解下Swin t 结构、优点、位置编码、移位窗口shifte…

材料高温环境电磁参数测试系统 (1GHz-500GHz)

材料高温环境 电磁参数测试系统 (1GHz-500GHz) 材料高温环境电磁参数测试系统测试频率范围可达1GHz~500GHz,最高测试温度达1200℃,可实现高温环境下材料复介电常数、复磁导率、反射率等参数测试。系统由矢量网络分析…

分享四款简单实用的视频下载工具

今天来和大家分享几个视频下载工具。毕竟,在这个自媒体时代,非常多的小伙伴有下载视频的需求,话不多说,直接上干货! 1.Downni 这是一个在线视频下载网站。它支持几乎所有的主流视频平台;然后它还支持多种分…