论文精读:Feature Pyramid Networks for Object Detection

news2024/11/18 18:20:59

文章目录

  • 1. 摘要
    • 1.1 背景
    • 1.2 提出新方法
    • 1.3 贡献
  • 2. 引言
    • 2.1 提出问题
    • 2.2 叙述Feature pyramid
    • 2.3 叙述深度卷积网络
    • 2.4 Feature pyramid的局限
    • 2.5 使用deep ConvNet计算多尺度特征的方式
    • 2.6 提出我们的方法
    • 2.7 贡献
  • 3. 相关工作
    • 3.1 手工工程特征和早期神经网络
    • 3.2 深度卷积目标检测
    • 3.3 使用多层次的方法
  • 4. Feature Pyramid Networks
    • 4.1 目的
    • 4.2 Feature Pyramid Networks结构
      • 4.2.1 Bottom-up pathway
    • 4.2.2 Top-down pathway
    • 4.2.3 Lateral connection
  • 5.应用
    • 5.1 Feature Pyramid Networks for RPN
    • 5.2 Feature Pyramid Networks for Fast R-CNN

1. 摘要

1.1 背景

  1. 特征金字塔是识别系统中用于检测不同尺度的物体的基本组件
  2. 由于其计算和存储的密集性,在深度学习中很少用到他

1.2 提出新方法

提出一个自上而下的架构与横向连接的金字塔结构,以建立高层次的语义特征图在所有尺度,叫做Feature Pyramid Network (FPN)

1.3 贡献

将FPN用在Faster-RCNN上实现了先进的单模型结果

2. 引言

2.1 提出问题

  1. 识别不同尺度的物体是计算机视觉的一个基本挑战

2.2 叙述Feature pyramid

  1. 建立在图像金字塔上的特征金字塔形成了识别不同尺度标准解决方案的基础
  2. 特征化图像金字塔在手工设计特征的时代被大量使用,例如DPM
    在这里插入图片描述

2.3 叙述深度卷积网络

  1. 对于识别任务,工程化的特征在很大程度上被深度卷积网络(ConvNets)计算的特征所取代
  2. 除了能够表示更高级别的语义之外,ConvNets对尺度的变化也更鲁棒
  3. 但即使具有这种鲁棒性,仍然需要金字塔来获得最准确的结果
    在这里插入图片描述

2.4 Feature pyramid的局限

  1. 推断时间增加
  2. 占用内存多

2.5 使用deep ConvNet计算多尺度特征的方式

  1. 深度ConvNet逐层计算特征层次结构,特征层次结构具有固有的多尺度金字塔形状。
  2. 该网络内特征层次结构产生不同空间分辨率的特征图,例如SSD,但是SSD是从高级特征开始构造金字塔的,因此他对检测小目标也造成了一定的损失。
    在这里插入图片描述

2.6 提出我们的方法

  1. 目标是利用ConvNet的特征层次结构的金字塔形状,同时创建一个在所有尺度上都具有强大语义的特征金字塔。
  2. 提出一种新的架构,该架构通过自上而下的路径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合。

在这里插入图片描述

2.7 贡献

  1. 该结构结合Faster RCNN在COCO数据集上取得了领先的结果
  2. 在COCO上将Average Recall提高了8个点,在目标检测上提高了2.3mAP
  3. 在PSCAL上提高了3.8mAP
  4. 可以用所有尺度进行端到端的训练,并且在训练/测试时一致地使用

3. 相关工作

3.1 手工工程特征和早期神经网络

  1. SIFT特征最初是在尺度空间极值处提取的,并用于特征点匹配
  2. HOG和后来的SIFT特征都是在整个图像金字塔进行密集计算的

3.2 深度卷积目标检测

  1. OverFeat采用了类似于早期神经网络人脸检测器的策略,将ConvNet作为图像金字塔上的滑动窗口检测器。
  2. R-CNN采用了一种基于区域提议的策略,其中每个提议在使用ConvNet分类之前都进行了尺度归一化。
  3. PPnet证明,这种基于区域的检测器可以更有效地应用于在单个图像尺度上提取的特征图
  4. Fast R-CNN [11]和Faster R-CNN主张使用从单个尺度计算的特征,因为它在准确性和速度之间提供了良好的权衡。然而,多尺度检测仍然表现得更好,特别是对于小对象。

3.3 使用多层次的方法

  1. Hypercolumn、CN在多个尺度上对每个类别的部分分数求和以计算语义分割
  2. HyperNet,ParseNet和ION,在计算预测之前连接多个层的特征,这相当于对转换后的特征进行求和。
  3. SSD 和MS-CNN在特征层次结构的多个层预测对象,而不组合特征或分数
  4. U-Net and Sharp-Mask利用横向/跳过连接,将跨分辨率和语义层级的低级特征映射关联起来...

4. Feature Pyramid Networks

4.1 目的

  1. 利用卷积神经网络(ConvNet)的金字塔特征层次结构(从低到高的语义层次),构建一个从头到尾都具有高级语义的特征金字塔。
  2. 以任意大小的单尺度图像作为输入,并以全卷积的方式在多个层级上输出按比例大小的特征图

4.2 Feature Pyramid Networks结构

4.2.1 Bottom-up pathway

  1. Bottom-up的过程就是将图片输入到backbone ConvNet中提取特征的过程
  2. Backbone输出的feature map的尺寸有的是不变的,有的是成2倍的减小的。对于那些输出的尺寸相同的层,把他们归为一个stage,那么每个stage的最后一层输出的特征就被抽取出来。

4.2.2 Top-down pathway

  1. Top-down的过程就是将高层得到的feature map进行上采样然后往下传递,这样做是因为,高层的特征包含丰富的语义信息,经过top-down的传播就能使得这些语义信息传播到低层特征上,使得低层特征也包含丰富的语义信息。
  2. 采样方法是最近邻上采样,使得特征图扩大2倍

4.2.3 Lateral connection

使用的原因:使用lateral connection加强相同Stage的特征,因为自下而上的特征图有较低级别的语义,但其激活更准确地定位,因为它被子采样更少的次数。

  1. 对于每个stage输出的feature map,都先进行一个1*1的卷积降低维度。
  2. 然后再将得到的特征和上一层采样得到特征图进行融合,就是直接相加
  3. 加完之后需要进行一个33的卷积才能得到本层的特征输出,使用这个33卷积的目的是为了消除上采样产生的混叠效应(aliasing effect),混叠效应该就是指上边提到的‘插值生成的图像灰度不连续,在灰度变化的地方可能出现明显的锯齿状’。
    在这里插入图片描述

5.应用

5.1 Feature Pyramid Networks for RPN

  1. 通过用FPN替换单尺度特征图来适应RPN
  2. 将相同的设计(3×3 conv和两个1×1 convs)附加到特征金字塔的每个层级上
  3. 由于头部在所有金字塔等级的所有位置上密集滑动,因此不必在特定等级上使用多尺度的anchor。相反,为每个层级设置单一锚框
  4. anchor 定义在{P2,P3,P4,P5,P6}上具有{322, 644,1282,2562,5122},并且分别在每个层级使用{1:2, 1:1, 2:1}的anchor。因此金字塔上共有15个anchor
  5. 如果anchor与ground-truth box的IoU大于0.7则为正样本,小于0.3则为负样本
  6. 头部的参数在所有金字塔的金字塔层级上都是共享的。表明可以将通用的头部分类器应用于以任何图像比例计算的特征
  7. 共享参数的良好性能表明金字塔各层次共享相似的语义层次

5.2 Feature Pyramid Networks for Fast R-CNN

  1. Fast R-CNN是一种基于区域的目标检测器,使用感兴趣区域池(Region-of-Interest, RoI)提取特征
  2. 将特征金字塔视为是由图像金字塔产生的。因此,通过以下方式将宽度 w w w和高度 h h h的RoI分配给特征金字塔的水平Pk

    在这里插入图片描述

    1. 224是ImageNet的预训练尺寸
    2. k0是w × h = 2242的RoI应映射到的目标层级

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1046910.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工业RFID识别设备可以在哪些行业应用?

工业识别设备主要是用于工业领域的RFID读写设备,它可以在产线、工厂、仓储物流等领域应用,非接触的实时读取标签信息,并且将读取的信息上传到电脑信息管理系统中。 工业RFID识别设备可以在哪些行业应用? 1、汽车行业 汽车制造业的产品结构复…

简单的springboot整合minio完成上传查询等

1、本地下载minio brew install minio/stable/minio2、下载结果 3、启动minio /opt/homebrew/opt/minio/bin/minio server --config-dir/opt/homebrew/etc/minio --address:9000 /opt/homebrew/var/minio4、启动完成 5、web页面 账号密码: minioadmin 登陆完成…

快递查询方法分享:如何批量查询并筛选大量超时件?

快递批量查询工具推荐:一键筛选超时件,高效管理物流信息! 在现代快节奏的生活中,快递已成为人们日常不可或缺的一部分。然而,随着快递量的不断增加,如何高效地查询和管理快递成了一个问题。今天&#xff0…

Optimus—多学科仿真集成与优化设计平台

Optimus是比利时Noesis Solutions公司专注研发的一款多学科仿真集成与优化设计软件产品。通过Optimus平台,可管理多学科的仿真流程及数据,自动显示和探索设计空间,进行产品设计过程中的自动性能优化,实现多学科、多指标参数的均衡…

【三相有源电力滤波器】使用同步参考系控制的三相有源功率滤波器(Simulink)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

ElementUI实现增删改功能以及表单验证

目录 前言 BookList.vue action.js 展示效果 前言 本篇还是在之前的基础上&#xff0c;继续完善功能。上一篇完成了数据表格的查询&#xff0c;这一篇完善增删改&#xff0c;以及表单验证。 BookList.vue <template><div class"books" style"pa…

veImageX 演进之路:Web 图片加载提速50%

背景说明 火山引擎veImageX演进之路主要介绍了veImageX在字节内部从2012年随着字节成长过程中逐步演进的过程&#xff0c;演进中包括V1、V2、V3版本并最终面向行业输出&#xff1b;整个演进过程中包括服务端、客户端、网络库、业务场景与优化等多个角度介绍在图像处理压缩、省成…

如何快速轻松自动添加微信好友?

有些客需要换新的微信号&#xff0c;想把以前微信号上的好友全部加回来&#xff0c;但是因为微信系统的规定&#xff0c;频繁加好友容易被封号&#xff0c;而且手动添加好友太费时费力&#xff0c;还要控制加好友的间隔时间。那么有没有什么方法可以快速轻松自动添加好友呢&…

郁金香2021年游戏辅助技术中级班(一)

郁金香2021年游戏辅助技术中级班&#xff08;一&#xff09; 用代码读取utf8名字字节数组搜索UTF-8字符串 用CE和xdbg分析对象名字从LUA函数的角度进行分析复习怪物名字偏移 用CE和xdbg分析对象数组认识虚函数表分析对象数组 分析对象数组链表部分链表的定义链表的数据在内存里…

实现自动化获取1688商品详情数据接口经验分享

获取电商平台商品详情数据&#xff0c;主要用过的是爬虫技术&#xff0c;过程比较曲折&#xff0c;最终结果是好的。我将代码都封装在1688.item_get接口中&#xff0c;直接调用此接口可以一步抓取。 展示一下获取成功示例&#xff1a; 1688商品详情页展示 传入商品ID调用item…

Typora安装无需破解免费使用

Typora简介&#xff1a; 在介绍Typora软件之前&#xff0c;需要先介绍一下MARKDOWN。 MARKDOWN是一种轻量型标记语言&#xff0c;它具有“极简主义”、高效、清晰、易读、易写、易更改纯文本的特点。 Typora 是一款支持实时预览的 Markdown 文本编辑器。它有 OS X、Windows、…

WebDAV之π-Disk派盘 + 墨阅

墨阅是一款专注于帮助用户离线缓存网页文档图书漫画的免费工具APP。您可以利用墨阅收集来自互联网网站平台的公开文章,图片,漫画等,可以对网页样式进行调整,支持自定义动作,批量离线等功能方便用户日常离线。目前支持小说,markdown,图片,pdf,网页等离线功能。支持进行…

在比特币上支持椭圆曲线 BLS12–381

通过使用智能合约实现来支持任何曲线 BLS12–381 是一种较新的配对友好型椭圆曲线。 与常用的 BN-256 曲线相比&#xff0c;BLS12-381 的安全性明显更高&#xff0c;并且安全目标是 128 位。 所有其他区块链&#xff0c;例如 Zcash 和以太坊&#xff0c;都必须通过硬分叉才能升…

忍不住分享,这个卧室太好看了。

&#x1f4dd;项目信息&#x1d477;&#x1d493;&#x1d490;&#x1d48b;&#x1d486;&#x1d484;&#x1d495; &#x1d48a;&#x1d48f;&#x1d487;&#x1d490;&#x1d493;&#x1d48e;&#x1d482;&#x1d495;&#x1d48a;&#x1d490;&#x1d48f;…

科东软件2023上海工博会:一场科技盛宴的完美收官

9月23日&#xff0c;为期5天的中国国际工业博览会&#xff08;下称“工博会”&#xff09;在国家会展中心&#xff08;上海&#xff09;圆满落幕。这是一场集结全球创新力量与科技创新成果的璀璨盛宴&#xff0c;也是推动未来科技与产业发展的新型工业盛会&#xff0c;更是一次…

多线程(概念介绍)

概念 首先&#xff0c;我们引入一些基本的概念&#xff0c;并结合我们以前所学过的知识&#xff0c;初步对这些概念有个大体的理解 1.线程是一个执行分支&#xff0c;执行粒度比进程更细&#xff0c;调度成本更低 2.线程是进程内部的一个执行流 3.线程是CPU调度的基本单位&…

PLSQL使用技巧

连接配置 先找到配置文件tnsnames.ora地址 我的是这个&#xff08;仅供参考&#xff09;&#xff1a;D:\oracle\product\10.2.0\client_1\NETWORK\ADMIN\tnsnames.ora IC (DESCRIPTION (ADDRESS_LIST (ADDRESS (PROTOCOL TCP)(HOST 127.0.0.1)(PORT 1521)))(CONNECT_DATA…

易基因:ChIP-seq揭示组蛋白修饰H3K27me3调控高温下棉花的雄性不育机制|Plant Com

大家好&#xff0c;这里是专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 气候变化导致极端天气事件更加频繁地发生&#xff0c;包括反常的高温&#xff08;high temperature&#xff0c;HT&#xff09;&#xff0c;HT胁迫对作物的生长发育和产量有严重的负面影…

只需一个简单操作,保障企业电力供应安全性!

随着现代社会对电力供应的不断依赖&#xff0c;不间断电源&#xff08;UPS&#xff09;系统已经成为各种行业的关键基础设施之一。然而&#xff0c;UPS系统的性能监控和管理同样至关重要&#xff0c;以确保它们在需要时能够如期发挥作用。 客户案例 广东某公司是一家制造企业&a…

[python 刷题] 11 Container With Most Water

[python 刷题] 11 Container With Most Water 题目&#xff1a; You are given an integer array height of length n. There are n vertical lines drawn such that the two endpoints of the ith line are (i, 0) and (i, height[i]). Find two lines that together with th…