9.1.1 简述目标检测领域中的单阶段模型和两阶段模型的性能差异及其原因

news2025/1/15 23:23:11

9.1目标检测

场景描述

  • 目标检测(Object Detection)任务是计算机视觉中极为重要的基础问题,也是解决实例分割(Instance Segmentation)、场景理解(Scene Understanding)、目标跟踪(ObjectTracking)、图像标注(Image Captioning)等问题的基础

  • 目标检测,顾名思义,就是检测输入图像中是否存在给定类别的物体,如果存在,则输出物体在图像中的位置信息。这里的位置信息通常用矩形边界框(bounding box)的坐标值来表示。

  • 物体检测模型大致可以分为单阶段(one-stage)模型两阶段(two-stage)模型两大类。

  • 本节分析和对比了这两类模型在架构、性能和效率上的差异,给出了原理解释,并介绍了其各自的典型模型和发展前沿,以帮助读者对物体检测领域建立一个较为全面的认识。

知识点
物体检测、单步模型、两步模型、R-CNN系列模型、YOLO系列模型

9.1.1 简述目标检测领域中的单阶段模型和两阶段模型的性能差异及其原因

单阶段模型

  • 单阶段模型是指没有独立地、显式地提取候选区域(region proposal),直接由输入图像得到其中存在的物体的类别和位置信息的模型。

  • 典型的单阶段模型有

    • OverFeat[1]、
    • SSD(Single Shotmultibox-Detector)[2]、
    • YOLO(You Only Look Once)[3-5]系列模型等。

两阶段模型

  • 两阶段模型独立的、显式的候选区域提取过程,即先在输入图像上筛选出一些可能存在物体的候选区域,然后针对每个候选区域,判断其是否存在物体,如果存在,就给出物体的类别和位置修正信息。

  • 典型的两阶段模型有

    • R-CNN [6]
    • SPPNet [7]
    • Fast R-CNN[8]
    • Faster R-CNN[9]
    • R-FCN[10]
    • Mask R-CNN[11]等

性能差异

图9.1总结了目标检测领域重一些典型模型(包括单阶段和两阶段)的发展历程(截止2017年年底)[12]。

在这里插入图片描述

一般来说,单阶段模型计算效率上有优势两阶段模型检测精度上有优势

参考文献[13]对比了Faster R-CNN和SSD等模型在速度和精度上的差异,如图9.2所示。

在这里插入图片描述

注:图9.2中,SSD的颜色是棕色圆圈。R-FCN是深绿色圆圈。

可以看到:

当检测时间较短时,单阶段模型SSD能取得更高的精度;

而随着检测时间的增加,两阶段模型Faster R-CNN则在精度上取得优势。

在速度和精度上的差异原因

对于单阶段模型与两阶段模型在速度和精度上的差异,学术界一般认为有如下原因。

  1. 摘要两阶段模型有独立候选框提取步骤,所以到第二步分类和修正候选框的时候,正负样本比例平衡

    单阶段模型负样本比例较大

    • 单阶段模型:大多数单阶段模型是利用**预设的锚框(Anchor Box)**来捕捉可能存在于图像中各个位置的物体。

      因此,单阶段模型会对数量庞大的锚框进行是否含有物体及物体所属类别的密集分类

      由于一幅图像中实际含有的物体数目远小于锚框的数目,因而在训练这个分类器时正负样本数目是极不均衡的,这会导致分类器训练效果不佳

      RetinaNet(14)通过Focal Loss抑制负样本对最终损失的贡献以提升网络的整体表现

    • 两阶段模型:在两阶段模型中,由于含有独立的候选区域提取步骤第一步就可以筛选掉大部分不含有待检测物体的区域(负样本),在传递给第二步进行分类和候选框位置/大小修正时,正负样本的比例已经比较均衡,不存在类似的问题

  2. 摘要两阶段模型修正了两次候选框单阶段模型没有修正,所以单阶段模型质量较差

    • 两阶段模型:在候选区域提取的过程会对候选框的位置和大小进行修正,因此在进入第二步前,候选区域的特征已被对齐,这样有利于为第二步的分类提供质量更高的特征。

      另外,两阶段模型在第二步中候选框会被再次修正,因此一共修正了两次候选框,这带来了更高的定位精度,但同时也增加了模型复杂度

    • 单阶段模型:没有候选区域提取过程,自然也没有特征对齐步骤,各锚框的预测基于该层上每个特征点的感受野,其输入特征未被对齐,质量较差,因而定位和分类精度容易受到影响

  3. 摘要:两阶段模型在第二部对候选框进行分类和回归时,受累于大量候选框,所以两阶段模型存在计算量大、速度慢的问题

    • 两阶段模型:以Faster R-CNN为代表的两阶段模型在第二步对候选区域进行分类和位置回归时,是针对每个候选区域独立进行的,因此该部分的算法复杂度线性正比于预设的候选区域数目,这往往十分巨大,导致两阶段模型的头重脚轻(heavy head)问题。

      解决:近年来虽然有部分模型(如Light-Head R-CNN[15])试图精简两阶段模型中第二步的计算量,但较为常用的两阶段模型仍受累于大量候选区域,相比于单阶段模型仍存在计算量大、速度慢的问题。

最新的一些基于

  • 单阶段模型的物体检测方法有CornerNet[16]、RefineDet[17]、ExtremeNet[18]等

  • 两阶段模型的物体检测方法有PANet[19]、Cascade R-CNN[20]、Mask Score R-CNN[21]等

下集预告:9.1.2 简单介绍两阶段模型R-CNN、SPPNet、Fast R-CNN、Faster R-CNN的发展过程

参考文献:

[1]SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: Integrated recognition,localization and detection using convolutional networks[J]. arXiv preprintarXiv:1312.6229,2013.
[2]LIU W,ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision. Springer, 2016: 21-37.
[3]REDMON J,DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition, 2016: 779-788.
[4] REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition, 2017:7263-7271.
[5]REDMON J, FARHADI A. YOLOv3: An incremental improvement[J]. arXivpreprint arXiv:1804.02767,2018.
GIRSHICK R, DONAHU J,DARRELL T, et al. Rich feature hierarchies for[9]accurate object detection and semantic segmentation[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition, 2014:580-587.
[7] HE K,ZHANG X, REN S,et al. Spatial pyramid pooling in deep convolutionalnetworks for visual recognition[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, IEEE, 2015,37(9):1904-1916.
[8]GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conferenceon Computer Vision, 2015: 1440-1448.
[9]REN S,HE K,GIRSHICK R, et al. Faster R-CNN: Towards real-time objectdetection with region proposal networks[C]//Advances in Neural InformationProcessing Systems, 2015:91-99.
[10] DAI J, LI Y, HE K, et al. R-FCN: Object detection via region-based fully convolutional networks[C]//Advances in Neural Information Processing Systems, 2016: 379-387.

[11] HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.
[12] LIU L, OUYANG W, WANG X, et al. Deep learning for generic object detection:A survey[J]. arXiv preprint arXiv:1809.02165,2018.
[13] HUANG J, RATHOD V, SUN C, et al. Speed/accuracy trade-offs for modernconvolutional object detectors[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2017: 7310-7311.
[14] LIN T-Y,GOYAL P,GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision,2017:2980-2988.
[15] LI Z, PENG C, YU G, et al. Light-head R-CNN: In defense of two-stage objectdetector[J].arXiv preprint arXiv:1711.07264,2017.
[16] LAW H, DENG J. CornerNet: Detecting objects as paired keypoints[C]//Proceedings of the European Conference on Computer Vision, 2018:734-750.
[17] ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network forobject detection[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, 2018: 4203-4212.
[18] ZHOU X, ZHUO J,KRÄHENBÜHL P. Bottom-up object detection by groupingextreme and center points[J]. arXiv preprnt arXiv:1901.08043,2019.
[19] LIU S, QI L,QIN H,et al. Path aggregation network for instance segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:8759-8768.
[20] CAI Z, VASCONCELOS N. Cascade R-CNN: Delving into high qualityobject detection[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, 2018:6154-6162.
[21] HUANG Z,HUANG L, GONG Y,et al. Mask scoring R-CNN[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition,2019:6409-6418.

参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)

推荐阅读:

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络(1989年提出,1998年改进)

AlexNet网络(2012年提出)

VGGNet网络(2014年提出)

LeNet、AlexNet、VGGNet总结

GoogLeNet网络(2014年提出)

ResNet网络(2015年提出)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1796851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战

目录 一、引言 二、模型简介 2.1 Qwen1.5 模型概述 2.2 Qwen1.5 模型架构 三、训练与推理 3.1 Qwen1.5 模型训练 3.2 Qwen1.5 模型推理 四、总结 一、引言 Qwen是阿里巴巴集团Qwen团队的大语言模型和多模态大模型系列。现在,大语言模型已升级到Qwen1.5&…

Git使用总结(git使用,git实操,git命令和常用指令)

简介:Git是一款代码版本管理工具,可以记录每次提交的代码,防止代码丢失,可实现版本迭代,解决代码冲突,常用的远程Git仓库:Gitee(国内)、GitHub(国外&#xff…

全球AI新闻速递6.7

1.智谱 AI 宣布全模型矩阵降价,开源 GLM-4-9B 系列模型。 2.复旦大学计划在2024-2025新学年推出至少100门。 3.思科:启动 10 亿美元 AI 基金,投资AI初创公司。 4.OpenAI和谷歌DeepMind员工联名发声:高级AI风险巨大,…

Flutter开发效率提升1000%,Flutter Quick教程之对Widget进行删除,剪切,粘贴

一,删除操作 1,首先我们选中要删除的Widget。 2,在左边的侧边栏,点击删除按钮,即可完成对组件的删除操作。 二,剪切。剪切是相同的道理,都是先选中,再点击对应的按钮。 1&#xff…

UE4_环境_材质函数

学习笔记,不喜勿喷,欢迎指正,侵权立删! 1、建立材质函数Distance_Fun,勾选公开到库。 2、添加函数输入节点FunctionInput, 这个输入我们想作为混合材质属性BlendMaterialAttributes的alpha输入节点&#x…

钓鱼攻击的隐性经济

近年来,网络钓鱼形势发生了重大变化,涵盖了各种类型的攻击。许多公司已经开发了分类法来对不同的网络钓鱼攻击进行分类,类似于BlueVoyant 提出的分类法。该分类法概述了几种类型的网络钓鱼攻击,例如: 1. 电子邮件钓鱼…

一举高“粽“,考生请注意!AI监考来了...

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验, Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、My…

什么是Swagger UI ,swagger ui 的authorization怎么获取?

什么是Swagger UI Swagger UI 是一个用于可视化和交互式地展示API文档的工具。它是Swagger(现称为OpenAPI)生态系统的一部分,旨在帮助开发者和API用户更好地理解、测试和调试API。 主要功能和作用 1. API文档自动生成: Swagge…

用户管理的小demo--过滤器filter

1、创建 CharEncodingFilter.java package com.by.filter; import javax.servlet.*; import java.io.IOException; public class CharEncodingFilter implements Filter {Overridepublic void init(FilterConfig filterConfig) throws ServletException {}Overridepublic void …

一个AI板卡电脑--香橙派 AIpro

本文算是一个开箱测评,主要评估它和一个电脑的距离。 香橙派官网:香橙派(Orange Pi)-Orange Pi官网-香橙派开发板,开源硬件,开源软件,开源芯片,电脑键盘香橙派(Orange Pi)是深圳市迅龙软件有限公司旗下开源产品品牌;香橙派&#x…

LabVIEW飞机发动机测试与故障诊断系统

LabVIEW飞机发动机测试与故障诊断系统 基于LabVIEW开发了一个飞机发动机测试与故障诊断系统,能够实时监测发动机的运行参数,进行数据采集与分析,并提供故障诊断功能。系统采用高精度传感器和数据采集硬件,适用于发动机的性能测试、…

Flink Sql:四种Join方式详解(基于flink1.15官方文档)

JOINs flink sql主要有四种连接方式,分别是Regular Joins、Interval Joins、Temporal Joins、lookup join 1、Regular Joins(常规连接 ) 这种连接方式和hive sql中的join是一样的,包括inner join,left join&#xff…

240508Scala笔记

240508Scala笔记 Scala概述: SCala是Java的拓展,在Java的基础上又拓展了一些语法,例如: 输出Hello World println("HelloWorld")System.out.println("Hello Scala from Java") 上面两段代码都可以输出内容. package chapter01 ​ /*object: 关键字,声明…

python_将二维列表转换成HTML格式_邮件相关

python_将二维列表转换成HTML_邮件相关 data[["理想","2"],["理想2","3"]]def list_to_html_table(data):"""将二维列表转换为HTML表格格式的字符串。参数:data -- 二维列表,表示表格的数据。返回:一个字符…

手机相册的排列方式探讨

不论你是不是程序员,你一定留意过一个问题:相册 App 基本都将图片裁剪成了居中的 1:1 正方形。那么手机相册 App,为什么要将图片切割成 1:1 正方形,然后以网格排列?是行业标准吗? 自适应图片宽度的图库&a…

在不受支持的 Mac 上安装 macOS Sonoma (OpenCore Legacy Patcher v1.5.0)

在不受支持的 Mac 上安装 macOS Sonoma (OpenCore Legacy Patcher v1.5.0) Install macOS on unsupported Macs 请访问原文链接:https://sysin.org/blog/install-macos-on-unsupported-mac/,查看最新版。原创作品,转载请保留出处。 作者主…

[AIGC] 详解Mockito - 简单易学的Java单元测试框架

在Java的世界中, 单元测试是一项非常重要的任务. Mockito作为一个强大灵活的mock框架,可以帮助我们有效的编写和管理我们的单元测试. 了解并掌握Mockito的使用对于提高我们的开发效率和保证我们的软件质量有着巨大的帮助. 文章目录 什么是Mockito?Mockito的核心API…

【2024】Java,jdk环境变量配置(Windows)

只写了需要配置的环境变量 注:从JDK1.5开始,配置Java环境变量时,不再需要配置CLASSPATH,只需要配置JAVA_HOME和Path 操作流程 jdk8(或者你有自定义的jre文件夹)执行步骤1、2、4jdk8以上(17或2…

内网快速传输工具

常见的有LANDrop,支持多种设备,如电脑、pad、手机等等之间互传。但本文介绍的这款是很小的电脑间互传工具。 特点是非常的快速,文件很小,不用安装解压就可用。

太阳能航空障碍灯在航空安全发挥什么作用_鼎跃安全

随着我国经济的快速发展,空域已经成为经济发展的重要领域。航空运输、空中旅游、无人机物流、飞行汽车等经济活动为空域经济发展提供了巨大潜力。然而,空域安全作为空域经济发展的关键因素,受到了广泛关注。 随着空域经济活动的多样化和密集…