经典目标检测神经网络 - RCNN、SSD、YOLO

经典目标检测神经网络 - RCNN、SSD、YOLO

news2026/2/15 16:35:57

文章目录

- 1. 目标检测算法分类
- 2. 区域卷积神经网络
- - 2.1 R-CNN
  - 2.2 Fast R-CNN
  - 2.3 Faster R-CNN
  - 2.4 Mask R-CNN
  - 2.5 速度和精度比较
- 3. 单发多框检测（SSD）
- 4. YOLO

1. 目标检测算法分类

目标检测算法主要分两类：One-Stage与Two-Stage。One-Stage与Two-Stage是两种不同的思路，其各有各的优缺点。

One-Stage
主要思路：直接通过卷积神经网络提取特征，预测目标的分类与定位；

Two-Stage
主要思路：先进行区域生成，即生成候选区域（Region Proposal），在通过卷积神经网络预测目标的分类与定位；

优缺点

优缺点	One-Stage	Two-Stage
优点	速度快；避免背景错误产生false positives；学到物体的泛化特征	精度高(定位、检出率)；Anchor机制；共享计算量
缺点	精度低(定位、检出率)；小物体的检测效果不好	速度慢；训练时间长；误报相对高

从目前看，在移动端一般使用 One-Stage算法。现在很难说，精度和准确率的问题，因为影响因素不仅仅取决于算法，还跟数据集大小、图像标注质量、训练参数等有很大的关系。

主要算法

One-Stage：YOLO系列（v1-v8），SSD系列（R-SSD、DSSD、FSSD等），Retina-Net，DetectNet，SqueezeDet。

Two-Stage：RCNN系列（Fast-RCNN、Faster-RCNN、Mask-RCNN），SPPNet，R-FCN。

2. 区域卷积神经网络

2.1 R-CNN

在这里插入图片描述

使用启发式搜索算法来选择锚框。

使用预训练模型来对每个锚框抽取特征。

训练一个SVM来对类别分类。

训练一个线性回归模型来预测边缘偏移框。

当锚框每次选择的大小不同，我们如何使这些锚框称为一个batch呢？

兴趣区域（ROI）池化层

ROI Pooling

给定一个锚框，均匀分割成 $\ n\times\ m$ 块，输出每块里的最大值
不管锚框多大，总是输出$\ nm\ $个值

在这里插入图片描述

2.2 Fast R-CNN

对图片整体抽取特征。

不再对每一个锚框做CNN的特征抽取，而是对图片整体使用CNN进行特征抽取
使用RoI池化层对每个锚框生成固定长度特征

在这里插入图片描述

2.3 Faster R-CNN

使用一个区域提议网络来代替启发式搜索，来获得更好的锚框。

2.4 Mask R-CNN

如果有像素级别的标号，使用FCN来利用这些信息
在无人车领域运用较多

在这里插入图片描述

在做像素级别预测时，边界位置不要发生太多的错位。

2.5 速度和精度比较

在这里插入图片描述

总结：

R-CNN是最早、也是最有名的一类基于锚框和CNN的目标检测算法
Fast/Faster R-CNN持续提升性能
Faster R-CNN和Mask R-CNN是在最求高精度场景下的常用算法

3. 单发多框检测（SSD）

SSD全称Single Shot Multibox Detector，是一种单阶段目标检测器。其优点是原始的YOLO和Faster R-CNN在推理速度和精度之间取得了更好的平衡。SSD模型是由Wei Liu等人在使用卷积神经网络（CNN）进行目标检测的研究中，提出的一种改进思路。

SSD用于图像分类、物体检测和语义分割等各种深度学习任务。相对于其他目标检测算法，SSD模型有更高的精度，而且速度也是非常快的。其主要思路是通过在CNN的最后几层添加多个预测层实现多尺度的目标检测，然后通过一个过滤策略对每个检测框进行筛选，最后输出最终的检测结果。

在这里插入图片描述

生成锚框

在这里插入图片描述

对每个像素，生成多个以它为中心的锚框
给定n个大小为 $s_1,s_2,...,s_n$ 和 $m$ 个高宽比，那么生成 $n + m - 1$ 锚框，其大小和高宽比分别为：

$s_1,r_1),(s_2,r_1),...,(s_n,r_1),(s_1,r_2),...,(s_1,r_m)$

SSD模型

一个基础网络来抽取特征，然后多个卷积层块来减半高宽
在每段都生成锚框
- 底部段来拟合小物体，顶部短来集合大物体
对每个锚框预测类别和边缘框

总结:

SSD通过单神经网络来检测模型
以每个像素为中心的产生多个锚框
在多个段段输出上进行多尺度的检测

4. YOLO

You Only Look Once

YOLO系列算法是一类典型的one-stage目标检测算法，其利用anchor box将分类与目标定位的回归问题结合起来，从而做到了高效、灵活和泛化性能好，所以在工业界也十分受欢迎。

Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测，核心思想就是利用整张图作为网络的输入，直接在输出层回归 bounding box（边界框）的位置及其所属的类别。

在这里插入图片描述

yolo尽量让锚框不重叠。

SSD中锚框大量重叠，因此浪费了很多计算
yolo将图片均匀分成 $S\times S$ 个锚框
每个锚框预测 $B$ 个边缘框
后续版本（V2，V3，V4…）有持续改进

YOLO家族进化史（V1-V8）

YOLOv1
YOLOv2：对YOLOv1进行改进
YOLOv3：对YOLOv2进行改进
YOLOv4：对YOLOv3进行改进
YOLOv5：对YOLOv4进行改进
YOLOx：以YOLOv3作为基础网络进行改进
YOLOv6：由美团推出，更加适应GPU设备，算法思路类似YOLOv5（backbone+neck）+YOLOX（head）
YOLOv7：是YOLOv4团队的续作，检测算法与YOLOv4，v5类似
YOLOv8：是YOLOv5团队进一步开发的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1143878.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

python3+requests+unittest实战详解（一）

python3+requests+unittest实战详解（一）

1、环境准备 python3 pycharm编辑器 2、框架目录展示 （该套代码只是简单入门，有兴趣的可以不断后期完善） （1）run.py主运行文件，运行之后可以生成相应的测试报告，并以邮件形式发送&#xff1…

阅读更多...

如何写好测试用例，看完即会

如何写好测试用例，看完即会

目的测试用例这个名词，相信各位从业者已经是熟悉的不能再熟悉了，无论你是从事何种行业，只要是软件测试从业者，测试用例始终贯穿于我们的日常工作中，今天我们就针对设计测试用例的方方面面进行一个详细的介绍。写好黑…

阅读更多...

【华为HCIP | 职业认证考试】821每日一刷

【华为HCIP | 职业认证考试】821每日一刷

个人名片： 🐼作者简介：一名大三在校生，喜欢编程🎋 🐻‍❄️个人主页🥇：落798. 🐼个人WeChat：hmmwx53 🕊️系列专栏：🖼️ 零…

阅读更多...

STM32 ADC数模转换器

STM32 ADC数模转换器

STM32 ADC数模转换器 ADC简介 ADC（Analog-Digital Converter）模拟-数字转换器 ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量，建立模拟电路到数字电路的桥梁 STM32主要是数字电路，数字电路只有高低电平&#xf…

阅读更多...

计算机网络重点概念整理-第四章网络层【期末复习|考研复习】

计算机网络重点概念整理-第四章网络层【期末复习|考研复习】

第四章网络层【期末复习|考研复习】计算机网络系列文章传送门： 第一章计算机网络概述第二章物理层第三章数据链路层第四章网络层第五章传输层第六章应用层第七章网络安全计算机网络整理-简称&缩写文章目录第四章网络层【期末复习|考研复习…

阅读更多...

云计算与ai人工智能对高防cdn的发展

云计算与ai人工智能对高防cdn的发展

高防CDN（Content Delivery Network）作为网络安全领域的一项关键技术，致力于保护在线内容免受各种网络攻击，包括分布式拒绝服务攻击（DDoS）等。然而，随着人工智能（AI）和大数…

阅读更多...

AOSP 编译真机镜像与AVD镜像

AOSP 编译真机镜像与AVD镜像

硬件设备当然是配置越高越好，虚拟机编译至少需要16G内存300G硬盘空间配置环境 Ubuntu 最好，安装方式网上一大堆，自行搜索，本文是基于 Ubuntu 22.04.3 LTS 更新&&配置 sudo apt-get update sudo apt-get upgrade sudo ap…

阅读更多...

云服务器搭建Zookeeper集群

云服务器搭建Zookeeper集群

文章目录 1.集群配置2.zookeeper的群起脚本3. Zookeeper节点的创建和删除相关4. Zookeeper的选举机制 1.集群配置 Zookeeper的集群个数最好保证是奇数个数，因为Zookeeper的选举过程有一个“半数机制”。 5台服务器，可以设置Zookeeper的集群为3或者5&…

阅读更多...

世界前沿技术发展报告2023《世界航空技术发展报告》（二）军用飞机技术

世界前沿技术发展报告2023《世界航空技术发展报告》（二）军用飞机技术

（二）军用飞机技术 1.作战飞机1.1 美俄对第五代战斗机进行升级改进1.2 美欧第六代战斗机技术取得新进展1.3 美国B-21隐身轰炸机正式亮相 2.支援飞机2.1 美国空军拟研制翼身融合布局运输/加油机2.2 美欧厂商积极参加北约未来预警机技术研究项目2.3 美国空军…

阅读更多...

FPGA时序分析与约束（7）——通过Tcl扩展SDC

一、概述术语“Synopsys公司设计约束”（又名SDC，Synopsys Design Constraints）用于描述对时序、功率和面积的设计要求，是EDA工具中用于综合、STA和布局布线最常用的格式。本文介绍时序约束的历史概要和SDC的描述。二、时序约束…

阅读更多...

【计算机网络】TCP协议

【计算机网络】TCP协议

文章目录 1. TCP报文的结构2. TCP的发送缓冲区和接收缓冲区3. 确保可靠性序列号和确认序列号确认应答超时重传连接管理1️⃣三次握手建立连接2️⃣四次挥手断开连接 4. 提高性能流量控制滑动窗口拥塞控制延迟应答捎带应答 5. 面向字节流6. TCP/UDP对比概念：TCP&…

阅读更多...

threejs(7)-精通粒子特效

threejs(7)-精通粒子特效

一、初识Points与点材质 // 设置点材质 const pointsMaterial new THREE.PointsMaterial(); import * as THREE from "three"; // 导入轨道控制器 import { OrbitControls } from "three/examples/jsm/controls/OrbitControls"; // 导入动画库 import gsa…

阅读更多...

854算法之线性表

854算法之线性表

周小伦说的建议王道的所有算法题最好都写一下啊，尤其是树的，排序相关的要写一下，然后还有链表，链表有一些反转链表啊一些经典的代码肯定要背的呀，比如说，三种遍历的递归和非递归，怎么找树的宽度…

阅读更多...

【C程序设计】用心浇灌＜C程序＞

【C程序设计】用心浇灌＜C程序＞

目录数据类型整数类型实例浮点类型 void 类型类型转换数据类型在 C 语言中，数据类型指的是用于声明不同类型的变量或函数的一个广泛的系统。变量的类型决定了变量存储占用的空间，以及如何解释存储的位模式。 C 中的类型可分为以下几种&…

阅读更多...

服务端推送、 server sent event、sse、springboot+sse

服务端推送、 server sent event、sse、springboot+sse

SSE(server-sent events) SSE全称server-sent events，翻译过来是服务端发送事件，通常的http请求，客户端请求，服务端返回响应，一次只能返回一个值；SSE使用的http协议，客户端请求后，服…

阅读更多...

bbr 的 “最优操作点”

bbr 的 “最优操作点”

最近做一组测试，我复现了一组结果准备阐释另一个事。先看这个测试结果： 常规的一个 wrk2(expected_latency_timing 改为 actual_latency_timing 计数) 压 nginx 的测试，调整 -R 参数，Req/sec 同步增加，当 Req/sec 不…

阅读更多...

（免费领源码） Asp.Net#SQL Server校园在线投票系统10557-计算机毕业设计项目选题推荐

（免费领源码） Asp.Net#SQL Server校园在线投票系统10557-计算机毕业设计项目选题推荐

摘要随着互联网大趋势的到来，社会的方方面面，各行各业都在考虑利用互联网作为媒介将自己的信息更及时有效地推广出去，而其中最好的方式就是建立网络管理系统，并对其进行信息管理。由于现在网络的发达，校园投票通过网…

阅读更多...

液氮恒温器主要特点

液氮恒温器主要特点

恒温器是直接或间接控制一个或多个热源和冷源来维持所要求的温度的一种装置。主要特点更宽温区：液氮恒温器的温区宽度扩展到了80K~500K，为液氮温区实验用户提供更宽温区解决方案。操作更简单：液氮恒温器在样品更换、液氮填充、控制液氮…

阅读更多...

UI自动化概念 + Web自动化测试框架介绍

UI自动化概念 + Web自动化测试框架介绍

1.UI自动化测试概念:我们先明确什么是UI UI，即(User Interface简称UI用户界面)是系统和用户之间进行交互和信息交换的媒介 UI自动化测试: Web自动化测试和移动自动化测试都属于UI自动化测试，UI自动化测试就是借助自动化工具对程序UI层进行自动化的测试 …

阅读更多...

【分享】RAR压缩包的密码可以取消吗？

【分享】RAR压缩包的密码可以取消吗？

在日常工作中，我们可能经常用到RAR文件，RAR作为一种常见的压缩文件格式，可以将一个或多个文件压缩成单个文件，方便传输和保存。 RAR文件还可以设置“打开密码”，这样只有输入正确的密码才能打开压缩包里面的文件&…

阅读更多...

推荐文章

最新文章