目标检测——RCNN系列学习(一)

news2025/1/15 13:13:09

前置知识

包括:非极大值抑制(NMS)、selective search等

RCNN

[1311.2524] Rich feature hierarchies for accurate object detection and semantic segmentation (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/1311.2524

1.网络训练

2.推理流程

3.总结

1.多阶段模型:RCNN框架上看分为三个部分:预测类别的CNN特征提取网络,SVM分类器,BoundingBox回归预测模型,训练起来很麻烦;

2.计算时间长:每个提出的region proposal都需要单独计算一次feature map

3.占用空间大:需要保存所有的region proposal的feature map


SPP-Net

[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/1406.4729

1.Motivation

RCNN的问题:

  • 速度瓶颈:重复为每个region proposal提取特征是极其费时的,Selective Search对于每幅图片产生2K左右个region proposal,也就是意味着一幅图片需要经过2K次的完整的CNN计算得到最终的结果。
  • 性能瓶颈:对于所有的region proposal放缩到固定的尺寸会导致我们不期望看到的几何形变,而且由于速度瓶颈的存在,不可能采用多尺度或者是大量的数据增强去训练模型。

问题核心:

CNN网络需要固定的输入尺寸?

进一步剖析,CNN为什么需要固定的输入尺寸?

何恺明团队发现,这是由于网络中的全连接层(fc)所导致的,卷积层是不需要的,而全连接层需要指定输入张量的维度。那么有没有办法解决这一问题呢?

2.SPP-Net

SPP-Net的做法就是在CNN网络的卷积层和全连接层中加入一个新的层,叫做Spatial Pyramid Pooling(空间金字塔池化层),将卷积层的输出转化为了固定的尺度。

其实这个名字里面包含了两个要素:空间金字塔、池化:

1.空间金字塔:多尺度信息的利用

2.池化:信息的聚合,同时降低参数量,加速模型计算

具体的做法如下:

简单的描述一下:

对于卷积层的最后一层输出,尺寸为任意的H*W*C(示例图中channel为256),我们将H和W按统一规则切分,分成16份、4份、1份,每个区域(H/4*W/4*C, H/2*W/2*C, H*W*256)都进行池化操作,最后concat在一起,张量维度变成:(16+4+1)* 256 = 5376维。无论H、W为什么值,全连接的输入都是这个维度。

3.一个实现细节:如何从一个region proposal 映射到feature map的位置?

SPPNet通过 corner point将图像像素映射到feature map上,假设每一层的padding都是p/2,p为卷积核大小。对于feature map的一个像素(x',y'),其实际感受野为:(Sx‘,Sy’),其中S为之前所有层strides的乘积。然后对于region proposal的位置,我们获取左上右下两个点对应的feature map的位置,然后取特征就好了。

左上角映射为:x'=[x/S]+1

右下角映射为:x'=[x/S]-1


Fast RCNN

[1504.08083] Fast R-CNN (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/1504.08083

(部分内容参考:目标检测之Fast RCNN - 知乎 (zhihu.com))

1.Motivation

主要是针对RCNN中的问题:

冗余的特征提取 + 需要固定region proposal的尺度 + SVM和fc需要分开训练,无法端到端

2.推理流程

  • 拿到一张图片,使用selective search选取建议框
  • 将原始图片输入卷积神经网络之中,获取特征图(最后一次池化前的卷积计算结果)
  • 对每个建议框,从特征图中找到对应位置(按照比例寻找即可),截取出特征框(深度保持不变)
  • 将每个特征框划分为 H*W个网格(论文中是 7×7 ),在每个网格内进行池化(即每个网格内取最大值),这就是ROI池化。这样每个特征框就被转化为了 7×7×C的矩阵(其中C为深度)
  • 对每个矩阵拉长为一个向量,分别作为之后的全连接层的输入
  • 全连接层的输出有两个,计算分类得分和bounding box回归(bounding box表示预测时要画的框)。前者是sotfmax的21类分类器(假设有20个类别+背景类),输出属于每一类的概率(所有建议框的输出构成得分矩阵);后者是输出一个 20×4 的矩阵,4表示(x, y, w, h),20表示20个类,这里是对20个类分别计算了框的位置和大小
  • 对输出的得分矩阵使用非极大抑制方法选出少数框,对每一个框选择概率最大的类作为标注的类,根据网络结构的第二个输出,选择对应类下的位置和大小对图像进行标注

(1)RoI Pooling

在学习了SPP-Net之后,ROI池化就很好理解了,其实可以看成单一尺度的SPP层。

(2)全连接的思考

Q: 为什么第2个fc层要输出一个 20×4 的矩阵,而不是一个4维的向量就行呢?

A: 注意这里的两个全连接层是并行训练的,也就是第一个fc层学习到的类别信息,第二个fc层是无法共享的。因此,如果只学习4维的bounding box框,相当于需要第二个fc隐含的学习类别信息,在没有label作为gt的情况下,训练难度极大,所以学习20*4个框,对类别信息解耦,相当于告诉网络,指定类别去预测框的位置。

3.网络训练

(1)网络结构

初始化为一个预训练的VGG-16网络,改动网络结构:

  • 将最后一个最大池化层换成ROI池化层
  • 将最后一个全连接层和后面的softmax1000分类器换成两个并行层,一个是全连接层1+21分类器,另一个是全连接层2+表示每个类预测框位置的输出
  • 输入的不再只是图片,还有提取到的建议框位置信息

(2)网络训练

训练输入:图像、GT、Region proposal的坐标

为了提高训练速度,采取了小批量梯度下降的方式,每次使用2张图片的128张建议框(每张图片取64个建议框)更新参数。

每次更新参数的训练步骤如下

  • 2张图像直接经过前面的卷积层获得特征图
  • 根据ground truth标注所有建议框的类别。具体步骤为,对每一个类别的ground truth,与它的iou大于0.5的建议框标记为groud truth的类别,对于与ground truth的iou介于0.1到0.5之间的建议框,标注为背景类别
  • 每张图片随机选取64个建议框(要控制背景类的建议框占75%),提取出特征框
  • 特征框继续向下计算,进入两个并行层计算损失函数(损失函数具体计算见下面)
  • 反向传播更新参数

(3)池化层的反向传播

这里有一个之前一直忽略的操作,这里看到就一起总结了:

常见的池化层如何求反向传播?

池化分为平均池化和最大池化,这两种池化在反向传播的时候会有不同。

  1. 平均池化:在反向传播的时候将某个元素平均分成n份分配给前一层,保证池化前后的梯度之和保持不变。
  2. 最大池化:前向传播的时候记录下最大值的位置,反向传播的时候把梯度传给这个位置,其他位置为0。

ROI又如何求反向传播?

这里偷个懒,参考:Fast R-CNN论文详解-CSDN博客

(4)损失函数

简化的版本参考:Object Detection for Dummies Part 3: R-CNN Family | Lil'Log (lilianweng.github.io)

简单一点理解:

分类损失+预测框的回归损失

(1)分类损失预测21个类,1个背景类+20个物体类;而预测框只计算物体类的回归损失(为了避免大量的背景框导致的过拟合)

(2)平滑的L1损失:相比于L2损失函数,其对离群点、异常值不敏感,可控制梯度的量级使训练时不容易跑飞

(5)SVD加速

在全连接层使用SVD分解来减少计算时间,参考:Fast R-CNN论文详解-CSDN博客

4.总结

1.继承了SPP的思想,使用ROI池化,解决了RCNN的一大痛点;

2.并行训练两个fc的输出,实现了端到端的目标检测模型(个人认为相较于SPP-Net最大的提升)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1577940.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++ STL算法】sort 排序

文章目录 【 1. 基本原理 】【 2. sort 的应用 】实例 - sort 函数实现 升序排序和降序排序 函数名用法sort (first, last)基于 快速排序,对容器或普通数组中 [ first, last ) 范围内的元素进行排序,默认进行升序排序(从小到大)。…

vscode-tasks.json自定义任务

以下所有内容,参考自VScode官方文档: vscode_tasks-docs任务说明文档vscode_variables-reference-docs变量说明文档vscode addtional docs for tasksvscode launch.json 属性设置文档,(下文没有介绍,没有涉及) 浅浅记录一下个人对vscode任务(task)的理解,还谈不上使用. 文章目…

TouchGFX之时钟

代码 #ifndef TOUCHGFX_ABSTRACTCLOCK_HPP #define TOUCHGFX_ABSTRACTCLOCK_HPP #include <touchgfx/containers/Container.hpp> #include <touchgfx/hal/Types.hpp>namespace touchgfx { class AbstractClock : public Container { public:AbstractClock();/* 设…

【IMU系列】什么是传感器的ODR和FSR实际如何配置传感器

使用更高的ODR信号有两个主要缺点&#xff1a;内存限制和功耗 以实际传感器为例

Redis分布式锁误删情况说明

4.4 Redis分布式锁误删情况说明 逻辑说明&#xff1a; 持有锁的线程在锁的内部出现了阻塞&#xff0c;导致他的锁自动释放&#xff0c;这时其他线程&#xff0c;线程2来尝试获得锁&#xff0c;就拿到了这把锁&#xff0c;然后线程2在持有锁执行过程中&#xff0c;线程1反应过…

成都正信晟锦:借了钱不还怎么起诉对方

在民间借贷中&#xff0c;遇到对方借钱不还的情况时&#xff0c;可以依法通过起诉的方式解决纠纷。首先&#xff0c;债权人应与债务人进行沟通&#xff0c;尝试和解。如果协商无果&#xff0c;则需收集证据&#xff0c;包括但不限于借条、转账记录、双方通讯记录等&#xff0c;…

mysql忘记密码如何重置

错误截图 解决方法 1. 关闭mysql服务器 net stop mysql服务名 2. 查找mysql安装路径中bin目录路径 3. cmd 打开该目录 4. 在my.ini所在的目录&#xff0c;新建一个init_pwd.txt文件。文件内容如下 ALTER user rootlocalhost identified by 密码; 5. 在第四步打开的cmd中 输…

vscode的基本使用(简洁版)

1.Vscode配置C/C开发环境 1.1 下载编译器 MinGW-w64 - for 32 and 64 bit Windows - Browse Files at SourceForge.net 下载并解压 -> 放到电脑C盘的根目录下 1.2 配置环境变量 1.3 安装C/C插件 2. 在VScode上编写C语言代码并编译成功 在vscode中写代码时,需要将代码放在…

在Idea里,执行npm命令 : 无法加载文件 ***\Nodejs\node_global\npm.ps1,因为在此系统上禁止运行脚本

&#x1f339;作者主页&#xff1a;青花锁 &#x1f339;简介&#xff1a;Java领域优质创作者&#x1f3c6;、Java微服务架构公号作者&#x1f604; &#x1f339;简历模板、学习资料、面试题库、技术互助 &#x1f339;文末获取联系方式 &#x1f4dd; 往期热门专栏回顾 专栏…

重建大师进行扫码认证了,接下来怎样才能正常使用?(如下图)

重建大师软件授权已经有了后&#xff0c;新建工程后设置任务目录和监控目录一致就可以运行了。 重建大师是一款专为超大规模实景三维数据生产而设计的集群并行处理软件&#xff0c;输入倾斜照片&#xff0c;激光点云&#xff0c;POS信息及像控点&#xff0c;输出高精度彩色网格…

Tiktok矩阵系统是什么?——Tiktok矩阵系统的优势、功能、及应用场景的介绍

摘要 Tiktok作为全球现象级的短视频平台,其发展前景日益明朗。 Tiktok全世界有多少用户? TikTok作为全球性的社交媒体平台,其用户数量一直在持续增长。根据最新的数据,预计到2024年,TikTok的用户数量将达到数十亿,覆盖全球范围内的各个年龄段和地区。具体来说,根据Ti…

互质数的个数(acwing)

题目描述&#xff1a; 给定 a,b&#xff0c;求 1≤x<a^b 中有多少个 x 与 a^b 互质。 由于答案可能很大&#xff0c;你只需要输出答案对 998244353 取模的结果。 输入格式&#xff1a; 输入一行包含两个整数分别表示 a,b&#xff0c;用一个空格分隔。 输出格式&#xf…

W25QXX系列W25Q64介绍

文章目录 前言介绍W25Q系列硬件电路四重SPI&#xff08;了解&#xff09; 框图Flash操作注意状态寄存器指令集电器特性 前言 W25Q64是一个8MByte大小的非易失性存储器&#xff0c;使用的是SPI协议&#xff0c;本文将全面介绍W25Q64的特性、工作原理以及注意事项 SPI详解见&am…

30万奖金谁能瓜分?OurBMC开源大赛决赛入围名单公示

首届开放原子开源大赛基础软件赛道自今年 1 月开启报名以来&#xff0c;吸引了全国各地 BMC 技术爱好者的广泛关注和踊跃报名。该赛事由开放原子开源基金会牵头&#xff0c; OurBMC 社区及理事长单位飞腾信息技术有限公司联合承办&#xff0c;以 “基于 BMC 技术的服务器故障诊…

CSS导读 (Emmet语法)

&#xff08;大家好&#xff0c;今天我们将继续来学习CSS的相关知识&#xff0c;大家可以在评论区进行互动答疑哦~加油&#xff01;&#x1f495;&#xff09; 目录 续&#xff1a;七、Chrome调试工具 一、Emmet语法 1.1 快速生成HTML结构语法 1.2 快速生成CSS样式语法 &…

ctfshow web入门 php特性 web108--web115

web108 ereg函数相当于而preg_match()函数 ereg函数的漏洞&#xff1a;00截断。%00截断及遇到%00则默认为字符串的结束 strrev函数就是把字符串倒过来 就是说intval处理倒过来的传参c0x36d&#xff08;877&#xff09;?ca%00778 web109 异常处理类 通过异常处理类Excepti…

DFS-0与异或问题,有奖问答,飞机降落

代码和解析 #include<bits/stdc.h> using namespace std; int a[5][5]{{1,0,1,0,1}}; //记录图中圆圈内的值&#xff0c;并初始化第1行 int gate[11]; //记录10个逻辑门的一种排列 int ans; //答案 int logic(int x, int y, int op){…

3D引擎八叉树构建算法实现

最近&#xff0c;我一直在努力研究我的3D引擎Storm3D。 我花费大量时间的功能之一是开发一种通用且高效的八叉树数据结构&#xff0c;它将用于从碰撞检测到基于体素的渲染等多种用途。 在这里我将介绍构建八叉树的基本算法以及你可能遇到的一些障碍。 NSDT工具推荐&#xff1a;…

实习该选择c++后台开发(写业务逻辑)还是音视频开发(写sdk)?

后台开发:更多是理解需求、分析问题、解决bug等能力、对于逻辑培养有很大的帮助。可以进行软件开发、网络开发、游戏开发、以及之后可能的物联网相关开发。在开始前我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「音视频开发的资料从专业入门到高级教程」&#…

光伏电站投资与收益能成正比吗?

光伏电站作为绿色能源的代表&#xff0c;近年来在全球范围内得到了广泛的关注和应用。然而&#xff0c;光伏电站的投资与收益是否能成正比&#xff0c;始终是投资者和市场关注的焦点。本文将就此问题进行深入探讨。 首先&#xff0c;我们必须明确光伏电站的投资与收益并非简单的…