Mask R-CNN 算法学习总结

news2026/3/27 20:02:37

Mask R-CNN 相关知识点

整体框架
1.Resnet 深度残差学习
- 1.1 目的
- 1.2 深度学习深度增加带来的问题
- 1.3 Resnet实现思想【添加恒等映射】
2.线性插值
- 2.1 目的
- 2.2 线性插值原理
- 2.3 为什么使用线性插值?
3.FPN 特征金字塔
- 3.1 FPN介绍
- 3.2 为什么使用FPN?
- 3.3 自下而上层【提取特征】
- 3.4 自上而下层【横向连接，特征融合】
4. Anchors(候选框生成)
- 4.1 实现步骤
5. RPN 区域建议网络
- 5.1 目的
- 5.2 实现步骤
6. ROI 感兴趣区域
- 6.1 目的
- 6.2 实现步骤
7. DetectionTargetLayer【目标检测层】
- 7.1 目的
- 7.2 实现步骤
8. RoiAlign 水平对齐
- 8.1 为什么使用线性插值实现？【使用RoIPool带来的问题】
- 8.2 使用ROIAlign 与RoiPool的原因
- 8.3 ROIAlign优点
- 9.分类与回归

相关文章链接
- Resnet论文
- Mask R-cnn论文
- 线性插值原理

整体框架

在这里插入图片描述

1.Resnet 深度残差学习

1.1 目的

防止增加深度模型loss增加问题

1.2 深度学习深度增加带来的问题

梯度消失与爆炸问题
退化问题：随着网络深度的增加，准确度会饱和，然后迅速退化。

1.3 Resnet实现思想【添加恒等映射】

增加模型层数与恒等映射做对比，如果增加层数效果变差，就把权重设置接近于0的值。【近似于没有增加模型深度】
确保较深的模型应该不会比较浅的模型产生更高的训练误差。
Convolution Block和identity Block区别
- Convolution Block通道数和特征图大小变化了

2.线性插值

2.1 目的

减少像素特征不对齐问题
降低预测框误差

2.2 线性插值原理

单线性插值: 根据2点确定一条直线，斜率固定，就可以得到插入值的位置
多线性插值就是多次的但线性插值得到的

2.3 为什么使用线性插值?

对图片上采样，原始图片 $3 * 3$ 范围红色框中的值，会得到 $4 * 4$ 框中红色框的值。
假设目标图片红框坐标为 $(i, j)$ ,那么在原始图片位置 $（ i * 3/4, j * 3/4 ）$
已知 $i = 2, j = 3 i = 2, j = 3 i = 2, j = 3$ ,所以在原始图片位置 $(1.5, 0.75)$
- 不是整数，在找原始图片位置时，会自动取整
- 即，需要使用线性插值，来降低误差

3.FPN 特征金字塔

3.1 FPN介绍

横向连接的自顶向下结构
用来提取特征和特征融合

3.2 为什么使用FPN?

在特征提取中去最后一层特征图，对图片语义性较高，但是对于图片的小物体，零散特征不多，使小物体在图片中检测的效果不好
将多个阶段特征图融合在一起，有了高层语义特征，也有了底层轮廓特征，效果会更好

3.3 自下而上层【提取特征】

使用Resnet深度残差算法主干结构提取特征，返回每个阶段最后一层的数据。
- 不改变特征图大小的层为一个阶段
- 每次提取特征都是每个阶段最后一层的输出

3.4 自上而下层【横向连接，特征融合】

使用1*1卷积核将特征图大小统一
使用线性插值进行上采样与此阶段的前一个阶段进行特征融合，以此类推，返回特征融合后每个阶段的值
例如：C5阶段的特征图上采样后与C4的特征图融合，得到P4。

4. Anchors(候选框生成)

4.1 实现步骤

对提取的特征图进行区域金字塔网络
将生成很多不同的候选框，在图片上进行提取特征，一个图片会提取出多种特征图
anchors(候选框生成)：以每个像素点为中心，设置3个不同大小的scales，每个scales有3个不同的roatis，生成各种框
例如:scales:(32, 64, 128),roatis([0.5, 1, 2])，所以每个像素点会生成9个不同的框

5. RPN 区域建议网络

5.1 目的

提取前景与背景
RPN具有平移不变性
- 在不同位置的同一物体都可以检测出来，因为生成了很多框

5.2 实现步骤

分类：对生成的候选框进行二分类，判断是前景还是背景
回归：得到候选框偏移量【ground-truth与候选框偏移大小】
将生成的候选框做前景和背景二分类
- 返回分类得分，分类概率，区域框数据

6. ROI 感兴趣区域

6.1 目的

筛选有用的候选框

6.2 实现步骤

按照前景得分排序，取前n个的得分最高的候选框
根据候选框偏移量微调候选框位置，使候选框更接近grouth-truth框
对于越界的候选框，进行范围修剪
IOU过滤：筛选出候选框与ground-truth重叠比例大于阈值的候选框
MNS(非极大值抑制)过滤：候选框重叠比例大于阈值的最高得分候选框
根据得分值选择前n个得分最高的前景，获取正样本数据集

在这里插入图片描述

7. DetectionTargetLayer【目标检测层】

7.1 目的

找到正样本GT的类别,IOU最大的类别
正样本与GT-box的偏移量
正样本与GT-box对应的掩码mask，即实例分割框
负样本的偏移量与mask使用0填充

7.2 实现步骤

去除padding填充的候选框
获取前n个得分最高的前景数量不够，会使用padding填充，凑齐n个前景
去除一个框包含多个物体的去除
正负样本判断：基于ROI和ground-truth,通过IOU值与默认阈值0.5判断
数据集正负比例为1:3

8. RoiAlign 水平对齐

8.1 为什么使用线性插值实现？【使用RoIPool带来的问题】

当一个特征图大小为800时，物体大小是665，对特征图进行卷积，假设特征图缩小了32倍，800/32=25,得到新的25大小特征图，但是665/32=20.78,所以物体的位置应该在25特征图上占20.78，但是他们会舍弃小数，实际是占20的大小
将物体映射到原图，会损失0.78*32=24.96个像素点，对于大物体偏差不大，但是对于小物体偏差就会很大【如果出现奇数就会出现这个问题】

8.2 使用ROIAlign 与RoiPool的原因

网络进入全连接层，需要保持特征图大小一致

8.3 ROIAlign优点

消除了RoIPool的苛刻量化【向下取整】，将提取的特征与输入正确对齐。
RoIPool没有pixel-to-pixel之间对齐关系，不能预测到原图位置的像素点，预测位置具有较大的误差。

9.分类与回归

将所有特征图大小统一后，就可以进入全连接层
进行相关分类与回归操作

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/380910.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

反激与正激的区别

反激与正激的区别

之前学习了正激开关电源，但是对于正激和反激一直不是很清楚，网上找了一篇，觉得感觉该可以，以此记录。正激和反激是两种不同的开关电源技术一、正激（1）概述正激式开关电源是指使用正激高频变压器隔离耦合能量…

阅读更多...

深度学习笔记：神经网络权重确定初始值方法

深度学习笔记：神经网络权重确定初始值方法

神经网络权重不可为相同的值，比如都为0，因为如果这样网络正向传播输出和反向传播结果对于各权重都完全一样，导致设置多个权重和设一个权重毫无区别。我们需要使用随机数作为网络权重实验程序在以下实验中，我们使用5层神经网络…

阅读更多...

设计模式-服务定位器模式

设计模式-服务定位器模式

设计模式-服务定位器模式一、背景1.1 服务定位模式1.2 策略模式二、代码实战2.1 服务定位器2.2 配置ServiceLocatorFactoryBean2.3 定义一个支付的接口2.4 根据不同类型处理Bean2.5 controller层三、项目结构及测试结果3.1 测试结果3.2 项目结构及源码(欢迎star)四、参考资料一…

阅读更多...

进程管理（进程概念、查看进程、关闭进程）

进程管理（进程概念、查看进程、关闭进程）

1.进程程序运行在操作系统中，是被操作系统所管理的。为管理运行的程序，每一个程序运行的时候，便被操作系统注册为系统中的一个：进程并会为每一个进程都分配一个独有的：进程ID（进程号） 2. 查…

阅读更多...

Paddle OCR Win 11下的安装和简单使用教程

Paddle OCR Win 11下的安装和简单使用教程

Paddle OCR Win 11下的安装和简单使用教程对于中文的识别，可以考虑直接使用Paddle OCR，识别准确率和部署都相对比较方便。环境搭建目前PaddlePaddle 发布到v2.4，先下载paddlepaddle，再下载paddleocr。根据自己设备操作系统进…

阅读更多...

代码随想录算法训练营第四十天 | 343. 整数拆分，96.不同的二叉搜索树

代码随想录算法训练营第四十天 | 343. 整数拆分，96.不同的二叉搜索树

一、参考资料整数拆分https://programmercarl.com/0343.%E6%95%B4%E6%95%B0%E6%8B%86%E5%88%86.html 视频讲解：https://www.bilibili.com/video/BV1Mg411q7YJ不同的二叉搜索树https://programmercarl.com/0096.%E4%B8%8D%E5%90%8C%E7%9A%84%E4%BA%8C%E5%8F%89%E6%90…

阅读更多...

Win10任务栏卡死的几个处理方法附小工具

Win10任务栏卡死的几个处理方法附小工具

问题：Win10任务栏卡死最近经常碰到用户系统任务栏卡死的现象，桌面上的图标可以正常打开，点击任务栏就疯狂的转圈，感觉像死机状态，等半天都没啥用，一般只能强制关机重启，我不建议这样操作&…

阅读更多...

机器学习算法原理——感知机

机器学习算法原理——感知机

感知机输入空间：X⊆Rn\mathcal X\subseteq{\bf R^n}X⊆Rn ；输入：x(x(1),x(2),⋅⋅⋅,x(n))T∈Xx\left(x^{(1)},x^{(2)},\cdot\cdot\cdot,x^{(n)}\right)^{T}\in{\mathcal{X}}x(x(1),x(2),⋅⋅⋅,x(n))T∈X 输出空间：Y{1,−1}{\…

阅读更多...

杂谈：created中两次数据修改，会触发几次页面更新？

杂谈：created中两次数据修改，会触发几次页面更新？

面试题：created生命周期中两次修改数据，会触发几次页面更新？ 一、同步的先举个简单的同步的例子： new Vue({el: "#app",template: <div><div>{{count}}</div></div>,data() {return {count…

阅读更多...

[架构之路-124]-《软考-系统架构设计师》-操作系统-3-操作系统原理 - IO设备、微内核、嵌入式系统

[架构之路-124]-《软考-系统架构设计师》-操作系统-3-操作系统原理 - IO设备、微内核、嵌入式系统

第11章操作系统第5节设备管理/文件管理：IO5.1 文件管理5.2 IO设备管理（内存与IO设备之间）数据传输控制是指如何在内存和IO硬件设备之间传输数据，即：设备何时空闲？设备何时完成数据的传输？SPOO…

阅读更多...

vue实战-深入响应式数据原理

vue实战-深入响应式数据原理

本文将带大家快速过一遍Vue数据响应式原理，解析源码，学习设计思路，循序渐进。数据初始化 _init 在我们执行new Vue创建实例时，会调用如下构造函数，在该函数内部调用this._init(options)。 import { initMixin } f…

阅读更多...

代码随想录算法训练营第一天| 704. 二分查找、27. 移除元素

代码随想录算法训练营第一天| 704. 二分查找、27. 移除元素

Leetcode 704 二分查找题目链接：704二分查找介绍给定一个 n 个元素有序的（升序）整型数组 nums 和一个目标值 target ，写一个函数搜索 nums 中的 target，如果目标值存在返回下标，否则返回 -1。思路先看看一个…

阅读更多...

MyBatis源码分析（三）SqlSession的执行主流程

MyBatis源码分析（三）SqlSession的执行主流程

文章目录一、熟悉主要接口二、SqlSession的获取1、通过数据源获取SqlSession三、Mapper的获取与代理1、从SqlSession获取Mapper2、执行Mapper方法前准备逻辑3、SqlCommand的创建4、构造MethodSignature四、执行Mapper的核心方法1、执行Mapper的方法逻辑五、简单SELECT处理过程1…

阅读更多...

【蓝桥杯试题】递归实现指数型枚举例题

【蓝桥杯试题】递归实现指数型枚举例题

💃🏼 本人简介：男 👶🏼 年龄：18 🤞 作者：那就叫我亮亮叭 📕 专栏：蓝桥杯试题文章目录1. 题目描述2. 思路解释2.1 时间复杂度2.2 递归3. 代码展示最后&#x…

阅读更多...

超级简单又功能强大还免费的电路仿真软件

超级简单又功能强大还免费的电路仿真软件

设计电路的时候经常需要进行一些电路仿真。常用的仿真软件很多，由于大学里经常使用Multisim作为教学软件，所以基本上所有从事硬件开发的人都听过或者用过Multisim这个软件。这个软件最大的好处就是简单直观，可以在自己的PC上搭建电路并使用软…

阅读更多...

gdb常用命令详解

gdb常用命令详解

gdb常用调试命令概览和说明 run命令在默认情况下，gdbfilename只是attach到一个调试文件，并没有启动这个程序，我们需要输入run命令启动这个程序（run命令被简写成r）。如果程序已经启动，则再次输入 run 命令…

阅读更多...

从面试官角度告诉你高级性能测试工程师面试必问的十大问题

从面试官角度告诉你高级性能测试工程师面试必问的十大问题

目录 1、介绍下最近做过的项目，背景、预期指标、系统架构、场景设计及遇到的性能问题，定位分析及优化； 2、项目处于什么阶段适合性能测试介入，原因是什么？ 3、性能测试场景设计要考虑哪些因素？ 4、对于一…

阅读更多...

SAP MM学习笔记4-在库类型都有哪些，在库类型有哪些控制点

SAP MM学习笔记4-在库类型都有哪些，在库类型有哪些控制点

SAP MM模块中的在库类型有3种： 1，利用可能在库 (非限制使用库存) 2，品质检查中在库 （质检库存） 3，保留在库（已冻结库存） 这3种在库标识该物料的状态，是否可用。这3种…

阅读更多...

bugku 安全加固1

bugku 安全加固1

js劫持根据题目所给出的ip访问原本应该进入一个学院的二手交易网站但是实际进入了一个博客 flag需要去除最后的斜杆黑客首次webshell密码利用所给的账户密码进行登录进入www目录并且进行备份 #我们对网站进行备份 cd /var/www && tar -czvf /tmp/html.tgz html …

阅读更多...

Kubernetes之存储管理（上）

Kubernetes之存储管理（上）

数据持久化的主要方式简介 pod是临时的，pod中的数据随着pod生命周期的结束也会被一起删除。 pod想实现数据持久化主要有以下几种方式： emptyDir：类似于docker run –v /xx，在物理机里随机产生一个目录(这个目录其实挂载的是物理…

阅读更多...

推荐文章

最新文章