Mask RCNN网络源码解读(Ⅲ) --- FCN网络

news2025/1/18 20:30:20

目录

1.FCN网络简介

2.FCN-32S 

3.FCN-16S 

4.FCN-8S 

5.膨胀卷积(空洞卷积) 

6.pytorch中FCN的实现 

6.1 代码地址


1.FCN网络简介

        首个端对端的针对像素级预测的全卷积网络。全卷积网络即将分类网络中的全连接层全部替换为卷积层。

        从数据可以看出,它的性能十分优秀!

        从左图可以看到,其实就是一系列卷积和下采样的过程最后得到一个21个channel的特征层,我们再对其进行一个上采样就得到和原图一样大小的一个特征图,针对这里所得到的特征图的每个像素(每个像素都有21个channel)进行softmax处理,这样我们就能得到该像素对于每个类别的预测概率,取概率最大的为该像素的预测类别。这就是FPN的大致思想。

        接下来我们看一下论文中有关于Convolutionalization的过程:

        一般的深度学习网络都是一些卷积层池化层,最后加几层全连接层输出预测概率。如上图,我们的最后三个层就是全连接层的输出(4096、4096、1000)。比如我们输入一张图片,通过我们的分类网络最后会得到一个针对1000个类别的预测值,在这1000个预测值经过softmax处理后就能得到针对每个类别的概率,其右图是对1000个预测值进行了一个可视化,预测概率越大其高度越高。

        另外,我们在之前说过,对于全连接层来说我们要求的输入节点个数是固定的,如果全连接层输入节点发生变化会导致报错,因此我们在输入分类网络时输入图片的大小都是固定的。

        在FCN网络中我们将全连接层转化成卷积层,那么是不是网络对图像的输入大小就没有什么限制了呢?可以

        回顾一下VGG-16模型

        它们的参数都是一样的,对于展平成全连接层,我们有25088*4096=102760488个参数,对于利用卷积,我们有7*7*512*4096=102760448个参数,因此我们可以将全连接层得到的4096个参数进行一个reshape处理直接赋值给卷积层使用。通过这个步骤我们可以实现Convolutionalization。

        这里32s、16s、8s是指上采样了多少倍,比如这里的32s代表将预测结果上采样了32倍还原成了我们的原图大小。

2.FCN-32S 

        原论文中它所对应的源码在backbone的第一个全连接层处将padding设置为100。作者给出的解释是让FCN网络适应不同大小的图片而设置的,如果我们不做这个100padding会怎么样呢?

         如果我们的图片大小是小于192\times192的话,通过我们的VGG模型的backbone到上图位置它的高和宽就小于7了,小于7会面临什么问题?

        我们将第一个全连接层FC6进行Convolutionalization后将其转化成了卷积核大小为7\times7的卷积层,那么我们通过backbone得到的特征图的高和宽小于7的话,假设我们这里的padding是为0的,FC6会报错。但我们现在想想,现在像素动不动就一亿....好像没什么必要。

        VGG16 backbone对应着这部分:即从图片输入一直到全连接层之前的部分。

        我们将第一个和第二个全连接层全部进行了Convolutionalization,这里的FC6和FC7就对应了这两个卷积层。

        我们通过分类网络将图片的高和宽下采样32倍,因此我们输入一张图片后通过我们的backbone得到的输出特征图的尺寸为\frac{h}{32}\times\frac{w}{32}\times512,由于我们的FC6卷积层我们将padding设置为3了,经过FC6不会改变特征图的高和宽了,由于我们使用了4096个卷积核,因此我们的输出是\frac{h}{32}\times\frac{w}{32}\times4096,FC7对应的卷积核大小是1\times 1的,因此输出特征矩阵不会变化。后面我们又加了两个卷积层:

        第一个卷积层是1\times1的,它的卷积核个数是与我们分类的类别是一样的(包含背景)。        

        第二个卷积层是一个转置卷积,我们会上采样32倍,会恢复到原图的大小,现在它的特征图的大小是h\times w\times num\_cls,即对于每个像素,它有num_cls个通道,我们对其进行softmax处理就能得到针对每个像素的预测类别了。

        我们的权重如何训练:在VGG16网络基本是进行迁移学习的(卷积层 + FC6 + FC7),我们仅仅只是在后面加上了一个1\times1的卷积层和一个转置卷积。

        是不是我上我也行!!!好简单啊!!!

3.FCN-16S 

        我们到这里之前是和前面没有发生变化的:

        不同在之后的第二个卷积层,我们在FCN-32S中直接上采样了32倍得到原图像尺寸,而在FCN-16S中的第二个卷积层我们仅仅上采样了两倍。此外我们还利用VGG16中的MaxPool4层输出的特征图,它的高度和宽度是原图像的十六分之一。 

        在后面接上一个1\times1的卷积层,卷积的个数也是图像类别数目。

        我们对这两个卷积层进行相加操作,再通过一个转置卷积上采样16倍就可以得到原图的大小。

4.FCN-8S 

        和上面同理,不再赘述。

5.膨胀卷积(空洞卷积) 

        卷积的元素之间存在一定的间隙(膨胀因子r决定),膨胀卷积可以增大我们的感受野还会保持我们原输入特征图的W,H

        为什么要使用膨胀卷积:

        在语义分割中,通常会使用分类网络作为我们网络的backbone,通过backbone后会对我们图像进行一系列的下采样,再通过一系列的上采样还原回我们的原图的大小。平时在使用分类网络中我们通常都会将高度宽度下采样32倍,由于我们后续需要通过上采样还原回原图的尺寸的,因此如果下将特征图采样倍率太大的话对我们还原回原图是有很大的影响的。比如最大池化操作我们会丢失一些细节和比较小的信息,丢失这些信息后我们是无法通过上采样恢复的,这也就导致语义分割中分割效果不是很理想。

        这时就可以采用膨胀卷积了,又可以增加我们的感受野,还可以保证原输入特征图的高宽不变。

        gridding effect问题:

        我们假设使用三个膨胀卷积层

        卷积大小都是3\times3的,膨胀系数r也都是等于2的,在layer2上:

        layer3上:

        layer4上:

        我们发现在layer4中利用到layer1中的数据不是连续的,在每个非零元素之间都是有一定间隔的,会导致我们丢失一定的细节信息,因此在使用膨胀卷积的时候我们要避免这样的问题。

        如果我们将膨胀系数设置为1、2、3会发生什么呢?

        在layer2上:

        在layer3上:

        layer4上:(最终感受野13\times13

        这两组实验中,卷积核的大小是一样的,但第二次实验中更能体现出应用信息的完整性!

        如果我们都使用普通卷积的话:(感受野7\times7

        在参数相同的条件下,我们的感受野增大了很多!

        让我们现在来说一下当我们使用多个膨胀卷积的时候,我们如何选取膨胀系数:

        这里每个膨胀卷积对应的膨胀系数为:r_1,r_2....,r_m,HDC的目标是通过一系列的膨胀卷积之后能够完全覆盖底层特征层的方形区域,即方形区域中间没有任何孔洞。

        第i层对应两个非零元素最大距离等于三个元素取最大值。

        M_i是第i层两个非零元素最大距离,r_i是第i层膨胀系数。

6.pytorch中FCN的实现 

6.1 代码地址

pytorch中FCN代码https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_segmentation/fcn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/150777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微服务自动化管理【etcd快速集群】

概述 1.etcd构建自身高可用集群主要有三种形式: 静态发现 预先已知etcd集群中有哪些节点,在启动时通过–initial-cluster参数直接指定好etcd的各个节点地址 etcd动态发现 静态配置前提是在搭建集群之前已经提前知道各节点的信息,而实际应用中…

使用VS Code创建第一个Flutter工程

一、前言 你可以使用任意文本编辑器,再结合命令行工具来开发 Flutter 应用。然而,我们推荐使用本文接下来介绍的编辑器插件以获取更好的开发体验。这些插件提供了代码补全、代码高亮、widget 辅助编辑的功能,以及为项目的运行和调试提供支持…

【Denial-of-Service on FPGA-based Cloud Infrastructures论文笔记】

基于FPGA的云基础设施拒绝服务摘要引言背景FPGA TechnologyFPGA设计的实现用户设计在AWS的注册用户设计在AWS上的部署基于FPGA的系统攻击与对策客户端的FPGA使用基于云的fpga的使用信息泄露错误注入攻击对策云FPGA上的拒绝服务攻击攻击模型AWS FPGA安全架构AWS EC2 F1强力锤击攻…

@Validated+循环依赖报错

目录 测试demo 回顾下三级缓存 循环依赖bean实例化初始化过程​​​​​​​ 源码解读 实例化myZmTest1 myZmTest1依赖myZmTest2,实例化2去注入 myZmTest2依赖myZmTest1,获取myZmTest1去注入 获取到myZmTest1,继续myZmTest2初始化 m…

TCP协议的三次握手与四次挥手(附带常见面试题)

目录 一.TCP/UDP的区别 二.三次握手 三.四次挥手 四.常见面试题 一.TCP/UDP的区别 TCP:TCP协议是面向连接,连接稳定可靠适用于网络连接连接较高的场景,可以准确无误的把数据传递给对方,但传输速度上可能会存在一定的延迟。TCP…

Leetcode.32 最长有效括号

题目链接 Leetcode.32 最长有效括号 题目描述 给你一个只包含 (和 )的字符串,找出最长有效(格式正确且连续)括号子串的长度。 示例 1: 输入:s “(()” 输出:2 解释:最长有效括号子串是 “()”…

【报表设计器ActiveReportsJS(二)】第一个 ActiveReportsJS 报表设计器项目,本地化

上一篇:【Vue集成在线报表设计器ActiveReportsJS(一)】前言,ActiveReportsJS介绍, 在 Vue 框架中集成纯前端报表设计器 本篇将介绍如何使用ActiveReportsJS创建第一个web前端报表设计器 1. 创建 Vue应用 创建 Vue …

GNN笔记系列 5

GNN笔记系列 51.Permutation Equivariance of Graph Filters2.Lipschitz and Integral Lipschitz Filters3.Stability of Graph Filters to Scaling4.Stability of Graph Neural Networks to Scaling1.Permutation Equivariance of Graph Filters 图滤波器的置换等价性 引入置…

【ROS】—— ROS常用组件_TF坐标变换_静态坐标变换与动态坐标变换(十)

文章目录前言1. 坐标msg消息1.1 geometry_msgs/TransformStamped1.2 geometry_msgs/PointStamped2. 静态坐标变换2.1 C实现2.1.1 发布方2.1.2 订阅方2.2 python实现2.2.1 发布方2.2.2 订阅方2.3 补充3. 动态坐标变换3.1 C实现3.1.1 发布方3.1.2 订阅方3.2 python实现3.2.1 发布…

Gin框架快速入门实战

gin 框架快速入门 工具 测试工具: 浏览器拓展 postwomanapipost gin路由,gin 程序的热加载 gin官网文档: https://gin-gonic.com/zh-cn/docs/ fresh安装 : go get github.com/pilu/fresh package mainimport ("github…

Revit标注时尺寸界线的设置及标注避让调整功能

一、Revit标注时尺寸界线的设置 利用墙体一次性标注轴网尺寸时常遇到如图1所示尺寸边界线上翻的情况,需要手动将其逐一调整,十分繁琐,有没有更为快速地解决方法呢? 此问题可以通过为这些尺寸界线反向显示的尺寸标注单独设置一个新…

CHK文件丢失怎么办?chk文件恢复技巧就看这一个!

很多人不知道CHK文件是什么,其实它是一种后缀名为CHK格式的文件,也属于日常生活中比较常见的文件格式。通常,当用户使用“磁盘碎片整理”时,电脑系统会生成一串“群集”文件,这些文件主要用于保存计算机删除的文件的一…

【中等】最长回文子串-C语言实现

题目链接:https://leetcode.cn/problems/longest-palindromic-substring/思路:起始位置为初始位置向右走,即第一次a为起始位置,第二次b为起始位置结束位置从末尾向左走,即第一次c为末尾,第二次b为末尾&…

BMS中常用的NTC温敏电阻及代码实现

1、什么是NTC? NTC热敏电阻是一种负温度系数的热敏电阻,它的性性是阻值随温度的升高而降低,主要作用是对温度的测量及补偿,也用于NTC温度传感器的制作,常用的使用范围在-55℃至200℃之间。 2、NTC的主要技术参数有哪些…

重发布-路由策略实验1(1.8)

目标: 1、首先为每个路由器配置环回和每个接口的ip r1: [r1]interface lo0 [r1-LoopBack0]ip add 1.1.1.1 24 [r1-LoopBack0]int gi 0/0/0 [r1-GigabitEthernet0/0/0]ip add 12.1.1.1 24 [r1-GigabitEthernet0/0/0]int gi 0/0/1 [r1-GigabitEthernet0/…

Linux--多线程(2)

目录1. 条件变量2. 生产者消费者模型2.1 概念3. 基于BlockingQueue的生产者消费者模型3.1 概念3.2 等待函数3.3 等待函数的功能3.4 唤醒函数4. 模型复盘5. 总代码1. 条件变量 当一个线程互斥地访问某个变量或者临界资源时,它可能发现在其它线程改变状态之前&#x…

物以类聚人以群分,通过GensimLda文本聚类构建人工智能个性化推荐系统(Python3.10)

众所周知,个性化推荐系统能够根据用户的兴趣、偏好等信息向用户推荐相关内容,使得用户更感兴趣,从而提升用户体验,提高用户粘度,之前我们曾经使用协同过滤算法构建过个性化推荐系统,但基于显式反馈的算法就…

【Java寒假打卡】Java基础-集合Map

【Java寒假打卡】Java基础-集合Map基本使用Map集合的基本功能Map集合的第一种遍历方式Map集合的第二种遍历方式案例:HashMap集合存储ArrayList元素并遍历案例:统计字符串中每一个字符出现的次数Collections操纵集合基本使用 创建Map集合的对象&#xff1…

金融历史数据导入之股票 level2 逐笔篇

在部署完 DolphinDB 后,将历史数据导入数据库是后续进行数据查询、计算和分析的基础。为协助用户快速导入数据,本文档基于 DolphinDB 已有的教程与大量用户的实践经验,从操作者角度出发,以 CSV 格式的文件为例,详细介绍…

通讯电平转换电路中的经典设计

今天给大家分享几个通讯电平转换电路。 有初学者问:什么是电平转换?举个例子,比如下面这个电路: 单片机的工作电压是5V,蓝牙模块的工作电压是3.3V,两者之间要进行通讯,TXD和RXD引脚就要进行连接…