Mask RCNN网络源码解读(Ⅰ) --- 语义分割前言与转置卷积

news2024/12/28 18:17:14

目录

1.什么是语义分割

2.语义分割常见的数据集格式 

3.常见的语义分割评价指标 

4.转置卷积 


1.什么是语义分割

        常见分割任务:语义分割、实例分割、全景分割

图一 原始图片
图二 语义分割
图三 实例分割

        语义分割(例如FCN网络)可以理解为一个分类任务,对每个像素进行分类。

        实例分割(例如Mask R-CNN网络)更精细一些,对于同一个类别的不同目标我们也用不同颜色来分割。

        全景分割(例如Panoptic FPN网络):语义分割 + 实例分割。

2.语义分割常见的数据集格式 

        PASCAL VOC(PNG 图片):是单通道的图像,利用调色板模式。

        详见博文:

PASCAL VOC数据集介绍icon-default.png?t=MBR7https://blog.csdn.net/qq_37541097/article/details/115787033       

        MS COCO数据集介绍:

MS COCO数据集介绍icon-default.png?t=MBR7https://blog.csdn.net/qq_37541097/article/details/113247318

3.常见的语义分割评价指标 

        Pixel Accuracy是:分子预测图像标签上所有预测正确的像素个数的总和,其分母是图像的总像素个数。

        mean Accuracy:每个类别被预测正确的像素总个数/目标像素类别i的总个数。

        mean IoU:每个类别的IoU,再对每个类别求平均。
        举一个例子:

        对于0标签:

        我们将预测正确的地方用绿色表示,预测错误的地方用红色表示。

        绿色表示预测标签为0,实际标签也为0。图中有16个。

        红色表示预测错误的,即预测为0,实际标签不为0。实际标签为1的为0个,实际标签为3的有两个.....。构建上图矩阵。最后混淆矩阵如下:

         那么我们的global_accuracy:

        针对每个类别的accuracy:

        mean_IoU:

4.转置卷积 

        起到下采样的作用。如右图:输入的特征层是2\times2的,我们通过零填充再使用转置卷积,现在的输出特征层是4\times4的。

        转置卷积的步骤如下:

        第一步:这里的s是指步长stride,这里步长为1,1-1=0。我们就不需要在特征图中填充0了。第二幅图中我们的步长stride为2,2-1=1,我们需要在特征图元素间填充1行,图三同理。

        第二步:这里的p是指内边距padding,对于图一,k-p-1=3-0-1=2,在周围填充2行2列0;对于图三,k-p-1=3-1-1=1,在周围填充1行1列0。

        对于输出特征层的宽度和高度:

        我们以一个实例进行讲解:

        这里我们输入的特征图(feature map)是2\times2的,我们使用的转置卷积是s=1,p=0,k=3的,对应的kernel如上所示:

        根据第一步:我们无需在元素间填充元素。

        根据第二步:在输入2\times2的特征图四周填充k-p-1=3-0-1=2行2列0,如左图。

        第三步:对kernel进行上下左右翻转,如中间的图,最后我们通过卷积得到了一个4\times4的一个特征图。

        现在我们对转置卷积的做法有了一定的了解,但我们为什么要这么做呢?

        看一下pytorch官方给的关于转置卷积的参数们。

        普通卷积的计算中,计算如下:

        在pytorch官方实现中,我们构建卷积核的等效矩阵。        将输入的特征图(feature map)进行展平,将等效矩阵也进行展平,即进行一个向量化:

        最后得到输出的特征矩阵:

        那么这里我们提出一个问题:已知矩阵C和矩阵O,能否求得矩阵I。换句话说,即卷积是否可逆?

        如果是通过逆矩阵计算的话是不可行的,因为只有方阵才有逆矩阵。即一般的卷积是不可逆的。

        那么我们放宽下条件,我们要得到与原始输入矩阵I相同大小尺寸的矩阵即1\times16的矩阵,很明显是可以的,只要乘以C^T即可,如下图:

        这就是转置卷积的计算过程,我们通过2 \times 2的特征层得到了一个4\times4的特征层。 

        我们接着来看一个有趣的现象:

        我们拿等效矩阵进行对应元素相乘相加:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/148252.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开发与项目经理之间的打情骂俏——数据库篇

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 由数据库引发的一系列探…

小论文写作指南(AI类)

参考b站沃恩智慧课程 论文结构 标题:不要太长或太短,抓住重点,简明扼要。 作者:你的作品一定力争一作,通讯作者是导师/大老板/出资人。 摘要Abstract:点明大背景(如为什么研究微表情识别,对社会有什么价值,拔高立意层次),阐述目标(我们提出模型为了在什么问题上达…

9个时间序列交叉验证方法的介绍和对比

评估性能对预测模型的开发至关重要。交叉验证是一种流行的技术。但是在处理时间序列时,应该确保交叉验证处理了数据的时间依赖性质。在之前的文章中,我们也做过相应的介绍。 在本文中,我们收集了时间序列的常用的9种交叉验证方法。这些包括样…

【博客578】LVS NAT配合MASQUERADE实现FULLNAT的场景,及此场景下net.ipv4.vs.conntrack参数的重要作用

LVS NAT配合MASQUERADE实现FULLNAT的场景,及此场景下net.ipv4.vs.conntrack参数的重要作用 1、LVS基本原理: 流程: 当用户向负载均衡调度器(Director Server)发起请求,调度器将请求发往至内核空间 PREROU…

第6章 线程通信

6.2.1 管道 管道是一个线性字节数组,类似文件,使用文件读写进行访问;在程序里面,创建管道需要使用popen()或者pipe(); 管道的一个重要特点是使用管道的两个线程之间必须存在某种关系, 例如,使用popen需要提供另一端进程的文件名,使用pipe的两个线程分别隶属于父子进…

Linux常用命令——fgrep命令

在线Linux命令查询工具 fgrep 为文件搜索文字字符串 补充说明 fgrep命令是用来搜索 file 参数指定的输入文件(缺省为标准输入)中的匹配模式的行。fgrep 命令特别搜索 Pattern 参数,它们是固定的字符串。如果在 File 参数中指定一个以上的…

dp刷题(三)编辑距离(Hard)

编辑距离_牛客题霸_牛客网 描述 给定两个单词word1和word2,请计算将word1转换为word2至少需要多少步操作。 你可以对一个单词执行以下3种操作: a)在单词中插入一个字符 b)删除单词中的一个字符 c)替换单词中的一个字…

C#,图像二值化(14)——全局阈值的最佳迭代算法(Iterate Thresholding)及源代码

1、图像二值化 图像二值化是将彩色图像转换为黑白图像。大多数计算机视觉应用程序将图片转换为二进制表示。图像越是未经处理,计算机就越容易解释其基本特征。 二值化过程 在计算机存储器中,所有文件通常以灰度级的形式存储,灰度级具有从0…

Vue基础入门小demo——记事本

文章目录 📋前言 🎯demo介绍 🎯完整代码 🎯最终效果 🎯案例分析 📋前言 记事本(不是操作系统的那个记事本,是一个简单的网页版本记事本)是一个较全面的Vue指令集合案…

迁移学习简要

什么是迁移学习 迁移学习是一种机器学习方法,就是把任务为A的开发模型作为其的初始点,重新使用在任务为B的开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务。虽然大多数机器学习的新 算法都是为了解决单个任务而设计的…

Exynos_4412——IIC控制器和MPU6050

目录 一、Exynos_4412下的IIC控制器 二、IIC寄存器 三、MPU6050原理 MPU6050 MPU6050的主要参数 MPU6050通信接口 MPU6050官方芯片手册 MPU6050寄存器 四、MPU6050寄存器读写时序 向MPU6050写一个字节数据 向MPU6050读一个字节数据 五、IIC编程 六、小项目 Exynos…

Linux内核中断子系统

查看中断控制相关的设备树节点 *********************gpiof控制器*************************pinctrl: pin-controller50002000 {#address-cells <1>;#size-cells <1>;compatible "st,stm32mp157-pinctrl";interrupt-parent <&exti>;gpiof…

数据结构与算法三【树】

二叉树性质 满二叉树 深度为k&#xff0c;有2k−12^{k}-12k−1个结点的二叉树&#xff0c;为满二叉树。 完全二叉树 完全二叉树的定义如下&#xff1a;在完全二叉树中&#xff0c;除了最底层节点可能没填满外&#xff0c;其余每层节点数都达到最大值&#xff0c;并且最下面…

【jQuery】常用API——jQuery选择器

一、 jQuery基础选择器原生JS获取元素方式很多&#xff0c;很杂&#xff0c;而且兼容性情况不一致&#xff0c;因此jQuery给我们做了封装&#xff0c;使荻取元素统一标准。$(“选择器”); //里面选择器直接写CSS选择器即可&#xff0c;但是要加号<script src"../jquery…

Ubuntu18.04系统 部署python3.9.0 源码编译安装及pip配置全过程记录

1.Ubuntu系统镜像下载和基本配置 1.1 镜像下载 镜像下载&#xff1a;https://cn.ubuntu.com/download/desktop 1.2 配置静态IP 配置固定IP方式&#xff1a; Ubuntu18之前在/etc/network/interfaces进行配置&#xff0c;Ubuntu18及之后版本在/etc/netplan/*.yaml进行配置&am…

Node.JS(1)

目录 命令行窗口&#xff08;cmd窗口、小黑屏、终端、shell&#xff09; 环境变量 命令行窗口&#xff08;cmd窗口、小黑屏、终端、shell&#xff09; winR快捷键-->cmd 常用指令 dir 列出当前目录下的所有文件 cd 目录名 进入到指定的目录 md 目录名 创建一个文件…

redis安装和使用说明

Redis安装说明大多数企业都是基于Linux服务器来部署项目&#xff0c;而且Redis官方也没有提供Windows版本的安装包。因此课程中我们会基于Linux系统来安装Redis.此处选择的Linux版本为CentOS 7.Redis的官方网站地址&#xff1a;https://redis.io/1.单机安装Redis1.1.安装Redis依…

数字验证学习笔记——SystemVerilog芯片验证23 ——数据采样

一、数据采样 当你coverpoint指定采样一个变量或表达式时&#xff0c;SV会创建很多“仓&#xff08;bin&#xff09;”来记录每个数值被捕捉到的次数。这些bin是衡量功能覆盖率的基本单位。covergroup中可以定义多个coverpoint&#xff0c;coverpoint中可以自定义多个cover bi…

SAP灵活工作流场景模板创建

目录 1. 创建流程对象容器 2. 编辑模板中的灵活块 3. 设置工作流启动事件 4. 设置工作流运行时事件 5. 设置工作流输出结果&#xff08;可选&#xff09; 6. 工作流控制类 7. 创建流程活动 8. 创建流程条件 9. 代理规则 9. 值帮助 10. 参考时间 11. 电子邮件模版 …

[ AWS - SAA ] 解决方案架构师之设计弹性架构 - 选择可靠的弹性存储(如何选择 SSD vs. HDD)

本系列博文会围绕AWS Well-Architected 和六大支柱进行讲解&#xff0c;这些领域的内容对成为AWS亚马逊云科技上的 解决方案架构师&#xff08;SAA&#xff09; 非常重要。 本文主要介绍AWS亚马逊云中&#xff0c;关于弹性架构设计中存储设备的一些讲解。 本文的部分内容适用于…