FCN学习-----第一课

news2024/12/27 23:59:28

语义分割中的全卷积网络
CVPR IEEE国际计算机视觉与模式识别会议
PAMI IEEE模式分析与机器智能汇刊
需要会的知识点:
神经网络:前向传播和反向传播
卷积神经网络:CNN,卷积,池化,上采样
分类网络:VGG,net,AlexNet,GoogLeNet
Pytorch基础
必须学会:
熟练掌握语义分割常识知识:概念、术语、应用(0.5)
熟练掌握FCN算法模型:结构、意义、补充知识点(1天 )
熟练掌握FCN模型的代码定义:训练、验证、测试、预处理、模型定义、结果输出(4天)
在这里插入图片描述

第一课论文导读

1.论文研究背景、成果及意义

(1)语义分割是计算机视觉中的关键任务之一,现实中,越来越多的应用场景需要从影响中推理出相关的知识或者语义(由具体到抽象的过程)。作为计算机视觉的核心问题,语义分割对于场景理解的重要性日渐突出。
理解:把不同目标标记成不同颜色的过程。图像的语义可以理解为:图片表达的意思。
例如:图片中 一个人在骑一辆自行车 这就是语义。分割就是把图像当中所关心的对象用不同的颜色标记出来,达到分割的效果,也就是从具体到抽象的过程。
在这里插入图片描述
(2)语义分割、实例分割区别:
①不重要的东西成为背景,背景同一设置成黑色,例如在无人驾驶中,旁边的建筑物就是背景。
②在语义分割中同一种类都被分为一种颜色,而在实例分割中同种类也是不同颜色的。
全景分割:语义分割和实例分割的结合,不仅关注背景,在同种类中也要进行区分。
在这里插入图片描述
(3)语义分割的研究现状
①传统方法:归一化分割(纹理或者颜色相同进行分割)缺点是较慢需要多次进行分割,还不太准确;结构化的随机森林(很好改善噪点)缺点过拟合准确率不高慢;支持向量机
在这里插入图片描述

②深度学习卷积神经网络:FCN、SegNet、LinkNet
在这里插入图片描述
深度学习中还存在的问题:
在这里插入图片描述
(4)语义分割实现流程
训练:根据batch size大小,将数据集中的训练样本和标签读入卷积神经网络。根据实际需要,应先对训练图片及标签进行预处理,如裁剪、数据增强等。这有利于深层网络的训练,加速收敛过程,同时也避免过拟合问题并增强了模型的泛化能力。
验证:训练一个epoch结束后,将数据集中的验证样本和标签读入卷积神经网络,并载入训练权重。根据编写好的语义分割指标进行训练,得到当前训练过程中的指标分数,保存对应权重。常用一次训练一次验证的方法更好的监督模型表现。
测试:所有训练结束后,将数据集中的测试样本和标签读入卷积神经网络,并将保存的最好权重值载入模型,进行测试,测试结果分为两种,一种是根据常用指标分数衡量网络性能,另一种是将网络的预测结果以图片的形式保存下载,直观感受分割的精确程度。
FCN分割效果不算很好,但是分割的基石。
在这里插入图片描述
(5)语义分割常用数据集
在这里插入图片描述

(6)语义分割常用指标:指标越大越好
①PA像素精度:标记正确的像素占总像素的比例
②MPA均像素精度:计算每个类内被正确分类像素的比例
③MIoU均交并比:计算真实值和预测值的交集和并集
在这里插入图片描述
(7)FCN研究成果
①将分类网络改变为全卷积神经网络,具体包括全连接层转化为卷积层以及通过反卷积进行上采样。
②使用迁移学习的方法进行微调。
③使用跳跃结构使得语义信息可以和表征信息相结合,产生准确而精细的分割
④FCN证明了端到端、像素到像素训练方式下的卷积神经网络超过了现有语义分割方向最先进的技术(传统算法)。
⑤FCN成为了PASCAL VOC最出色的分割方法,较2011和2012分割算法的MIoU提高了将近20%
在这里插入图片描述

(8)FCN历史意义:
①深度学习应用在语义分割领域的开山之作
②端到端训练为后续语义分割算法的发展铺平了道路
与图分类或目标检测相比,语义分割使我们对图像有更加细致的了解。

2.论文泛读

(1)论文结构:
在这里插入图片描述
①概述卷积神经网络(大背景的概述):
Convolutional networks are powerful visual models that yield hierarchies of features.
卷积网络是强大的视觉模型,能够产生层次化的特征
②论点:
We show that convolutional networks by themselves, trained end-to-end, pixels to-pixels, exceed the state-of-the-art in semantic segmentation.
我们展示了卷积网络本身,端到端地训练,从像素到像素,超越了语义分割领域的最新技术水平。
③围绕论点采取的方法,主要的核心思想:(容纳不同尺寸的输入,得到相同尺寸的输出)
Our key insight is to build “fully convolutional” networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning.
我们的关键见解是构建“完全卷积”网络,它可以接受任意尺寸的输入,并生成相应尺寸的输出,具有高效的推断和学习能力。
④具体方法:如何实现核心思想(改变先前模型,做了迁移学习、跳跃连接)
We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations.
我们定义并详细介绍了完全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并与先前的模型进行了联系。我们将当代分类网络(如AlexNet、VGG网络和GoogLeNet)调整为完全卷积网络,并通过微调将它们学到的表示迁移到分割任务中。然后,我们定义了一个跳跃连接的架构,将来自深层次、粗糙层的语义信息与来自浅层、细致层的外观信息相结合,以生成准确且详细的分割结果。
⑤论文结果:(论文在数据集中的结果)
Our fully convolutional network achieves state of-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes less than one fifth of a second for a typical image.
我们的完全卷积网络在PASCAL VOC(相对改进20%,在2012年的平均IU达到62.2%)以及NYUDv2和SIFT Flow数据集上实现了最先进的分割效果,同时对于一张典型图像的推断时间不到五分之一秒。
在这里插入图片描述

端到端
在这里插入图片描述
分割术语:
Pixel-wise(pixels-to-pixels):像素级别。
每张图片都是由一个个pixel组成的,pixel是像素图像的基本单位。
Image-wise:图像级别 比如一张图片的标签是狗,即“狗是对整个图片的标注
Patch-wise块级别,介于像素级别和图像级别之间,每个patch都是由好多个pixel组成的
Patchwise training:针对每个感兴趣的像素,以它为中心取一个patch(小块),然后输入网络,输出则为该像素的标签。
**

3.本课回顾及下节预告

**
(1)语义分割的概念 (2)FCN取得的成果及意义 (3)FCN论文总览 (4)摘要精度
下节课:①引言及相关工作:追溯FCN的思想源头,回顾FCN出现之前的语义分割方法
②先验知识补充:根据论文第三节的顺序,补充相关知识点 ③详解算法结构:按照论文给出的逻辑细致讲解算法构成 ④实验及结论:分析实验细节,总结论文创新点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1362467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物流实时数仓:数仓搭建(DWS)一

系列文章目录 物流实时数仓:采集通道搭建 物流实时数仓:数仓搭建 物流实时数仓:数仓搭建(DIM) 物流实时数仓:数仓搭建(DWD)一 物流实时数仓:数仓搭建(DWD&am…

进阶C语言学习前序

我们前期用了二十天的时间,学习了各种函数,我们已经初步具有敲写代码的能力,但是我们想要使用C语言去学习单片机的东西还是远远不够的,那么我们就需要深入了解和掌握更加深入的C语言知识,就有了接下来的学习计划&#…

Vmware ESXI上安装的虚拟机无法开启

背景 今天看下了Vmware ESXI上安装的虚拟机,点击无反应,也无法开启,日志提示“已打开电源,无法操作”。 注意 注意查看,虚拟机无法启动提示的内容。(当前磁盘文件是否可以在存储中找到,一般是vmdk结尾的)…

Rocky9.3 安装MySQL后如何设置初始密码

Rocky9.3 安装MySQL后如何设置初始密码 启动MySQL服务查看临时密码设置新密码 启动MySQL服务 安装MySQL后需要看一下服务是否已经启动: systemctl status mysqld如果没有启动的话,需要先启动MySQL服务: systemctl start mysqld # 临时启动…

Java jSerialComm库串口通信(USB RS-485/232) 查询/应答、主动上报模式

Java jSerialComm库串口通信(USB RS-485/232) 查询/应答、主动上报模式 查询/应答模式 要在Java中通过USB RS-485接口发送和接收特定的数据帧,你需要利用适当的串行通信库。在Java中,一个常见的选择是使用RXTX或jSerialComm库。这些库允许Java应用程序与…

LabVIEW开发自动读取指针式仪表测试系统

LabVIEW开发自动读取指针式仪表测试系统 在工业领域,尤其是煤矿、变电站和集气站等环境中,指针式仪表因其简单的结构、抗干扰能力强以及能适应高温高压等恶劣环境条件而被广泛应用于设备运行状态监视。然而,传统的人工读表方式不仅成本高昂&…

Pygame和Cocos2d

Pygame和Cocos2d都是 Python 中常用的游戏引擎,但它们的设计目标、特点和使用场景略有不同。 Pygame与Cocos2d,目前是使用人数最多的两个Python游戏库。根据某知名产品点评网站的数据显示,排名前五的Python 2D游戏库如下图所示。其中&#x…

【linux踩雷】Ubuntu中su root密码无法使用

【linux踩雷】Ubuntu中su root密码无法使用 在ubuntu的安装过程中,没有出现设置root密码,以为密码为空,但是却不能使用 解决方法: 先用sudo passwd更改密码,再去su root就可以了。

python数据可视化之折线图案例讲解

学习完python基础知识点,终于来到了新的模块——数据可视化。 我理解的数据可视化是对大量的数据进行分析以更直观的形式展现出来。 今天我们用python数据可视化来实现一个2023年三大购物平台销售额比重的折线图。 准备工作:我们需要下载用于生成图表的第…

机器学习(四) -- 模型评估(3)

系列文章目录 机器学习(一) -- 概述 机器学习(二) -- 数据预处理(1-3) 机器学习(三) -- 特征工程(1-2) 机器学习(四) -- 模型评估…

稿件代写3个不可或缺的步骤让你事半功倍-华媒舍

作为一个需求频繁的作者,你可能会面临大量的稿件代写任务。但是,你是否曾经为提高文章质量而苦恼过?是否希望在有限的时间内完成更多的代写任务?本篇文章将向你介绍三个不可或缺的稿件代写步骤,帮助你事半功倍&#xf…

java预科

文章目录 预科什么是计算机?硬件及冯诺依曼结构Windows常用快捷键常用的DOS命令 预科 什么是计算机? 名称:Computer,全称电子计算机,俗称电脑。 定义:能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备…

C语言程序设计——数学运算

基本运算符 运算符说明例子赋值运算符a b;、-、*、/、()基本四则运算a (a c) * d;%取余运算符a b % 2&、^、~、l位运算a ~b l c>>、<<左移和右移a b >> 2 在c语言的数学运算中&#xff0c;所涉及到的符号如图所示&#xff0c;在使用过程中应该了…

超简单的详细教程:如何为一个GitHub开源项目做出贡献!

仓库&#xff1a;Ai-trainee/GPT-Prompts-Hub 让我们通过一个具体的例子&#xff0c;详细了解如何从克隆一个GitHub仓库开始&#xff0c;一步步地贡献到一个项目。以下是详细步骤&#xff0c;包括所需的代码和说明&#xff1a; 首先我们Fork想要贡献的项目&#xff0c;然后请看…

Vite scss 如何引入本地 字体

Vite scss 如何引入本地 字体 最近在用 Vite 改造一个旧项目 Diary&#xff0c;遇到了好多从 Vue 转到 Vite 的问题。 这次这个问题是&#xff1a; scss 里本地字体引入的问题。 一、问题描述 可以看到下面的卡片字体&#xff0c;本来应该是 impact 的&#xff0c;但现在无法…

KBDSL1.DLL文件丢失,软件或游戏无法启动,快速修复方法

在Windows操作系统中&#xff0c;KBDSL1.DLL是一个动态链接库文件&#xff0c;由Microsoft Corporation提供。通常包含多个函数和程序&#xff0c;可以被多个应用程序共享&#xff0c;以执行一些特定的任务或功能。 如果KBDSL1.DLL文件丢失或损坏&#xff0c;可能会在启动计算机…

金和OA C6 UploadFileEditorSave.aspx 任意文件上传漏洞

产品介绍 金和网络是专业信息化服务商,为城市监管部门提供了互联网监管解决方案,为企事业单位提供组织协同OA系统开发平台,电子政务一体化平台,智慧电商平台等服务。 漏洞概述 金和 OA C6 uploadfileeditorsave接口处存在任意文件上传漏洞&#xff0c;攻击者可以通过构造特殊…

vmware中ubuntu虚拟机不能够用共享文件夹

有时候发现装好虚拟机后&#xff0c;然后 虚拟机-设置-选项-共享文件夹 然后使用快捷键ctrlaltt 打开命令行&#xff0c;cd /mnt下没有看到hgfs文件夹 解决办法是安装vmware tools工具 此时想通过点击 虚拟机-安装vmwaretools工具 按钮 居然发现该按钮是灰色的&#xff0…

Note: A Woman Doctor Lina

A woman doctor Lina 女医生丽娜 Born in a pigs’ nest, Lina led a poor life in her childhood. 出生在猪圈里&#xff0c;丽娜过着贫穷的童年生活。 led nest She was looked down upon by the children of her generation. 她被她同时代的孩子瞧不起。 generation look…

Python爬虫中的协程

协程 基本概念 协程&#xff1a;当程序执行的某一个任务遇到了IO操作时&#xff08;处于阻塞状态&#xff09;&#xff0c;不让CPU切换走&#xff08;就是不让CPU去执行其他程序&#xff09;&#xff0c;而是选择性的切换到其他任务上&#xff0c;让CPU执行新的任务&#xff…