目录
- 前言
- 一.FCN网络
- 二.网络创新点
前言
在图像分割领域,有很多经典的网络,如MASK R-CNN
,U-Net
,SegNet
,DeepLab
等网络都是以FCN
为基础进行设计的。我们这里简单介绍一下这个网络。
一.FCN网络
FCN网络介绍
FCN
即全卷积网络,是收割端对端的针对像素级预测的端对端的全卷积网络。这里全卷积的意思就是将分类网络的全连接层给换成了卷积层。FCN
简单有效,目前很多网络的架构还是建立在FCN
之上。
看下FCN网络的整体框架:
通过上面这幅图可以看出,FCN
也是非常的简单的,就是通过一些列的卷积下采样得到最后的特征层。最后输出channel
是21,是因为当时主要是使用的数据集是pascal voc
数据集,总共20
个类别,加上背景总共21
。对着21
个值进行softmax
处理就能得到该像素针对每个类类别的预测概率,取该像素最大的那个类别作为预测类别。
我们来看下论文中提到的convolutionalization
,如下图所示:
上面一部分是使用功能全连接层得到最终的维度为1000
的向量,全连接层有个弊端,输入图像的大小必须是固定的,这样就很不友好,于是作者想能不能把全连接层全部替换成卷积层,于是就出现了下面的结构。输入图像的大小可以是任意的。 那么最后的输出就不是一个一维向量了,就变成了(m,n,c)
,对应每个channel
就是一个2D
的数据,可以可视化成一个heatmap
图。
下面我们来看下convolutionalization
的过程:
上面是全连接层,下面是把去全连接层替换成了卷积层。其中,全连接层的计算量和卷积的计算量分别为:全连接是
25088
×
4096
=
102760448
25088\times4096=102760448
25088×4096=102760448,卷积的计算量是
7
×
7
×
512
×
4096
=
102760448
7\times7\times512\times4096=102760448
7×7×512×4096=102760448。可以看到他们的计算量是一模一样的。可以这样理解,把全连接的权重可以reshape
一下就是下面的卷积核。
FCN
中总共给了三个模型,分别是FCN-32s,16s,8s,
这个数字表示需要把最后的特征层上采样几倍能够恢复到原图尺寸大小,整个网络以VGG
为骨干,后面全连接改成卷积层,看两个例子:
二.网络创新点
FCN
(Fully Convolutional Network
)网络将传统的全连接层替换为全卷积层,从而使得网络可以输入任意大小的图像并输出对应大小的密集预测。这种创新使得FCN
网络可以用于像分割、检测、定位等密集预测任务,而不需要事先对输入图像进行裁剪或调整大小。FCN网络还利用了反卷积层(deconvolutional layer)将特征图映射回原始输入图像上,从而生成像素级别的密集预测结果。
此外,FCN
网络还引入了跳跃式连接(skip connections
)的思想,将底层和中间层的特征图与上采样后的特征图进行连接,从而提高网络对局部细节和全局语义的把握能力。这种连接方式类似于U-Net
网络中的跨层连接,但FCN
网络的跳跃式连接是在全卷积网络中引入的一种新思想。通过这种方式,FCN
网络可以在保留高分辨率信息的同时,充分利用底层特征提取器的语义信息,从而提高了分割精度。
总结:
FCN
网络的创新点主要体现在两个方面:全卷积层的应用和跳跃式连接的设计。这些创新使得FCN
网络成为了当今计算机视觉领域中最重要的分割网络之一,为其他密集预测任务的研究和应用提供了重要的启示。