摘要
卷积网络是产生特征层次结构的强大视觉模型。我们展示了卷积网络本身,经过端到端、像素到像素的训练,超过了语义分割的最新技术水平。我们的主要见解是构建“全卷积”网络,该网络接受任意大小的输入并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并绘制了与先前模型的联系。我们将当代分类网络(AlexNet 、VGG 网络和 GoogLeNet)调整为完全卷积网络,并通过微调将它们学习到的表征转移到分割任务中。然后,我们定义了一个 skip 架构,它将来自深层、粗糙层的语义信息与来自浅层、精细层的外观信息相结合,以产生准确和详细的分割。我们的全卷积网络实现了 PASCAL VOC(2012 年平均 IU 62.2% 相对改进 20%)、NYUDv2 和 SIFT Flow 的最先进分割,而对于典型图像的推理时间不到五分之一秒。
1.引言
卷积网络正在推动识别方面的进步。 Convnets 不仅在整体图像分类 上有所改进,而且在具有结构化输出的本地任务上也取得了进展。其中包括边界框对象检测 、部分和关键点预测以及局部对应方面的进展。
从粗略推理到精细推理的自然下一步是对每个像素进行预测。先前的方法使用卷积神经网络进行语义分割 ,其中每个像素都标有其封闭对象或区域的类别,但存在这项工作解决的缺点。
我们表明,在没有进一步机器的情况下,经过端到端、像素到像素的语义分割训练的全卷积网络 (FCN) 超越了最先进的技术水平。据我们所知,这是第一项端到端训练 FCN 的工作用于像素预测和监督预训练。现有网络的完全卷积版本预测来自任意大小输入的密集输出。学习和推理都是通过密集的前馈计算和反向传播一次对整个图像执行的。网络内上采样层可以在具有子采样池的网络中进行像素级预测和学习。
这种方法在渐近和绝对上都是有效的,并且排除了其他工作中复杂化的需要。 Patchwise 训练很常见 ,但缺乏完全卷积训练的效率。我们的方法不使用预处理和后处理的复杂性,包括超像素 、提议或随机场或局部分类器的事后细化。我们的模型通过将分类网重新解释为完全卷积并根据其学习表示进行微调,将最近在分类方面取得的成功转移到密集预测。相比之下,以前的作品在没有监督预训练的情况下应用了小型卷积神经网络。
语义分割面临语义和位置之间的内在张力:全局信息解决什么,而本地信息解决哪里。深层特征层次结构在非线性局部到全局金字塔中编码位置和语义。在第 4.2 节中,我们定义了一个跳跃架构来利用这个结合了深度、粗略语义信息和浅层、精细外观信息的特征谱(见图 3)
在下一节中,我们将回顾深度分类网络、FCN 以及使用卷积网络进行语义分割的最新方法的相关工作。以下部分解释了 FCN 设计和密集预测权衡,介绍了我们具有网络内上采样和多层组合的架构,并描述了我们的实验框架。最后,我们在 PASCAL VOC 2011-2、NYUDv2 和 SIFT Flow 上展示了最先进的结果。
2.相关工作
我们的方法借鉴了深度网络最近在图像分类和迁移学习方面取得的成功。 Transfer 首先在各种视觉识别任务上进行了演示,然后在检测以及混合提议分类器模型中的实例和语义分割上进行了演示。我们现在重新构建和微调分类网络,以直接、密集地预测语义分割。我们绘制了 FCN 的空间,并将先前的模型(历史的和最近的)置于该框架中。
全卷积网络:据我们所知,将卷积扩展到任意大小的输入的想法首先出现在 Matan 等人中,它扩展了经典的 LeNet以识别数字串。因为他们的网络仅限于一维输入字符串,Matan 等人使用维特比解码来获得他们的输出。Wolf 和 Platt将卷积输出扩展为邮政地址块四个角的二维检测分数图。这两部历史著作都进行了完全卷积的推理和学习以进行检测。 Ning 等人定义了一个 卷积,用于使用完全卷积推理对秀丽隐杆线虫组织进行粗略的多类分割。
在当今的多层网络时代,全卷积计算也得到了利用。 Sermanet 等人的滑动窗口检测、Pinheiro 和 Collobert的语义分割以及 Eigen 等人 的图像恢复进行完全卷积推理。完全卷积训练很少见,但汤普森等人有效地使用它来学习端到端部件检测器和用于姿态估计的空间模型,尽管他们没有阐述或分析这种方法。
或者,He 等人丢弃分类网的非卷积部分来制作特征提取器。他们将提议和空间金字塔池结合起来,产生一个局部的、固定长度的分类特征。虽然快速有效,但这种混合模型不能端到端地学习。
使用卷积神经网络进行密集预测:最近的几项工作已将卷积神经网络应用于密集预测问题,包括 Ning 等人、Farabet 等人的语义分割,以及 Pinheiro 和 Collobert ; Ciresan 等人的电子显微镜边界预测和 Ganin 和 Lempitsky的混合卷积/最近邻模型的自然图像边界预测; Eigen 等人的图像恢复和深度估计。这些方法的共同要素包括
- 限制容量和感受野的小模型
- 补丁训练
- 通过超像素投影、随机场正则化、过滤或局部分类进行后处理
- 密集输出的输入移位和输出交错
- 多尺度金字塔处理
- 饱和tanh非线性
- 全体
而我们的方法不需要这个机器。然而,我们确实从FCNs的角度研究了patchwise训练3.4和“shift-and-stitch”密集输出3.2。我们还讨论了网内上采样3.3,其中Eigen等人的全连通预测是一个特例。与这些现有方法不同,我们适应和扩展了深度分类架构,使用图像分类作为有监督的预训练,并对全卷积进行微调,以简单有效地从整个图像输入和整个图像地通中学习。
Hariharan等人和Gupta等人同样将深度分类网络用于语义分割,但在混合提议-分类器模型中这样做。这些方法通过采样边界框和/或区域建议进行检测、语义分割和实例分割来优化R-CNN系统。这两种方法都不是端到端的学习。它们分别在PASCAL VOC和NYUDv2上实现了最先进的分割结果,因此我们直接将我们的独立端到端FCN与第5节中的语义分割结果进行比较。
我们将跨层的特征融合在一起,以定义一个非线性的局部-全局表示,然后端到端进行调优。在当代的工作中,Hariharan等也在混合模型中使用多层来进行语义分割。
3.全卷积网络
卷积网络中的每一层数据都是一个大小为 h × w × d 的三维数组,其中h和w是空间维度,d是特征维度或通道维度。第一层是图像,像素大小为 h × w,有d个颜色通道。较高层的位置对应于图像中与它们路径相连的位置,这些位置被称为它们的接受域。
卷积是建立在平移不变性上的。它们的基本组件(卷积、池化和激活函数)作用于局部输入区域,仅依赖于相对空间坐标。将 表示某一层中(i, j)位置的数据向量,将yij表示下一层,这些函数通过下面的公式计算输出
其中k称为核大小,s是步幅或子采样因子, 决定层类型:用于卷积或平均池化的矩阵乘法,用于最大池化的空间,或用于激活函数的元素非线性,等等用于其他类型的层。
该函数形式在复合下保持,核大小和步长服从变换规则:
一般的深度网络计算一般的非线性函数,而只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或全卷积网络。FCN自然地对任何大小的输入进行操作,并产生相应(可能是重新采样的)空间维度的输出。
由FCN组成的实值损失函数定义任务。如果损失函数是最后一层空间维度的和,
它的梯度将是对其每个空间分量的梯度的和。因此,在整幅图像上计算的随机梯度下降将与在' 0上计算的随机梯度下降相同,将最终层的所有接受域作为一个小批量。
当这些接受场显著重叠时,前馈计算和反向传播在整个图像上逐层计算时,而不是逐个补丁独立计算时,效率都要高得多。
接下来我们将解释如何将分类网络转换为产生粗输出映射的完全卷积网络。
对于像素级预测,我们需要将这些粗输出连接回像素。第3.2节介绍了一个用于此目的的技巧,快速扫描。我们通过将其重新解释为等效的网络修改来深入了解这个技巧。作为一种高效的替代方法,我们在3.3节中引入反褶积层进行上采样。在第3.4节中,我们考虑了通过补丁抽样进行训练,并在第4.3节中证明了我们的整个图像训练更快且同样有效。
3.1 自适应分类器进行密集预测
典型的识别网络,包括LeNet、AlexNet及其更深层的后继者,表面上接受固定大小的输入,产生非空间输出。这些网络的完全连接层具有固定的尺寸,并抛弃了空间坐标。然而,这些完全连接的层也可以被视为包含覆盖其整个输入区域的内核的卷积。这样做将它们转换为完全卷积的网络,接受任何大小的输入和输出分类映射。这个转换如图2所示。
此外,虽然所产生的映射等价于特定输入补丁上的原始网络的评估,但计算在这些补丁的重叠区域上高度摊销。例如,AlexNet需要1.2 ms(在典型的GPU上)来推断227×227图像的分类分数,而全卷积网络需要22 ms才能从500×500图像生成输出的10×10网格。
这些卷积化模型的空间输出映射使它们成为解决语义分割等密集问题的自然选择。由于每个输出单元都有ground truth可用,向前和向后的传递都是直接的,并且都利用了卷积固有的计算效率(和积极的优化)。AlexNet示例对应的反向时间对于单个图像为2.4 ms,对于完全卷积的10 × 10输出映射为37 ms,从而获得与向前传递类似的加速。
虽然我们将分类网络重新解释为完全卷积,可以为任何大小的输入生成输出映射,但输出维数通常会通过子抽样来降低。分类网络子样本,以保持过滤器小和计算要求合理。这将使这些网络的全卷积版本的输出变粗,将其从输入的大小中减少一个等于输出单元接受域的像素步幅的因子。
3.2 移位-缝合是滤镜稀疏
密集的预测可以从粗糙的输出中获得,方法是将输入的移位版本的输出拼接在一起。如果输出的采样降低了f倍,将输入的x像素向右移动,y像素向下移动,每(x, y) 0≤x, y < f一次。处理每一个 输入,并交错输出,使预测与它们的接受域中心的像素相对应。
尽管执行这种转换不会使成本增加倍,但有一个众所周知的技巧可以有效地产生相同的结果,小波界称之为àtrous算法。
考虑一个带有输入步幅s的层(卷积或池化),以及一个带有滤波器权重 的后续卷积层(省略不相关的特征维度)。将下层的输入步幅设置为1,对其输出进行s倍的上采样。然而,将原始滤波器与上采样输出进行卷积并不会产生与shift-and-stitch相同的结果,因为原始滤波器只看到其(现在是上采样)输入的减少部分。为了重现这个技巧,把滤镜放大
(i和j从零开始)。再现该技巧的全部净输出需要一层一层地重复这种滤波器放大,直到所有子采样被移除。(实际上,这可以通过处理上采样输入的下采样版本来有效地完成。)在网络中减少子采样是一种权衡:过滤器能看到更精细的信息,但接收域更小,计算时间更长。shift-and-stitch技巧是另一种折衷:输出更密集,而不减少过滤器的接收字段大小,但过滤器被禁止以比原始设计更细的规模访问信息。虽然我们已经用这个技巧做了初步的实验,但我们没有在我们的模型中使用它。我们发现,通过上采样进行学习,如下一节所述,会更加有效和高效,特别是当与后面描述的跳过层融合相结合时。
3.3 上采样是向后跨步卷积
连接粗输出到密集像素的另一种方法是插值。例如,简单的双线性插值通过只依赖于输入和输出单元的相对位置的线性映射从最近的四个输入计算每个输出
在某种意义上,带因子f的上采样是输入步幅为1/f的分数阶卷积。只要f是积分,上采样的自然方法就是输出步幅为f的反向卷积(有时也称为反卷积)。这样的操作实现起来很简单,因为它只是将卷积的正向和反向传递反向。因此,上采样在网络中进行端到端学习,从像素损失反向传播。
注意,在这样的层中的反卷积滤波器不需要固定(例如,双线性上采样),但可以学习。一堆反卷积层和激活函数甚至可以学习非线性上采样。
在我们的实验中,我们发现网络内上采样对于学习密集预测是快速有效的。我们最好的分割架构使用这些层来学习上样本,以便在第4.2节中进行细化预测。
3.4 patch - wise训练是损失抽样
在随机优化中,梯度计算是由训练分布驱动的。patch - wise训练和全卷积训练都可以产生任何分布,尽管它们的相对计算效率取决于重叠和小批量大小。全图像全卷积训练与patch - wise训练相同,其中每批由图像(或图像集合)损失以下单元的所有接受域组成。虽然这比补丁的均匀采样更有效,但它减少了可能的批次数量。然而,在图像中随机选择的补丁可以简单地恢复。将损失限制为其空间项的随机采样子集(或等效地在输出和损失之间应用DropConnect掩码)将补丁从梯度计算中排除。
如果保留的补丁仍然有显著的重叠,全卷积计算仍然可以加速训练。如果梯度是在多次向后传递中积累的,批次可以包括来自多个图像的补丁
patch - wise训练中的采样可以纠正类不平衡,缓解密集patch的空间相关性。在全卷积训练中,也可以通过加权损失来实现类平衡,并且可以使用损失采样来解决空间相关性。
我们在第4.3节中探讨了抽样训练,并没有发现它对密集预测产生更快或更好的收敛性。整体形象训练是有效和高效的。
4.分割架构
我们将ILSVRC分类器转换到FCN中,并通过网络内上采样和像素级损失增强它们进行密集预测。我们通过微调来训练细分。
接下来,我们在层之间添加跳跃,以融合粗糙的、语义的和局部的外观信息。这种跳过体系结构是端到端的学习,以细化输出的语义和空间精度。
为了这项调查,我们在PASCAL VOC 2011分割挑战上进行训练和验证。我们使用每像素多项逻辑损失进行训练,并使用平均像素交集与并集的标准度量进行验证,并对所有类别(包括背景)采用平均值。训练忽略了在基本事实中被掩盖(作为模糊或困难)的像素。
4.1 从分类器到密集FCN
我们首先将经过验证的分类架构卷积化,如第3节所示。我们考虑赢得ILSVRC12的AlexNet3架构,以及在ILSVRC14中表现异常出色的VGG nets和GoogLeNet4。我们选择了VGG 16层net5,我们发现在这个任务中它相当于19层net。对于GoogLeNet,我们只使用最终的损失层,并通过丢弃最终的平均池化层来提高性能。我们通过丢弃最终的分类器层来斩首每个网络,并将所有完全连接的层转换为卷积。我们附加通道维数为21的1 × 1卷积,以预测每个粗输出位置的每个PASCAL类(包括背景)的分数,然后使用反卷积层对粗输出进行双线性上采样,以像素密度输出,如3.3节所述。表1比较了初步验证结果以及每个网络的基本特征。我们报告了在固定学习率(至少175个epoch)收敛后取得的最佳结果。
从分类到分割的微调为每个网络提供了合理的预测。即使是最糟糕的模型也能达到最先进性能的75%。配备分段的VGG网(FCN-VGG16)在val上的平均IU为56.0,相比之下,测试的平均IU为52.6,已经是最先进的。在额外数据的训练下,在val7的子集上,FCN-VGG16的平均IU提高到59.4,FCN-AlexNet的平均IU提高到48.0。尽管分类精度相似,但我们的GoogLeNet实现与VGG16分割结果不匹配。
4.2 结合什么、从哪结合
我们定义了一种新的全卷积网络(FCN)用于分割,它结合了特征层次结构的层,并细化了输出的空间精度。参见图3。
虽然完全卷积化的分类器可以如4.1所示进行微调以分割,甚至在标准度量上获得很高的分数,但它们的输出是令人不满意的粗糙(见图4)。最终预测层的32像素步长限制了上采样输出中的细节尺度。我们通过添加跳跃来解决这个问题,它将最终的预测层与较低的具有更细跨步的层结合在一起。这将线拓扑结构转变为DAG,其边从较低的层跳到较高的层(图3)。由于它们看到的像素更少,更精细的规模预测应该需要更少的层,因此从较浅的净输出生成它们是有意义的。将细层和粗层结合起来,可以使模型在尊重全局结构的情况下进行局部预测。通过类比Koenderick和van Doorn的喷流,我们称我们的非线性特征层次为深喷流。我们首先通过从16像素的步幅层中预测,将输出步幅分成两半。我们在pool4之上添加1 × 1卷积层,以产生额外的类预测。我们在步幅32处,通过添加2×上采样层和相加6两个预测(见图3),将这个输出与conv7(卷积化fc7)上计算的预测融合在一起。我们将2×上采样初始化为双线性插值,但允许参数如3.3节所述学习。最后,步幅预测被上采样回到图像中。我们称之为fcn -16。FCN-16s是端到端学习的,用最后一个粗网络的参数初始化,我们现在称之为FCN-32s。作用于pool4的新参数是零初始化的,因此网络从未修改的预测开始。学习率降低了100倍。学习这个跳跃网提高了在验证集上的表现,平均IU为3.0到62.4。图4显示了输出精细结构的改进。我们将这种融合与仅从pool4层学习进行了比较,这导致了较差的性能,并简单地降低了学习率而不添加跳过,这导致了微不足道的性能改进而没有提高输出质量。我们继续采用这种方式,将来自pool3的预测与来自pool4和conv7的2倍上采样预测融合在一起,构建净fcn -8。我们获得了一个微小的额外改善,平均IU为62.7,并发现我们的输出的平滑性和细节略有改善。在这一点上,我们的融合改进已经遇到了收益递减的情况,无论是在强调大规模正确性的IU度量方面,还是在可见的改进方面,例如图4,所以我们不再继续融合更低的层。减少池化层的步幅是获得更精细预测的最直接的方法。然而,这样做对于我们基于vgg16的网络来说是有问题的。将pool5 stride设置为1需要卷积化fc6的内核大小为14 × 14,以保持其接受字段大小。除了计算成本,我们很难学习如此大的过滤器。我们尝试用更小的过滤器重新架构pool5之上的层,但没有达到类似的性能;一种可能的解释是上层的ILSVRC初始化很重要。获得更精确预测的另一种方法是使用3.2节中描述的移位-缝合技巧。在有限的实验中,我们发现这种方法的成本改进比比层融合更差。
4.3 实验框架
优化 我们用动力SGD训练。我们分别对FCN-AlexNet、FCN-VGG16和FCN-GoogLeNet使用20张图像的小批量大小和 、 和 的固定学习率,通过直线搜索选择。我们使用动量0.9,权重衰减为或,并将偏差的学习率提高了一倍,尽管我们发现训练只对学习率敏感。我们零初始化类评分层,因为随机初始化既不会产生更好的性能,也不会产生更快的收敛。Dropout包括在原始分类器网络中使用的地方。
模型微调 我们通过整个网络的反向传播来微调所有层。如表2所示,单独对输出分类器进行微调只能获得70%的完整微调性能。考虑到学习基本分类网络所需的时间,从零开始训练是不可行的。(请注意,VGG网络是分阶段训练的,而我们是从完整的16层版本初始化的)对于粗糙的FCN-32s版本,在单个GPU上进行微调需要三天时间,升级到FCN-16s和FCN-8s版本需要大约一天时间。PASCAL VOC 2011分割训练集标签1112张图像。Hariharan等人为一组更大的8498 PASCAL训练图像收集标签,用于训练之前的最先进的系统SDS。这些训练数据将FCNVGG16验证评分提高了3.4分,平均IU为59.4分。
抽样 正如3.4节所解释的,我们的完整图像训练有效地将每个图像分批到一个规则的大而重叠的补丁网格中。相比之下,先前的工作在完整数据集上随机采样补丁,可能会导致更高的方差批次,可能会加速收敛。我们通过以前面描述的方式对损失进行空间采样来研究这种权衡,并以1 - p的概率独立选择忽略每个最终层细胞。为了避免改变有效批大小,我们同时将每批图像的数量增加1/p。请注意,由于卷积的效率,对于足够大的p值(例如,根据3.1节中的数字,至少对于p > 0.2),这种形式的拒绝采样仍然比patch - wise训练更快。图5显示了这种抽样形式对收敛性的影响。我们发现,与整幅图像训练相比,采样对收敛速度没有显著影响,但由于每批需要考虑的图像数量更多,因此需要花费更多的时间。因此,我们在其他实验中选择了未采样的全图像训练。
类平衡 全卷积训练可以通过加权或采样损失来平衡类。虽然我们的标签有点不平衡(大约3/4是背景),但我们发现类平衡是不必要的。
密集的预测 通过网络内的反褶积层将分数上采样到输入维度。最后一层反卷积滤波器固定为双线性插值,中间上采样层初始化为双线性上采样,然后进行学习。我们尝试通过在每个方向上将图像翻译到32像素(最粗略的预测尺度)来随机镜像和“抖动”图像来增强训练数据。这并没有带来明显的改善。所有模型都使用Caffe在一台NVIDIA Tesla K40c上进行训练和测试。我们的模型和代码可以在http://fcn.berkeleyvision.org上公开获取。
5.结果
我们测试了我们的FCN的语义分割和场景解析,探索PASCAL VOC, NYUDv2和SIFT Flow。尽管这些任务在历史上区分了对象和区域,但我们将两者统一视为像素预测。我们在每个数据集上评估了我们的FCN跳过架构,然后将其扩展到NYUDv2的多模态输入和SIFT Flow的语义和几何标签的多任务预测。
度量 我们报告了来自常见语义分割和场景解析评估的四个指标,即像素精度和区域交集超过联合(IU)的变化。设 为类 i 预测属于类 j 的像素数,其中有 个不同的类,设 = 为类 i 的像素总数。我们计算:
PASCAL VOC 表3给出了我们的fcn -8在PASCAL VOC 2011和2012测试集上的性能,并将其与之前最先进的SDS[15]和著名的R-CNN进行了比较。我们在平均IU8上取得了相对20%的最佳结果。推理时间减少了114×(仅卷积,忽略建议和细化)或286×(总体)。
NYUDv2 NYUDv2是一个RGB-D数据集。它有1449张RGB-D图像,具有像素级标签,由Gupta等人合并成40类语义分割任务。我们报告了795张训练图像和654张测试图像的标准分割结果。(注意:所有的模型选择都是在PASCAL 2011 val上执行的。)表4给出了我们的模型在几种变化下的性能。首先,我们在RGB图像上训练未修改的粗模型(FCN-32s)。为了增加深度信息,我们在一个升级为四通道RGB-D输入(早期融合)的模型上进行训练。这提供了很少的好处,可能是由于在整个模型中传播有意义的梯度很困难。继Gupta等人的成功之后,我们尝试了深度的三维HHA编码,仅在此信息上训练网络,以及RGB和HHA的“后期融合”,其中来自两个网络的预测在最后一层进行汇总,并端到端学习由此产生的双流网络。最后,我们将这个后期融合网升级为16步版本。
SIFT Flow是一个包含2,688张图像的数据集,其中包含33个语义类别(“桥”、“山”、“太阳”)以及三个几何类别(“水平”、“垂直”和“天空”)的像素标签。FCN自然可以学习同时预测两种类型标签的联合表示。我们学习了带有语义和几何预测层和损失的双头版本的FCN-16s。学习模型在这两项任务上的表现与两个独立训练的模型一样好,而学习和推理基本上与每个独立模型本身一样快。表5中的结果是在标准分割为2488个训练图像和200个测试图像的基础上计算得出的,显示了两项任务的最先进性能。
6.结论
全卷积网络是一类丰富的模型,现代分类卷积网络是其中的一个特例。认识到这一点,扩展这些分类net到分割,并通过多分辨率层组合改进架构,极大地提高了最先进的技术,同时简化和加速了学习和推理。