论文笔记:Fully Convolutional Networks for Semantic Segmentation

news2025/1/21 5:49:42

摘要

卷积网络是产生特征层次结构的强大视觉模型。我们展示了卷积网络本身,经过端到端、像素到像素的训练,超过了语义分割的最新技术水平。我们的主要见解是构建“全卷积”网络,该网络接受任意大小的输入并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并绘制了与先前模型的联系。我们将当代分类网络(AlexNet 、VGG 网络和 GoogLeNet)调整为完全卷积网络,并通过微调将它们学习到的表征转移到分割任务中。然后,我们定义了一个 skip 架构,它将来自深层、粗糙层的语义信息与来自浅层、精细层的外观信息相结合,以产生准确和详细的分割。我们的全卷积网络实现了 PASCAL VOC(2012 年平均 IU 62.2% 相对改进 20%)、NYUDv2 和 SIFT Flow 的最先进分割,而对于典型图像的推理时间不到五分之一秒。

1.引言

卷积网络正在推动识别方面的进步。 Convnets 不仅在整体图像分类 上有所改进,而且在具有结构化输出的本地任务上也取得了进展。其中包括边界框对象检测 、部分和关键点预测以及局部对应方面的进展。

从粗略推理到精细推理的自然下一步是对每个像素进行预测。先前的方法使用卷积神经网络进行语义分割 ,其中每个像素都标有其封闭对象或区域的类别,但存在这项工作解决的缺点。

我们表明,在没有进一步机器的情况下,经过端到端、像素到像素的语义分割训练的全卷积网络 (FCN) 超越了最先进的技术水平。据我们所知,这是第一项端到端训练 FCN 的工作用于像素预测和监督预训练。现有网络的完全卷积版本预测来自任意大小输入的密集输出。学习和推理都是通过密集的前馈计算和反向传播一次对整个图像执行的。网络内上采样层可以在具有子采样池的网络中进行像素级预测和学习。

图1
全卷积网络可以有效地学习对语义分割等逐像素任务进行密集预测。

 

这种方法在渐近和绝对上都是有效的,并且排除了其他工作中复杂化的需要。 Patchwise 训练很常见 ,但缺乏完全卷积训练的效率。我们的方法不使用预处理和后处理的复杂性,包括超像素 、提议或随机场或局部分类器的事后细化。我们的模型通过将分类网重新解释为完全卷积并根据其学习表示进行微调,将最近在分类方面取得的成功转移到密集预测。相比之下,以前的作品在没有监督预训练的情况下应用了小型卷积神经网络。

语义分割面临语义和位置之间的内在张力:全局信息解决什么,而本地信息解决哪里。深层特征层次结构在非线性局部到全局金字塔中编码位置和语义。在第 4.2 节中,我们定义了一个跳跃架构来利用这个结合了深度、粗略语义信息和浅层、精细外观信息的特征谱(见图 3)

在下一节中,我们将回顾深度分类网络、FCN 以及使用卷积网络进行语义分割的最新方法的相关工作。以下部分解释了 FCN 设计和密集预测权衡,介绍了我们具有网络内上采样和多层组合的架构,并描述了我们的实验框架。最后,我们在 PASCAL VOC 2011-2、NYUDv2 和 SIFT Flow 上展示了最先进的结果。

2.相关工作

我们的方法借鉴了深度网络最近在图像分类和迁移学习方面取得的成功。 Transfer 首先在各种视觉识别任务上进行了演示,然后在检测以及混合提议分类器模型中的实例和语义分割上进行了演示。我们现在重新构建和微调分类网络,以直接、密集地预测语义分割。我们绘制了 FCN 的空间,并将先前的模型(历史的和最近的)置于该框架中。

全卷积网络:据我们所知,将卷积扩展到任意大小的输入的想法首先出现在 Matan 等人中,它扩展了经典的 LeNet以识别数字串。因为他们的网络仅限于一维输入字符串,Matan 等人使用维特比解码来获得他们的输出。Wolf 和 Platt将卷积输出扩展为邮政地址块四个角的二维检测分数图。这两部历史著作都进行了完全卷积的推理和学习以进行检测。 Ning 等人定义了一个 卷积,用于使用完全卷积推理对秀丽隐杆线虫组织进行粗略的多类分割。

在当今的多层网络时代,全卷积计算也得到了利用。 Sermanet 等人的滑动窗口检测、Pinheiro 和 Collobert的语义分割以及 Eigen 等人 的图像恢复进行完全卷积推理。完全卷积训练很少见,但汤普森等人有效地使用它来学习端到端部件检测器和用于姿态估计的空间模型,尽管他们没有阐述或分析这种方法。

或者,He 等人丢弃分类网的非卷积部分来制作特征提取器。他们将提议和空间金字塔池结合起来,产生一个局部的、固定长度的分类特征。虽然快速有效,但这种混合模型不能端到端地学习。

使用卷积神经网络进行密集预测:最近的几项工作已将卷积神经网络应用于密集预测问题,包括 Ning 等人、Farabet 等人的语义分割,以及 Pinheiro 和 Collobert ; Ciresan 等人的电子显微镜边界预测和 Ganin 和 Lempitsky的混合卷积/最近邻模型的自然图像边界预测; Eigen 等人的图像恢复和深度估计。这些方法的共同要素包括

  • 限制容量和感受野的小模型
  • 补丁训练
  • 通过超像素投影、随机场正则化、过滤或局部分类进行后处理
  • 密集输出的输入移位和输出交错
  • 多尺度金字塔处理
  • 饱和tanh非线性
  • 全体

而我们的方法不需要这个机器。然而,我们确实从FCNs的角度研究了patchwise训练3.4和“shift-and-stitch”密集输出3.2。我们还讨论了网内上采样3.3,其中Eigen等人的全连通预测是一个特例。与这些现有方法不同,我们适应和扩展了深度分类架构,使用图像分类作为有监督的预训练,并对全卷积进行微调,以简单有效地从整个图像输入和整个图像地通中学习。

Hariharan等人和Gupta等人同样将深度分类网络用于语义分割,但在混合提议-分类器模型中这样做。这些方法通过采样边界框和/或区域建议进行检测、语义分割和实例分割来优化R-CNN系统。这两种方法都不是端到端的学习。它们分别在PASCAL VOC和NYUDv2上实现了最先进的分割结果,因此我们直接将我们的独立端到端FCN与第5节中的语义分割结果进行比较。

我们将跨层的特征融合在一起,以定义一个非线性的局部-全局表示,然后端到端进行调优。在当代的工作中,Hariharan等也在混合模型中使用多层来进行语义分割。

3.全卷积网络

卷积网络中的每一层数据都是一个大小为 h × w × d 的三维数组,其中h和w是空间维度,d是特征维度或通道维度。第一层是图像,像素大小为 h × w,有d个颜色通道。较高层的位置对应于图像中与它们路径相连的位置,这些位置被称为它们的接受域。

卷积是建立在平移不变性上的。它们的基本组件(卷积、池化和激活函数)作用于局部输入区域,仅依赖于相对空间坐标。将 \large x_{ij} 表示某一层中(i, j)位置的数据向量,将yij表示下一层,这些函数通过下面的公式计算输出\large y_{ij}

 其中k称为核大小,s是步幅或子采样因子,\large f_{ks} 决定层类型:用于卷积或平均池化的矩阵乘法,用于最大池化的空间,或用于激活函数的元素非线性,等等用于其他类型的层。

 该函数形式在复合下保持,核大小和步长服从变换规则:

 一般的深度网络计算一般的非线性函数,而只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或全卷积网络。FCN自然地对任何大小的输入进行操作,并产生相应(可能是重新采样的)空间维度的输出。

由FCN组成的实值损失函数定义任务。如果损失函数是最后一层空间维度的和,

它的梯度将是对其每个空间分量的梯度的和。因此,在整幅图像上计算的随机梯度下降将与在' 0上计算的随机梯度下降相同,将最终层的所有接受域作为一个小批量。

当这些接受场显著重叠时,前馈计算和反向传播在整个图像上逐层计算时,而不是逐个补丁独立计算时,效率都要高得多。

接下来我们将解释如何将分类网络转换为产生粗输出映射的完全卷积网络。

对于像素级预测,我们需要将这些粗输出连接回像素。第3.2节介绍了一个用于此目的的技巧,快速扫描。我们通过将其重新解释为等效的网络修改来深入了解这个技巧。作为一种高效的替代方法,我们在3.3节中引入反褶积层进行上采样。在第3.4节中,我们考虑了通过补丁抽样进行训练,并在第4.3节中证明了我们的整个图像训练更快且同样有效。

3.1 自适应分类器进行密集预测

 典型的识别网络,包括LeNet、AlexNet及其更深层的后继者,表面上接受固定大小的输入,产生非空间输出。这些网络的完全连接层具有固定的尺寸,并抛弃了空间坐标。然而,这些完全连接的层也可以被视为包含覆盖其整个输入区域的内核的卷积。这样做将它们转换为完全卷积的网络,接受任何大小的输入和输出分类映射。这个转换如图2所示。

图二
将全连接层转换为卷积层可以使分类网络输出热图。添加层和空间损失(如图1所示)可以生成端到端密集学习的高效机器

 此外,虽然所产生的映射等价于特定输入补丁上的原始网络的评估,但计算在这些补丁的重叠区域上高度摊销。例如,AlexNet需要1.2 ms(在典型的GPU上)来推断227×227图像的分类分数,而全卷积网络需要22 ms才能从500×500图像生成输出的10×10网格。

这些卷积化模型的空间输出映射使它们成为解决语义分割等密集问题的自然选择。由于每个输出单元都有ground truth可用,向前和向后的传递都是直接的,并且都利用了卷积固有的计算效率(和积极的优化)。AlexNet示例对应的反向时间对于单个图像为2.4 ms,对于完全卷积的10 × 10输出映射为37 ms,从而获得与向前传递类似的加速。

虽然我们将分类网络重新解释为完全卷积,可以为任何大小的输入生成输出映射,但输出维数通常会通过子抽样来降低。分类网络子样本,以保持过滤器小和计算要求合理。这将使这些网络的全卷积版本的输出变粗,将其从输入的大小中减少一个等于输出单元接受域的像素步幅的因子。

3.2 移位-缝合是滤镜稀疏

密集的预测可以从粗糙的输出中获得,方法是将输入的移位版本的输出拼接在一起。如果输出的采样降低了f倍,将输入的x像素向右移动,y像素向下移动,每(x, y)   0≤x, y < f一次。处理每一个 \large f^{2}输入,并交错输出,使预测与它们的接受域中心的像素相对应。

尽管执行这种转换不会使成本增加\large f^{2}倍,但有一个众所周知的技巧可以有效地产生相同的结果,小波界称之为àtrous算法。

考虑一个带有输入步幅s的层(卷积或池化),以及一个带有滤波器权重 \large f_{ij} 的后续卷积层(省略不相关的特征维度)。将下层的输入步幅设置为1,对其输出进行s倍的上采样。然而,将原始滤波器与上采样输出进行卷积并不会产生与shift-and-stitch相同的结果,因为原始滤波器只看到其(现在是上采样)输入的减少部分。为了重现这个技巧,把滤镜放大

(i和j从零开始)。再现该技巧的全部净输出需要一层一层地重复这种滤波器放大,直到所有子采样被移除。(实际上,这可以通过处理上采样输入的下采样版本来有效地完成。)在网络中减少子采样是一种权衡:过滤器能看到更精细的信息,但接收域更小,计算时间更长。shift-and-stitch技巧是另一种折衷:输出更密集,而不减少过滤器的接收字段大小,但过滤器被禁止以比原始设计更细的规模访问信息。虽然我们已经用这个技巧做了初步的实验,但我们没有在我们的模型中使用它。我们发现,通过上采样进行学习,如下一节所述,会更加有效和高效,特别是当与后面描述的跳过层融合相结合时。

3.3 上采样是向后跨步卷积

 连接粗输出到密集像素的另一种方法是插值。例如,简单的双线性插值通过只依赖于输入和输出单元的相对位置的线性映射从最近的四个输入计算每个输出 \large y_{ij}

在某种意义上,带因子f的上采样是输入步幅为1/f的分数阶卷积。只要f是积分,上采样的自然方法就是输出步幅为f的反向卷积(有时也称为反卷积)。这样的操作实现起来很简单,因为它只是将卷积的正向和反向传递反向。因此,上采样在网络中进行端到端学习,从像素损失反向传播。

注意,在这样的层中的反卷积滤波器不需要固定(例如,双线性上采样),但可以学习。一堆反卷积层和激活函数甚至可以学习非线性上采样。

在我们的实验中,我们发现网络内上采样对于学习密集预测是快速有效的。我们最好的分割架构使用这些层来学习上样本,以便在第4.2节中进行细化预测。

3.4 patch - wise训练是损失抽样

在随机优化中,梯度计算是由训练分布驱动的。patch - wise训练和全卷积训练都可以产生任何分布,尽管它们的相对计算效率取决于重叠和小批量大小。全图像全卷积训练与patch - wise训练相同,其中每批由图像(或图像集合)损失以下单元的所有接受域组成。虽然这比补丁的均匀采样更有效,但它减少了可能的批次数量。然而,在图像中随机选择的补丁可以简单地恢复。将损失限制为其空间项的随机采样子集(或等效地在输出和损失之间应用DropConnect掩码)将补丁从梯度计算中排除。

如果保留的补丁仍然有显著的重叠,全卷积计算仍然可以加速训练。如果梯度是在多次向后传递中积累的,批次可以包括来自多个图像的补丁

patch - wise训练中的采样可以纠正类不平衡,缓解密集patch的空间相关性。在全卷积训练中,也可以通过加权损失来实现类平衡,并且可以使用损失采样来解决空间相关性。

我们在第4.3节中探讨了抽样训练,并没有发现它对密集预测产生更快或更好的收敛性。整体形象训练是有效和高效的。

4.分割架构

我们将ILSVRC分类器转换到FCN中,并通过网络内上采样和像素级损失增强它们进行密集预测。我们通过微调来训练细分。

接下来,我们在层之间添加跳跃,以融合粗糙的、语义的和局部的外观信息。这种跳过体系结构是端到端的学习,以细化输出的语义和空间精度。

为了这项调查,我们在PASCAL VOC 2011分割挑战上进行训练和验证。我们使用每像素多项逻辑损失进行训练,并使用平均像素交集与并集的标准度量进行验证,并对所有类别(包括背景)采用平均值。训练忽略了在基本事实中被掩盖(作为模糊或困难)的像素。

4.1 从分类器到密集FCN

我们首先将经过验证的分类架构卷积化,如第3节所示。我们考虑赢得ILSVRC12的AlexNet3架构,以及在ILSVRC14中表现异常出色的VGG nets和GoogLeNet4。我们选择了VGG 16层net5,我们发现在这个任务中它相当于19层net。对于GoogLeNet,我们只使用最终的损失层,并通过丢弃最终的平均池化层来提高性能。我们通过丢弃最终的分类器层来斩首每个网络,并将所有完全连接的层转换为卷积。我们附加通道维数为21的1 × 1卷积,以预测每个粗输出位置的每个PASCAL类(包括背景)的分数,然后使用反卷积层对粗输出进行双线性上采样,以像素密度输出,如3.3节所述。表1比较了初步验证结果以及每个网络的基本特征。我们报告了在固定学习率(至少175个epoch)收敛后取得的最佳结果。

从分类到分割的微调为每个网络提供了合理的预测。即使是最糟糕的模型也能达到最先进性能的75%。配备分段的VGG网(FCN-VGG16)在val上的平均IU为56.0,相比之下,测试的平均IU为52.6,已经是最先进的。在额外数据的训练下,在val7的子集上,FCN-VGG16的平均IU提高到59.4,FCN-AlexNet的平均IU提高到48.0。尽管分类精度相似,但我们的GoogLeNet实现与VGG16分割结果不匹配。

表1
我们对三个分类卷积进行了改编和扩展。我们通过PASCAL VOC 2011验证集上的平均交集和并集来比较性能,并通过推理时间(NVIDIA Tesla K40c上500 × 500输入的平均超过20次试验)。
我们详细描述了关于密集预测的适应网络的架构:参数层的数量,输出单元的接受域大小,以及网络中最粗的步长。(这些数字给出了在固定学习率下获得的最佳性能,而不是可能的最佳性能。)

 

4.2 结合什么、从哪结合

我们定义了一种新的全卷积网络(FCN)用于分割,它结合了特征层次结构的层,并细化了输出的空间精度。参见图3。

图3
我们的DAG网络学会了将粗的、高层次的信息与细的、低层的信息结合起来。池化和预测层显示为显示相对空间粗糙的网格,而中间层显示为垂直线。第一行(FCN-32s):我们的单流网络,在第4.1节中描述,上采样在一个步骤中将32个预测跨回像素。第二行(FCN-16s):结合最后一层和pool4层的预测,在步幅16处,让我们的网络预测更精细的细节,同时保留高级语义信息。第三行(FCN-8s):在步幅8处,来自pool3的额外预测提供了进一步的精度。

 

虽然完全卷积化的分类器可以如4.1所示进行微调以分割,甚至在标准度量上获得很高的分数,但它们的输出是令人不满意的粗糙(见图4)。最终预测层的32像素步长限制了上采样输出中的细节尺度。我们通过添加跳跃来解决这个问题,它将最终的预测层与较低的具有更细跨步的层结合在一起。这将线拓扑结构转变为DAG,其边从较低的层跳到较高的层(图3)。由于它们看到的像素更少,更精细的规模预测应该需要更少的层,因此从较浅的净输出生成它们是有意义的。将细层和粗层结合起来,可以使模型在尊重全局结构的情况下进行局部预测。通过类比Koenderick和van Doorn的喷流,我们称我们的非线性特征层次为深喷流。我们首先通过从16像素的步幅层中预测,将输出步幅分成两半。我们在pool4之上添加1 × 1卷积层,以产生额外的类预测。我们在步幅32处,通过添加2×上采样层和相加6两个预测(见图3),将这个输出与conv7(卷积化fc7)上计算的预测融合在一起。我们将2×上采样初始化为双线性插值,但允许参数如3.3节所述学习。最后,步幅预测被上采样回到图像中。我们称之为fcn -16。FCN-16s是端到端学习的,用最后一个粗网络的参数初始化,我们现在称之为FCN-32s。作用于pool4的新参数是零初始化的,因此网络从未修改的预测开始。学习率降低了100倍。学习这个跳跃网提高了在验证集上的表现,平均IU为3.0到62.4。图4显示了输出精细结构的改进。我们将这种融合与仅从pool4层学习进行了比较,这导致了较差的性能,并简单地降低了学习率而不添加跳过,这导致了微不足道的性能改进而没有提高输出质量。我们继续采用这种方式,将来自pool3的预测与来自pool4和conv7的2倍上采样预测融合在一起,构建净fcn -8。我们获得了一个微小的额外改善,平均IU为62.7,并发现我们的输出的平滑性和细节略有改善。在这一点上,我们的融合改进已经遇到了收益递减的情况,无论是在强调大规模正确性的IU度量方面,还是在可见的改进方面,例如图4,所以我们不再继续融合更低的层。减少池化层的步幅是获得更精细预测的最直接的方法。然而,这样做对于我们基于vgg16的网络来说是有问题的。将pool5 stride设置为1需要卷积化fc6的内核大小为14 × 14,以保持其接受字段大小。除了计算成本,我们很难学习如此大的过滤器。我们尝试用更小的过滤器重新架构pool5之上的层,但没有达到类似的性能;一种可能的解释是上层的ILSVRC初始化很重要。获得更精确预测的另一种方法是使用3.2节中描述的移位-缝合技巧。在有限的实验中,我们发现这种方法的成本改进比比层融合更差。

图4

通过融合来自不同跨距的层的信息来精炼完全卷积网络,提高了分割细节。
前三张图像显示了32、16和8像素步幅网的输出(参见图3)。

 4.3 实验框架

优化 我们用动力SGD训练。我们分别对FCN-AlexNet、FCN-VGG16和FCN-GoogLeNet使用20张图像的小批量大小和 10^{^{-3}}10^{-4} 和  5^{-5} 的固定学习率,通过直线搜索选择。我们使用动量0.9,权重衰减为5^{-4}2^{-4},并将偏差的学习率提高了一倍,尽管我们发现训练只对学习率敏感。我们零初始化类评分层,因为随机初始化既不会产生更好的性能,也不会产生更快的收敛。Dropout包括在原始分类器网络中使用的地方。

模型微调  我们通过整个网络的反向传播来微调所有层。如表2所示,单独对输出分类器进行微调只能获得70%的完整微调性能。考虑到学习基本分类网络所需的时间,从零开始训练是不可行的。(请注意,VGG网络是分阶段训练的,而我们是从完整的16层版本初始化的)对于粗糙的FCN-32s版本,在单个GPU上进行微调需要三天时间,升级到FCN-16s和FCN-8s版本需要大约一天时间。PASCAL VOC 2011分割训练集标签1112张图像。Hariharan等人为一组更大的8498 PASCAL训练图像收集标签,用于训练之前的最先进的系统SDS。这些训练数据将FCNVGG16验证评分提高了3.4分,平均IU为59.4分。

抽样 正如3.4节所解释的,我们的完整图像训练有效地将每个图像分批到一个规则的大而重叠的补丁网格中。相比之下,先前的工作在完整数据集上随机采样补丁,可能会导致更高的方差批次,可能会加速收敛。我们通过以前面描述的方式对损失进行空间采样来研究这种权衡,并以1 - p的概率独立选择忽略每个最终层细胞。为了避免改变有效批大小,我们同时将每批图像的数量增加1/p。请注意,由于卷积的效率,对于足够大的p值(例如,根据3.1节中的数字,至少对于p > 0.2),这种形式的拒绝采样仍然比patch - wise训练更快。图5显示了这种抽样形式对收敛性的影响。我们发现,与整幅图像训练相比,采样对收敛速度没有显著影响,但由于每批需要考虑的图像数量更多,因此需要花费更多的时间。因此,我们在其他实验中选择了未采样的全图像训练。

图 5
在整个图像上进行训练和采样补丁一样有效,但通过更有效地使用数据,可以更快地收敛(壁时间)。左图显示了在固定的预期批量大小下采样对收敛速度的影响,而右图则是相对壁时间的影响。

 

类平衡 全卷积训练可以通过加权或采样损失来平衡类。虽然我们的标签有点不平衡(大约3/4是背景),但我们发现类平衡是不必要的。

密集的预测 通过网络内的反褶积层将分数上采样到输入维度。最后一层反卷积滤波器固定为双线性插值,中间上采样层初始化为双线性上采样,然后进行学习。我们尝试通过在每个方向上将图像翻译到32像素(最粗略的预测尺度)来随机镜像和“抖动”图像来增强训练数据。这并没有带来明显的改善。所有模型都使用Caffe在一台NVIDIA Tesla K40c上进行训练和测试。我们的模型和代码可以在http://fcn.berkeleyvision.org上公开获取。

5.结果

我们测试了我们的FCN的语义分割和场景解析,探索PASCAL VOC, NYUDv2和SIFT Flow。尽管这些任务在历史上区分了对象和区域,但我们将两者统一视为像素预测。我们在每个数据集上评估了我们的FCN跳过架构,然后将其扩展到NYUDv2的多模态输入和SIFT Flow的语义和几何标签的多任务预测。

 度量 我们报告了来自常见语义分割和场景解析评估的四个指标,即像素精度和区域交集超过联合(IU)的变化。设 n_{ij} 为类 i 预测属于类 j 的像素数,其中有 n_{cl} 个不同的类,设 t_{i} =\sum_{j}^{}n_{ij} 为类 i 的像素总数。我们计算:

PASCAL VOC  表3给出了我们的fcn -8在PASCAL VOC 2011和2012测试集上的性能,并将其与之前最先进的SDS[15]和著名的R-CNN进行了比较。我们在平均IU8上取得了相对20%的最佳结果。推理时间减少了114×(仅卷积,忽略建议和细化)或286×(总体)。

表3
我们的全卷积网络相对于PASCAL VOC 2011和2012测试集的最先进水平提高了20%,并减少了推理时间。

 NYUDv2  NYUDv2是一个RGB-D数据集。它有1449张RGB-D图像,具有像素级标签,由Gupta等人合并成40类语义分割任务。我们报告了795张训练图像和654张测试图像的标准分割结果。(注意:所有的模型选择都是在PASCAL 2011 val上执行的。)表4给出了我们的模型在几种变化下的性能。首先,我们在RGB图像上训练未修改的粗模型(FCN-32s)。为了增加深度信息,我们在一个升级为四通道RGB-D输入(早期融合)的模型上进行训练。这提供了很少的好处,可能是由于在整个模型中传播有意义的梯度很困难。继Gupta等人的成功之后,我们尝试了深度的三维HHA编码,仅在此信息上训练网络,以及RGB和HHA的“后期融合”,其中来自两个网络的预测在最后一层进行汇总,并端到端学习由此产生的双流网络。最后,我们将这个后期融合网升级为16步版本。

表4
NYUDv2的结果。RGBD是输入端RGB和深度通道的早期融合。HHA为水平视差的埋深,离地高度,局部地表法线与推断重力方向的夹角。RGB-HHA是联合训练的后期融合模型,将RGB和HHA的预测相加。

 

SIFT Flow是一个包含2,688张图像的数据集,其中包含33个语义类别(“桥”、“山”、“太阳”)以及三个几何类别(“水平”、“垂直”和“天空”)的像素标签。FCN自然可以学习同时预测两种类型标签的联合表示。我们学习了带有语义和几何预测层和损失的双头版本的FCN-16s。学习模型在这两项任务上的表现与两个独立训练的模型一样好,而学习和推理基本上与每个独立模型本身一样快。表5中的结果是在标准分割为2488个训练图像和200个测试图像的基础上计算得出的,显示了两项任务的最先进性能。

6.结论

全卷积网络是一类丰富的模型,现代分类卷积网络是其中的一个特例。认识到这一点,扩展这些分类net到分割,并通过多分辨率层组合改进架构,极大地提高了最先进的技术,同时简化和加速了学习和推理。

图6
全卷积分割网络在PASCAL上产生了最先进的性能。左栏显示了我们性能最高的网络fcn -8的输出。第二个显示了Hariharan等[15]之前最先进的系统产生的分割。注意恢复的精细结构(第一行),分离紧密交互对象的能力(第二行),以及对闭塞器的健壮性(第三行)。第四行是一个失败案例:网络将船上的救生衣视为人。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/414407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

css的font-size属性、line-height属性、height属性

目录 一&#xff0c;字体框 二、font-size属性 三、line-height属性 四、line-height和font-size的联系 简介&#xff1a;font-size是css中关于字体的样式属性&#xff0c;注意与文本属性text-xxx进行区别。因为文本由一个个字符组成&#xff0c;所以字体属性也会对文本属性…

海伦司的酒何时“醒”

被年轻人喝出来的“酒馆第一股”海伦司&#xff0c;目前正经历疯狂开店之后的阵痛。 3月24日&#xff0c;海伦司国际控股有限公司(下称“海伦司”,09869.HK)发布了2022年的业绩报告。 海伦司是一家连锁酒馆品牌&#xff0c;其年报公布后的首个交易日&#xff0c;其股价跌幅达…

Qt5.12實戰之Qt調用Linux靜態庫(.a)與動態庫(.so)

1.準備編譯好的靜態庫&#xff0c;複製到lib目錄 &#xff0c;動態庫複製到bin目錄 2.創建Qt控制臺應用&#xff0c;並添加靜態庫引用 右擊工程名call_liba,選擇添加擴展庫 選擇要添加的libtest.a 然後 點擊 OPEN 點擊Next後會自動添加靜態庫相關引用 到工程 的.pro文件 中 生…

OpenCV实例(五)指纹识别

OpenCV实例&#xff08;五&#xff09;指纹识别1.指纹识别概述1.1概述1.2原理2.指纹识别算法2.1特征提取2.2MCC匹配方法2.3尺度不变特征变换&#xff08;SIFT&#xff09;3.显示指纹的关键点4.基于SIFT的指纹识别作者&#xff1a;Xiou 1.指纹识别概述 1.1概述 指纹识别&…

程序设计方法学

体育竞技分析 问题分析 体育竞技分析 需求&#xff1a;毫厘是多少&#xff1f; 如何科学分析体育竞技比赛&#xff1f; 输入&#xff1a;球员的水平 输出&#xff1a;可预测的比赛成绩 体育竞技分析&#xff1a;模拟N场比赛 计算思维&#xff1a;抽象 自动化 模拟&am…

QML控件--Menu

文章目录一、控件基本信息二、控件使用三、属性成员四、成员函数一、控件基本信息 二、控件使用 import QtQuick 2.10 import QtQuick.Window 2.10 import QtQuick.Controls 2.3ApplicationWindow{visible: true;width: 1280;height: 720;Button {id: fileButtontext: "Fi…

2023最全的自动化测试入门基础知识(建议收藏)

1)首先&#xff0c;什么是自动化测试&#xff1f; 自动化测试是把以人为驱动的测试行为转化为机器执行的一种过程。通常&#xff0c;在设计了测试用例并通过评审之后&#xff0c;由测试人员根据测试用例中描述的过程一步步执行测试&#xff0c;得到实际结果与期望结果的比较。…

数据结构入门(C语言版)二叉树的顺序结构及堆的概念及结构实现应用

二叉树的顺序结构及堆的概念及结构实现二叉树的顺序结构堆的概念及结构堆的实现1、堆向下调整算法2、堆的创建3、堆的插入4、堆的实现向上调整(AdjustUp)向下调整(AdjustDown)堆的初始化(HeapInit)堆的销毁(HeapDestroy)堆的插入(HeapPush)堆的删除(HeapPop)取堆顶的数据(HeapT…

【微服务笔记14】微服务组件之Config配置中心高可用环境搭建

这篇文章&#xff0c;主要介绍微服务组件之Config配置中心高可用环境搭建。 目录 一、高可用Config配置中心 1.1、高可用配置中心介绍 1.2、搭建Eureka注册中心 1.3、搭建ConfigServer服务端 &#xff08;1&#xff09;引入依赖 &#xff08;2&#xff09;添加配置文件 …

北上广测试工程师月薪20K往上,该如何做,需要会什么技能?

有人回答说这只能是大企业或者互联网企业工程师才能拿到。也许是的&#xff0c;小公司或者非互联网企业拿两万的不太可能是码农了&#xff0c;应该已经转管理。还有区域问题&#xff0c;这个不在我的考虑范围内&#xff0c;因为除了北上广深杭&#xff0c;其他地方也很难达到。…

代码审计之PHP核心配置详解

代码审计之PHP核心配置详解1.register_globals&#xff08;全局变量注册开关&#xff09;2.allow_url_include&#xff08;是否允许包含远程文件&#xff09;3.magic_quotes_gpc&#xff08;魔术引号自动过滤&#xff09;4.magic_quotes_runtime&#xff08;魔术引号自动过滤&a…

【建议收藏】利用python基于模拟退火计算QUBO表达式(内附代码)

文章目录引言模拟退火算法模拟退火的理论过程模拟退火在优化中的应用基于python的模拟退火编码流程定义目标函数初始化状态迭代寻找最优完整代码模拟退火在求解QUBO表达式中的应用结束语引言 在计算QUBO解的过程中&#xff0c;通常需要利用不同的优化算法来计算其结果。 在本…

2023 年十大 API 管理趋势

作者郑玩星&#xff0c;API7.ai 技术工程师。 阅读原文 什么是 API&#xff1f;什么是 API 管理&#xff1f; 近期&#xff0c;AIGC&#xff08;AI Generated Content&#xff0c;生成式人工智能&#xff09;在各行业的应用日趋普及。AIGC 服务提供商通过 API 向外部提供其内…

18 隐私模式下面发送 http 请求不成功

前言 是这样的一个情况, 最近 我们服务存在这样的一个问题 是在登录界面, 假设我用户名 或者 密码输入错误, 能够得到真确的结果, 拿到了 正常的 http 响应, 回来 "用户名 或者 密码 不正确 " 但是 假设是在 隐私模式下面, 同样的输入, 同样的服务, 但是结果 不一…

VMware ESXi 7.0 U3l macOS Unlocker OEM BIOS (标准版和厂商定制版)

VMware ESXi 7.0 U3l macOS Unlocker & OEM BIOS (标准版和厂商定制版) 提供标准版和 Dell (戴尔)、HPE (慧与)、Lenovo (联想)、Inspur (浪潮)、Cisco (思科) 定制版镜像 请访问原文链接&#xff1a;https://sysin.org/blog/vmware-esxi-7-u3-oem/&#xff0c;查看最新版…

C++---状态压缩dp---小国王(每日一道算法2023.4.15)

注意事项&#xff1a; 状压dp难度警告&#xff01; 本题为"状态压缩dp—蒙德里安的梦想"的近似题&#xff0c;建议先阅读这篇文章并理解。 题目&#xff1a; 在 nn 的棋盘上放 k 个国王&#xff0c;国王可攻击相邻的 8 个格子&#xff0c;求使它们无法互相攻击的方案…

1~5年的软件测试工程师,该学习哪些知识实现涨薪20K?

工作已经8年有余&#xff0c;这8年里特别感谢技术管理人员的器重&#xff0c;以及同事的帮忙&#xff0c;学到了不少东西。这8年里走过一些弯路&#xff0c;也碰到一些难题&#xff0c;也受到过做为一名测试却经常为系统维护和发布当救火队员的苦恼。遂决定梳理一下自己所学的东…

华为暑期实习

前言&#xff1a; 多行数据需要输入的时候可以用下面的结构&#xff1a; while True:try:n int(input())s input().split()num []for i in s:num.append(int(i))k int(input())print(num[n-k])except:break输入两组数据&#xff1a; 1 8108 17 2542 4218 9064 4908 1526 …

【WLSM、FDM状态估计】电力系统状态估计研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

实验二 图像空间域频率域滤波

一&#xff0e;实验目的&#xff1a; 1. 模板运算是空间域图象增强的方法&#xff0c;也叫模板卷积。 &#xff08;1&#xff09;平滑&#xff1a;平滑的目的是模糊和消除噪声。平滑是用低通滤波器来完成&#xff0c;在空域中全是正值。 &#xff08;2&#xff09;锐化&…