0.摘要
深度卷积神经网络(DCNN)在图像分类和目标检测等高级视觉任务中表现出最先进的性能。本研究结合了DCNN和概率图模型的方法,用于解决像素级分类的任务(也称为“语义图像分割”)。我们发现,DCNN最后一层的响应对于准确的对象分割来说不够局部化。这是由于使得DCNN在高级任务中表现出色的不变性特性。为了克服深度网络的这种较差的定位性能,我们将最后一层DCNN的响应与全连接条件随机场(CRF)相结合。在定性上,我们的“DeepLab”系统能够以超越以往方法的准确性水平定位分割边界。定量上,我们的方法在PASCAL VOC-2012语义图像分割任务中取得了新的最先进结果,在测试集上达到了71.6%的IOU准确度。我们展示了如何高效地获得这些结果:精心的网络重新应用和来自小波社区的“空洞”算法的新应用,使得神经网络的响应可以在现代GPU上以每秒8帧的速度进行密集计算。
1.引言
自1998年LeCun等人提出以来,深度卷积神经网络(DCNN)一直是文档识别的首选方法,但直到最近才成为高级视觉研究的主流方法。在过去的两年中,DCNN在多个高级问题上推动了计算机视觉系统的性能飞速提升,包括图像分类(Krizhevsky等人,2013;Sermanet等人,2013;Simonyan和Zisserman,2014;Szegedy等人,2014;Papandreou等人,2014)、目标检测(Girshick等人,2014)、细粒度分类(Zhang等人,2014)等。这些研究的一个共同主题是,以端到端的方式训练的DCNNs相比于依赖于精心设计的表示方法(如SIFT或HOG特征)的系统能够提供令人瞩目的结果。这一成功部分归功于DCNNs对局部图像变换的内在不变性,这为它们学习数据的分层抽象能力奠定了基础(Zeiler和Fergus,2014)。虽然这种不变性对于高级视觉任务来说显然是可取的,但它可能会阻碍低级任务,如姿态估计(Chen和Yuille,2014;Tompson等人,2014)和语义分割——在这些任务中,我们希望精确定位,而不是空间细节的抽象化。
在将DCNN应用于图像标注任务时存在两个技术障碍:信号降采样和空间“不敏感性”(不变性)。第一个问题与标准DCNN中每一层重复的最大池化和下采样(“步幅”)导致的信号分辨率降低有关(Krizhevsky等人,2013;Simonyan和Zisserman,2014;Szegedy等人,2014)。相反,我们采用了最初用于高效计算无损离散小波变换的“空洞”(带孔)算法(Mallat,1999),如Papandreou等人(2014)的方法。这使得在方案中密集计算DCNN响应变得高效,比先前解决此问题的方法(Giusti等人,2013;Sermanet等人,2013)更简单。第二个问题与从分类器中获取以对象为中心的决策需要对空间变换具有不变性有关,这在本质上限制了DCNN模型的空间准确性。我们通过使用全连接的条件随机场(CRF)来增强模型捕捉细节的能力。条件随机场在语义分割中被广泛使用,将多类分类器计算得到的类别得分与像素和边缘的局部相互作用(Rother等人,2004;Shotton等人,2009)或超像素(Lucchi等人,2011)捕获的低级信息相结合。尽管已经提出了更复杂的模型来建模分段的分层依赖关系(He等人,2004;Ladicky等人,2009;Lempitsky等人,2011)和/或分段的高阶依赖关系(Delong等人,2012;Gonfaus等人,2010;Kohli等人,2009;Chen等人,2013;Wang等人,2015),我们使用了由Krahenbühl和Koltun(2011)提出的全连接的成对CRF,因为它计算效率高,能够捕捉细微的边缘细节,并同时考虑远距离的依赖关系。这个模型在Krahenbühl和Koltun(2011)的工作中被证明大大提高了基于增强型像素级分类器的性能,而我们的工作中表明,与基于DCNN的像素级分类器结合使用时,它可以实现最先进的结果。
我们“DeepLab”系统的三个主要优点是:
(一)速度:通过“空洞”算法,我们的密集DCNN的运行速度达到每秒8帧,而全连接CRF的均值场推理需要0.5秒。
(二)准确性:在PASCAL语义分割挑战中,我们取得了最新的成果,比Mostajabi等人(2014)的第二优方法高出7.2%的边界。
(三)简单性:我们的系统由两个相当成熟的模块级联组成,即DCNN和CRF模块。
2.相关工作
与Long等人(2014)类似,我们的系统直接在像素表示上工作。这与当前在DCNN语义分割中最常见的两阶段方法形成对比:这些技术通常使用自底向上的图像分割和基于DCNN的区域分类的级联,这使得系统对前端分割系统的潜在错误承担责任。例如,(Arbelaez等人,2014;Uijlings等人,2013)提供的边界框和掩码区域被用于Girshick等人(2014)和(Hariharan等人,2014b)的DCNN输入,以将形状信息引入分类过程。同样,Mostajabi等人(2014)的作者依赖于超像素表示。这些工作的一个著名的非DCNN前身是(Carreira等人,2012)的二阶池化方法,该方法还将标签分配给(Carreira和Sminchisescu,2012)提供的区域提案。Cogswell等人(2014)的作者了解到承担单一分割的危险性,在(Yadollah pour等人,2013)的基础上构建了一组多样化的基于CRF的分割提案,这些提案也由(Carreira和Sminchisescu,2012)计算得出。然后,根据专门针对此重新排序任务进行训练的DCNN对这些分割提案进行重新排序。尽管这种方法明确尝试处理前端分割算法的不稳定性,但在基于CRF的分割算法中仍没有明确利用DCNN分数:DCNN只是事后应用,而直接尝试在分割过程中使用其结果是合理的。
朝着与我们方法更接近的工作方向,其他几位研究人员考虑了使用卷积计算的DCNN特征进行密集图像标注。其中最早的是Farabet等人(2013),他们在多个图像分辨率上应用DCNN,然后利用分割树来平滑预测结果;更近期,Hariharan等人(2014a)提出在像素分类中连接DCNN中计算得到的中间特征图,Dai等人(2014)则提出通过区域提案对中间特征图进行池化。尽管这些工作仍然使用与DCNN分类器结果无关的分割算法,但我们认为仅在后期使用分割是有优势的,避免对过早决策的承诺。更近期,(Long等人,2014;Eigen&Fergus,2014)的无分割技术直接以滑动窗口的方式将DCNN应用于整个图像,通过卷积层替换DCNN的最后一层全连接层。为了解决介绍部分开头提到的空间定位问题,Long等人(2014)将中间特征图的分数上采样和连接起来,而Eigen&Fergus(2014)通过将粗糙结果传播到另一个DCNN来从粗到细地优化预测结果。
我们模型与其他最先进的模型的主要区别在于像素级CRF和基于DCNN的“一元项”的结合。在这个方向上,Cogswell等人(2014)使用CRF作为基于DCNN的重新排序系统的提案机制,而Farabet等人(2013)将超像素视为本地成对CRF的节点,并使用图割进行离散推断;因此,他们的结果可能受到超像素计算中的错误的限制,同时忽略了远距离超像素之间的依赖关系。相比之下,我们的方法将每个像素都视为CRF节点,利用长距离的依赖关系,并使用CRF推断来直接优化基于DCNN的成本函数。我们注意到,均值场在传统的图像分割/边缘检测任务中得到了广泛研究,例如(Geiger&Girosi,1991;Geiger&Yuille,1991;Kokkinos等人,2008),但最近Krahenb ¨uhl&Koltun(2011)表明该推断对于全连接CRF非常高效,并且在语义分割的背景下特别有效。在我们的论文首次公开发布之后,我们注意到另外两个独立且同时进行的团队也在追求非常类似的方向,结合了DCNN和密集连接的CRF(Bell等人,2014;Zheng等人,2015)。这些模型在技术方面有几个不同之处。Bell等人(2014)关注材料分类问题,而Zheng等人(2015)将CRF均值场推断步骤展开,将整个系统转化为可端到端训练的前馈网络。
我们在最新的工作(Chen等人,2016)中对我们提出的“DeepLab”系统进行了改进,并获得了更好的方法和结果。我们建议感兴趣的读者详细阅读论文。
3.卷积神经网路用于密集图像标注
在这里,我们描述了如何将公开可用的Imagenet预训练的最先进16层分类网络(Simonyan&Zisserman,2014)(VGG-16)重新调整和微调,将其转化为我们密集语义图像分割系统的高效有效的密集特征提取器。
3.1使用Hole算法进行高效的密集滑动窗口特征提取
密集空间分数评估对我们的密集CNN特征提取器的成功至关重要。作为实施的第一步,我们将VGG-16的全连接层转换为卷积层,并以卷积方式在原始分辨率的图像上运行网络。然而,这还不够,因为它产生了非常稀疏的检测分数(步幅为32像素)。为了以我们的目标步幅8像素更密集地计算分数,我们开发了一种Giusti等人(2013)和Sermanet等人(2013)先前使用的方法的变体。我们在Simonyan&Zisserman(2014)的网络中在最后两个最大池化层之后跳过子采样,并通过在其后的卷积层中引入零来修改卷积滤波器,以增加其长度(最后三个卷积层中为2倍,在第一个全连接层中为4倍)。我们可以通过保持滤波器不变,并分别在输入步幅为2或4像素的特征图上稀疏采样来更高效地实现这一点。这种方法被称为“空洞算法”(“atrous算法”),之前已经用于有效计算未降采样小波变换(Mallat,1999)。我们在Caffe框架(Jia等人,2014)中实现了这一点,通过在im2col函数中添加选项来稀疏采样底层特征图(将多通道特征图转换为矢量化补丁)。这种方法通常适用,可以让我们以任何目标子采样率高效地计算密集的CNN特征图,而不引入任何近似。
我们通过Long等人(2014)的方法简单地微调Imagenet预训练的VGG-16网络的模型权重,以使其适应图像分类任务。我们将VGG-16最后一层中的1000类Imagenet分类器替换为21类分类器。我们的损失函数是CNN输出图中每个空间位置的交叉熵项的总和(相对于原始图像下采样8倍)。所有位置和标签在整体损失函数中被等权重。我们的目标是地面实况标签(下采样8倍)。我们通过Krizhevsky等人(2013)的标准SGD过程,针对所有网络层的权重优化目标函数。在测试过程中,我们需要原始图像分辨率下的类别分数图。如图2所示,并在第4.1节进一步详细说明,类别分数图(对应于对数概率)非常平滑,这使得我们可以使用简单的双线性插值将其分辨率增加8倍,而计算成本非常低。请注意,Long等人(2014)的方法不使用空洞算法,并且在CNN输出处产生非常粗糙的分数(下采样32倍)。这迫使他们使用了学习的上采样层,显著增加了系统的复杂性和训练时间:在PASCAL VOC 2012上微调我们的网络大约需要10小时,而他们报告的训练时间为几天(两种时间均在现代GPU上)。
图1:在1-D情况下,当卷积核大小=3,输入步幅=2,输出步幅=1时,空洞算法的示意图。
3.2 通过卷积网络控制感受野大小并加速密集计算
在重新利用我们的网络进行密集分数计算时,另一个关键要素是明确控制网络的感受野大小。大多数最新的基于DCNN的图像识别方法依赖于在Imagenet大规模分类任务上预训练的网络。这些网络通常具有较大的感受野大小:在我们考虑的VGG-16网络的情况下,其感受野是224×224(带有零填充),如果网络应用于卷积运算,则为404×404像素。在将网络转换为完全卷积网络后,第一个全连接层具有4,096个7×7的大尺寸空间滤波器,并成为我们密集分数图计算中的计算瓶颈。
我们通过对第一个全连接层进行简单的降采样(通过简单的抽样)来解决了这个实际问题,将其降采样到4×4(或3×3)的空间大小。这将网络的感受野减小到128×128(带有零填充)或308×308(在卷积模式下),并将第一个全连接层的计算时间减少了2-3倍。使用我们基于Caffe的实现和Titan GPU,得到的基于VGG的网络非常高效:给定一个306×306的输入图像,在测试过程中,它以大约8帧/秒的速率在网络顶部产生39×39的密集原始特征分数。训练过程中的速度为3帧/秒。我们还成功地尝试将完全连接层的通道数从4,096减少到1,024,进一步减少了计算时间和内存占用,而不会牺牲性能,详细说明见第5节。使用像Krizhevsky等人(2013)这样的较小网络,即使在轻量级GPU上,也能以视频速率进行测试时的密集特征计算。
4.详细的边界恢复:全连接条件随机场和多尺度预测
4.1深度卷积网络和定位挑战
如图2所示,DCNN分数图可以可靠地预测图像中物体的存在和大致位置,但不太适合精确定位它们的确切轮廓。卷积网络在分类准确性和定位准确性之间存在自然的权衡:深层模型具有多个最大池化层,在分类任务中已被证明最成功,然而它们的增加的不变性和大的感受野使得从其顶层输出级别的分数推断位置的问题更具挑战性。最近的研究工作从两个方向解决了这个定位挑战。第一种方法是利用卷积网络中多个层的信息,以更好地估计物体边界(Long等人,2014;Eigen&Fergus,2014)。第二种方法是采用超像素表示,基本上将定位任务委托给低级分割方法。这条路线是Mostajabi等人(2014)非常成功的最新方法所采用的。在第4.2节中,我们追求了一种基于将DCNN的识别能力和全连接CRF的细粒度定位准确性相结合的新颖替代方向,并表明它在解决定位挑战方面非常成功,产生准确的语义分割结果,并以超出现有方法所能达到的细节水平恢复物体边界。
图2:飞机的分数图(softmax函数之前的输入)和置信度图(softmax函数的输出)。我们展示了每次均场迭代后的分数图(第一行)和置信度图(第二行)。最后一个DCNN层的输出被用作均场推理的输入。最佳观看颜色。
4.2全连接条件随机场用于准确的定位
传统上,条件随机场(CRFs)被用于平滑噪声分割图(Rother等,2004; Kohli等,2009)。通常,这些模型包含能量项,将邻近节点耦合在一起,倾向于将空间上靠近的像素分配给相同的标签。从定性上讲,这些短程CRFs的主要功能是清除基于局部手工特征构建的弱分类器的虚假预测。与这些较弱的分类器相比,我们在这项工作中使用的现代DCNN架构产生的分数图和语义标签预测在定性上是不同的。如图2所示,分数图通常非常平滑,并产生均匀的分类结果。在这种情况下,使用短程CRFs可能会有害,因为我们的目标应该是恢复详细的局部结构,而不是进一步平滑它。使用对比敏感的势能(Rother等,2004)结合局部CRFs可能会改善定位,但仍然会错过细结构,并且通常需要解决一个昂贵的离散优化问题。
为了克服短程CRFs的这些限制,我们将Krahenbühl和Koltun(2011)的全连接CRF模型集成到我们的系统中。该模型使用能量函数E(x)=∑θi(xi)+∑θij(xi;xj),其中x是像素的标签分配。我们使用一元势函数θi(xi)=−log P(xi),其中P(xi)是由DCNN计算得到的像素i的标签分配概率。二元势函数为θij(xi;xj)=µ(xi;xj)∑wm ·km(fi;fj),其中µ(xi;xj)=1表示xi≠xj,否则为零(即泊松模型)。无论像素i和j在图像中相距多远,都会为每对像素i和j添加一个二元势项,即模型的因子图是完全连接的。每个km是依赖于像素i和j提取的特征(表示为f)的高斯核,并由参数wm加权。我们采用双边位置和颜色项,具体而言,核函数为w1 exp(-jjpi2-σ2pjjj2 ααjjIi-Ijjj2 2σ2 ββ)+w2 exp(-jjpi 2-σ2pjjj2 γγ),其中第一个核函数依赖于像素位置(表示为p)和像素颜色强度(表示为I),而第二个核函数只依赖于像素位置。超参数σα,σβ和σγ控制高斯核的“尺度”。
关键是,这个模型适用于高效的近似概率推理(Krahenbühl和Koltun,2011)。在完全可分解的均场近似 b(x)=∏ bi(xi)下的消息传递更新可以用特征空间中的高斯核进行卷积计算。高维滤波算法(Adams等,2010)显著加速了这个计算过程,使得该算法在实践中非常快速,对于帕斯卡尔VOC图像,平均不到0.5秒,使用的是(Krahenbühl和Koltun,2011)的公开实现。
图3: 模型示意图。深度卷积神经网络(具有完全卷积层)生成的粗糙分数图通过双线性插值进行上采样。然后,应用全连接CRF来优化分割结果。最佳观看方式为彩色显示。
4.3多尺度预测
继(Hariharan等,2014a; Long等,2014)最近取得的有希望的结果之后,我们还探索了一种多尺度预测方法来提高边界定位的准确性。具体来说,我们在输入图像和前四个最大池化层的输出上附加了一个两层MLP(第一层:128个3x3卷积滤波器,第二层:128个1x1卷积滤波器),其特征图与主网络的最后一层特征图连接在一起。通过这种方式,输入到softmax层的聚合特征图增加了5*128=640个通道。我们只调整了新添加的权重,保持其他网络参数与第3节中所学习的值一致。正如在实验部分中讨论的那样,引入这些额外的直接连接从细分辨率层改善了定位性能,但效果没有完全连接CRF的效果那么显著。
表1:(a)我们提出的模型在PASCAL VOC 2012的“val”集上的性能(在增强的“train”集上进行训练)。通过同时利用多尺度特征和大视野,达到了最佳性能。(b)我们提出的模型(在增强的“trainval”集上进行训练)与其他最先进的方法在PASCAL VOC 2012的“test”集上的性能比较。
5.实验评估
数据集 我们在PASCAL VOC 2012分割基准测试(Everingham等,2014)上测试了我们的DeepLab模型,该数据集包含20个前景对象类别和一个背景类别。原始数据集分别包含1,464、1,449和1,456张图像用于训练、验证和测试。通过Hariharan等人(2011)提供的额外注释对数据集进行了增强,从而得到了10,582张训练图像。性能以像素交并比(IOU)的平均值来衡量,跨越21个类别。
训练 我们采用最简单的分段训练形式,将DCNN和CRF训练阶段解耦,假设在CRF训练期间,DCNN提供的一元项是固定的。对于DCNN的训练,我们采用在ImageNet上预训练的VGG-16网络。我们通过随机梯度下降法在交叉熵损失函数上对VOC 21类像素分类任务进行微调,详见第3.1节。我们使用20张图像的小批量训练,并将初始学习率设置为0.001(最后分类器层为0.01),每2000次迭代将学习率乘以0.1。我们使用0.9的动量和0.0005的权重衰减。在DCNN经过微调后,我们根据Krahenbuhl&Koltun(2011)的方法在完全连接的CRF模型的参数上进行交叉验证。我们使用默认值w2 = 3和σγ = 3,并通过在验证集的一个小子集上进行交叉验证来搜索最佳的w1、σα和σβ的值(我们使用100张图像)。我们采用粗到精的搜索方案。具体而言,参数的初始搜索范围为w1在[5,10]之间,σα在[50:10:100]之间,σβ在[3:1:10]之间(MATLAB表示),然后我们在第一轮的最佳值周围细化搜索步长。我们将均场迭代次数固定为10,用于所有报告的实验。
在验证集上的评估 我们主要在PASCAL的“val”集上进行评估,将我们的模型训练在增强的PASCAL的“train”集上。如表1(a)所示,将完全连接的CRF集成到我们的模型中(称为DeepLab-CRF),可以显著提升性能,比DeepLab提高了约4%。我们注意到Krahenbuhl&Koltun(2011)的工作将TextonBoost(Shotton等,2009)的27.6%的结果提高到了29.1%,这使得我们在这里报告的改进(从59.8%提高到63.7%)更加令人印象深刻。转向定性结果,我们在图7中提供了DeepLab和DeepLab-CRF之间的视觉比较。使用完全连接的CRF显著改善了结果,使模型能够准确捕捉复杂的对象边界。
多尺度特征 我们还利用了中间层的特征,类似于Hariharan等人(2014a)和Long等人(2014)的做法。如表1(a)所示,将多尺度特征加入我们的DeepLab模型(称为DeepLab-MSc)可以提高约1.5%的性能,进一步结合完全连接的CRF(称为DeepLab-MSc-CRF)可以提高约4%的性能。DeepLab和DeepLab-MSc之间的定性比较如图4所示。利用多尺度特征可以稍微改善对象的边界。
视野(Field of View)我们采用的“atrous算法”允许我们通过调整输入步幅来任意控制模型的视野(FOV),如图1所示。在表2中,我们尝试了几种不同的卷积核大小和输入步幅在第一个全连接层上。DeepLab-CRF-7x7是直接修改自VGG-16网络的方法,其中卷积核大小为7×7,输入步幅为4。该模型在“val”集上的性能达到了67.64%,但相对较慢(训练时每秒处理1.44张图像)。我们通过将卷积核大小缩小为4×4,将模型的速度提高到每秒处理2.9张图像。我们尝试了两种具有不同FOV大小的网络变体,DeepLab-CRF和DeepLab-CRF-4x4,后者具有较大的FOV(即较大的输入步幅)并获得更好的性能。最后,我们采用了卷积核大小为3×3和输入步幅为12,并将最后两层的过滤器大小从4096更改为1024。有趣的是,得到的模型DeepLab-CRF-LargeFOV的性能与昂贵的DeepLab CRF-7x7相匹配。同时,它的运行速度是后者的3.36倍,并且具有显著较少的参数(而不是134.3M,只有20.5M)。表1总结了几种模型变体的性能,显示了利用多尺度特征和大视野的好处。
计算物体边界附近的模型精度为了量化所提出模型在物体边界附近的准确性,我们进行了一项类似于Kohli等人(2009)和Krahenbuhl&Koltun(2011)的实验。具体来说,我们使用在val集中注释的“void”标签,这些标签通常出现在物体边界周围。我们计算那些位于“void”标签的狭窄带(称为trimap)内的像素的平均IOU。如图5所示,利用中间层的多尺度特征并通过完全连接的CRF对分割结果进行精细化处理显著提高了物体边界附近的结果。
与最先进的方法的比较在图6中,我们定性地比较了我们提出的模型DeepLab CRF与两个最先进的模型:FCN-8s (Long等,2014)和TTI-Zoomout-16 (Mostajabi等,2014)在“val”集上的表现(结果来自他们的论文)。我们的模型能够捕捉到复杂的物体边界。
可重现性我们通过扩展优秀的Caffe框架(Jia等,2014)来实现了所提出的方法。我们在一个配套的网站https://bitbucket.org/deeplab/deeplab-public上分享了我们的源代码、配置文件和训练好的模型,可以用来重现本文中的结果。
测试集结果 在验证集上选择了我们的模型后,我们在PASCAL VOC 2012官方的“测试”集上评估了我们的模型变体。如表3所示,我们的DeepLab-CRF和DeepLab MSc-CRF模型分别达到了66.4%和67.1%的平均IOU1。我们的模型胜过了所有其他最先进的模型(具体来说,TTI-Zoomout-16(Mostajabi等,2014),FCN-8s(Long等,2014)和MSRA-CFM(Dai等,2014))。当我们增加模型的视野时,DeepLab-CRF-LargeFOV的性能达到了70.3%,与DeepLab-CRF-7x7相同,但其训练速度更快。此外,我们的最佳模型DeepLab-MSc-CRF-LargeFOV通过同时使用多尺度特征和大视野获得了71.6%的最佳性能。
表2:视野效果。我们展示了在PASCAL VOC 2012的“val”集上(经过CRF处理后)的性能和训练速度,作为第一个全连接层的卷积核大小和采用的atrous算法中的输入步幅值的函数。
图4:融合多尺度特征改善边界分割。我们分别展示了DeepLab和DeepLab-MSc的结果,分别在第一行和第二行。最好以彩色视图查看。
图5:(a)一些trimap示例(左上:图像。右上:真实标注。左下:2像素的trimap。右下:10像素的trimap)。对于所提出的方法,在目标边界周围的区域内的分割结果质量。(b)像素级准确率。(c)像素平均IOU。
图6:在验证集上与最先进的模型进行比较。第一行:图像。第二行:真实标注。第三行:其他最近的模型(左:FCN-8s,右:TTI-Zoomout-16)。第四行:我们的DeepLab-CRF。最好以彩色视图查看。
图7:在VOC 2012-val上的可视化结果。对于每一行,我们展示了输入图像,由DCNN(DeepLab)生成的分割结果,以及全连接CRF(DeepLab-CRF)的精细化分割结果。我们在最后三行展示了我们的失败模式。最好以彩色视图查看。
表3:使用trainval集进行训练,在PASCAL VOC 2012测试集上的标签IOU(%)。
6.讨论
我们的工作结合了深度卷积神经网络和全连接条件随机场的思想,产生了一种能够产生语义准确预测和详细分割地图的新方法,同时具有较高的计算效率。我们的实验结果表明,所提出的方法在具有挑战性的PASCAL VOC 2012语义图像分割任务中显著推进了最先进的技术。我们计划进一步完善我们的模型的多个方面,例如完全整合其两个主要组成部分(CNN和CRF),以及以端到端的方式训练整个系统,类似于Krahenb¨uhl&Koltun(2013);Chen等人(2014);Zheng等人(2015)。我们还计划在更多数据集上进行实验,并将我们的方法应用于其他数据源,如深度图或视频。最近,我们已经开始使用弱监督注释进行模型训练,例如边界框或图像级标签(Papandreou等人,2015)。从更高的层次来看,我们的工作处于卷积神经网络和概率图模型的交叉点上。我们计划进一步研究这两种强大方法的相互作用,并探索它们在解决具有挑战性的计算机视觉任务方面的协同潜力。
论文修订内容如下,以方便读者查阅:
v1:提交给ICLR 2015。介绍了DeepLab-CRF模型,在PASCAL VOC 2012测试集上达到了66.4%的性能。
v2:ICLR 2015的反驳意见。添加了DeepLab-MSc-CRF模型,该模型结合了来自中间层的多尺度特征。DeepLab-MSc-CRF在PASCAL VOC 2012测试集上取得了67.1%的性能。
v3:ICLR 2015的最终版本。进行了大视场的实验。在PASCAL VOC 2012测试集上,DeepLab-CRF-LargeFOV达到了70.3%的性能。当同时利用多尺度特征和大视场时,DeepLab-MSc-CRF-LargeFOV达到了71.6%的性能。
v4:引用我们更新后的“DeepLab”系统(Chen等人,2016),该系统的结果有了很大改进。