论文地址:https://ieeexplore.ieee.org/document/8354272
项目及数据地址:https://github.com/ishann/aeroscapes
发表时间:2018年5月7日
语义分割网络通常以严格监督的方式学习,即它们在相似的数据分布上进行训练和测试。在域转移的存在下,性能急剧下降。在本文中,我们探索了在场景结构、视点和对象统计数据上存在显著不同的训练和测试分布的学习方法。由于空中无人机机器人技术的蓬勃发展,我们考虑了从空中视点进行语义分割的目标任务。受城市景观[11]的启发,我们引入了航空景观,这是一个新的3269张航空场景图像(由无人机舰队捕获),标注有密集的语义分割。我们的数据集在视点、场景组成和对象尺度方面不同于现有的分割数据集(专注于地面视图或室内场景领域)。我们提出了一种简单但有效的方法,将知识从如此不同的领域(其中存在大量带注释的训练数据)转移到我们的目标任务中。为此,我们通过对每个源域的渐进式微调来训练多个模型进行空中视角分割。然后,我们将这些模型集合视为一个可以聚合以显著提高性能的集成
。我们展示了比广泛使用的标准基线有很大的绝对改进(8.12%)。
关键知识
1、本文核心点为知识集成(将多个不同类别标签的源域数据知识转移到标签类别存在差异的目标域中),但并未提出有效的知识集成方案,所展示的就是多模型softmax平均集成方案较优,多模型加权平均方案最优。其主要创意就是实现了从多个数据集中抽取目标知识,基于动机此我们可以从多个开源的预训练模型中直接抽取目标知识。
2、本文探讨了知识迁移,将室内和室外场景的数据知识迁移到航空视角,并指出不同源域中数据的冲突(同一类别在不同源中成像差异;不同类别在不同源中有结构相似性)、不同源域中的数据分布差异(类别成像面积、尺寸差异),也提到由于源域与目标域的个别类别相似会有迁移优势(相同成像特征的类别,可以直接迁移到目标域)。其在进行多源数据迁移时,使用了相同的模型(FCN模型),冻结了backbone,只训练分类层(目的是保留各个源域数据集间的信息互补性)
3、发布了一个航空视角下的数据集,具体类别包含两个大类,材料类
——植被类、道路类、天空类、建筑类 |||| 物体类
——人类、自行车类、汽车类、无人机类、船只类、障碍物类、动物类。该数据集从141个视频序列中获得的3269张图像,其中物体类的数据只占比1.51%。
4、在多模型结果集成上比较了Ensemble-Winner、Ensemble-MixMatch、Ensemble-Average和Ensemble-SoftReg四种方法,Ensemble-Winner仅比最佳单源模型强1.8%,而Ensemble-MixMatch强3%,Ensemble-Average强4.6%,Ensemble-SoftReg强5%。其篇幅很多,但其展示集成方案的是多模型平均更占优势。Ensemble-SoftReg方案具体没有说明,预计实施过程中为预测结果的线性加权。其阐述了Ensemble-Average差0.4是因为Cityscapes迁移模型对船只效果较差
1、Introduction
自然场景的像素级语义分割是一项基本的视觉识别任务。最近的历史显示,在标准分割基准方面取得了重大进展,例如,PASCAL VOC和微软COCO [13,29]。这种成功在很大程度上要归功于卷积网络的[50,28,8]。该社区还探索了分割任务,包括无定形的背景区域,如草和天空和定形的物体,如汽车和人。其他的应用程序也出现在生物医学影像等领域和卫星成像。特别是,自动驾驶已经见证了和越来越多的可用基准。
Segmentation benchmarks: 经典的语义分割基准测试集中于一般场景,包括室内和室外场景。受新型传感器的限制,许多分割基准专注于特定场景的有限视角,如城市环境的地面视角(自动驾驶车辆),和高空的俯视视角(轨道卫星)。然而,无人机技术的最新进展允许更容易地捕捉不同的视点和场景。与以前研究的领域相比,这在统计学上存在诸多的不同,这是我们工作的重点。
域适应迁移技术应用到航空数据中时,会存在较多的数据分布差异(频率差异、尺度差异)
Domain shift: 大多数深度分割模型都是在相似的数据域上进行精心训练和测试的,以获得较高的精度。在存在域转移时,经常会观察到剧烈的性能下降。实际上,跨数据集分布的域变化对于学习能够很好地推广到所有域的良好表示带来了一个主要挑战。有趣的是,另一个观点是,来自这些不同源域的表示的多源学习实际上可能有助于泛化,因为每个域都为目标任务提供了互补的信息。在我们的工作中,我们引入了一种简单的方法,为特定的目标任务从不同的源域传输适当的信息。
域迁移会导致精度下降,但也能提升泛化能力,本文为特定目标从不同域的迁移提供适当的信息
Knowledge transfer: 我们转向Knowledge transfer技术,允许我们将知识从现有的领域(存在大量的注释数据)转移到空中设置(存在有限的注释数据)。虽然从源任务到目标任务的迁移学习是一个研究良好的问题[38,49],但迄今为止最常见的方法是对源任务[18]上预先训练的模型进行微调。事实上,几乎所有的当代视觉识别系统都将知识从ImageNet [43]转移到感兴趣的目标任务上。我们使用这种方法,通过对一组适度的航空训练图像(例如,ImageNet→航空地图)进行微调,生成一个卷积网络(FCN)作为初始基线。但是,我们希望从多个领域转移知识,包括室内场景和城市环境的地视图图像(见图1)。这种具有丰富注释数据集的源域代表了我们希望利用的丰富的知识源。但是,这些知识传递的精确方式可能是独特而微妙的——一些室内物体(比如人)可以出现在户外,也许一些户外物体在空中视角下看起来很相似(比如自行车和摩托车)。
与基于ImageNet的迁移学习不同(ImageNet→多个目标域),本文意图实现将多个源域的部分知识集成到目标数据中(多个源域→一个目标域)
Ensemble transfer: 我们的关键见解是通过学习一套模型进行渐进微调训练的集合(ImageNet→航空地图数据集等),结合来自多个来源的知识。直观地说,集成中的每个模型都使用了不同的源知识,因此很可能会产生不同的错误(例如,PASCAL模型可能对人更准确,因为它们经常发生在PASCAL,而城市景观模型可能在车辆上更准确)。然后,我们最优地组合这些集合,以得到最终的预测。我们的集成模型比强基线提高了8.12%。
数据集存在类别偏好,PASCAL数据对人描述更为精准,而城市景观对车辆更为精准。通过集成多个源域的优势,可以提升模型性能
综上所述,本研究的贡献如下:
•我们提出了一种新的与架构无关的方法来传输存在于不同数据源中的知识,由为感兴趣的目标领域定制的丰富标记源数据集进行编码。
•我们发布了航空景观航空语义分割数据集,用于研究从多个分割基准中获取的知识的可移植性。
•我们使用全卷积网络通过实验验证了我们提出的基准测试,并报告了比经过广泛采用的最佳实践训练的强基线相比的显著改进。
2. Related Work
Semantic segmentation: 最先进的语义分割方法使用卷积网络来学习从图像空间到语义标签空间[30,9,50,28,27,12]的像素到像素的映射。这些深度神经网络的成功可以归因于大量像素级注释的可用性,以及深度网络以端到端方式从大数据中学习的能力。最成功的深度模型之一是全卷积网络(FCN)[30],它可以直接生成空间标签地图作为输出。
Multi-task learning: 多任务学习通过结合通过在每个领域[6]上的互补任务学习到的特定领域信息来改进模型的泛化
。这些方法通常通过学习跨领域的表示来学习一种可推广的表示。受多任务学习范式的启发,我们提出了一个多源学习框架,它从多个源表示中学习单个目标域的表示。理论上,在多任务框架[25]下,从不同的领域学习单一表示是可能的。然而,在实践中,这需要在不同的任务之间进行适当的加权和大量的内存预算来同时处理多域数据。我们提出的多源学习框架证明了以一个简单而有效的方式取得优质的结果。
Knowledge Transfer: 语义类别的像素级注释是一项耗时的工作。很多文献采用了半监督和弱监督的学习方法来帮助这种繁琐的标签工作,这可以看作是在标签空间中的知识转移
。弱监督一般作为类级标签提供特定的点标注[3],对象本地化[48],或显著性机制[21]。[39]的作者开发了一个在弱监督和半监督设置下的图像分割的期望最大化框架。最近,Chaudhry等人的[7]结合了显著性图和注意图来获得可靠的线索来提高分割性能,并有效地从类标签中探索知识。
Domain Adaptation: 领域自适应方法旨在解决不同数据域[26]之间的分布之间的差距。最近的基于深度学习的方法通过最大化混淆[14,15,47]或显式地最小化它们跨域分布之间的距离[31,32]来对齐域特征
。据我们所知,[19]是唯一一种应用于语义分割的深度领域自适应方法。它涉及图像域对抗训练和类分布对齐,使得学习困难。许多领域自适应方法关注于目标域中很少或没有标记数据可用的场景。在我们的案例中,我们已经付出了相当大的努力来收集和注释航天景观数据集,因此使用完善的微调范式来将知识从多个源域转移到我们的目标航天景观域。
3. AeroScapes Semantic Segmentation Dataset
大多数分类基准测试都侧重于理解图像中的对象,而不考虑对象出现位置。背景元素为前景[36,5]中的对象提供了语义和几何上下文。例如,自动驾驶汽车可能会根据它在视线范围内识别出的道路进行导航,或者道路规划者可能会要求汽车从不试图停在空中或水上。因此,必须基于位置识别前景和背景元素。--该段不需要--
预见未来事件的能力是实时自主系统的一个关键属性,它依赖于现场理解来进行决策。适合类系统的测试台必须包含标记的图像序列[42,11]。依赖于视觉场景理解来做决策的代理也必须学会将时间信息融入到他们的表征中。因此,导航系统的评估基准必须包含视频数据。--该段不需要--
飞行器允许我们捕捉到以前未被探索过的观点和不同的环境。自动驾驶汽车只能在地面上移动,但飞行器可以自由地进行三维导航,这让我们能够捕捉到比之前的基准测试更丰富、更多样化的视觉尺度和视角。上述限制条件促使我们收集航空景观数据集1,其中包含了从在5-50米高空操作的无人机上捕获的图像。与这些图像相关的分割地图被标记为两个大类,材料类——植被类、道路类、天空类、建筑类;物体类——人类、自行车类、汽车类、无人机类、船只类、障碍物类、动物类(图2)。
航空航天地图数据集包括从141个视频序列中获得的3269张图像
,并包含几个经过时间降采样的视频序列。航空景观中的类分布反映了在由东西和事物注释组成的典型户外图像中观察到的数据不平衡。事物类的累积权值约为数据的1.51%(图3)。
频率或概率只能说明数据集的部分特点(关于统计分布),成像视角(视点角度、拍摄距离)则反应了物体内容的实质性差异(如俯视图、平视图)
。图4显示了来自(a) ILSVRC数据集[43]、(b) ADE20k数据集[51]和©航空航天飞机数据集的人类的代表性样本。在ILSVRC(源域)上训练的深度卷积网络很可能不会将它学习到的人类的表示与航空景观(目标域)的表示联系起来。然而,ADE20k在视觉上看起来类似于人类的航空景观。在第5节中,我们观察到对象类别的视觉外观会影响到系统在特定类上的性能。
4. Ensemble Knowledge Transfer
我们的主要论点是,分割基准的集体集代表了一个“元”知识源,可以应用于一个相关的,但不同的任务
。重要的是,每个来源都编码了大量经过策划的人类知识,通过图像和标签表现出来
。我们通过在每个数据源上训练深度网络来提取这些知识,并通过微调将知识转移到目标领域
。
上述过程生成一个模型集合(针对每个数据源生成一个模型
),可以应用于目标域。经典的集成技术可以用于聚合预测,而压缩技术可以将集体知识提炼成单个网络[17,4]。
4.1. Motivation
自然场景中的对称性和结构往往会导致意想不到的视觉对应。我们定性地检查了源域[13,36,51]和目标域(航空图),以了解对象是否在跨域的视觉上显得相似。我们发现了一些可预测的相似之处——在户外场景中,一种盆栽植物可能就像一棵树,交通标志和交通灯可能看起来类似于像路灯这样的障碍物(图5a)。然而,在缺乏语义相似性的情况下,视觉结构和对称性也可能出现相似性——来自室内场景的风扇可能类似于室外无人机,而室内场景中的淋浴可能类似于远处的交通灯(图5b)。由于我们只从这些源域转移任务不可知的知识,这种形态上的相似性可能会转化为定量性能的改进。不同场景中目标的相似性会对性能造成影响
4.2. Data-driven Knowledge Transfer
知识转移依赖于保留在学习一项任务时获得的知识,并将其应用到另一项任务中。同时存在的大量像素注释的可用性和深度网络灾难性健忘的[35]性质促使我们以数据驱动的方式研究知识转移,作为解决注释可用数量有限的任务的一种手段。具体来说,我们建议从视觉上不同的领域转移知识,以学习在有限的数据下对目标领域的改进预测。
在监督学习设置中,我们有一组源域,
D
s
,
∀
s
∈
{
1
,
2
,
.
.
.
,
S
}
,
D_{s},\forall s\in\{1,2,...,S\},
Ds,∀s∈{1,2,...,S}, 其知识在相应的分类器集合中紧凑地表示,
C
s
,
∀
s
∈
{
1
,
2
,
.
.
.
,
S
}
,
C_{s},\forall s\in\{1,2,...,S\},
Cs,∀s∈{1,2,...,S},,哪个可以适用于目标域中的任务
D
t
a
r
g
e
t
D_{target}
Dtarget。设
X
t
a
r
g
e
t
X_{target}
Xtarget为
D
t
a
r
g
e
t
D_{target}
Dtarget中的图像,
Y
t
a
r
g
e
t
Y_{target}
Ytarget为其关联的标签。我们利用
X
t
a
r
g
e
t
X_{target}
Xtarget在域
D
s
D_{s}
Ds中的投影来得到表示
P
s
P_{s}
Ps。这有助于我们整合来自
D
s
D_{s}
Ds领域的知识:
C
s
(
X
t
a
r
g
e
t
)
⇒
P
s
C_s(X_{target})\Rightarrow P_s
Cs(Xtarget)⇒Ps
编码在每个表示中的互补信息
P
s
P_s
Ps进一步用于学习一个函数
f
f
f,该函数
f
f
f聚合它们来预测目标域标签
Y
t
a
r
g
e
t
ˆ
Y^ˆ_{target}
Ytargetˆ:
f
(
P
1
,
P
2
,
.
.
.
,
P
S
)
⇒
Y
t
a
r
g
e
t
^
f(P_1,P_2,...,P_S)\Rightarrow\hat{Y_{target}}
f(P1,P2,...,PS)⇒Ytarget^
4.3. Transferring Representations Across Domains
目前最先进的语义分割方法都是基于深度神经网络的。我们的语义分割模型Cs,采用了全卷积网络(FCNs)的形式。最近已经提出了一些架构的[8,27,28]。然而,我们选择使用简单而有效的普通FCN体系结构来进行分析。
由于神经网络由数百万个参数组成,并且对训练数据分布相当敏感,因此直接使用它们作为目标域的特征提取器是不明智的。我们通过微调FCNs的较高的任务特定层,同时冻结较低的层,将从
D
s
D_s
Ds域的投影
P
s
P_s
Ps调整到目标域。我们认为,对网络进行部分微调是正确的策略,原因如下: (1)微调网络中较少的参数可以避免对数据有限的目标域进行过拟合。(2)重要的是,对所有层进行微调可能会导致不同源域中存在的互补信息的丢失
。只微调特定于任务的层,使网络集成能够利用来自不同源领域的知识。
4.4. Learning Representation Ensembles
我们打算学习一种最优的方法来组合由分类器(
C
s
C_s
Cs)产生的表示(
P
s
P_s
Ps), 试图学习一个函数
f
(
C
1
,
C
2
,
.
.
.
,
C
S
;
θ
)
f(C_1,C_2,...,C_S;θ)
f(C1,C2,...,CS;θ),它可以预测每个像素位置上的分割标签。受hypercolumn公式[16]的启发,我们通过连接每个空间位置的类概率分布来结合S模型的预测。给定一个训练图像Xi及其地面真实分割图Yi目标,我们寻求优化以下目标:
min
θ
∑
i
∥
f
(
P
1
i
,
P
2
i
,
.
.
.
,
P
S
i
)
;
θ
)
−
Y
t
a
r
g
e
t
i
∥
2
\min_\theta\sum_i\|f(P_1^i,P_2^i,...,P_S^i);\theta)-Y_{target}^i\|^2
θmini∑∥f(P1i,P2i,...,PSi);θ)−Ytargeti∥2
我们将
f
(
⋅
;
θ
)
f(·;θ)
f(⋅;θ)建模为一个单层回归网络,以学习每个类的每个独立源域的贡献程度。在第二节中。5.2,我们将这个回归网络与其他结合来自每个源域的预测的策略进行了比较。
5. Experimental Analysis
在本节中,我们将探讨所提出的集成知识转移方法,以提高语义分割任务的性能。分析使用 Cityscapes [11], PASCAL Context [36], 和ADE20k [51]场景解析分割基准作为源域,并使用航空景观数据集(第3节)作为目标域。
我们首先简要描述了我们在独立源域上的航空景观数据集学习模型的方法,以及用于结合这些单源模型的集成知识转移网络设计。这些描述还伴随着对这些模型的性能的分析。最后,我们的分析表明,来自不同源域的互补信息提高了多源集成的性能。
Implementation Details: 我们在所有的实验中都使用了全卷积网络[30](FCNs)。我们训练了深度网络。通过随机梯度下降,使用小批量大小,1,1e−10固定学习率,0.99动量,和5e−4权重衰减。对于每个源域,我们冻结了网络的前九个卷积层,并对连续的层进行了微调。航空航天飞机数据集被划分为80%−20%的train-test。我们确保来自视频序列的图像帧只包含在训练或测试中。在我们的实验中,平均交叉点超过联合(mIOU)度量被用来报告分割性能。回归网络(第二节。5.2)采用固定的1e−2学习率、0.9动量和5e−4权重衰减进行训练。使用Caffe工具箱[20]实现网络。
5.1. Learning from Single Sources
近年来,在PASCAL VOC数据集上进行微调FCN型网都有在MS COCO数据集[29]进行先微调的中间步骤,这带来了一些性能改进。类似地,我们从公共分割基准中预先训练的几个FCN 8步网络调整为航空航天数据集的预测。我们使用的源域是PASCAL Context [36]、ADE20k [51]和Cityscapes[11]。请注意,PASCAL Context和PASCAL VOC [13]数据集包含重叠的图像,但有不同的分割图。
我们对所提出的框架进行了实证分析。我们首先对在成像集(ILSVRC)[43]上预训练的VGG-16卷积网络[44]进行微调,作为基线方法。我们在ILSVRC上预训练VGG-16网络,获得8步FCN网络。由于航空景观包含了许多小规模的对象类别,我们也训练了4步和2步的FCN网络。虽然我们观察到在FCN 8步网络上训练FCN 4步网络的性能有所提高,但FCN 2步网络并不比FCN 4步网络提供任何显著的改进。然后,我们在来自不同领域的预训练模型上重复这个过程,包括帕斯卡上下文、ADE20k和城市景观。对于每个源,我们搜索超参数,以找到知识转移的最佳设置。这就产生了三种不同的航空景观模型,其平均iou值分别为52.02%、51.62%和49.55%。每种方法的类级性能详见图7。
除了人和自行车外,在ILSVRC上训练的更精细分辨率网络比粗网络(FCN 8步)表现更好。我们假设,在粗糙分辨率下操作,一定程度的“模糊”有助于这些类的知识转移。这可能有助于预测,因为这些类是航空航天地图数据中最容易变形的东西类——细节可能会影响预测。使用其他知识源初始化的FCN 8步网络—— Cityscapes, PASCAL Context 、ADE20k——始终优于从ILSVRC数据初始化和训练的FCN网络。
可以预见的是,在特定领域上微调的航空航天景观模型在特定类上表现相对较好或更差。人类对任何分割基准都相当感兴趣。虽然POSCAL 人主要是大型前景物体,城市景观人类是直立的行人或司机,但ADE20k人类的一部分(如图4所示)在视觉上与空中景观人类相似。从城市景观中训练出模型在建筑方面表现更好,但在船只上表现更差。城市景观由几个类别组成,它们在视觉上类似于空中景观中的建筑,而在城市景观中没有船。令人惊讶的是,来自城市景观的模型在空中景观汽车上做得更。我们认为这是由于城市景观汽车的巨大视觉差异,它由前后景观图像组成,而空气景观是原始的俯视图汽车图像。这种类性能的不均匀性促使我们结合在不同源域上细化的模型的预测。
单源知识迁移存在局限性,每个数据都有自己的优势类别。且不同的数据集迁移后的最佳输出步幅也不同,在粗糙数据集上大步幅输出占优,而在精细数据集上小步幅输出占优
5.2. Learning from Multiple Sources
由于某些预先训练过的模型在特定的类上做得更好,所以很自然会探索赢家通吃的方法:对于每个类,选择最好的单源模型。该策略产生了53.83%的mIOU(图7中的集成赢家),比最好的单源模型好1.8%。虽然这表明组合源是有用的,但这不是一个可实现的模型。
通过结合在单一源(Sec.5.1)上学习的模型中得到的softmax分布,上述策略可以作为一个有形的系统来实现。我们从一种Ensemble-MixMatch的方法开始,从基于类级赢家的单源模型中吸收softmax分布。该模型产生55.02%的mIOU(图7中的集成混合匹配),比所有方法好1.2%。
Ensemble-MixMatch比Ensemble-Winner的方法提供了一个改进。然而,它忽略了除类赢家之外的所有表示,并丢弃了有用的信息。为每个类组合来自每个单源模型的表示的最简单策略是Ensemble-Average。这种平均集成方法产生了56.69%的mIOU(图7中的集成平均方法),比Ensemble-MixMatch比Ensemble-Winner好1.6%。这种方法假设所有的softmax分布对每个类都同等重要。
由于我们在第5.1节中观察到,某些单源模型在特定的类上相对更好或更差,所以我们现在学会了权衡和组合来自每个源网络的预测。具体来说,我们训练了一个单层回归网络,它学习在单源模型中线性地组合softmax分布。所提出的框架(图6)是通过softmax分布的后期融合得到的网络的加权平均集成,产生了57.08%的mIOU(图7中的集成softmax),比平均集成方法好0.4%。回归网络采用分层抽样的方法进行训练,以确保网络不偏向于东西类。
我们在图8中显示了定性的结果。第1行:提出的模型分割为人类,但单源模型失败。第2行:提出的模型分割了人类,也识别了部分障碍,但单源模型没有。第3行:单源模型不检测无人机,但提出了模型对其进行分割。
在多模型结果集成上比较了Ensemble-Winner、Ensemble-MixMatch、Ensemble-Average和Ensemble-SoftReg四种方法,Ensemble-Winner仅比最佳单源模型强1.8%,而Ensemble-MixMatch强3%,Ensemble-Average强4.6%,Ensemble-SoftReg强5%
Ensemble-Winner: 选用每个类的最佳单源模型的结果直接进行集成
Ensemble-MixMatch:选用每个类的最佳单源模型的softmax输出进行集成
Ensemble-Average:将所有的模型softmax输出进行一个平均
Ensemble-SoftReg: 对所有模型的softmax输出进行一个线性组合
Analysis: 由于集成模型的多样性,限制对上层任务特定层的微调有助于多源转移。Ensemble-MixMatch表现优于Ensemble-Winner表明,它能更好地处理负样本,而IOU度量是敏感的。Ensemble-Average性能优于Ensemble-MixMatch表明,从互补域中学习到的表示对于特定的类是很重要的。Ensemble-Average表现得非常好,这表明网络的集成学习了相当有效的互补表示,而简单的聚合工作得相当好。我们观察到Ensemble-Average和Ensemble-SoftReg之间的非平凡差异的唯一类别是船类。这可能是由于Cityscapes单源模型在船只上表现不佳,并降低了Ensemble-Average船分类器。
Single-source ensembles: 我们还研究了所提出的框架中性能提高的来源——多源集成的更高性能是来自多个源的互补知识的函数,还是仅仅是由于集成而增加的容量的函数?我们在奇异源域上训练等效容量的集成网络。图9显示,单源集成在一定程度上有所帮助。(单源模型和多源模型的比较。第一、第三和第五个模型代表了当单个网络从单个源域进行细化时的性能。第二、第四和第六个模型代表了从单个源域细化模型集合时的性能。第七个模型代表了我们提出的框架——从不同的源领域细化的模型集合。虽然我们观察到单源集成比单源单网络集成的性能有很小的改进,但多源集成实质上取代了其他方法。)。然而,单源集成(53.05% mIOU)的性能不如我们提出的多源方法(57.08% mIOU)。
6. Conclusion
全卷积网络(FCNs)已经在现有的语义分割基准测试上建立了最先进的性能。在监督设置中训练的数据驱动方法通常会在出现域转移的情况下出现性能下降。在本研究中,我们探索了跨数据在场景结构、视点和对象统计方面有显著差异的数据分布的语义分割。我们考虑了航空视点图像的语义分割,并研究了地面视图分割基准知识的可转移性。为此,我们准备并发布了航空航天地图数据集——一个由使用无人机舰队捕获的3269张航空图像(以及相关的语义分割地图)组成的集合。
我们通过从多个源域的渐进微调来训练多个模型进行空中分割。从每个领域转移的精确知识是截然不同的——室内的物体可以出现在户外,室外的物体可能在空中视点下看起来是相似的。因此,我们将从不同领域调优的模型视为一个集成,并将它们聚合以提高性能。我们通过回归网络成功地从每个源域学习了重要的组件,总体提高了8.12%。
所提出的框架不考虑底层的网络架构,并允许我们利用可能包含关键互补信息的小分割数据集。作为未来的工作,可以协同学习网络微调和预测回归,以利用来自不同数据源的信息。