文章目录
- 0. Intro
- 1. ADVANTAGES OF REMOTE SENSING METHODS
- 2. THE GENERAL FRAMEWORK
- 3. BASIC ALGORITHMS IN DEEP LEARNING
- 3.1 CONVOLUTIONAL NEURAL NETWORKS
- 3.1.1 CONVOLUTIONAL LAYER
- 3.1.2 NONLINEARITY LAYER
- 3.1.3 POOLING LAYER
- 3.2 AUTOENCODERS
- 3.3 RESTRICTED BOLTZMANN MACHINES
- 3.4 SPARSE CODING
- 4. DEEP LEARNING FOR REMOTE SENSING DATA
- 4.1 REMOTE SENSING IMAGE PREPROCESSING
- 4.1.1 RESTORATION AND DENOISING
- 4.1.2 PAN SHARPENING
- 4.2 PIXEL-BASED CLASSIFICATION
- 4.2.1 SPECTRAL(光谱) FEATURE CLASSIFICATION
- 4.2.2 CLASSIFICATION WITH SPATIAL INFORMATION
- 4.3 TARGET RECOGNITION
- 4.3.1 GENERAL DEEP-LEARNING FRAMEWORK OF REMOTE SENSING TARGET RECOGNITION
- 4.4 SCENE UNDERSTANDING
- 5. EXPERIMENTS AND ANALYSIS
- 6. CONCLUSIONS AND FUTURE WORK
- AUTHOR INFORMATION
粗略翻译,以原文为准。源自:JUNE 2016 IEEE GEOSCIENCE AND REMOTE SENSING MAGAZINE。
0. Intro
深度学习(DL)算法以分层的方式从数据中学习代表性和判别性特征,近年来已成为机器学习领域的热点,并已被引入地球科学和遥感(RS)领域进行RS大数据分析。将底层特征(如光谱和纹理)作为底层,从网络顶层输出的特征表示可以直接输入到后续的分类器中进行基于像素的分类。实际上,通过认真解决RS应用程序中的实际需求,设计出在输入输出水平上的整个网络,我们发现深度学习在遥感数据分析中实际上无处不在:从传统的图像预处理、基于像素的分类和目标识别,到最近具有挑战性的高级语义特征提取和遥感场景理解任务。
在本技术教程中,提供了RS数据深度学习的一般框架,并将RS中最先进的深度学习方法视为与各种深度网络和调优技巧相结合的输入输出数据的特殊情况。虽然大量的实验结果证实了基于DL的算法在RS大数据分析中的优异表现,但DL在RS中的前景更加令人兴奋。 本文为RS数据深度学习关键的瓶颈和潜在的发展方向的进一步研究提供指导。
1. ADVANTAGES OF REMOTE SENSING METHODS
遥感技术为帮助人们扩大了解地球的能力打开了一扇门[1],[2]。事实上,RS技术在数据收集任务中变得越来越重要。信息技术公司依靠RS来更新他们基于位置的服务[3],[4]。谷歌地球采用高分辨率(HR) RS图像提供地球表面的生动图片。各国政府还利用遥感技术提供各种公共服务,从天气预报到交通监测[5] -[7]。如今,人们无法想象没有RS的生活。近年来,RS卫星甚至蓬勃发展,首次提供了几乎地球表面每个角落的极其大量的地理图像[8]。RS图像的数据仓库日益增加,包括不同光谱和空间分辨率的图像[9],[10]。
如何从各种遥感数据中提取有价值的信息?我们应该如何处理不断增加的数据类型和数据量?传统方法利用遥感图像的特征来构建信息提取模型[11]。手工特征被证明是有效的,可以代表图像的各种光谱、纹理和几何属性[12],[13]。然而,由于这些特征不容易考虑真实数据的细节,它们不可能在可判别性和鲁棒性之间达到最佳平衡。当面对RS图像的大数据时,情况就更糟了,因为成像环境变化很大,图像在短时间内会发生很大的变化。DL理论[14]提供了一种从训练集中自动学习有效特征的替代方法,使得从非常大的原始图像数据集中进行无监督特征学习成为可能[15]。事实上,深度学习已经被证明是一种令人兴奋的新工具,可能是RS图像处理发展的下一个趋势。
尽管具有光谱和空间分辨率,但RS图像是陆地表面的反射[16],其重要特性是能够记录一个区域内的多尺度信息。根据需要的信息类型,可以提取基于像素的、基于对象的或基于结构的特征。然而,由于数据之间的微妙关系,尚未报道有效和通用的方法来最佳地融合这些特征。相比之下,深度学习可以表示和组织多层次的信息,以表达数据之间的复杂关系[17]。事实上,深度学习技术可以从图像中映射不同层次的抽象,并将它们从低级到高级组合起来[18]。以场景识别为例,在深度学习的帮助下,场景可以通过利用变量的变化来表示为一个统一的变换 由底层特征捕获的局部空间安排和结构模式,不需要分割阶段或单个对象提取阶段。
尽管有很大的潜力,深度学习不能直接用于许多RS任务,一个障碍是大量的波段。一些RS图像,特别是高光谱图像,包含数百个波段,可以使一个小补丁成为一个非常大的数据立方体,这对应于预训练网络中的大量神经元[19],[20]。除了各波段内的视觉几何图形外,波段间的光谱曲线矢量也是重要的信息。然而,如何利用这些信息还需要进一步的研究。高空间分辨率的RS图像仍然存在问题,与DL的基准数据集一样,只有绿色、红色和蓝色通道。在实践中,很少有标记样本可用,这可能使预训练网络难以构建。此外,不同传感器获取的图像存在较大差异。如何将预训练的网络转移到其他图像上仍然是未知的。
在本文中,我们综述了遥感领域中深度学习的最新发展,并提供了基于深度学习的光学遥感数据方法设计的技术教程。虽然也有一些先进的技术为DL为syn合成孔径雷达图像[21]-[26]与光探测和测距(LiDAR)点云数据[27],它们共享类似于数据分析模型的基本DL思想。
2. THE GENERAL FRAMEWORK
尽管层次结构复杂,但所有基于深度学习的方法都可以融合到一个通用框架中。图1说明了用于RS数据分析的DL的一般框架。该流程图包括三个主要部分:准备好的输入数据、核心深度网络和预期的输出数据。实际上,输入-输出数据对依赖于特定的应用程序。例如,对于RS图像的平移锐化,它们是来自全色(pan)图像的HR和低分辨率(LR)图像patch [28];对于基于像素的分类,它们是光谱空间特征及其特征表示(无监督版本)或标签信息(有监督版本)[29];而对于目标识别[30]和场景理解[31]任务,输入是分别从目标提案中提取的特征,以及从HR图像和RS图像数据库中提取的原始像素数字,输出数据始终与前面描述的基于像素的分类应用相同。
当输入-输出数据对被正确定义后,输入和输出数据之间的内在和自然关系就由一个由多层非线性操作组成的深层架构来构建,其中每一层都由一个浅层模块(如自动编码器(AE)或稀疏编码算法)来建模。需要注意的是,如果有足够的训练样本集,那么这种深度网络就是有监督的方法。它可以通过使用标签信息进一步微调,并且网络的顶层输出是标签信息,而不是由无监督深度网络学习的抽象特征表示。当核心深度网络得到很好的训练后,就可以用来预测给定测试样本的预期输出数据。随着图1A中的一般框架,我们在下一节中描述了深度网络构建教程中的一些基本算法,然后我们从四个角度回顾了深度学习中用于RS数据分析的代表性技术:1)RS图像预处理,2)基于像素的分类,3)目标识别和4)场景理解。
3. BASIC ALGORITHMS IN DEEP LEARNING
近年来,各种深度学习架构蓬勃发展[32],并已应用于音频识别[33],自然语言处理[34]和许多分类任务[35],[36]等领域,在这些领域它们通常优于传统方法。这种想法的动机来自于这样一个事实,即哺乳动物的大脑是在一个深层架构中组织的,给定的输入感知在多个抽象层次上表示,尤其是灵长类动物的视觉系统[37]。受人类大脑架构深度的启发,深度学习研究人员开发了新的深度架构,作为浅架构的替代方案。深度信念网络(Deep belief networks, dbn)[38]是深度学习研究的一个重大突破,它通过受限玻尔兹曼机(restricted Boltzmann machines, rbm)以无监督的方式一次训练一层[39]。不久之后,一些基于人工智能的算法也被提出来训练中间水平(即声发射及其变体,如稀疏声发射和去噪声发射[40],[41])。与AEs不同,稀疏编码算法[42]通过自分解学习一个过完备字典,从不同的角度从数据本身生成稀疏表示。此外,卷积神经网络(convolutional neural networks, cnn)[43]作为最具代表性的监督深度学习模型,在视觉识别中表现优于大多数算法。cnn的深层结构允许模型学习高度抽象的特征检测器,并将输入特征映射到可以明显提高后续分类器性能的表示中。此外,还有许多可选的技术可用于训练图1所示的DL体系结构。在本文中,我们只简要介绍了RS社区中已经使用的四个典型模型,这些模型可以嵌入到一般框架中以实现特定的应用程序。关于机器学习社区中DL算法的更详细信息可以在[14]和[44]中找到。
3.1 CONVOLUTIONAL NEURAL NETWORKS
CNN是由多个特征提取阶段组成的可训练多层体系结构。每个阶段由三层组成:1)卷积层,2)非线性层和3)池化层。CNN的架构设计是为了利用输入图像的二维结构。典型的CNN由一个、两个或三个这样的特征提取阶段组成,然后是一个或多个传统的、完全连接的层和最后的分类器层。每种层类型将在以下部分中进行描述。
3.1.1 CONVOLUTIONAL LAYER
卷积层的输入是一个三维数组,包含r个大小为m × n的二维特征图。每个分量记为x,每个特征图记为xi。输出也是一个三维数组mi×ni×k,由k个大小为mi×ni的特征图组成。卷积层有k个大小为l×1× q的可训练滤波器,也称为滤波器组W,它将输入特征映射连接到输出特征映射。卷积层计算输出特征映射z= Σ, Wi*x+ b,,其中为二维离散卷积算子,b为可训练的偏置参数。
3.1.2 NONLINEARITY LAYER
在传统的CNN中,这一层只是由一个点向非线性函数组成,该函数作用于特征映射中的每个分量。非线性层计算输出特征映射a’ = f(z),因为通常选择f(-)作为整流线性单元(ReLU) f(x)= max(0,x)。
3.1.3 POOLING LAYER
池化层涉及对每个特征映射的小空间区域G内的激活执行max操作:p= maxa。更精确地说,池化层可以被认为是由间隔为5个像素的池化单元组成的网格,每个池化单元以池化单元的位置为中心,总结了一个大小为p*p的小空间区域。经过多个特征提取阶段后,通过经典最小二乘输出等有监督损失函数的反向传播训练整个网络,目标输出y表示为1-of-K向量,其中K为输出个数,L为层数:
1(θ = Σ((xθ)-yF)+ AΣsum(lΘF),(1)i = 1
其中l表示层数。我们的目标是最小化J(θ)作为θ的函数。为了训练CNN,我们可以使用反向传播的随机梯度下降来优化函数。
CNNs最近成为一种流行的深度学习方法,并在大规模视觉识别方面取得了巨大成功,这得益于大型公共图像库,如ImageNet[36]。在RS社区,最近也有一些基于cnn的RS图像像素分类[45]-[47]、目标识别[48]、[49]和场景理解[50]方面的工作。
3.2 AUTOENCODERS
3.3 RESTRICTED BOLTZMANN MACHINES
3.4 SPARSE CODING
4. DEEP LEARNING FOR REMOTE SENSING DATA
“深度学习中的基本算法”一节讨论了构建深度学习架构和一般框架时使用的一些基本元素。在实践中,各种RS数据分析技术的数学问题可以看作是输入输出数据与基于上述算法的特定DL网络相结合的特殊情况。在本节中,我们将从以下四个方面介绍RS数据的深度学习:1)图像预处理,2)基于像素的分类,3)目标识别,4)场景理解。
4.1 REMOTE SENSING IMAGE PREPROCESSING
在实际应用中,由于传感器的限制和大气的影响,观测到的遥感图像并不总是如我们所要求的那样令人满意。因此,在进行后续的分类识别任务之前,需要对RS图像进行预处理,以提高图像质量。根据RS相关文献,现有的RS图像去噪、去模糊、超分辨率、泛锐化等方法大多是基于信号处理领域的标准图像处理技术,而基于机器学习的技术则很少。事实上,如果我们能。通过一组训练样本有效地建立输入(观测数据)和输出(理想数据)之间的内在相关性模型,然后用相同的模型增强观测到的RS图像。根据前一节的基本技巧,这种内在相关性可以是DL有效探索。在本教程中,我们以RS图像恢复和平移锐化两种典型应用作为案例研究,以展示最新的深度学习在RS图像预处理方面的成就。
其次是我们在“一般框架”一节中介绍的基于dl的RS数据预处理的一般框架,该框架的输入数据通常是整个原始图像或局部图像补丁。然后构建一个特定的深度网络,如反卷积网络[63]或稀疏去噪声发射[28]。然后,根据学习到的DL模型对每个光谱通道或每个patch 恢复观测到的RS图像。
4.1.1 RESTORATION AND DENOISING
对于RS图像的恢复和去噪,将原始图像输入到某个网络中,该网络用干净的图像进行训练,得到恢复和去噪后的图像。如Zhang等人利用l1 /2 正则化反卷积网络对RS图像进行恢复和去噪[63],这是l -正则化反卷积网络的改进版本。经典的反卷积网络模型是在正则化条件下对图像进行卷积分解,这是一个稀疏约束项。在本研究进行的实验中,在深度网络中采用L2正则化得到的解比L正则化得到的解更稀疏,取得了令人满意的结果。
4.1.2 PAN SHARPENING
Huang等人通过引入深度神经网络,提出了一种新的RS图像预处理泛锐化方法[28],使用一种叠置改进稀疏去噪AE (S-MSDA)来训练HR和LR图像patch之间的关系。与稀疏声发射的结构类似,S-MSDA是由一系列msda叠加而成。MSDA是稀疏去噪声发射(SDA)的改进版本,是将稀疏性和去噪声发射结合起来得到的。训练SDA从相应的损坏版本中重建干净、修复的输入[64]。同时,修改后的版本(即MSDA)将HR图像补丁和相应的LR图像补丁分别作为干净数据和损坏数据,并表示它们之间的关系。有一个关键假设,即HR和LR多光谱(MS)图像斑块之间的关系与HR和LR PAN图像斑块之间的关系相同;因此,它是一种基于学习的方法,需要一组HR-LR图像对进行训练。由于HR PAN已经可用,我们设计了一种方法来获取其相应的LR PAN。因此,我们可以使用完全训练好的DL网络从观察到的LR MS图像重建HR MS图像。实验结果表明,基于dl的平移锐化方法优于其他传统和最新的锐化方法。上述方法只是基于dl的RS图像预处理的两个方面。实际上,我们可以使用通用框架来生成针对不同应用的RS图像质量改进的更多DL算法。
4.2 PIXEL-BASED CLASSIFICATION
基于像素的分类是地球科学和遥感界最热门的话题之一。近年来,在手工特征描述[65]-[68]、判别特征学习[13]、[69]、[70]和强大的分类器设计[71]、[72]等方面取得了重大进展。然而,从深度学习的角度来看,现有的方法大多只能提取原始数据的浅层特征(分类步骤也可以视为网络的顶层),对于分类任务来说,鲁棒性不够。基于DL的遥感图像像素分类涉及构建用于逐像素数据表示和分类的DL体系结构。通过采用深度学习技术,可以提取更鲁棒和抽象的特征表示,从而提高分类精度。
基于RS图像像素的深度学习分类方案包括三个主要步骤:1)数据输入,2)分层深度学习模型训练,3)分类。该方案的一般流程图如图2所示。在第一步中,输入向量可以是光谱特征、空间特征或光谱-空间特征,我们将在后面讨论。然后,对于隐藏层,设计一个深度网络结构来学习输入数据的预期特征表示。在相关文献中,既有监督深度学习结构(如CNN[45]),也有无监督深度学习结构(如ae[73]-[75]、dbn[29]、[76])。并在每层中使用其他自定义神经元[77])。第三步是分类,这涉及到在第二步(DL网络的顶层)中利用学习到的特征进行分类。一般来说,分类器主要有两种类型:1)硬分类器,如支持向量机,直接输出一个整数作为每个样本的类别标签[76];2)软分类器,如逻辑回归,它可以同时微调整个预训练网络,并以概率分布的方式预测类别标签[29],[73],[74],[78]。
4.2.1 SPECTRAL(光谱) FEATURE CLASSIFICATION
光谱信息通常包含丰富的判别信息。基于光谱特征的遥感图像分类是一种常用且直接的方法,即仅利用光谱特征对遥感图像进行分类。现有常用的遥感图像分类方法,如支持向量机(svm)和k-最近邻(KNN)等,结构都比较浅。相反,深度学习采用深度架构来处理原始数据与特定类标签之间的复杂关系。
对于光谱特征分类,直接将原始图像数据的光谱特征作为输入向量进行部署。输入的像素向量在网络部分进行训练,得到鲁棒的深度特征表示,作为后续分类步骤的输入。所选择的深度网络可以是深度CNN [45]以及AE的叠加[73],[75],[79],[80]。特别是Lin等人分别采用AE + svm和堆叠AE + logistic回归作为网络结构和分类层来执行浅表示和深表示的分类任务。值得注意的是,由于更深层的网络结构和微调步骤,深谱表示比浅谱表示取得了更好的性能[73]。
4.2.2 CLASSIFICATION WITH SPATIAL INFORMATION
众所周知,土地覆盖在空间域中是连续的,并且RS图像中的相邻像素可能属于同一类。许多光谱空间分类研究表明,利用空间特征可以显著提高分类精度[81]-[83]。然而,传统方法由于深度特征的浅层特性,无法提取出鲁棒的深度特征表示。为了解决这个问题,已经提出了许多基于dl的特征学习方法来寻找一种提取深度光谱空间表示用于分类的新方法[84]。
对于原始RS图像中的某个像素点,自然会考虑其相邻像素点来提取空间特征表示。然而,由于高光谱图像沿光谱维度有数百个通道,区域堆叠特征向量会导致输入维度过大。因此,在空间特征表示之前,有必要对光谱特征进行降维处理。通常在第一步执行PCA,以将数据映射到具有低信息丢失的可接受比例。然后,在第二步中,利用原始图像中每个特定像素的一个w × w (w为窗口大小)邻近区域来收集空间信息[85]。之后,空间数据被拉直成一维向量,送入深度学习网络。Lin等[73]和Chen等[74]采用叠加声发射作为深度网络结构。当抽象的功能已经学习后,进行最后的分类步骤,类似于光谱分类方案。
当考虑联合光谱和空间特征提取和分类方案时,在图2所示的框架下,主要有两种策略来实现这一目标。直接地说,与光谱-空间分类方案不同,光谱和初始空间特征在联合框架中组合成一个向量作为DL网络的输入,如文献[29]、[53]-[55]、[73]和[74]所示。这些论文中首选的深度网络分别是sae和dbn。然后,通过学习到的深度网络,获得每个测试样本的联合光谱-空间特征表示,用于后续的分类任务,这与前面描述的光谱-空间分类方案相同。另一种方法是通过卷积深度网络来处理特定像素的光谱和空间信息,如cnn[46]、[47]、[76]、卷积ae[78]和特定定义的深度网络[78]。此外,还有一些分层学习框架将每个操作步骤(例如,特征提取、分类和后处理)作为深度网络的单层[86]-[90]。在本教程中,我们也将它们视为光谱空间DL技术。
4.3 TARGET RECOGNITION
在舰船、飞机、车辆等大型HR RS图像中,由于目标体积小、数量多,周边环境复杂,容易导致识别算法将无关的地面物体误认为目标物体,是一项具有挑战性的任务。然而,自然图像中的目标相对较大,局部场的环境也没有RS图像那么复杂,使得目标更容易识别。这是探测遥感目标与探测自然目标的主要区别之一。尽管已经进行了许多研究,但我们仍然缺乏复杂环境下目标识别的高效定位方法和鲁棒分类器。在文献中,Cai等人[91]表明了从背景中分割飞机是多么困难,Chen等人[30],[92]在HR RS图像中的车辆检测方面做了很大的努力。
在如此复杂的环境下,目标识别的性能依赖于从目标中提取的特征。DL方法非常适合这项任务,因为这种类型的算法可以以高频率提取低级特征,例如物体的边缘、轮廓和轮廓,而不管目标的形状、大小、颜色或旋转角度如何。这种类型的算法还可以从输入图像或补丁中学习分层表示,例如由较低级特征复合的物体部分,使RS目标识别具有区别性和鲁棒性。其中许多方法通过使用深度学习方法在目标识别方面取得了最先进的性能[30]、[48]、[49]、[52]、[56]、[93]-[96]。
4.3.1 GENERAL DEEP-LEARNING FRAMEWORK OF REMOTE SENSING TARGET RECOGNITION
4.4 SCENE UNDERSTANDING
5. EXPERIMENTS AND ANALYSIS
函数使用随机梯度下降,批量大小为64,动量为0.9,权衰减为0.0005,学习率为0.01。此外,我们用整个训练集对每个RCNet进行了大约500个周期的训练。所有这些实验都是在一台个人计算机(PC)上运行的,该计算机具有单个英特尔酷睿i7中央处理器、NVIDIA Titan图形处理器和6gb内存。操作系统为Windows 7,实现环境为MATLAB 2014a,采用CUDA内核。我们将报告的分类性能与具有挑战性的UC Merced数据集进行了比较,在我们比较的四种策略中,有监督的深度学习方法RCNet产生了最好的性能。
6. CONCLUSIONS AND FUTURE WORK
1)训练样本的数量:虽然DL方法可以从原始RS图像中学习到高度抽象的特征表示,但检测和识别的性能依赖于大量的训练样本。然而,通常缺乏高质量的训练图像,因为标记HR图像的收集是困难的。在这种情况下,如何在训练样本较少的情况下保持深度学习方法的表示学习性能仍然是一个很大的挑战。
2) RS图像的复杂性:与自然场景图像不同,HR RS图像在单个场景中包含不同大小、颜色、旋转和位置的各种类型的物体,而属于不同类别的不同场景可能在许多方面彼此相似。RS图像的复杂性给深度学习从场景和对象中学习鲁棒和判别表征带来了很大的困难。
3)数据集之间的迁移:将深度网络学习到的特征检测器从一个数据集迁移到另一个数据集是一个有趣的方向,因为在一些RS领域往往缺乏训练图像,特别是面对RS数据集的大变化时,问题可能会更严重,这需要进一步系统的研究。
4)深度学习模型的深度:深度网络越深,模型的性能越好。对于像cnn这样的监督网络,更深层的网络可以学习更复杂的分布,但它们可能会导致更多的参数需要学习,从而导致过拟合的问题,特别是当训练样本不足的时候。计算时间也是一个需要考虑的重要因素。对于给定的数据集,探索深度学习模型的适当深度仍然是一个有待研究的开放主题。
AUTHOR INFORMATION
xxx(zlp62@whu.edu.cn) 1982年毕业于中国长沙湖南师范大学物理系,获理学学士学位;1988年获中国科学院西安光学精密机械研究所光学专业硕士学位;1998年获武汉大学摄影测量与遥感专业博士学位。现任武汉大学测绘与遥感信息工程国家重点实验室遥感研究室主任。他也是中国教育部长江学者讲座教授,中国国家重点基础研究计划(2011-2016)首席科学家,由中国国家科技部任命领导国家遥感项目。他发表了450多篇研究论文和5本书,拥有15项专利。他目前是IEEE地球科学与遥感学报的副主编。他是IEEE的高级会员。
xxx,2008年获武汉大学学士学位,2013年获博士学位。2013年8月至2015年7月在武汉大学计算机学院做博士后,2015年在浙江大学计算机辅助设计与图形学国家重点实验室做访问学者。现任武汉大学计算机学院讲师,香港理工大学计算机系香港学者。主要研究方向为模式识别、图像处理、遥感等。他是IEEE的成员。
xx,2005年获武汉大学测绘与遥感信息工程国家重点实验室摄影测量与遥感专业学士学位,2010年获武汉大学摄影测量与遥感专业博士学位。现任武汉大学计算机学院教授。在IEEE地球科学与遥感学报(TGRS)、IEEE图像处理学报(TIP)、IEEE地球观测与应用遥感专题学报(JSTARS)、IEEE地球科学与遥感快报(GRSL)等期刊上发表研究论文40余篇。他是第四届IEEE地球科学和遥感学会高光谱图像和信号处理研讨会的会议主席:遥感的发展。他还担任20本科学引文索引杂志的审稿人,包括IEEE TGRS, TIP, JSTARS和GRSL。他是IEEE的高级会员。