一般情况下,可以将数据扩增方法分为单数据变形、多数据混合、学习数据分布规律生成新数据和学习增广策略等4 类方法。以上顺序也在一定程度上反映了数据增广方法的发展历程。如果与Shorten和Khoshgoftaar的成果对照,就图像数据而言,基于数据变形和数据混合的方法可看做是基本的图像变换操作,而学习数据分布和学习增广策略的方法主要依赖于机器学习中的生成式方法和策略搜索方法,大多依赖于深度学习方法。为避免针对图像的“数据增强”与数字图像处理领域中“图像增强”的混淆,一般使用“数据增广”表示机器学习领域内增加样本数量、扩大训练集的这类方法。
单数据变形
单数据变形类数据增广方法以单个数据自身为操作对象,通过各种变换操作改变原始数据的表现形态,以产生不同于原始数据的新数据。常见的针对图像数据的变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5 种。由于单图操作可以快速产生新样本,具备简单易操作的特点,因此长期以来广泛应用于图像领域的数据增广中。主要包括:
几何变换
几何变换是最常见的图像数据增广方法,通过旋转、镜像、平移、裁剪、缩放和扭曲等变换方式生成新样本。基于几何变换的数据增广相当于在数据集上增加视角、位置方面的偏差,进而增强模型在这些方面的鲁棒性,提高测试精度。
色域变换
色域变换是一种在图像各通道上进行亮度变换的新样本生成方式。现实生活中的一个物体在各种光照场景下不会改变其分类,因此模型应该在光照多变的条件下保证一定的稳定性。基于色域变换的数据增广本质上是通过对数据集增加各种各样的光照亮度偏差,增强模型在不同光照条件下的鲁棒性。
清晰度变换
清晰度变换是一种改变图像视觉清晰度的新样本生成方式,这类方法在Shorten和Khoshgoftaar的综述中被称为“核滤波器”。作为图像处理中常用的一种技术,核滤波器通过滑动的n × m 矩阵对图像进行卷积操作,对图像进行锐化和模糊处理,实现图像的清晰度变换。
噪声注入
噪声注入是一种在图像上叠加噪声的新样本生成方式,噪声可表示为一个服从某分布的随机矩阵。通过人为地为图像施加噪声干扰,可为数据集引入冗余和干扰信息,模拟不同成像质量的图像,增强模型对噪声干扰和冗余信息的过滤能力,提高模型对不同质量图像的识别能力。
局部擦除
不同于噪声是对图像离散的像素值信息的干扰,局部擦除则是图像局部区域所有像素值信息的丢失。受dropout 的启发,随机擦除随机或人为设计丢失一些图像的局部信息,可以视为一种在数据空间的dropout。直观上,随机擦除相当于在图像上增加一些遮挡,因此可以提高模型在遮挡条件下的鲁棒性。这种局部遮挡的方式,迫使模型去学习图像中更宽广的具有描述性质的特征,从而防止模型过拟合于特定的视觉特征。
多数据混合
单数据变形类的数据增广方式主要对单幅图像上的信息进行人为修改,而多数据混合的方式希望将多幅图像的信息进行混合以产生新的训练数据,可以从图像空间或特征空间进行信息混合。
图像空间的数据混合
在图像空间进行数据混合的数据增广方法,可以分为对多幅图像的线性叠加和非线性混合,是一类与人类直觉不一致的数据增广方式。
特征空间数据混合
对于图像而言,CNN 模型具有强大的特征提取能力,可以获取图像不同层级的特征,因此还可以借助CNN 提取的图像特征,在特征空间进行数据增广。
学习数据分布
单数据变形类和多数据混合类的数据增广方法操作的对象主要都是单幅图像或者多幅图像,产生新图像时可以利用的先验知识很少,仅仅是图像本身的信息和图像对的互信息。而机器学习中的生成式方法,可以通过训练,学习数据集的潜在概率分布,在数据分布中进行过采样生成新数据,由于将整个数据集作为先验知识,这种数据增广方法在理论上是一种更加优秀的方法。
生成对抗网络
图像风格迁移
学习增广策略
在众多的数据增广方法中,如何根据数据和任务的特点来选用这些数据增广方法呢? 训练一个模型去自适应地选用最优的数据增广策略,来实现模型性能提升的最大化,这种学习增广策略的思想,可以借助元学习和强化学习来实现。
在各种经典卷积神经网络的图像语义标注工作中,例如AlexNet 和GoogLeNet 等,在训练时采用简单的图像裁剪和水平镜像操作即可得到成百倍数量的样本并且有效地提高模型的分类精度,这也使得几何变换成为了最为常见的数据增广方法,人们通常会选用几种不同的变换方法以组合产生数量更多的样本。然而,采用不合适的变换方法则可能带来负面的效果。因此,方法的适用性成为使用数据增广时首先需要考虑的问题。
虽然在选用数据增广方法时需要考虑不同种类、不同领域图像各自的特点,但是都需要具备一个核心原则: 在不改变图像原有语义信息的同时尽可能多地增加变化。例如,旋转和上下翻转会改变自然图像的语义,因此很少在自然图像任务上采用,然而它们对于遥感图像非常适用; 在增加变化方面,自然环境下拍摄的图像会受到不同光照条件的影响,色域变换可以模拟不同的光照环境,而对于遥感图像,地物的光谱信息即颜色信息对于解译十分重要,色域变换则非常容易改变图像中地物原有的光谱信息,导致无法正确识别; 此外,由于自然图像和遥感图像在内容理解上都经常受到遮挡因素的影响,如自然场景前景对背景的遮挡、遥感场景中云对地物的遮挡,裁剪和局部擦除的方法可以提高模型对遮挡的鲁棒性,而对于医疗影像其成像方式的不同,不存在遮挡的问题,使用这类数据增广方法的有效性还有待验证。
虽然在一些研究工作中已经证明使用GAN进行数据增广可以更有效地提高模型的精度,但是训练GAN 模型需要一定数量的样本,对于数据量非常小的任务,不适合采用这类基于学习的方法。在实际应用中,精度也并不是衡量模型性能的唯一标准,尽管基于强化学习去搜索最优的数据增广方法的组合策略可以取得目前最好的图像分类结果,但这类方法的搜索空间巨大,训练的复杂度、计算的成本都很高,因此在采用这类方法时还需要考虑开销和产出的平衡。
未来研究展望
组合不同的数据增广方法,为模型带来不同方面的、增量式的提升,理论上是一条可以实现最优化数据增广效果的路径。但是各类数据增广算法,对于不同的数据、不同的任务和不同的应用场景,算法的适用性差异很大,在定义搜索空间时就需要考虑数据和任务的特点,因此,针对不同数据和任务,对各种数据增广方法适配性的理论分析和实验验证,是十分具有研究意义和应用价值的工作。
在学习增广策略方面,除了强化学习,元学习的思想在数据增广方面的应用研究还有很大空白,如何去构造一个数据增广神经网络,学习最优的数据变形或数据融合方式,以及如何借助神经网络去实现“根据数据和任务进行自适应数据增广”,仍然有待研究。
训练样本仅仅是在数据分布中的采样点,数量有限,而GAN 的生成网络可以拟合数据潜在的概率分布,在拟合的数据分布中采样以生成新样本,本质上这是最为理想的数据增广方法,可以生成现实生活中未被采样的但存在发生概率的未知样本,并且数量不受限制。然而,由于图像的维度很高,同时训练GAN 的样本也非常有限,许多情况下GAN 对图像数据的概率分布的拟合效果并不好,导致采样生成的图像质量难以保证,限制了GAN 作为理论上最佳数据增广方法的发展。因此,未来对于GAN 拟合真实数据分布的进一步研究,可以推动其作为数据增广方法的发展和应用。
另外,对于GAN 风格迁移方面的研究和应用,本质上是建立一种不同数据分布之间的相互映射,对于现实生活中普遍存在的跨场景、跨模态的多领域分布的数据,可以通过构建这种映射来实现数据的互补。因此,未来可以针对某一类对象,如医疗影像中的人体器官,构建不同模态数据之间的相互映射,在弥补数量的同时充分利用不同模态图像的特性,取长补短,更好地完成诊断任务。再如遥感领域中的影像配准,获取、制作SAR和红外基准影像非常困难,大量使用的基准影像仍然是可见光影像,构建可见光影像到SAR和红外影像的映射,将异源影像配准转为同源影像配准,可以提高配准的精度和速度。类似的研究可在不同领域展开。
相关的文章参考
几种信号降噪算法(第一部分)
https://www.toutiao.com/article/7190201924820402721/
几种信号降噪算法(第二部分)
https://www.toutiao.com/article/7190270349236683264/
机械故障诊断及工业工程故障诊断若干例子(第一篇)
https://www.toutiao.com/article/7193957227231855163/
知乎咨询:哥廷根数学学派
算法代码地址,面包多主页:mbd.pub/o/GeBENHAGEN
擅长现代信号处理(改进小波分析系列,改进变分模态分解,改进经验小波变换,改进辛几何模态分解等等),改进机器学习,改进深度学习,机械故障诊断,改进时间序列分析(金融信号,心电信号,振动信号等)