深度学习不同数据增广方法的选用分析

news2024/11/14 6:35:04

一般情况下,可以将数据扩增方法分为单数据变形、多数据混合、学习数据分布规律生成新数据和学习增广策略等4 类方法。以上顺序也在一定程度上反映了数据增广方法的发展历程。如果与Shorten和Khoshgoftaar的成果对照,就图像数据而言,基于数据变形和数据混合的方法可看做是基本的图像变换操作,而学习数据分布和学习增广策略的方法主要依赖于机器学习中的生成式方法和策略搜索方法,大多依赖于深度学习方法。为避免针对图像的“数据增强”与数字图像处理领域中“图像增强”的混淆,一般使用“数据增广”表示机器学习领域内增加样本数量、扩大训练集的这类方法。

单数据变形

单数据变形类数据增广方法以单个数据自身为操作对象,通过各种变换操作改变原始数据的表现形态,以产生不同于原始数据的新数据。常见的针对图像数据的变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5 种。由于单图操作可以快速产生新样本,具备简单易操作的特点,因此长期以来广泛应用于图像领域的数据增广中。主要包括:

几何变换

几何变换是最常见的图像数据增广方法,通过旋转、镜像、平移、裁剪、缩放和扭曲等变换方式生成新样本。基于几何变换的数据增广相当于在数据集上增加视角、位置方面的偏差,进而增强模型在这些方面的鲁棒性,提高测试精度。

色域变换

色域变换是一种在图像各通道上进行亮度变换的新样本生成方式。现实生活中的一个物体在各种光照场景下不会改变其分类,因此模型应该在光照多变的条件下保证一定的稳定性。基于色域变换的数据增广本质上是通过对数据集增加各种各样的光照亮度偏差,增强模型在不同光照条件下的鲁棒性。

清晰度变换

清晰度变换是一种改变图像视觉清晰度的新样本生成方式,这类方法在Shorten和Khoshgoftaar的综述中被称为“核滤波器”。作为图像处理中常用的一种技术,核滤波器通过滑动的n × m 矩阵对图像进行卷积操作,对图像进行锐化和模糊处理,实现图像的清晰度变换。

噪声注入

噪声注入是一种在图像上叠加噪声的新样本生成方式,噪声可表示为一个服从某分布的随机矩阵。通过人为地为图像施加噪声干扰,可为数据集引入冗余和干扰信息,模拟不同成像质量的图像,增强模型对噪声干扰和冗余信息的过滤能力,提高模型对不同质量图像的识别能力。

局部擦除

不同于噪声是对图像离散的像素值信息的干扰,局部擦除则是图像局部区域所有像素值信息的丢失。受dropout 的启发,随机擦除随机或人为设计丢失一些图像的局部信息,可以视为一种在数据空间的dropout。直观上,随机擦除相当于在图像上增加一些遮挡,因此可以提高模型在遮挡条件下的鲁棒性。这种局部遮挡的方式,迫使模型去学习图像中更宽广的具有描述性质的特征,从而防止模型过拟合于特定的视觉特征。

多数据混合

单数据变形类的数据增广方式主要对单幅图像上的信息进行人为修改,而多数据混合的方式希望将多幅图像的信息进行混合以产生新的训练数据,可以从图像空间或特征空间进行信息混合。

图像空间的数据混合

在图像空间进行数据混合的数据增广方法,可以分为对多幅图像的线性叠加和非线性混合,是一类与人类直觉不一致的数据增广方式。

特征空间数据混合

对于图像而言,CNN 模型具有强大的特征提取能力,可以获取图像不同层级的特征,因此还可以借助CNN 提取的图像特征,在特征空间进行数据增广。

学习数据分布

单数据变形类和多数据混合类的数据增广方法操作的对象主要都是单幅图像或者多幅图像,产生新图像时可以利用的先验知识很少,仅仅是图像本身的信息和图像对的互信息。而机器学习中的生成式方法,可以通过训练,学习数据集的潜在概率分布,在数据分布中进行过采样生成新数据,由于将整个数据集作为先验知识,这种数据增广方法在理论上是一种更加优秀的方法。

生成对抗网络

图像风格迁移

学习增广策略

在众多的数据增广方法中,如何根据数据和任务的特点来选用这些数据增广方法呢? 训练一个模型去自适应地选用最优的数据增广策略,来实现模型性能提升的最大化,这种学习增广策略的思想,可以借助元学习和强化学习来实现。

在各种经典卷积神经网络的图像语义标注工作中,例如AlexNet 和GoogLeNet 等,在训练时采用简单的图像裁剪和水平镜像操作即可得到成百倍数量的样本并且有效地提高模型的分类精度,这也使得几何变换成为了最为常见的数据增广方法,人们通常会选用几种不同的变换方法以组合产生数量更多的样本。然而,采用不合适的变换方法则可能带来负面的效果。因此,方法的适用性成为使用数据增广时首先需要考虑的问题。

虽然在选用数据增广方法时需要考虑不同种类、不同领域图像各自的特点,但是都需要具备一个核心原则: 在不改变图像原有语义信息的同时尽可能多地增加变化。例如,旋转和上下翻转会改变自然图像的语义,因此很少在自然图像任务上采用,然而它们对于遥感图像非常适用; 在增加变化方面,自然环境下拍摄的图像会受到不同光照条件的影响,色域变换可以模拟不同的光照环境,而对于遥感图像,地物的光谱信息即颜色信息对于解译十分重要,色域变换则非常容易改变图像中地物原有的光谱信息,导致无法正确识别; 此外,由于自然图像和遥感图像在内容理解上都经常受到遮挡因素的影响,如自然场景前景对背景的遮挡、遥感场景中云对地物的遮挡,裁剪和局部擦除的方法可以提高模型对遮挡的鲁棒性,而对于医疗影像其成像方式的不同,不存在遮挡的问题,使用这类数据增广方法的有效性还有待验证。

虽然在一些研究工作中已经证明使用GAN进行数据增广可以更有效地提高模型的精度,但是训练GAN 模型需要一定数量的样本,对于数据量非常小的任务,不适合采用这类基于学习的方法。在实际应用中,精度也并不是衡量模型性能的唯一标准,尽管基于强化学习去搜索最优的数据增广方法的组合策略可以取得目前最好的图像分类结果,但这类方法的搜索空间巨大,训练的复杂度、计算的成本都很高,因此在采用这类方法时还需要考虑开销和产出的平衡。

未来研究展望

组合不同的数据增广方法,为模型带来不同方面的、增量式的提升,理论上是一条可以实现最优化数据增广效果的路径。但是各类数据增广算法,对于不同的数据、不同的任务和不同的应用场景,算法的适用性差异很大,在定义搜索空间时就需要考虑数据和任务的特点,因此,针对不同数据和任务,对各种数据增广方法适配性的理论分析和实验验证,是十分具有研究意义和应用价值的工作。

在学习增广策略方面,除了强化学习,元学习的思想在数据增广方面的应用研究还有很大空白,如何去构造一个数据增广神经网络,学习最优的数据变形或数据融合方式,以及如何借助神经网络去实现“根据数据和任务进行自适应数据增广”,仍然有待研究。

训练样本仅仅是在数据分布中的采样点,数量有限,而GAN 的生成网络可以拟合数据潜在的概率分布,在拟合的数据分布中采样以生成新样本,本质上这是最为理想的数据增广方法,可以生成现实生活中未被采样的但存在发生概率的未知样本,并且数量不受限制。然而,由于图像的维度很高,同时训练GAN 的样本也非常有限,许多情况下GAN 对图像数据的概率分布的拟合效果并不好,导致采样生成的图像质量难以保证,限制了GAN 作为理论上最佳数据增广方法的发展。因此,未来对于GAN 拟合真实数据分布的进一步研究,可以推动其作为数据增广方法的发展和应用。

另外,对于GAN 风格迁移方面的研究和应用,本质上是建立一种不同数据分布之间的相互映射,对于现实生活中普遍存在的跨场景、跨模态的多领域分布的数据,可以通过构建这种映射来实现数据的互补。因此,未来可以针对某一类对象,如医疗影像中的人体器官,构建不同模态数据之间的相互映射,在弥补数量的同时充分利用不同模态图像的特性,取长补短,更好地完成诊断任务。再如遥感领域中的影像配准,获取、制作SAR和红外基准影像非常困难,大量使用的基准影像仍然是可见光影像,构建可见光影像到SAR和红外影像的映射,将异源影像配准转为同源影像配准,可以提高配准的精度和速度。类似的研究可在不同领域展开。

 

相关的文章参考

几种信号降噪算法(第一部分)

https://www.toutiao.com/article/7190201924820402721/

几种信号降噪算法(第二部分)

https://www.toutiao.com/article/7190270349236683264/

机械故障诊断及工业工程故障诊断若干例子(第一篇)

https://www.toutiao.com/article/7193957227231855163/

知乎咨询:哥廷根数学学派

算法代码地址,面包多主页:mbd.pub/o/GeBENHAGEN

擅长现代信号处理(改进小波分析系列,改进变分模态分解,改进经验小波变换,改进辛几何模态分解等等),改进机器学习,改进深度学习,机械故障诊断,改进时间序列分析(金融信号,心电信号,振动信号等)

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/731822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抖音矩阵源码搭建开发技术部署分析

目录 一、 什么是抖音矩阵?源码搭建开发注意事项? 1. 抖音矩阵概述 2. 源码搭建开发注意事项: 二、 使用步骤及开发代码展示 一、 什么是抖音矩阵?源码搭建开发注意事项? 1. 抖音矩阵概述 首先,抖音账…

21夜间车牌识别(matlab程序)

1.简述 简单说一下实现思路: 读取图片,转灰度,计算灰度直方图,估算阈值(这里的阈值计算很重要,经过阈值算法,选取一个最恰当的阈值),之后二值化。显示图像即可。 实现目…

爬虫爬取公众号文章

前言 自从chatGPT出现后,对于文本处理的能力直接上升了一个维度。在这之前,我们爬取到网络上的文本内容之后,都需要写一个文本清理的程序,对文本进行清洗,而现在,有了chatGPT的加持,我们只需要…

解决程序占用较多内存的问题

今天发现自己开发的一个程序占用了大量内存而且不会自动释放 ,我的程序在windows中运行的,解决办法如下: 第一步:打开任务管理器,打到正在运行程序 (这里以sql server为例),然后右击…

设计合并排序算法实现对N个整数排序。

1.题目 设计合并排序算法实现对N个整数排序 2.设计思路 先将无序序列利用分治法划分为子序列,直至每个子序列只有一个元素,然后再对有序子序列逐步进行合并排序。合并方法是循环的将两个有序子序列当前的首元素进行比较,较小的元素取出,置入合并序列的左边空置位,直至其中…

特征选择算法 | Matlab 基于最大相关最小冗余特征选择算法(mRMR)的分类数据特征选择

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 特征选择算法 | Matlab 基于最大相关最小冗余特征选择算法(mRMR)的分类数据特征选择 部分源码 %--------------------

Redis实战案例12-添加秒杀券实现秒杀下单及相关问题解决

1. 添加优惠券 该项目没有后台管理的界面,所以采用postman发送请求 http://localhost:8081/voucher/seckill注意end时间要大于当前系统时间 {"shopId": 2,"title": "100元代金券","subTitle": "周一至周五均可使用&qu…

c++查漏补缺

c语言的struct只能包含变量,而c中的class除了包含变量,还可以包含函数。 通过结构体定义出来的变量还是变量,而通过类定义出来有了新的名称,叫做对象。C语言中,会将重复使用或具有某项功能的代码封装成一个函数&#x…

【剑指offer】8. 斐波那契数列(java)

文章目录 斐波那契数列描述输入描述:返回值描述:示例1示例2示例3思路非递归递归 完整代码 斐波那契数列 描述 大家都知道斐波那契数列,现在要求输入一个正整数 n ,请你输出斐波那契数列的第 n 项。 斐波那契数列是一个满足 f …

PHP学生工作平台管理系统mysql数据库web结构apache计算机软件工程网页wamp

一、源码特点 PHP学生工作平台管理系统 是一套完善的web设计系统,对理解php编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为PHP APACHE,数据 库为mysql5.0,使用php语言开发…

linux 如何挂载fat32格式u盘,如何挂载NTFS 文件系统的硬盘

linux系统默认可以识别fat32u盘,对ntfs格式u盘不能识别 具体挂载方式如下 1、插入u盘 2、mkdir /mnt/usb 此命令用于创建挂载u盘的目录,只需创建一次就可以,若已经存在则不需要再次创建 3、fdisk -l 找到u盘路径 上图显示的sdb1,sdb2,sdb5…

Gradio,我们可以为我们的模型创建Web界面

Gradio是一个Python库,允许我们快速为机器学习模型创建可定制的接口。 使用Gradio,我们可以为我们的模型创建Web界面,而无需编写任何HTML,CSS或JavaScript。 Gradio旨在与广泛的机器学习框架配合使用,包括TensorFlow&a…

IOU发展历程学习记录

概述 IOU的出现主要最先运用在预测bbox框和target bbox框之间的重叠问题,为NMS提供相应的数值支撑。另外在bbox框的回归问题上,由于L1 Loss存在如下问题:当损失函数对x的导数为常数,在训练后期,x很小时,若…

GEE:基于MODIS土地覆盖类型“混交林”的净初级生产力(NPP)的区域统计

作者:CSDN @ _养乐多_ 本文将介绍如何使用Google Earth Engine(GEE)平台提取特定地区的净初级生产力(NPP)的统计信息,并在地图上可视化。通过加载MODIS数据集,并使用GEE提供的函数和方法,能够高效地计算特定地区的净初级生产力的平均值。 文章目录 一、代码详解二、代…

大模型的数据供血系统-向量数据库常识科普

1. 数据库行业有了新动向 对于传统数据库研发运维来说,数据库行业上次有概念创新,还是十几年前的NoSQL…… 在AI大行业发展的推进下,向量数据库成为了最新兴的数据库技术趋势,业内多家开源向量数据库都拿到了高额融资,…

《网络是怎样连接的》-户根勤

第一章:浏览器生成消息-探索浏览器内部 主要讲HTTP消息、DNS和委托协议栈发送消息。 第二章:用电信号传输TCP/IP数据-探索协议栈和网卡 主要讲套接字的创建、连接、通信、断开和删除四个阶段;IP与以太网的包收发阶段;UDP协议的收…

使用LocalThread获取当前线程的用户ID错误

说明:LocalThread是线程变量,可以往该线程变量中填充我们项目用户的ID,可以在其他的业务代码中直接获取,十分方便,详细参考:http://t.csdn.cn/k75rs LocalThread使用 第一步:创建类 创建一个…

北京市自动驾驶出行服务商业化试点启动,无人驾驶会是未来吗?

北京市高级级别自动驾驶示范区工作办公室公告称,智能网联乘用车“车内无人”商业化试点正式启动。根据最新修订的《北京市智能网联汽车政策先行区自动驾驶出行服务商业化试点管理细则(试行)》,企业在满足相关要求后,可…

如何用https协议支持小程序

步骤一:下载SSL证书 登录数字证书管理服务控制台。在左侧导航栏,单击SSL 证书。在SSL证书页面,定位到目标证书,在操作列,单击下载。 在服务器类型为Nginx的操作列,单击下载。 解压缩已下载的SSL证书压缩…

English Learning - L3 作业打卡 Lesson8 Day58 2023.7.3 周一

English Learning - L3 作业打卡 Lesson8 Day58 2023.7.3 周一 引言🍉句1: And this is when I learned that our borders and our obstacles can only do two things: one, stop us in our tracks or two, force us to get creative.成分划分弱读连读爆破语调 &…