【计算机视觉】Image Data Augmentation算法介绍合集（二）

news2025/1/10 1:45:52

文章目录

- 一、Random Grayscale
- 二、GridMask
- 三、Adversarial Color Enhancement
- 四、Population Based Augmentation
- 五、MaxUp
- 六、SuperpixelGridCut, SuperpixelGridMean, SuperpixelGridMix
- 七、InstaBoost
- 八、Random Mix-up
- 九、Sample Redistribution
- 十、Batchboost
- 十一、CutBlur
- 十二、DiffAugment

一、Random Grayscale

随机灰度是一种图像数据增强，以概率将图像转换为灰度。

在这里插入图片描述

二、GridMask

GridMask 是一种数据增强方法，可随机删除输入图像的某些像素。与其他方法不同，该算法去除的区域既不是连续区域，也不是 dropout 中的随机像素。相反，该算法会删除具有不连续像素集的区域，如图所示。

我们将设置表示为

在这里插入图片描述

三、Adversarial Color Enhancement

对抗性颜色增强是一种通过梯度下降优化滤色器来生成不受限制的对抗性图像的方法。

在这里插入图片描述

四、Population Based Augmentation

基于群体的增强（PBA）是一种数据增强策略（PBA），它生成非平稳增强策略计划而不是固定增强策略。在 PBA 中，我们将增强策略搜索问题视为超参数调度学习的一个特例。它利用基于群体的训练 (PBT)，这是一种超参数搜索算法，可联合优化网络参数及其超参数，以最大限度地提高性能。 PBT 的输出不是最优的超参数配置，而是经过训练的模型和超参数时间表。

在 PBA 中，我们只对学习的时间表感兴趣并丢弃子模型结果（类似于 AutoAugment）。然后，可以使用这种学习到的增强计划来改进同一数据集上不同（即更大且训练成本更高）模型的训练。

PBT执行如下。首先，随机初始化并并行训练固定的模型群体。在一定的时间间隔，“利用和探索”过程应用于表现较差的群体成员，其中模型克隆表现更好的模型的权重（即，利用），然后扰乱克隆模型的超参数以进行搜索超参数空间（即探索）。由于模型的权重被克隆并且从未重新初始化，因此所需的总计算量是训练单个模型的计算量乘以群体大小。

在这里插入图片描述

五、MaxUp

MaxUp 是一种对抗性数据增强技术，用于提高机器学习模型的泛化性能。这个想法是通过一些随机扰动或变换生成一组增强数据，并最小化增强数据的最大或最坏情况损失。通过这样做，我们隐式地引入了针对随机扰动的平滑性或鲁棒性正则化，从而提高了生成性能。例如，在高斯扰动的情况下，MaxUp 渐近等价于使用损失的梯度范数作为惩罚来鼓励平滑。

在这里插入图片描述

六、SuperpixelGridCut, SuperpixelGridMean, SuperpixelGridMix

Karim Hammoudi、Adnane Cabani、Bouthaina Slika、Halim Benhabiles、Fadi Dornaika 和 Mahmoud Melkemi。 SuperpixelGridCut、SuperpixelGridMean 和 SuperpixelGridMix 数据增强，arXiv:2204.08458，2022。https://doi.org/10.48550/arxiv.2204.08458

在这里插入图片描述

七、InstaBoost

InstaBoost 是一种利用现有实例掩码注释进行实例分割的数据增强技术。

在这里插入图片描述

八、Random Mix-up

R-Mix（随机混合）是混合系列数据增强方法。它将随机混合与显着性引导混合相结合，产生快速且高性能的过程，同时保留显着性引导混合的良好特性，例如低预期校准误差和高弱监督对象定位精度。

在这里插入图片描述

九、Sample Redistribution

样本重新分配是一种用于人脸检测的数据增强技术，它根据基准数据集的统计数据通过大规模裁剪来增强训练样本。在训练数据增强期间，从原始图像中裁剪出方形补丁，并具有随机大小原始图像的短边。为了为步长 8 生成更多正样本，随机大小范围。当裁剪框超出原始图像时，平均 RGB 值会填充缺失的像素。

其动机是为了在固定 VGA 分辨率（即 640×480）下进行有效的人脸检测，WIDER FACE 中的大多数人脸（78.93%）小于 32×32 像素，因此它们是通过浅层阶段进行预测的。为了为这些浅层阶段获得更多的训练样本，使用了样本重新分配（SR）。

在这里插入图片描述

十、Batchboost

Batchboost 是 MixUp 的一种变体，它不是只混合两个图像，而是将许多图像混合在一起。

在这里插入图片描述

十一、CutBlur

CutBlur 是一种专门为低级视觉任务设计的数据增强方法。它剪切低分辨率补丁并将其粘贴到相应的高分辨率图像区域，反之亦然。 Cutblur 的关键直觉是使模型不仅能够学习“如何”，而且能够学习“在哪里”超分辨率图像。通过这样做，模型可以理解“多少”，而不是盲目地学习将超分辨率应用于每个给定的像素。

在这里插入图片描述