之前在做课题的时候,把数据不均衡和小样本的概念混淆了,昨天看了一篇论文:《 面向小样本数据的机器学习方法研究综述 (陈良臣,傅德印)》 ,这篇论文写的非常清晰。推荐阅读。
网上的一些综述整理都是根据《小样本学习研究综述(赵凯琳)》这篇论文:知乎上的一篇笔记
一、论文里的一些概念
- 小样本学习的概念以及目的?
小样本学习是面向小样本数据的机器学习。目前小样本 学习的研究主要关注如何在缺乏足够样本条件下,仅通过较少 数量的样本就能理解事物的本质特征,避免过拟合并给出泛化 性良好的结果。
- “小样本”指多少数据?
根据训练样本数量将小样本学习分为3类:只 有一个训练样本,称为单样本学习;不存在目标训练样本,称 为零样本学习;目标训练样本在数十个量级时,称为小样本学 习。很多文献将这3类统称为小样本学习,前两类为特殊情况 。
- 目前学者们的研究方法?
基于模型微调、基于数据增强、基于度量学习和基于元学习。
二、基于数据增强
因为我之前一直在做GAN算法的学习,所以为了解决小样本问题,重点关注数据增强这一方法。
在论文《 面向小样本数据的机器学习方法研究综述 (陈良臣,傅德印)》中,作者给出了一些引用文献,我把GAN相关的文献全部下载下来(到arxiv、知网、google搜索就能简单找到,所以不放在博客里记录了),并进行一个整理。
- GAN
文 献[37]提出了生成对抗网络模型 GAN,基于博弈论思想将噪声 分布映射到接近数据的真实分布,对小样本数据进行数据增强。
Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]. In: Advances in Neural Information Processing Systems, 2014,27:2672−2680
- DAGAN
文献[38]在生成对抗网络基础上,提出了数据增强生成对抗网络 DAGAN,组合 UNet 和 ResNet,通过生成与样本近似分布的增强数据来改善模型质量。 Antoniou A, Storkey A, Edwards H. Data augmentation generative adversarial networks[J]. arXiv preprint arXiv:1711.04340,2017
这篇知乎上的翻译,大致看来是增加局部信息,使生成的样本效果更好。和小样本关系不大。先忽略。另外,码住比较易懂的一篇笔记;翻译1;翻译2。
- 生成对抗残差成对网络
文献[39]提出了一种生成对抗残差成对网络来处理单样本学习问题。 Mehrotra A, Dukkipati A. Generative adversarial residual pairwise networks for one shot learning[C].preprint arXiv: 1703.08033, 2017.
中文资料较少,融合扩充-双重特征提取应用于小样本学习
- Meta-GAN
文献[42]提出了一种 Meta-GAN 模型,结合生成对抗网络和分类网络优化,使用产生的数据进行小样本数据增强。 Zhang R, Che T, Ghahramani Z, et al. Metagan: An adversarial approach to few-shot learning[C]. Advances in neural information processing systems, 2018:2365-2374.
简书社区的论文阅读,没有完全看完,只看了前面的一部分,Meta-GAN相当于是一种改进算法,在MAML 、Reaction net基础上添加的,由于这两种基础算法还没有看,所有暂时不考虑使用Meta-GAN做课题。
- f-VAEGAN-D2
文献[44] 结合变分编码器和 GAN,集成新网络,完成小样本学习分类,并 使得生成样本的特征空间具有可解释性。 Xian Y,Sharma S, Schiele B, et al. f-VAEGAN-D2: A feature generating framework for any-shot learning. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2019. 10275−10284.
csdn的一个博客;知乎上的论文翻译
- CWGAN
文献[45]利用 CWGAN 生成扩充数据集以提高分类能力和生成样本的多样性。 Chen WJ. Semi-supervised learning study summary. Academic Exchange, 2011,7(16):3887−3889
没看,应该不适用于小样本。
- f-DAGAN
文献[46] 提出了一种适用于小样本学习的数据增强生成对抗网络 f-DAGAN,使用双重鉴别器来处理生成的数据和生成的特征空间,以更好地学习给定的数据。 Bharat Subedi, V. E. Sathishkumar, V. Maheshwari.
Feature LearningBased Generative Adversarial Network Data Augmentation for Class-Based Few-Shot Learning[J]. Mathematical Problems in Engineering. 2022:1-20.
DAGAN:CSDN上的一个博客;知乎上的一篇,但是写的不详细,但给了代码链接
三、码住其他有用的链接
1.小样本学习研究综述 赵凯琳1,2,靳小龙1,2 , 王元卓1,2 ,这篇论文对四种研究方法都有一定的介绍,另外很贴心的把引用的所有文献的原文链接都放在了下面。