小样本学习综述

📕[1]潘雪玲,李国和,郑艺峰. 面向深度网络的小样本学习综述 [J]. 计算机应用研究, 2023, 40 (10): 2881-2888+2895. DOI:10.19734/j.issn.1001-3695.2023.02.0074.

主要是该论文的一些摘要。

小样本学习旨在利用较少目标数据训练模型快速学习的。

从基于度量学习和基于参数优化两方面对基于元学习的方法进行分析能力。

背景：然而，标注数据的收集与获取需要消耗大量的人力与时间，并且在某些领域（例如医学、军事和金融等）中，由于隐私安全等问题无法获得充足的样本。研究人员提出小
样本学习（ｆｅｗ-ｓｈｏｔｌｅａｒｎｉｎｇ）。

1.2015年koch等人首次将深度学习融入到小样本学习问题中，提出孪生网络用以衡量两个样本间的相似度，使得模型精度有了很大的提高。

小样本学习进入深度学习阶段，其研究重点主要以构造后验概率的判别模型为主。

即通过深度神经网络ｆ（·｜θ）（例如：ＣＮＮ）对输入样本进行特征提取，再通过
预测层Ｃ（·｜φ）（例如：ｓｏｆｔｍａｘ）对提取的特征进行标签预测。其中，θ和φ均为可学习的深度网络参数。

基于数据增强的小样本学习方法的本质是通过数据合成或特征增强方式解决样本量少的问题，本文根据是否需要额外的辅助信息（比如语义属性［１５］或词向量［１６］等）将基于数据增强的小样本学习方法进一步细分为监督数据增强和无监督数据增强。

研究人员从跨任务学习的角度提出基于元学习的小样本学习方法来解决模型过拟合问题，本文将其细分为基于度量学习和基于参数优化。

元学习，即学会学习，指算法能够从过去的经验中总结出一种策略，以帮助其在面对新的任务时能快速地学习。

（1）元训练（meta-training）阶段

元训练阶段（meta-training）先通过大量不同的源任务训练元学习器（meta-learner）f( ，)，此阶段学习先验知识（如模型的初始参数、优化器和神经网络的超参数等），再利用已学得的先验知识结合少量目标任务达到快速训练基学习器（base-learner）m( , )的目的。

在这个阶段，利用损失函数做反向传播优化元学习器（meta-learner）的参数θ时，必须贯穿整个小样本训练过程（包括元学习器和基学习器两个训练过程），而非仅仅优化元学习器的参数。

（2）元测试（meta-test）阶段，元学习器通常固定不变（即不再优化其参数），仅为新的查询集任务生成一个适合的新的基分类器。

本章将从基于度量和基于参数优化两个方向对基于元学习的小样本方法进行归纳分析。

基于度量学习方法

基于度量学习方法的基本思想是先通过神经网络提取图像特征向量，再采用线性度量方式（比如余弦距离或欧氏距离）或非线性度量方式（神经网络）评估支撑集与测试样本之间的相似程度。

（1）匹配网络

匹配网络是一种专门为小样本学习设计的模型，它通过注意力机制来计算新样本与支持集（已有样本）中每个样本的相似度，从而进行分类。

核心思想

给定一个支持集（Support Set）和一个查询样本（Query Sample），匹配网络通过计算查询样本与支持集中每个样本的相似度，来预测查询样本的类别。
相似度通常通过注意力机制（Attention Mechanism）来计算，支持集中与查询样本越相似的样本，对分类结果的贡献越大。

工作流程

嵌入（Embedding）：将支持集和查询样本映射到一个高维特征空间（通过神经网络提取特征）。
相似度计算：使用注意力机制（如余弦相似度）计算查询样本与支持集中每个样本的相似度。
加权分类：根据相似度对支持集的标签进行加权求和，得到查询样本的预测类别。

其实就是 编码支持集中的每个样本→编码查询集的样本→计算注意力权重→加权求和

原型网络

原型网络是一种基于类原型的小样本学习方法。与孪生网络相同，其亦通过学习度量空间完成小样本分类。该网络主要贡献是为每个类别的样本学习一个类原型，从几何空间度量查询集中各样本点与每个类原型之间的相似度，进而得到各样本点属于各类的概率值。类原型的定义为

核心思想

每个类别的原型是该类别所有支持集样本在特征空间中的均值向量。
查询样本的分类通过计算其与各个类原型的距离（如欧氏距离）来决定，距离最近的类别即为预测类别。

原型学习

基于原型学习（Prototype-based Learning）是一种机器学习方法，它依赖于原型的概念来对数据进行分类和识别。这种方法通常用于监督学习任务，尤其是在处理那些类别边界不明确或者数据分布复杂的情况时。以下是基于原型学习的基本介绍：

原型：原型（Prototype）是一个代表特定类别或概念的示例或模型。

原型的特点：

代表性：原型应该能够很好地代表它所对应的类别或概念。

区分性：原型应该能够区分不同的类别，使得相同类别的数据点与原型的相似度高，而不同类别的数据点与原型的相似度低。

简化性：原型简化了数据表示，使得复杂的数据集可以通过少量的原型来描述。

中心点：直接从数据集中选择一个或几个数据点作为原型。这些点通常是类别中的典型代表。
均值原型：计算一个类别中所有数据点的平均值，得到的均值作为原型。
密度原型：基于数据点的密度分布来确定原型，例如，可以是一个高密度区域的中心。
概率原型：使用概率分布来定义原型，例如，可以是一个类别概率分布的期望值。