小样本学习综述
📕[1]潘雪玲,李国和,郑艺峰. 面向深度网络的小样本学习综述 [J]. 计算机应用研究, 2023, 40 (10): 2881-2888+2895. DOI:10.19734/j.issn.1001-3695.2023.02.0074.
主要是该论文的一些摘要。
小样本学习旨在利用较少目标数据训练模型快速学习的。
从基于度量学习和基于参数优化两方面对基于元学习的方法进行分析能力。
背景:然而,标注数据的收集与获取需要消耗大量的人力与时间,并且在某些领域(例如医学、军事和金融等)中,由于隐私安全等问题无法获得充足的样本。研究人员提出小
样本学习(few-shotlearning)。
1.2015年koch等人首次将深度学习融入到小样本学习问题中,提出孪生网络用以衡量两个样本间的相似度,使得模型精度有了很大的提高。
小样本学习进入深度学习阶段,其研究重点主要以构造后验概率的判别模型为主。
即通过深度神经网络f(·|θ)(例如:CNN)对输入样本进行特征提取,再通过
预测层C(·|φ)(例如:softmax)对提取的特征进行标签预测。其中,θ和φ均为可学习的深度网络参数。
基于数据增强的小样本学习方法的本质是通过数据合成或特征增强方式解决样本量少的问题,本文根据是否需要额外的辅助信息(比如语义属性[15]或词向量[16]等)将基于数据增强的小样本学习方法进一步细分为监督数据增强和无监督数据增强。
研究人员从跨任务学习的角度提出基于元学习的小样本学习方法来解决模型过拟合问题,本文将其细分为基于度量学习和基于参数优化。
元学习,即学会学习,指算法能够从过去的经验中总结出一种策略,以帮助其在面对新的任务时能快速地学习。
(1)元训练(meta-training)阶段
元训练阶段(meta-training)先通过大量不同的源任务训练元学习器(meta-learner)f( ,),此阶段学习先验知识(如模型的初始参数、优化器和神经网络的超参数等),再利用已学得的先验知识结合少量目标任务达到快速训练基学习器(base-learner)m( , )的目的。
在这个阶段,利用损失函数做反向传播优化元学习器(meta-learner)的参数θ时,必须贯穿整个小样本训练过程(包括元学习器和基学习器两个训练过程),而非仅仅优化元学习器的参数。
(2)元测试(meta-test)阶段,元学习器通常固定不变(即不再优化其参数),仅为新的查询集任务生成一个适合的新的基分类器。
本章将从基于度量和基于参数优化两个方向对基于元学习的小样本方法进行归纳分析。
基于度量学习方法
基于度量学习方法的基本思想是先通过神经网络提取图像特征向量,再采用线性度量方式(比如余弦距离或欧氏距离)或非线性度量方式(神经网络)评估支撑集与测试样本之间的相似程度。
(1)匹配网络
匹配网络是一种专门为小样本学习设计的模型,它通过注意力机制来计算新样本与支持集(已有样本)中每个样本的相似度,从而进行分类。
核心思想
-
给定一个支持集(Support Set)和一个查询样本(Query Sample),匹配网络通过计算查询样本与支持集中每个样本的相似度,来预测查询样本的类别。
-
相似度通常通过注意力机制(Attention Mechanism)来计算,支持集中与查询样本越相似的样本,对分类结果的贡献越大。
工作流程
-
嵌入(Embedding):将支持集和查询样本映射到一个高维特征空间(通过神经网络提取特征)。
-
相似度计算:使用注意力机制(如余弦相似度)计算查询样本与支持集中每个样本的相似度。
-
加权分类:根据相似度对支持集的标签进行加权求和,得到查询样本的预测类别。
其实就是 编码支持集中的每个样本→编码查询集的样本→计算注意力权重→加权求和
原型网络
原型网络是一种基于类原型的小样本学习方法。与孪生网络相同,其亦通过学习度量空间完成小样本分类。该网络主要贡献是为每个类别的样本学习一个类原型,从几何空间度量查询集中各样本点与每个类原型之间的相似度,进而得到各样本点属于各类的概率值。类原型的定义为
核心思想
-
每个类别的原型是该类别所有支持集样本在特征空间中的均值向量。
-
查询样本的分类通过计算其与各个类原型的距离(如欧氏距离)来决定,距离最近的类别即为预测类别。
原型学习
基于原型学习(Prototype-based Learning)是一种机器学习方法,它依赖于原型的概念来对数据进行分类和识别。这种方法通常用于监督学习任务,尤其是在处理那些类别边界不明确或者数据分布复杂的情况时。以下是基于原型学习的基本介绍:
原型:原型(Prototype)是一个代表特定类别或概念的示例或模型。
原型的特点:
代表性:原型应该能够很好地代表它所对应的类别或概念。
区分性:原型应该能够区分不同的类别,使得相同类别的数据点与原型的相似度高,而不同类别的数据点与原型的相似度低。
简化性:原型简化了数据表示,使得复杂的数据集可以通过少量的原型来描述。
- 中心点:直接从数据集中选择一个或几个数据点作为原型。这些点通常是类别中的典型代表。
- 均值原型:计算一个类别中所有数据点的平均值,得到的均值作为原型。
- 密度原型:基于数据点的密度分布来确定原型,例如,可以是一个高密度区域的中心。
- 概率原型:使用概率分布来定义原型,例如,可以是一个类别概率分布的期望值。
关系网络
关系网络是一种非线性度量方式的小样本学习方法,即通过神经网络自学习x_i和x_j两个样本间的匹配程度 r(xi,xj)。【关系网络的核心思想是通过一个可学习的关系模块(Relation Module)来直接衡量查询样本与支持集样本之间的关系,从而进行分类。】
关系网络的核心思想是:
-
关系模块:使用一个神经网络(通常是一个多层感知机)来学习查询样本与支持集样本之间的关系得分。
-
基于关系得分的分类:查询样本的类别由其与支持集样本之间的关系得分决定,得分越高表示属于该类别的概率越大。
关系模块的输入是查询样本和支持集样本的嵌入表示,输出是一个标量值,表示两者之间的关系得分。
与类别的关系的分=查询样本和支持集中这个类别所有样本得分的平均值。
最后再用softmax函数将关系得分转化为概率分布。
基于参数优化方法
基于参数优化方法一般先通过支持集训练元学习器学到不同任务的共同特征(即先验知识),再将所得元知识运用于查询集精调基学习器。
未知模型的元学习方法(model agnostic meta learning,MAML)
MAML(Model-Agnostic Meta-Learning)的中文翻译是“模型无关的元学习”。它是一种通用的元学习框架,旨在通过优化模型参数,使其在面对新任务时能够快速适应。
核心思想:MAML 的目标是找到一组初始参数,使得模型在面对任何新任务时,只需经过少量的梯度更新(或少量数据)就能达到良好的性能。
换句话说,MAML 不是直接学习一个特定任务的模型,而是学习一个“易于适应”的模型。
关键步骤
-
任务采样:从任务分布中随机抽取一批任务。
-
内循环(Inner Loop):对每个任务,模型从初始参数出发,通过少量梯度更新(通常是一步或几步)来适应该任务。
-
外循环(Outer Loop):在所有任务上,计算适应后的模型在新任务上的损失,并通过反向传播更新初始参数,使得这些初始参数能够更好地适应新任务。
深度元学习(deep mata learing,DEML)
深度元学习将深度学习的表征能力集成到元学习中以提高元学习的表征能力。其核心是在概念空间而非复杂的样本空间中学会学习。
为了实现在概念空间中学习,DEML为元学习器配备一个概念生成器(例如深度残差网络),旨在为每个样本学习一个特征表示,捕捉样本的高级概念,同时使用一个概念鉴别器来增强概念生成器,并以端到端方式联合训练概念生成器、元学习器、概念识别器三个模块。
借助概念空间,深度元学习模型实现了对本身较少的训练数据的最大化利用。