提出了一个广义的基于少镜头分割的框架,以更新高分辨率土地覆盖制图中的新类,分为三个部分:(a)数据预处理:对基础训练集和新类的少镜头支持集进行分析和扩充;(b)混合分割结构:将多基学习器和改进的投影到正交原型(POP)网络相结合,增强基类识别能力,并从不足的标签数据中挖掘新类;(c)终极融合:基础学习器和POP网络的语义分割结果得到了合理的融合。
少样本语义分割(FSS)在给定一些注释支持示例的情况下对新类执行逐像素识别,但FSS方法显然依赖于对新类的过于强大的先验知识。广义少样本分割GFSS摆脱了支持图像和查询图像必须包含相同类别的苛刻约束,目的是在不放弃基本类别的分割准确性的情况下,使用少数例子识别新类别。
典型GFSS方法可以将其概括为两个步骤:基类学习和新类更新。然而,独立的更新可能会将学习得很好的特性置于风险之中,并导致基类的性能下降。POP创新性地提出了在正交原型上使用投影的新思路,在不牺牲基类过多精度的情况下更新特征来识别新类。本文以POP为基线实现遥感影像的GFSS:
1预处理:
(1)为不同的类分配权重,我们首先计算权重与类频率成反比。此外引入一个“平滑”版本,将权重分配为与类频率的平方根成反比。
(2)为了增强训练集中代表新类的样本比例,我们引入了一种新的增强策略,称为基于CutMix的NovelCutMix[34],如图所示。该策略包括通过在验证集和训练集之间剪切和粘贴补丁来生成专门代表新类的新训练样本。具体来说,对于来自只包含新类的验证集的每张图像,我们剪切补丁并将其粘贴到来自训练集的几张图像的相应区域上,并用验证集图像的标签替换这些训练集图像的基础真值标签。
2混合分割结构:
使用基训练集分别训练4个高级基线模型,不同的网络能学习不同的特征。随后,对每个单独网络计算的概率进行平均,从而确保在所有预测结果中保留高置信度的公共部分,并增强集成的性能,以优于最佳的单个基线模型。
3 正交原型网络的投影POP Projection onto Orthogonal Prototypes Network:
显然,GFSS训练范式的两个阶段不应该相互干扰,以达到基础类和新类的高分类精度。POP通过将正交性引入训练范式,确保了两阶段训练的不干扰。如图所示,POP框架提出了两种保证不干扰的解决方案:第二阶段对学习到的基类原型和基分类器进行冻结,以保证梯度的后向不会影响基类学习部分的参数;2. 冻结部分只排除背景特征,因为在背景中提取了新的类;3. 除了基本分割损失用来约束分割结果与标签之间的差异外,引入正交性损失来保持学习原型的正交性,即生成一组特征空间的正交基。各类(包括基类和新类)在正交基下的分类不会相互影响。