半监督语义分割旨在利用尽可能少的有标注图像以及大量的无标注图像来学得一个较好的分割模型。其中,对有标注图像的学习一般类似于全监督语义分割,如计算预测结果与人工标注之间的交叉熵损失,问题的关键在于如何利用无标注图像。
本文简单介绍半监督算法中的Match系列方法:FreeMatch(ICLR 2023),SoftMatch(ICLR 2023),UniMatch(CVPR 2023)。
代码:GitHub - microsoft/Semi-supervised-learning: A Unified Semi-Supervised Learning Codebase (NeurIPS'22)
FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning, ICLR2023
解读: FreeMatch论文阅读 - 知乎 (zhihu.com)
ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法 - 知乎
论文:FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning | OpenReview
代码:microsoft/Semi-supervised-learning: A Unified Semi-Supervised Learning Codebase (NeurIPS'22) (github.com)
现有方法可能无法有效地利用未标记的数据,因为它们要么 使用预定义 / 固定阈值,要么 使用专门的启发式阈值调整方案。这将导致模型性能低下和收敛速度慢。本文首先 理论 分析一个简单的二分类模型,以获得关于理想阈值和模型学习状态之间关系的直觉。基于分析,提出 FreeMatch 来根据模型的学习状态以 自适应方式 调整置信度阈值。进一步引入自适应类公平正则化惩罚,以鼓励模型在早期训练阶段进行多样化预测。
FreeMatch包含两部分:自适应阈值 和 自适应公平正则化惩罚。
自适应阈值,具体可以分为自适应全局阈值、自适应局部阈值。局部阈值旨在以类特定的方式调整全局阈值,以考虑类内多样性和可能的类邻接。
自适应公平正则化惩罚,没有使用之前常被使用的类平均先验来惩罚模型(因为真实场景往往不满足类平衡条件),而是使用来自模型预测的滑动平均EMA 作为期望的估计未标记数据的预测分布。
性能提升显著。
SoftMatch: Addressing the Quantity-Quality Tradeoff in Semi-supervised Learning, ICLR2023
解读:SoftMatch论文阅读 - 知乎 (zhihu.com)
ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off - 知乎
论文:SoftMatch: Addressing the Quantity-Quality Tradeoff in Semi-supervised Learning | OpenReview
代码:microsoft/Semi-supervised-learning: A Unified Semi-Supervised Learning Codebase (NeurIPS'22) (github.com)
置信度阈值(confidence thresholding)是一种比较主流的利用伪标签的方式。过高的阈值丢弃了很多不确定的伪标签,导致类别之间学习「不平衡」,并且伪标签「利用率低」。动态阈值通过前期降低(不同类别/不同数据)的阈值,来引入更多的伪标签在前期参与训练,但是前期的低阈值会不可避免的引入质量低的伪标签。
方法背景是使用伪标签对模型进行训练。核心论点是已有的伪标签工作均使用硬阈值对伪标签进行筛选,从而选择高置信度的样本,但是这样的潜在影响包括:(1)高阈值会导致大量置信度不高但实际上是正确的伪标签被舍弃,从而降低训练的效率(解决方案有同年同会的FreeMatch);(2)动态增长阈值或类别阈值确实能够鼓励模型利用更多的伪标签,但不可避免地引入错误的伪标签(监督信号)。
SoftMatch则着重解决伪标签「数量-质量」间的trade-off。并提高不用类别的marginal probability来实现尽可能给不同类别的数据分配同等水平的weighting。
分类效果显著。
UniMatch: Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation, CVPR2023
解读:CVPR 2023 | UniMatch: 重新审视半监督语义分割中的强弱一致性 - 知乎 (zhihu.com)
以 CVPR2023 的半监督语义分割工作 UniMatch 为例,聊聊一篇顶会论文的idea是如何逐步挖掘出来的! (qq.com)
以CVPR2023的半监督语义分割工作UniMatch为例,聊聊一篇顶会论文的idea是如何获得并实现大幅超越以往方法的性能! - 知乎
论文:[2208.09910] Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation (arxiv.org)
代码:GitHub - LiheYoung/UniMatch: [CVPR 2023] Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation
本文重新审视了半监督语义分割中的“强弱一致性”方法。论文发现,最基本的约束强弱一致性的方法FixMatch即可取得与相当可观的性能。受此启发,论文进一步拓展了FixMatch
的扰动空间,以及利用双路扰动更充分地探索原扰动空间。
强扰动可以带来极大的性能增益。但FixMatch只在图像层面上进行强扰动,论文进一步扩展FixMatch的扰动空间:
- 增加一个训练分支来进行特征空间上的强扰动(dropout=0.5)(UniPerb)。
- 再增加一个图像层面的强扰动分支,进行双分支扰动 (DusPerb)。
结合UniPerb和DusPerb两个模块,得到UniMatch。
针对无标签图像,UniMatch 一共包括四个前向传播分支,其中有一个“干净”的分支来产生伪标签、一个特征层面的强扰动分支(作用于弱增强图像的特征上),以及两个图像层面的强扰动分支(无特征扰动)。其中后三个分支用于网络的训练(图中省略了有标签图像的训练分支)。
性能提升显著。