Debiased Learning from Naturally Imbalanced Pseudo-Labels
要点:
1、伪标签:由经过标记源数据训练的分类器,对未标记目标数据做出的置信预测,被广泛应用于使模型适应未标记数据,例如半监督学习
2、由于固有的数据相似性,伪标签自然是不平衡的
3、关注于解决由伪标签引起的不平衡分类问题
4、提出了一种基于反事实推理和自适应边界(counterfactual reasoning and adaptive margins)的伪标签去偏学习
(a)反事实推理:消除分类器的响应偏差
(b)自适应边界:根据伪标签的不平衡调整每个类的边界
相关工作
半监督学习 SSL:
将未标记数据整合到给定有限标记数据的训练模型中
1、基于一致性的正则化方法,在扰动时对未标记数据造成分类不变性损失
2、伪标记将模型训练数据从标记数据扩展到未标记但是高置信伪标记的数据
3、迁移学习,首先通过自监督表示学习(如对比学习)对大型五标记数据进行训练,然后通过监督分类器学习对小型标记数据进行训练
4、以数据为中心的 SSL,假设没有给出标记数据,但是可以在未标记数据中最优地选择标记,专注于标记数据选择对于 SSL 的实质性收益
零样本分类 Zero-shot Classification:
1、零镜头模型将新类别的图像分类为在训练过程中没见过的正确类别
(a)手工设计的属性
(b)预训练嵌入:将先验知识以类的语义描述的形式结合在一起
(c)知识图建模可见和不可见类的关系
(d)使用视觉语言模型学习通用的视觉概念,允许零镜头模型转移到各种下游分类任务
图表:
伪标记框架:
自适应去偏模块和自适应边界损失:
反事实推理去偏的因果图:
代码:
https://github.com/frank-xwang/debiased-pseudo-labeling