利用关系感知一致性和虚拟特征补偿解决医学分类中的长尾问题

news2025/7/14 0:15:30

文章目录

Combat Long-Tails in Medical Classification with Relation-Aware Consistency and Virtual Features Compensation
- 摘要
- 方法
- 实验结果

Combat Long-Tails in Medical Classification with Relation-Aware Consistency and Virtual Features Compensation

摘要

由于患病样本稀缺，医学图像数据集存在天然的不平衡，导致诊断算法对多数类别产生偏见。这一情况降低了诊断性能，特别是在识别罕见类别方面。现有研究将这一挑战描述为长尾问题，并采取解耦策略来减轻分类器的偏见。但是这些研究仅使用不平衡的数据集来训练编码器，并通过舍弃主要类别的样本来重新训练分类器，从而限制了诊断性能。

本文提出了一种分为两个阶段的多视图关系感知一致性和虚拟特征补偿（MRC-VFC）框架。

在第一阶段，设计了一种多视图关系感知一致性（MRC）用于表示学习，为编码器的训练提供了无偏的指导，除了不平衡的监督。
在第二阶段，为了生成一个公正的分类器，提出了虚拟特征补偿（VFC）来通过生成大量平衡的虚拟特征重新校准分类器。与重新采样相比，VFC 补偿了少数类别，优化了一个无偏的分类器，并保留了大多数类别的完整知识。在两个长尾公共基准测试上进行的大量实验验证了 MRC-VFC 框架明显优于现有算法。
代码地址

方法

在这里插入图片描述
图 1. MRC-VFC框架：在第一阶段，利用MRC模块对不平衡数据集上的编码器进行表示学习。在第二阶段，通过期望最大化的两步过程，使用VFC重新校准分类器。
采用KL散度测量输出损失：

基于batch的损失和基于channel的损失
在这里插入图片描述
提及解耦方法的介绍，两阶段方法分离了编码器和分类器的训练，以消除分类器中的偏差，同时保留了编码器的表示学习。然而，大多数现有的解耦方法在第二阶段采用了重新采样策略，以重新平衡数据类别分布，导致了重新采样的固有缺点，即丢弃主类别样本。为了解决这个问题，提出了虚拟特征补偿方法，根据多变量高斯分布为每个类别生成虚拟特征，以应对长尾问题。与现有的重新采样方法不同，VFC模块产生的特征向量保留了类别之间的相关性和来自编码器的语义信息。给定类别k，首先计算均值和协方差，得到该类别的高斯分布。