眼底增强型疾病感知蒸馏模型 FDDM：无需配对，fundus 指导 OCT 分类

眼底增强型疾病感知蒸馏模型 FDDM：fundus 指导 OCT 分类

核心思想
设计思路
训练和推理

效果
总结
子问题: 疾病特定特征的提取与蒸馏
子问题: 类间关系的理解与建模

核心思想

论文：https://arxiv.org/pdf/2308.00291.pdf

代码：https://github.com/xmed-lab/FDDM

主要解决的是使用 OCT图像进行视网膜疾病分类 的问题。

OCT图像非常详细，但它们收集起来成本高昂。

为了解决这个问题，作者原本尝试用一种称为 多模态学习 的方法，即同时利用OCT图像和眼底照片。

问题在于，要找到同一个病人的这两种图像是相当困难的，这在现实中几乎是不可能的。

那么，研究者们是怎么解决这个问题的呢？

他们提出了一种叫做 眼底增强型疾病感知蒸馏模型（FDDM） 的新方法。

这个方法的聪明之处在于，它只用到了 未配对的眼底图像 来增强OCT图像的处理能力。

这就意味着，即使我们没有同一个病人的两种图像，我们也能提高诊断的准确性。

最关键的是，这个模型采用了两种特别的技术，叫做 类原型匹配 和 类相似性对齐。

就好像我们有一个专门学习眼底照片的“老师模型”，然后这个模型会把它学到的关于疾病的知识传递给专门学习OCT图像的“学生模型”。

这样，即使学生模型只看到OCT图像，它也能利用从眼底图像中学到的信息来做出更好的判断。

如果眼底图像模型学会了识别一种特定的视网膜病变，即使OCT图像呈现的角度或细节不同，OCT 模型也能用这个知识来更准确地识别出类似的病变。

总之，通过这种方式，我们能在 没有成对数据 的情况下，更有效地使用 OCT 图像进行视网膜疾病的分类。

三种不同的学习方法在视网膜疾病分类的应用中的差异：

单模态学习 (Single-modal Learning)
- 在训练阶段，只使用OCT图像。
- 在测试阶段，同样只使用OCT图像进行疾病的分类。
多模态学习 (Multi-modal Learning)
- 在训练阶段，同时使用眼底照片和OCT图像。
- 在测试阶段，仍然需要同时使用这两种图像来进行分类。
蒸馏增强方法 (Proposed Distillation Enhancement Method)
- 在训练阶段，使用眼底照片作为“教师”模型来增强OCT图像的“学生”模型。
- 在测试阶段，仅使用OCT图像进行分类，不需要眼底照片。

关键点是，使用蒸馏增强方法，附加的模态（即眼底照片）只在训练过程中使用，而在实际的推理或测试过程中则不需要。

这可以简化实际应用中的流程，因为在测试阶段不需要收集额外的眼底照片，降低了成本和复杂性。

设计思路

我们现在有一堆复杂的视网膜图像，我们需要从这些图像中识别出各种不同的眼疾。

但这个任务有点像在一个嘈杂的房间里试图听到一个人的声音，因为每张图像都有可能带有它自己的“噪声”，也就是一些我们不需要的信息。

首先，我们有类原型匹配这个技巧：

问题是：每个单独的图像都可能有自己的噪声，这会干扰我们准确识别疾病。
所以解法就是：我们把所有同一种疾病的图像放在一起，然后找到一个平均值，这样就能代表这个疾病的一般特征，而不是某个个别图像的特点。就好比我们从一大堆人的声音中找到一个平均的音调，这样我们的模型就能更清楚地“听到”疾病的声音。

然后是类相似性对齐：

这里的问题是：有时候，不同的疾病之间会有一些相互关系，这对于诊断也很重要，尤其是当一个病人可能同时有多种眼疾的时候。
解法：我们让模型学会识别这些疾病间的关系，就像是教它们理解不同声音之间的和谐或不和谐。这帮助我们的模型更全面地理解每种疾病，以及它们如何可能一起出现。

最后，整个框架的目的是将这些知识结合起来：

我们面临的问题：我们需要一种方式来确保我们的模型能同时学习到如何识别疾病和它们之间的关系。
所以作者用了：一个综合的损失函数，这是一个计算公式，用来指导模型在训练时如何调整自己，以便它能同时在两方面做得很好。

所以，FDDM 就像是在给模型上了两门课程：

类原型匹配 是基础课，教模型如何识别每种疾病的基本特征。
然后，类相似性对齐 是高级课，教模型理解不同疾病是如何相互联系的。
而 整体框架 则确保模型能把这两门课学好，最终能在真实世界中准确地诊断出视网膜疾病。
这样做的好处是，我们甚至不需要所有的图像都是成对的，模型仍然能学到很多有用的信息。

训练和推理

在训练阶段：

眼底图像通过眼底模型 ( F_t ) 处理，而OCT图像通过OCT模型 ( F_s ) 处理。
两个模型分别产生特征图，这些特征图通过全局平均池化（GAP）层来减少维度。
对于眼底图像特征 ( v_f )，采用多层感知机（MLP）投影器进行处理，并计算出类原型，这是类原型匹配的一部分。
同时，OCT图像特征 ( v_o ) 经过Sigmoid激活后进入分类器。

在推理阶段：

分别对眼底和OCT模型得出的特征进行类别均值计算，得到类原型。
对于OCT模型，它还包括计算类别均值的logits ( q_s )，并通过余弦相似度进行类相似性对齐。

类原型匹配的目的是将眼底模型中关于疾病的特定特征提炼到OCT模型中。

它通过计算每个类别的特征均值来建立一个“原型”，这个原型代表了该类疾病的平均或典型特征。

类相似性对齐则是在推理阶段对OCT图像的类别关系进行调整，以使其与眼底图像的类别关系保持一致。

这通过比较类别均值的logits的余弦相似性矩阵来实现，促使OCT模型学习到不同疾病间的关系。

上图解展示了一个两阶段的过程，其中利用眼底图像来增强OCT图像分类的能力，而在实际应用时，只需要使用OCT图像。

这个过程利用了深度学习，包括特征提取、降维、非线性激活和分类器，同时注重在两种不同模态之间转移和蒸馏知识。

效果

在实验中，研究者面对的问题是确定新方法——基于类原型匹配和类相似性对齐的方法——在性能上是否优于现有的单模态、多模态和知识蒸馏方法。

为了解决这个问题，他们采取了以下步骤：

性能比较：他们将新方法的性能与其他几种方法进行了比较。

这些方法包括仅使用OCT图像的单模态方法、同时使用OCT和眼底图像的多模态方法，以及使用知识蒸馏技术的方法。
评估指标：他们使用了准确性指标，如平均精度(MAP)和F1分数，来衡量每种方法的性能。

MAP是一种衡量模型对所有类别平均表现的指标，而F1分数则是精确度和召回率的调和平均，这两个都是多标签分类任务中常用的性能评估指标。
实验数据：他们使用了新收集的数据集TOPCON-MM，这个数据集包含了来自369只眼睛的成对的眼底和OCT图像，以及另一个公开可用的多模态数据集MMC-AMD。

解决方案的目的是展示新方法在视网膜疾病多标签分类任务上的优越性。

通过与现有方法的直接比较，研究者可以展示出以下几点：