文章目录
- Is a PET All You Need? A Multi-modal Study for Alzheimer’s Disease Using 3D CNNs
- 摘要
- 方法
- 实验结果
- 讨论
- 结论
Is a PET All You Need? A Multi-modal Study for Alzheimer’s Disease Using 3D CNNs
摘要
- 提出了一个系统评估多模态dnn的框架
- 重新评估基于FDG-PET和sMRI的单模态和多模态网络
- 实验表明,使用FDG-PET的单模态网络比MRI表现更好(精度0.91 vs 0.87),并且在组合时没有表现出改善。这与已建立的AD生物标志物的临床知识一致,但对多模态dnn的真正益处提出了质疑
- 未来关于多模态融合的工作应该按照我们提出的评估框架系统地评估各个模态的贡献
方法
为了确定多模态DNN中每个模态的贡献,我们提出了一个系统的评估框架。首先,我们通过使用单个分支3D CNN单独地考虑每个模态。接下来,我们考虑使用早期、晚期或中期融合的3D CNN的多模态联合贡献(见图1)。为了评估多模态输入是否真的有帮助,我们进行了MRI和FDG-PET图像随机成对的消融实验。这使我们能够量化每个模式的重要性。
使用3D ResNet作为所有模型的基础架构
Correct
该策略遵循标准的训练测试计划。对于每种融合策略,我们基于同一患者的FDG-PET和MRI扫描测试网络。如果这两种模式都与AD诊断相关,我们预计这种情况会产生最高的预测性能。它是其余实验的基准
Random MRI
将患者的真实FDG-PET图像和诊断与随机选择的患者的MRI进行配对。如果两种模式都与最终决定相关,我们预计与正确MRI实验相比,性能会有显著下降。如果表现保持相似,则MRI几乎没有增加FDG-PET所不能提供的额外信息
Random PET
这个实验与之前的实验相似,但这次我们将正确的MRI和诊断与另一个患者随机选择的FDG-PET配对。我们从这个实验中得出的结论与之前的实验相同,但重点是评估FDG-PET的贡献
实验结果
当对正确的方法对进行测试时,所有融合方法在两项任务中表现相似,但有两个例外:
早期融合在二元分类中实现了平均BACC约低0.01,中期融合在三级分类中实现了平均BACC约低0.04。总的来说,我们观察到这两个任务之间的性能显著下降,这是意料之中的,因为MCI不是真正的诊断,而是一种综合征,这使得它高度异构,特别是在有限的训练数据下
有趣的是,如果我们在部分随机数据上测试中后期融合模型的结果,我们会观察到FDG-PET随机化时性能下降得更大;准确率接近随机概率。另一方面,随机化MRI数据对整体性能的影响要小得多。对于二元分类,晚期融合的平均BACC下降约0.11,中期融合仅为0.003,远低于随机PET实验:分别为0.299和0.366
对于早期融合,两种随机实验的结果与使用原始数据相比有显著下降。这一结果是意料之中的,因为早期融合导致单个体积,其中MRI作为一个掩膜,从FDG-PET中选择区域。如果这对图像来自不同的患者,解剖结构并不完全一致,早期融合会移除重要区域。因此,随机化MRI或FDG-PET的效果会导致类似的信息损失和性能下降
讨论
在测试时引入随机的FDG-PET或MRI数据,中后期网络对PET的变化更敏感。虽然这已经是神经网络偏差的一个强有力的指标,但我们的第二组实验(表2)让我们更好地了解了这一现象背后的原因。首先,AD和CN分类实验在表1和表2中是一致的,这证明了中后期融合网络主要依赖FDG-PET。这些结果得到了图2中的相关映射的支持。
在三节的实验中,BACC低于60%,说明了任务的难度。MCI受试者是一个异质群体,也可能患有其他类型的痴呆症。因此,为这项任务训练预测模型所需的数据量比在两类设置中要大得多。对于这一具有挑战性的任务,随机核磁共振成像的使用导致了中后期融合精度的急剧提高。我们认为随机化MRI数据可以作为训练过程中的增强机制。考虑到在每个时期,该模型看到一对不同的FDG-PET和MRI扫描,这可能使网络在推断过程中对变化更加健壮。
我们的结果虽然与以往的医学发现相一致,但与以往倾向于MRI和FDG-PET融合预测AD的文献不一致。造成这种差异的一个原因可能是,在训练过程中随机交换图像对会导致更大的有效训练数据大小,这反过来又使网络在推理过程中对数据分布的变化更具鲁棒性(表2中随机MRI实验的情况类似)。
此外,通过增加分支的数量(例如,后期融合的两个分支),可训练参数的数量几乎翻了一番,这使得网络可以定义更复杂的决策边界。这也使得网络更容易过拟合,这在三类实验中观察到,当比较正确或随机MRI上的晚期融合时。最后,另一个潜在的原因是PET预处理的重要性。例如,为图像融合提供了不同的预处理(他们报告了高精度),并为单模态和级联网络提供了不同的输入
结论
在这项工作中,严格评估了基于MRI和FDG-PET的单模态和多模态深度神经网络用于AD诊断。结果表明,使用FDG-PET的单模态网络在健康/AD分类中表现最好。虽然这与之前关于模态融合的深度学习的工作形成对比,但它确实符合现有的临床知识,即FDG-PET比MRI更好地捕捉AD特异性神经退行性病变模式。
关于多模态融合的研究虽然在技术上是合理的,但在很大程度上与关于AD生物标志物的现有临床知识脱节。我们认为,未来关于AD诊断的多模态融合的工作应该更好地考虑现有的临床知识,并根据我们的实验设置系统地评估单个模态的贡献。在未来,我们计划对MCI和NC进行实验,在不同的数据集上验证我们的假设,并测试其他分类模型。