文章目录
- 0. Abstract
- 1. Introduction
- 2. Learnable Ophthalmology(眼科学) SAM
-
- 2.1 Preliminaries(预先)
- 2.2 Learnable Prompt Layer
- 3. Experiment
-
- 3.1 Datasets
- 3.2 Evaluation Metrics(指标)
- 3.3 Implement Details
- 3.4 Experimental Results
- 3.5 Generalization
- 4. Discussion
- 5. Conclusions
- 6. Fund
- Reference
粗略记录,代码解析敬请期待。
0. Abstract
分割是眼科图像分析的关键。但其模态图像的多样性阻碍了大多数现有分割算法的应用,因为它们依赖于基于大量标签的训练或泛化能力较弱。在此基础上,提出了一种简单有效的适合于眼科多模态图像多目标分割的可学习提示层,命名为可学习的眼科多模态图像分割提示层(SAM)。可学习提示层从每个变压器层学习医学先验知识。在训练过程中,我们只对提示层和任务头进行一次训练。我们通过基于9个公开可用数据集的4个医学分割任务证明了我们思想的有效性。此外,我们只是为现有的基本CV模型在医学领域的应用提供了一种新的改进思路。我们的代码可在网站上找到。
1. Introduction
分割对眼科诊断和治疗至关重要。眼科拥有10多种影像学检查[1]。多模态图像之间的差异带来了不同的分割目标,例如彩色眼底的血管和光学相干断层扫描(OCT)的视网膜层,这阻碍了单一模型在眼科中的应用,因为现有的分割算法大多依赖于专家标记或泛化能力较弱。
用基本CV模型和本文的算法提取血管和病变的例子
Segment Anything (SAM)[2]、DINOv2[3]等几个基本的CV模型在本月发布,它们是在大型视觉语料库上训练的基于Vit的大型模型。它们都在各种自然场景中证明了有前途的分割能力。但它们不能从医学图像中分割血管或病变,分割血管或病变有助于医生的诊断或治疗方案。如图1所示,DINOv2不能提供来自视网膜彩色眼底或光学相干断层血管造影(OCTA)的血管。SAM可以从OCTA图像中找到若干血管,但不能从彩色眼底分割血管或病变。可能的原因是血管或病变与视网膜之间的边缘差异不明显。对于视网膜光学相干断层扫描(OCT)图像,SAM不产生层信息,而是作为一个整体考虑。因此,SAM不能直接应用到我们的医学图像分割中。
由于这些基础CV模型具有计算机视觉基础模型的巨大潜力,作者相信它们对医学领域也有帮助[4,5]。然而,它们的掩膜分割预测在医学领域还没有得到充分的探索。作者分析了大量的分割结果,发现在边缘差异明显的情况下,SAM和DINOv2的分割结果是可以接受的。然而,血管或病变可能不够明显而无法识别。上述两种模型的特征提取能力已经被其他一些计算机视觉任务所证实[6,7]。从有效性和效率的角度来看,如何将这种基础模型应用于医学图像分割?
模型微调通常用于在大规模基准测试中使用这样的基础模型。在医学领域,对整个网络的参数进行全调优或仅对模型的头部进行头部调优都无法提供可用的结果。近年来,提示调优在自然语言处理[8]和自然图像处理[9]中取得了相当大的成果,其定义是将提示作为特定于任务的连续向量,在微调过程中直接通过梯度对其进行优化[10]。例如,SAM中使用的稀疏(点、框、文本)和密集(掩码)两组提示符,在医学领域,尤其是血管领域,无法提供准确的分割结果。因此,在本文中,作者提出了一种新的可学习的SAM提示,它可以准确地指定医学图