变换器（Transformer）在医学成像中的应用(上）

在自然语言任务上取得前所未有的成功之后，Transformer已被成功应用于多个计算机视觉问题，取得了最先进的结果，并促使研究人员重新考虑卷积神经网络(CNNs)作为事实上标准操作符的优势地位。利用计算机视觉领域的这些进展，医学影像领域也见证了对Transformer日益增长的兴趣，Transformer相比具有局部感受野的CNN可以捕捉全局上下文。受这一转变的启发，在这项调研中，我们试图对Transformer在医学影像中的应用进行全面综述，涵盖从最近提出的架构设计到未解决问题等各个方面。具体而言，我们调研了Transformer在医学图像分割、检测、分类、恢复、合成、配准、临床报告生成和其他任务中的应用。特别是，对于每一种应用，我们制定了分类法，确定了特定应用的挑战以及提供解决这些挑战的见解，并强调了最新趋势。此外，我们对该领域的当前整体状况进行了批判性讨论，包括识别关键挑战、开放问题，并概述了有前景的未来方向。我们希望这项调研将在社区中激发进一步的兴趣，并为研究人员提供关于Transformer模型在医学影像中应用的最新参考。最后，为了应对该领域的快速发展，我们打算定期更新相关的最新论文及其开源实现。本文发表在Medical Image Analysis杂志。

亮点

• 这是第一个全面涵盖Transformer在医学影像领域应用的综述，覆盖了125多篇相关论文。

• 调查了Transformer在医学图像分割、检测、分类、重建、合成、配准、临床报告生成和其他任务中的应用。

• 对于每个应用，我们制定了分类法，强调了特定任务的挑战，并基于所回顾的文献提供了解决这些挑战的见解。此外，我们对该领域的当前整体状态进行了批判性讨论，并指出了有前景的未来研究方向。

关键词：Transformer、医学图像分析、视觉Transformer、深度神经网络、临床报告生成

1.引言

卷积神经网络(CNNs)(Goodfellow等,2016; LeCun等,1989; Krizhevsky等,2012; Liu等,2022b)由于其以数据驱动的方式学习高度复杂表示的能力,对医学影像领域产生了重大影响。自其复兴以来,CNN在众多医学成像模式上展现出显著的改进,包括x光照相(Lakhani和Sundaram,2017)、内窥镜检查(Min等,2019)、计算机断层扫描(CT)(Würfl等,2016; Lell和Kachelrieß,2020)、乳房X线摄影(MG)(Hamidinekoo等,2018)、超声图像(Liu等,2019)、磁共振成像(MRI)(Lundervold和Lundervold,2019; Akkus等,2017)和正电子发射断层扫描(PET)(Reader等,2020)等。CNN中的主力是卷积运算符,它在局部操作并提供平移等变性。虽然这些特性有助于开发高效且可推广的医学成像解决方案,但卷积操作中的局部感受野限制了捕捉长程像素关系的能力。此外,卷积滤波器具有固定的权重,在推理时不会根据给定的输入图像内容进行调整。

图1. (左)饼图显示了本调查中包含的论文按医学成像问题设置和数据模式的统计数据。最右侧的图显示了近期文献的持续增长(2021年)。

Seg:分割,Class:分类,Rest:修复,Reg:配准,Synth:合成,Det:检测,Rep:报告生成,US:超声。

图2. 本调查涵盖的Transformer在医学成像中的多种应用领域。

同时,视觉社区已经做出了重大研究努力,将注意力机制(Vaswani等,2017; Devlin等,2018; Fedus等,2021)整合到受CNN启发的架构中(Wang等,2018b; Yin等,2020; Ramachandran等,2019; Bello等,2019; Vaswani等,2021; Dosovitskiy等,2020)。这些基于注意力的"Transformer"模型由于其编码长程依赖关系和学习高效特征表示的能力而成为一种有吸引力的解决方案(Chaudhari等,2019)。最近的工作表明,这些Transformer模块可以通过对一系列图像块进行操作,完全取代深度神经网络中的标准卷积,从而产生视觉Transformer(ViTs)(Dosovitskiy等,2020)。自问世以来,ViT模型已被证明在众多视觉任务中推动了最先进的技术,包括图像分类(Dosovitskiy等,2020)、目标检测(Zhu等,2020)、语义分割(Zheng等,2021b)、图像着色(Kumar等,2021)、低层视觉(Chen等,2021j)和视频理解(Arnab等,2021)等。此外,最近的研究表明,ViT（视觉Transformer）的预测误差比CNN更接近人类的误差(Naseer等,2021a; Portelance等,2021; Geirhos等,2021; Tuli等,2021)。ViT的这些理想特性激发了医学界极大的兴趣,将其应用于医学成像应用,从而缓解CNN固有的归纳偏差(Matsoukas等,2021)。

动机和贡献：近期，医学影像界见证了基于Transformer技术数量的指数级增长，尤其是在ViT（视觉Transformer）问世之后（见图1）。这个主题现在正在医学影像界获得更多关注，由于论文的快速涌入，越来越难以跟上最新进展。因此，对现有相关工作进行调查是及时的，以全面介绍这一新兴领域的新方法。为此，我们提供了Transformer模型在医学影像中应用的整体概述。我们希望这项工作能为研究人员提供进一步探索该领域的路线图。我们的主要贡献包括：

• 这是第一篇全面涵盖Transformer在医学影像领域应用的综述论文，从而在这一快速发展的领域中弥合了视觉和医学影像社区之间的差距。具体而言，我们对125多篇相关论文进行了全面概述，以涵盖最新进展。

• 我们根据论文在医学影像中的应用对其进行分类，如图2所示，提供了该领域的详细覆盖。对于每种应用，我们制定了分类法，突出了特定任务的挑战，并根据所回顾的文献提供了解决这些挑战的见解。

• 最后，我们对该领域的当前整体状况进行了批判性讨论，包括识别关键挑战、突出开放问题，并概述了有前景的未来方向。

• 尽管本调查的主要重点是视觉Transformer，但我们也是自原始Transformer问世以来约五年来，首次广泛涵盖其在临床报告生成任务中的语言建模能力（见第9节）。

论文组织。本文的其余部分组织如下。在第2节中，我们提供了该领域的背景，重点介绍了Transformer的显著概念。从第3节到第10节，我们全面涵盖了Transformer在几个医学影像任务中的应用，如图2所示。特别是，对于每个任务，我们制定了分类法并识别了特定任务的挑战。第11节介绍了该领域整体的开放问题和未来方向。最后，在第12节中，我们提出了应对该领域快速发展的建议，并总结了本文。

图3. ViT（视觉Transformer）在各种医学影像问题中的应用以及基于CNN的基线方法。由于能够模拟全局上下文，基于ViT的方法比基于CNN的方法表现更优。图片来源：(a) Gao等(2021c)，(b) Hatamizadeh等(2021)，(c) Wu等(2021c)，(d) Zhang等(2021h)，(e) Korkmaz等(2021a)，(f) Ji等(2021)。

2.背景

医学影像方法在过去几十年里取得了重大进展。在本节中，我们简要介绍这些进展的背景，并将它们大致分为基于CNN和基于ViT（视觉Transformer）的方法。对于基于CNN的方法，我们描述了其基本工作原理以及在医学影像领域的主要优势和缺点。对于基于ViT的方法，我们强调了其成功背后的核心概念，并将进一步细节推迟到后面的章节。

2.1. 基于CNN的方法

CNN在学习判别性特征和从大规模医学数据集中提取可泛化先验方面非常有效，因此在医学影像任务上表现出色，成为现代基于AI的医学影像系统的一个重要组成部分。CNN的进步主要由新颖的架构设计、更好的优化程序、特殊硬件（如GPU）的可用性和专门构建的开源软件库（Gibson等，2018; Pérez-García等，2021; Beers等，2021）推动。我们建议感兴趣的读者参阅与CNN在医学影像应用相关的综合调查论文（Yi等，2019; Litjens等，2017; Greenspan等，2016; Zhou等，2017; Shen等，2017; Cheplygina等，2019; Hesamian等，2019; Duncan等，2019; Haskins等，2020; Zhou等，2021a）。尽管性能有了显著提升，但CNN对大型标记数据集的依赖限制了它们在医学影像任务全谱上的适用性。此外，基于CNN的方法通常更难解释，往往被视为黑盒解决方案。因此，医学影像社区越来越努力将手工制作和基于CNN的方法的优势结合起来，产生了先验信息引导的CNN模型（Shlezinger等，2020）。这些混合方法包含特殊的领域特定层，包括展开优化（Monga等，2021）、生成模型（Ongie等，2020）和基于学习去噪器的方法（Ahmad等，2020）。尽管有这些架构和算法上的进步，CNN成功的决定性因素主要归因于它们在处理尺度不变性和建模局部视觉结构方面的图像特定归纳偏差。虽然这种内在的局部性（有限的感受野）为CNN带来了效率，但它损害了它们捕捉输入图像中长程空间依赖关系的能力，从而使性能停滞不前（Matsoukas等，2021）（见图3）。这要求一种能够建模长程像素关系以实现更好表示学习的替代架构设计。

2.2. Transformer

Transformer由Vaswani等（2017）引入，作为机器翻译的新型注意力驱动构建块。具体来说，这些注意力块是聚合整个输入序列信息的神经网络层（Bahdanau等，2014）。自问世以来，这些模型在几个自然语言处理（NLP）任务上展示了最先进的性能，从而成为替代循环模型的默认选择。在本节中，我们将关注视觉Transformer（ViTs）（Dosovitskiy等，2020），它们是基于原始Transformer模型（Vaswani等，2017）构建的，通过级联多个transformer层来捕捉输入图像的全局上下文。具体而言，Dosovitskiy等（2020）将图像解释为一系列patch，并通过NLP(自然语言处理)中使用的标准transformer编码器进行处理。这些ViT模型延续了从模型中移除手工制作的视觉特征和归纳偏差的长期趋势，以利用更大数据集的可用性和增加的计算能力。ViT在医学影像社区引起了极大的兴趣，最近提出了许多基于ViT的方法。我们在算法1中以逐步方式突出了ViT在医学图像分类中的工作原理（也见图4）。

下面，我们简要描述了ViT（视觉Transformer）成功背后的核心组件：自注意力和多头自注意力。对于更深入分析众多ViT架构和应用，我们建议感兴趣的读者参考最近相关的调查论文（Chaudhari等，2019; Han等，2020; Khan等，2021; Tay等，2020; Lin等，2021b）。

算法1：ViT工作原理
1: 将医学图像分割成固定大小的块
2: 通过展平操作将图像块向量化
3: 通过可训练的线性层从向量化的块创建低维线性嵌入
4: 向低维线性嵌入添加位置编码
5: 将序列输入到ViT编码器，如图4所示
6: 在大规模图像数据集上预训练ViT模型
7: 在下游医学图像分类任务上微调

图4. 视觉Transformer的架构（左侧）和视觉Transformer编码器块的细节（右侧）。视觉Transformer首先将输入图像分割成块，并将它们（在展平后）投影到一个特征空间中，在此空间中，Transformer编码器处理这些块以产生最终的分类输出。

2.2.1. 自注意力

Transformer模型的成功广泛归因于自注意力（SA）机制，因为它能够模拟长距离依赖关系。SA机制背后的关键思想是学习自对齐，即确定单个词元（patch嵌入）相对于序列中所有其他词元的相对重要性（Bahdanau等，2014）。对于2D图像，我们首先将图像

重塑为一系列展平的2D patches

，其中H和W分别表示原始图像的高度和宽度，C是通道数，P×P是每个图像patch的分辨率，

是结果patch数量。这些展平的patches通过可训练的线性投影层投影到D维度，可以用矩阵形式表示为

。自注意力的目标是捕捉所有这N个嵌入之间的交互，这是通过定义三个可学习的权重矩阵来将输入X转换为查询（通过

）、键（通过

）和值（通过

）来完成的，其中

。输入序列X首先投影到这些权重矩阵上得到

。相应的注意力矩阵

可以写成：

SA（自注意力）层的输出

则由以下给出：

2.2.2. 多头自注意力

多头自注意力（MHSA）由多个沿通道方向连接在一起的SA（自注意力）块（头）组成，以模拟输入序列中不同元素之间的复杂依赖关系。每个头都有自己的可学习权重矩阵，表示为

，其中i=0...(h-1)，h表示MHSA块中的总头数。具体来说，我们可以写成：

其中

计算头的线性变换，

可以写成：

需要注意的是，计算SA(自注意力)块的softmax的复杂度与输入序列长度成二次方关系，这可能会限制其在高分辨率医学图像中的应用。最近，已经做出了许多努力来降低复杂度，包括稀疏注意力（Rao等，2021）、线性化注意力（Katharopoulos等，2020）、低秩注意力（Xiong等，2021）、基于内存压缩的方法（Choromanski等，2020）和改进的MHSA(多头自注意力)（Shazeer等，2020）。我们将在相关章节讨论医学影像中的高效SA(自注意力)。

此外，我们认为有必要澄清，文献中已经探索了几种基于卷积架构的替代注意力方法（Jin等，2020; Schlemper等，2019; Maji等，2022; Guo等，2021）。在本调查中，我们专注于transformer块中使用的特定注意力（多头自注意力,MHSA），它最近在医学图像分析中引起了重要的研究关注。接下来，我们根据特定应用领域对这些方法进行分类概述。

3.医学图像分割

准确的医学图像分割是计算机辅助诊断、影像引导手术和治疗计划中的关键步骤。Transformer的全局上下文建模能力对于准确的医学图像分割至关重要，因为通过建模空间距离较远的像素之间的关系，可以有效地编码跨越大感受野的器官（例如肺部分割）。此外，医学扫描中的背景通常是分散的（例如超声扫描（Avola等，2021））；因此，学习对应于背景的像素之间的全局上下文可以帮助模型防止错误分类。

图5. 基于ViT的医学图像分割方法的分类。

下面，我们突出介绍将基于ViT的模型用于医学图像分割的各种尝试。我们将基于ViT的分割方法大致分为特定器官和多器官类别，如图5所示，这是由于两组方法所需的上下文建模水平不同。

3.1. 特定器官分割

基于ViT（视觉Transformer）的特定器官方法通常考虑底层器官的特定方面来设计架构组件或损失函数。我们在本节中提到了此类设计选择的具体例子。我们进一步将特定器官类别根据输入类型分为2D和3D方法。

3.1.1. 2D分割

这里，我们描述了针对2D医学扫描的特定器官基于ViT（视觉Transformer）的分割方法。

皮肤病变分割。准确的皮肤病变分割对于识别黑色素瘤（癌细胞）对于癌症诊断和后续治疗计划至关重要。然而，由于皮肤病变区域的颜色、大小、遮挡和对比度存在显著变化，导致边界模糊（Yuan，2017），从而导致分割性能下降，这仍然是一项具有挑战性的任务。为了解决边界模糊的问题，Wang等（2021e）提出了一种新颖的边界感知Transformer（BAT）。具体来说，他们在Transformer架构中设计了一个边界感知注意力门，以利用关于边界的先验知识。边界感知注意力门的辅助监督提供反馈以有效训练BAT。在ISIC 2016+PH2（Gutman等，2016，Mendonça等，2013）和ISIC 2018（Codella等，2019）上的大量实验验证了他们的边界先验的有效性，如图6所示。类似地，Wu等（2021a）提出了一种基于双编码器的特征自适应transformer网络（FAT-Net），它在编码器中包含CNN和transformer分支。为了有效融合这两个分支的特征，设计了一个内存高效的解码器和特征适应模块。在ISIC 2016-2018（Gutman等，2016，Berseth，2017，Codella等，2019）和PH2（Mendonça等，2013）数据集上的实验证明了FAT-Net融合模块的有效性。

图6. 不同皮肤病变分割方法的比较。从左到右：输入图像、基于CNN的UNet++（Zhou等，2019b）、基于ViT的TransUNet（Chen等，2021g）、边界感知transformer（BAT）（Wang等，2021e）和地面真实（GT）图像。红色圆圈突出显示了具有模糊边界的小区域，BAT(边界感知Transformer)由于使用边界先验知识而能够表现良好。图片来自Wang等（2021e）。

牙根分割。牙根分割是根管治疗中治疗牙周炎（牙龈感染）的关键步骤之一（Gao和Chae，2010）。然而，由于边界模糊以及图像曝光过度和曝光不足，这是一项具有挑战性的任务。为了解决这些挑战，Li等（2021e）提出了Group Transformer UNet（GT UNet），它由transformer和卷积层组成，分别编码全局和局部上下文。提出了一种形状敏感的傅里叶描述子损失函数（Zahn和Roskies，1972）来处理模糊的牙齿边界。此外，在GT UNet中引入了分组和瓶颈结构，以显著降低计算成本。在他们内部的牙根分割数据集上使用六种评估指标进行的实验证明了GT UNet架构组件和基于傅里叶的损失函数的有效性。在另一项工作中，Li等（2021g）提出了解剖引导多分支Transformer（AGMB-Transformer），以结合组卷积（Chollet，2017）和渐进Transformer网络的优势。在他们自行收集的245张牙根X光图像数据集上的实验显示了AGMB-Transformer的有效性。

心脏图像分割。尽管Transformer在医学图像分割方面表现出色，但它们在训练时计算要求高，并且参数预算也很高。为了解决心脏图像分割任务中的这些挑战，Deng等（2021）提出了TransBridge，一种轻量级、参数高效的混合模型。TransBridge由基于Transformer和CNN的编码器-解码器结构组成，用于心超声图中的左心室分割。具体而言，Transformer的patch嵌入层使用洗牌层（Zhang和Yang，2021）和分组卷积进行了重新设计，以显著减少参数数量。在大规模左心室分割数据集、心超声图（Ouyang等，2020）上的广泛实验证明了TransBridge相对于CNN和基于Transformer的基线方法（Xie等，2021a）的优势。

肾脏肿瘤分割。通过计算机诊断系统准确分割肾脏肿瘤可以减少放射科医生的工作量，并且是相关外科手术中的关键步骤。然而，由于肾脏肿瘤大小不一以及肿瘤与其解剖周围环境之间的对比度，这是一项具有挑战性的任务。为了解决这些挑战，Shen等（2021b）提出了一种混合编码器-解码器架构COTR-Net，它由卷积和transformer层组成，用于端到端的肾脏、肾囊肿和肾肿瘤分割。具体而言，COTR-Net的编码器由多个卷积-transformer块组成，解码器包括多个上采样层，并与编码器有跳跃连接。编码器权重使用预训练的ResNet（He等，2016）架构进行初始化以加速收敛，并在解码器层中利用深度监督来提高分割性能。此外，使用形态学操作作为后处理步骤来细化分割掩码。在肾脏肿瘤分割数据集（KiTS21）（KiTS，2021）上的广泛实验证明了COTR-Net的有效性。尽管COTR-Net在Dice得分方面能够超过普通U-Net，但它在KiTS21挑战赛排行榜上的排名是25个团队中的第22名，前3名团队的模型都基于CNN的高级变体。

细胞分割。受Detection Transformers（DETR）（Carion等，2020）的启发，Prangemeier等（2020）提出了Cell-DETR，这是一个基于Transformer的生物细胞实例分割框架。具体而言，他们在DETR框架中集成了一个专用的注意力分支，以获得实例级分割掩码，除了框预测之外。在训练过程中，分割分支使用焦点损失（Lin等，2017b）和Sorenson Dice损失（Carion等，2020）。为了提高性能，他们在Cell-DETR中集成了三个残差解码器块（He等，2016）以生成准确的实例掩码。在他们内部的酵母细胞数据集上的实验证明了Cell-DETR相对于基于UNet的基线（Ronneberger等，2015）的有效性。类似地，现有的医学图像分割方法通常在处理角膜内皮细胞时遇到困难，这是由于受试者的运动导致边缘模糊（Van den Bogerd等，2019）。这要求保留更多局部细节并充分利用全局上下文。考虑到这些属性，Zhang等（2021c）提出了一个多分支混合Transformer网络（MBT-Net），由卷积和transformer层组成。具体而言，他们提出了一个主体-边缘分支，提供精确的边缘位置信息并促进局部一致性。在他们自行收集的TM-EM3000和公开的Alisarine数据集（Ruggeri等，2010）上的广泛消融研究显示了MBT-Net架构组件的有效性。在公开可用的Alisarine数据集上，尽管MBT-Net在Dice得分方面能够胜过UNet、UNet++和基线transformer方法，但其性能与先进的基于CNN的方法相比显著较低。

表1. 基于Transformer的语义分割方法在PAIP肝脏组织病理学数据集（Kim等，2021）上的病理图像分割评估，以平均Jaccard指数表示。可以看出，基于transformer的模型往往优于CNN，但Swin-UNet除外。结果来自Nguyen等（2021a），这是首次系统评估transformer在病理图像分割任务上性能的研究之一。

组织病理学。组织病理学是指在显微镜下对组织疾病进行诊断和研究，是癌症识别的金标准。因此，准确的自动组织病理图像分割可以大大减轻病理学家的工作负担。最近，Nguyen等（2021a）系统评估了六种最新的ViT（视觉Transformer）和基于CNN的方法在PAIP肝脏组织病理学数据集（Kim等，2021）的全幅图像上的表现。他们的结果（如表1所示）表明，几乎所有基于Transformer的模型确实表现出优于基于CNN的方法的性能，这是由于它们能够编码全局上下文。

视网膜血管分割。准确的视网膜血管分割对眼部相关疾病的早期诊断至关重要。最近，Yu等（2022）提出了一种名为CAViT-DAGC的新型视网膜分割网络，它结合了通道注意力视觉transformer（CAViT）和深度自适应伽马校正（DAGC）模块。CAViT块由一个高效通道注意力（ECA）模块和一个ViT组成。ECA模块分析特征通道之间的相互依赖性，而ViT通过关注全局上下文从ECA模块加权的特征图中提取显著的边缘结构。他们在CHASE DB1和DRIVE数据集上证明了所提出模块的有效性。类似地，Philippi等（2023）提出了一种基于ViT的方法，有效地结合了transformer的长程特征提取和聚合能力以及CNN的数据高效训练。在另一项工作中，Wang等（2022c）提出了一个双分支transformer模块，利用图像的全局上下文和patch级别的局部信息进行有效的视网膜血管分割。我们的DA-Net的解码器使用自适应条带采样块来捕获灵活有效地调整到视网膜血管分布的上下文信息。类似地，Huang等（2022）提出了一个关系transformer块（RTB），在两个层面使用注意力机制：一个自注意力transformer分析病变特征之间的全局依赖关系，一个交叉注意力transformer整合血管信息并减轻由复杂眼底结构引起的病变检测模糊性。此外，还引入了一个全局transformer块来捕捉小病变模式。在其他工作中，Li等（2022）提出了一个基于双局部网络的全局transformer网络，不仅捕获长程依赖性，还缓解了血管分割中的不连续性。特别是，他们提出的架构融合了不同尺度的特征，以减轻特征融合过程中的信息损失。

3.1.2. 3D医学分割
这里，我们描述用于体积医学数据的基于ViT（视觉Transformer）的分割方法。

脑肿瘤分割。自动和准确的脑肿瘤分割方法可以导致神经系统疾病的及时诊断。最近，提出了基于ViT的模型来准确分割脑肿瘤。Wang等（2021a）首次尝试利用Transformer进行3D多模态脑肿瘤分割，有效地在空间和深度维度上建模局部和全局特征。具体来说，他们的编码器-解码器架构TransBTS使用3D CNN提取局部3D体积空间特征，使用Transformer编码全局特征。在3D CNN基础的解码器中使用渐进上采样来预测最终的分割图。为进一步提高性能，他们使用了测试时数据增强。在BraTS 2019和BraTS 2020验证集上的广泛实验显示了TransBTS相对于基线方法的有效性。然而，在Dice得分方面，其性能不如基于CNN的BraTS 2019和2020排行榜上表现最佳的方法。与大多数基于ViT（视觉Transformer）的图像分割方法不同，TransBTS不需要在大型数据集上进行预训练，而是从头开始训练。在另一项工作中，受TransBTS（Wang等，2021a）架构设计的启发，Jia和Shu（2021）提出了Bi-Transformer UNet（BiTr-UNet），在BraTS 2021（Baid等，2021）分割挑战中表现相对较好。与TransBTS不同，BiTr-UNet包含一个注意力模块来细化编码器和解码器特征，并有两个ViT层（而不是像TransBTS中的一个）。此外，BiTr-UNet采用后处理策略，如果预测分割的体积小于阈值（Isensee等，2018），则消除该体积，然后通过多数投票（Lam和Suen，1997）进行模型集成。类似地，Peiris等（2021）提出了一种轻量级的UNet形状的体积transformer，VT-UNet，以分层方式分割3D医学图像模态。具体来说，在VT-UNet的编码器中引入了两个自注意力层来捕获全局和局部上下文。此外，在解码器中引入基于窗口的自注意力和交叉注意力模块以及傅里叶位置编码显著提高了VT-UNet的准确性和效率。在BraTs 2021（Baid等，2021）上的实验表明，VT-UNet对数据伪影具有鲁棒性，并表现出强大的泛化能力。在另一项类似的工作中，Hatamizadeh等（2022a）提出了基于Swin UNet的架构Swin UNETR，它由Swin transformer作为编码器和基于CNN的解码器组成。具体来说，Swin UNETR在高效的移位窗口分区方案中计算自注意力，是BraTs 2021（Baid等，2021）验证集上表现最佳的模型之一。在表2中，我们提供了各种基于Transformer的模型在3D多模态BraTs 2021数据集（Baid等，2021）上的Dice得分和其他参数。

表2. 各种基于Transformer的模型在3D多模态脑肿瘤BraTS 2021数据集（Baid等，2021）上的分割结果和参数。由于BraTS 2021挑战的验证和测试数据不可用，因此一些工作进一步将BraTS的训练集（1251个MRI扫描）分为验证集（208个扫描）和测试集（209个扫描）。我们在上表中报告了这209个扫描的结果。下表提供了挑战验证数据集上排名靠前方法的Dice得分。请注意，BraTS挑战使用基于平均Dice和Hausdorff得分的综合排名。在表中，我们只提供了Dice得分。基于transformer的方法Swin UNETR在验证集排行榜上排名第7。

在从1251个训练集图像中分出的209个测试集图像上的Dice得分

a 表示该方法基于CNN。

组织病理学。Yun等(2021)提出了用于高频谱病理图像分割的频谱Transformer(SpecTr),它使用transformer学习频谱维度上的上下文特征。为了舍弃无关的频谱带,他们引入了基于稀疏性的方案(Correia等,2019)。此外,他们对每个波段采用单独的组归一化,以消除频谱图像之间分布不匹配造成的干扰。在胆管癌(Zhang等,2019b)高频谱病理数据集上的广泛实验显示了SpecTr的有效性,如图7所示。

乳腺肿瘤分割。早期检测乳腺癌可将死亡率降低40%以上(Huang等,2017b)。因此,自动乳腺肿瘤检测对医生来说极其重要。最近,Zhu等(2021)提出了一个区域感知transformer网络(RAT-Net),将乳腺肿瘤区域信息融合到多个尺度以获得精确分割。在大型超声乳腺肿瘤分割数据集上的广泛实验表明,RAT-Net优于基于CNN和transformer的基线方法。同样,Liu等(2021c)也提出了一种混合架构,在3D UNet(Çiçek等,2016)的解码器部分包含transformer层,以准确分割体积乳腺数据中的肿瘤。

图7. 使用频谱Transformer(SpecTr)对高频谱病理数据集进行分割的结果。从左到右:输入图像、真实标签、HIS Hyper(基于CNN)(Wang等,2020c)、UNet(基于CNN)(Ronneberger等,2015)、Attn UNet(基于CNN)(Oktay等,2018)、UNet++(基于CNN)(Zhou等,2019b)和SpecTr(基于ViT)(Yun等,2021)。图片改编自Yun等(2021)。

3.2. 多器官分割

多器官分割旨在同时分割多个器官,由于类间不平衡以及不同器官的大小、形状和对比度不同,这是具有挑战性的。ViT（视觉Transformer）模型特别适合多器官分割,因为它们能够建模全局关系并区分多个器官。我们根据架构设计对多器官分割方法进行了分类,因为这些方法不考虑任何器官特定的方面,通常专注于设计有效和高效的架构模块来提高性能(Lei等,2020)。我们将多器官分割方法分为纯Transformer(仅ViT层)和混合架构(同时包含CNN和ViT层)。

图8. TransUNet架构(Chen等,2021g)概述,该架构提出用于多器官分割。它是为医学图像分割提出的最早基于transformer的架构之一,兼具transformer和UNet的优点。它在编码器中采用混合CNN-Transformer架构,然后在解码器中使用多个上采样层输出最终分割掩码。图片改编自Chen等(2021g)。

3.2.1. 纯Transformer

纯Transformer架构仅由ViT层组成,在医学图像分割中的应用较少,因为对于分割等密集预测任务来说,全局和局部信息都很重要(Chen等,2021g)。最近,Karimi等(2021)通过利用3D医学图像patches的相邻线性嵌入之间的自注意力(Wang等,2018b),提出了一种用于3D医学图像分割的纯Transformer模型。他们还提出了一种方法,在只有少量标记图像可用时预训练他们的模型。广泛的实验表明了他们的无卷积网络在与大脑皮质板(Dou等,2020)、胰腺和海马体相关的三个基准3D医学成像数据集上的有效性。在分割中使用纯Transformer模型的一个缺点是自注意力相对于输入图像尺寸的二次复杂度。这可能会阻碍ViT在高分辨率医学图像分割中的应用。为了缓解这个问题,Cao等(2021)提出了Swin-UNet,像Swin Transformer(Liu等,2021a)一样,在局部窗口内计算自注意力,并且相对于输入图像具有线性计算复杂度。Swin-UNet还包含一个patch扩展层,用于上采样解码器的特征图,与双线性上采样相比,在恢复精细细节方面表现出优越的性能。在Synapse多器官分割和ACDC(Bernard等,2018)数据集上的实验证明了Swin-UNet架构设计的有效性。

3.2.2. 混合架构

基于混合架构的方法结合了Transformer和CNN的互补优势,以有效地建模全局上下文并捕获局部特征,从而实现准确的分割。我们进一步将这些混合模型分为单尺度和多尺度方法。

单尺度架构。

这些方法仅在一个尺度上处理输入图像信息,由于与多尺度架构相比计算复杂度较低,在医学图像分割中得到了广泛应用。我们可以根据Transformer层在模型中的位置进一步将单尺度架构分类。这些子类别包括编码器中的Transformer、编码器和解码器之间的Transformer、编码器和解码器中的Transformer,以及解码器中的Transformer。

编码器中的Transformer。最初开发的基于Transformer的医学图像分割方法大多在模型的编码器中包含Transformer层。这一类别的第一个工作是TransUNet (Chen等,2021g),如图8所示,它在编码器中包含12个Transformer层。这些Transformer层对来自CNN层的分词图像块进行编码。得到的编码特征通过解码器中的上采样层进行上采样,以输出最终的分割图。通过引入跳跃连接,TransUNet在发布时在自动心脏诊断挑战(ACDC) (Bernard等,2018)上创下了新纪录。在另一项工作中,Zhang等(2021d)提出TransFuse,通过BiFusion模块融合Transformer和CNN层的特征。BiFusion模块利用自注意力和多模态融合机制有选择地融合特征。TransFuse在多种模态(2D和3D)上的广泛评估,包括息肉分割、皮肤病变分割、髋部分割和前列腺分割,证明了其有效性。TransUNet (Chen等,2021g)和TransFuse (Zhang等,2021d)都需要在ImageNet数据集(Deng等,2009)上进行预训练,以学习图像的位置编码。为了在没有任何预训练的情况下学习这种位置偏差,Valanarasu等(2021)提出了一种改进的门控轴向注意力层(Wang等,2020e),它在小型医学图像分割数据集上表现良好。此外,为了提高分割性能,他们提出了一种局部-全局训练方案,以关注输入图像的精细细节。在脑解剖分割(Wang等,2018a)、腺体分割(Sirinukunwattana等,2017)和MoNuSeg(显微镜)(Kumar等,2019)上的广泛实验证明了他们提出的门控轴向注意力模块的有效性。

在另一项工作中,Tang等(2021)引入了Swin UNETR,这是一个新颖的自监督学习框架,具有代理任务,可在5,050张CT数据集图像上预训练Transformer编码器。他们通过在MSD和Synapse多器官分割数据集的下游任务上微调Transformer编码器和基于CNN的解码器,验证了预训练的有效性。同样,Sobirov等(2022)表明,基于transformer的模型在头颈肿瘤分割任务上可以达到与最先进的基于CNN的方法相当的结果。一些工作还通过以即插即用的方式将Transformer层集成到基于UNet架构的编码器中,研究了Transformer层的有效性。例如,Chang等(2021)通过在Claw UNet (Yao等,2020)的编码部分集成Transformer层来提出TransClaw UNet,以利用多尺度信息。TransClaw-UNet在Synapse多器官分割数据集上的dice分数比Claw-UNet提高了0.6%,并表现出出色的泛化能力。同样,受LeViT (Graham等,2021)的启发,Xu等(2021)提出了LeViT-UNet,旨在优化准确性和效率之间的权衡。LeViT-UNet是一个多阶段架构,在Synapse多器官分割和ACDC基准测试中展示了良好的性能和泛化能力。

编码器和解码器之间的Transformer。在这一类别中,Transformer层位于U形架构的编码器和解码器之间。这些架构更适合避免在编码器层下采样过程中丢失细节。这一类别的第一个工作是TransAttUNet (Chen等,2021e),它利用引导注意力和多尺度跳跃连接来增强传统UNet的灵活性。具体来说,在UNet的编码器和解码器之间嵌入了一个鲁棒的自感知注意力模块,以同时利用全局空间注意力和transformer自注意力的表达能力。在五个基准医学图像分割数据集上的广泛实验证明了TransAttUNet架构的有效性。同样,Yan等(2021c)提出了轴向融合Transformer UNet (AFTer-UNet),它在编码器和解码器之间包含一个计算效率高的轴向融合层,用于融合3D医学图像分割的层间和层内信息。在BCV (Simpson等,2019)、Thorax-85 (Chen等,2021i)和SegTHOR (Lambert等,2020)数据集上的实验证明了他们提出的融合层的有效性。

编码器和解码器中的Transformer。一些工作在U形架构的编码器和解码器中都集成了Transformer层,以更好地利用全局上下文进行医学图像分割。这一类别的第一个工作是UTNet (Gao等,2021c),它有效地将自注意力机制的复杂度从二次降低到线性(Wang等,2020a)。此外,为了准确建模图像内容,UTNet利用了二维相对位置编码(Bello等,2019)。实验表明UTNet在多标签和多供应商心脏MRI挑战数据集队列(Campello等,2021)上具有强大的泛化能力。同样,为了优化地结合卷积和transformer层进行医学图像分割,Zhou等(2021b)提出了nnFormer,这是一种基于交错编码器-解码器的架构,其中卷积层编码精确的空间信息,Transformer层编码全局上下文,如图9所示。与Swin Transformers (Liu等,2021a)类似,nnFormer中的自注意力在局部窗口内计算,以降低计算复杂度。此外,在解码器层中采用了深度监督来提高性能。在ACDC和Synapse多器官分割数据集上的实验表明,nnFormer在Synapse多器官分割数据集上的dice分数超过了Swin-UNet (Cao等,2021)(基于transformer的医学分割方法)7%以上。在另一项工作中,Lin等(2021a)提出了双Swin Transformer UNet (DS-TransUNet),将Swin Transformer的优势融入U形架构中进行医学图像分割。他们将输入图像分割成两个尺度的非重叠块,并将它们输入编码器的两个基于Swin Transformer的分支。提出了一种新颖的Transformer交互融合模块,以在编码器中建立不同尺度特征之间的长程依赖关系。DS-TransUNet在与息肉分割、ISIC 2018、GLAS和Datascience bowl 2018相关的四个标准数据集上优于基于CNN的方法。

解码器中的Transformer。Li等(2021a)研究了将Transformer作为UNet解码器中的上采样块用于医学图像分割。具体来说,他们采用了基于窗口的自注意力机制,以更好地补充上采样特征图,同时保持效率。在MSD Brain和Synapse多器官分割数据集上的实验证明了他们的架构相对于双线性上采样的优越性。在另一项工作中,Li等(2021d)提出了SegTran,这是一种用于2D和3D医学图像分割的压缩-扩展Transformer。具体来说,压缩块对注意力矩阵进行正则化,扩展块学习多样化的表示。此外,提出了一种可学习的正弦位置编码,帮助模型编码空间关系。在Polyp、BraTS19和REFUGE20(眼底图像)分割挑战上的广泛实验证明了SegTran的强大泛化能力(见表3)。

图9. 用于体积医学图像分割的交错编码器不同于另一种Transformer（nnFormer）(Zhou et al., 2021b)概览。注意卷积层和transformer层是交错排列的，以充分发挥它们各自的优势。请注意,卷积和transformer层是交错的,以充分发挥它们的优势。图片来自Zhou等(2021b)。

多尺度架构
这些架构在多个尺度上处理输入，以分割具有不规则形状和不同大小的器官。在此，我们重点介绍了将多尺度架构集成用于医学图像分割的各种尝试。我们进一步根据输入图像类型将这些方法分为2D和3D分割类别。

表3. 基于ViT（视觉Transformer）的医学图像分割方法概述。

图10. 使用transformer进行脑肿瘤分割任务的定性结果。从左到右:真实图像、UNETR(Hatamizadeh等人，2021)(基于ViT)、TransBTS(Wang等人，2021a)(基于ViT)、CoTr(Shen等人，2021a)(基于ViT)和UNet(Ronneberger等人，2015)(基于CNN)。注意,与基于CNN的方法相比,基于transformer的方法在捕捉脑肿瘤的精细细节方面表现更好。图片来源:Hatamizadeh等人(2021)。

图11. CNN和Transformer(CoTr)架构(Xie等人，2021a)概述,用于3D医学图像分割。它由CNN编码器(左)组成,从输入中提取多尺度特征,然后是DeTrans编码器(黄色块)来处理展平的多尺度特征图。编码器的输出特征被送入CNN解码器(右)以预测分割掩码。图片来源:Xie等人(2021a)。

图12. 各种基于transformer方法在Synapse多器官分割挑战中的Dice结果。可以看出,Swin-UNETR能够在Dice系数分数上平均提高13%,相比SETR方法,表明该领域的研究进展迅速。用于比较的基于transformer的方法包括SETR NUP(Zheng等人，2021b)、SETR PUP(Zheng等人，2021b)、SETR MLA(Zheng等人，2021b)、TransUNet(Chen等人，2021g)、CoTr*(Xie等人，2021a)(与CoTr相比使用较小的CNN编码器)、CoTr(Xie等人，2021a)、UNETR(Hatamizadeh等人，2021)和Swin UNETR(Tang等人，2021)。

注:Avg:平均结果(12个器官)、AG:左右肾上腺、Pan:胰腺、Sto:胃、Spl:脾、Liv:肝、Gall:胆囊。

2D分割。大多数基于ViT（视觉Transformer）的多器官分割方法难以捕捉多个尺度的信息,因为它们将输入图像划分为固定大小的块,从而丢失了有用的信息。为解决这个问题,Zhang等人(2021g)提出了一种金字塔医学transformer PMTrans,利用多分辨率注意力通过金字塔架构(Ghiasi和Fowlkes，2016)捕捉不同图像尺度的相关性。PMTrans通过自适应分块方案在多分辨率图像上工作,以访问不同的感受野,而不改变自注意力计算的整体复杂度。在GLAS(Sirinukunwattana等人，2017)、MoNuSeg(Kumar等人，2017)和HECKTOR(Andrearczyk等人，2020)三个医学影像数据集上的大量实验表明了利用多尺度信息的有效性。在其他工作中,Ji等人(2021)提出了一种多组合transformer(MCTrans),该方法不仅学习相同语义类别的特征一致性,还捕捉不同语义类别之间的相关性以进行准确分割(Yu等人，2020)。具体而言,MCTrans通过Transformer自注意力模块捕捉跨尺度上下文依赖关系,并通过Transformer交叉注意力模块学习不同类别之间的语义对应关系。还引入了一个辅助损失来改善相同语义类别的特征相关性。在六个基准分割数据集上进行了大量实验。特别是,在Pannuke数据集(Gamper等人，2020)上的实验表明,MCTrans达到了68.90的平均Dice分数,超过了AttentionUNet(Oktay等人，2018)(64.97)和CENet(Gu等人，2019)(66.50)的表现。

3D分割。大多数多尺度架构都是为2D医学图像分割提出的。为了直接处理体积（Volumetric）数据,Hatamizadeh等人(2021)提出了一种基于ViT（视觉Transformer）的架构(UNETR)用于3D医学图像分割。UNETR由一个纯transformer作为编码器,学习输入体积的序列表示。编码器通过跳跃连接，连接到基于CNN的解码器,以计算最终的分割输出。如图10所示,UNETR在Synapse多器官分割数据集(Landman等人，2015)和MSD(Simpson等人，2019)分割数据集上取得了令人印象深刻的表现。UNETR的一个缺点是在处理大型3D输入体积时计算复杂度高。为缓解这个问题,Xie等人(2021a)提出了一种计算效率高的可变形自注意力模块(Dai等人，2017),如图11所示,该模块仅对使用多尺度特征的小集合施加注意力,以降低计算和空间复杂度。在Synapse多器官分割数据集上的实验表明,他们的方法在平均Dice分数方面能够击败TransUNet(Chen等人，2021g)方法。

表4. Synapse多器官CT上医学图像分割的顶级方法。

3.3. 讨论

从本节回顾的大量文献中，我们注意到医学图像分割领域受到基于transformer模型的深远影响，自第一个ViT（视觉Transformer）模型(Dosovitskiy等人，2020)诞生以来的一年内就有超过50篇相关出版物。我们认为这种兴趣是由于大型医学分割数据集的可用性以及与之相关的顶级会议挑战赛，相比其他医学影像应用而言。如图12所示，最近基于transformer的混合架构能够在Dice分数方面比简单的基线transformer模型提高13%的性能，表明该领域进展迅速。简而言之，基于ViT的架构在基准医学数据集上取得了良好的结果，如表4所示。

如前所述，与在多个层次提取特征相关的高计算成本阻碍了多尺度架构在医学分割任务中的应用。这些多尺度架构利用在多个层次处理输入图像信息，并实现了优于单尺度架构的性能。因此，设计用于多尺度处理的高效transformer架构需要更多关注。

大多数提出的基于ViT（视觉Transformer）的模型都是在ImageNet数据集上预训练，用于医学图像分割的下游任务。由于自然图像和医学图像模态之间存在较大的域差距，这种方法是次优的。最近，有一些尝试研究了在医学影像数据集上进行自监督预训练对ViTs分割性能的影响。然而，这些工作表明，在一种模态(CT)上预训练的ViT直接应用于其他医学影像模态(MRI)时会产生不理想的性能，这是由于大的域差距，使其成为一个值得探索的有趣方向。我们将在第11.1节详细讨论与预训练ViTs用于下游医学影像任务相关的内容。

此外，最近基于ViT的方法主要集中在2D医学图像分割上。通过结合时间信息设计定制的架构组件，以实现高分辨率和高维度体积图像的高效分割，这方面还没有得到广泛探索。最近有一些努力，例如，UNETR(Hatamizadeh等人，2021)使用基于Swin Transformer(Liu等人，2021a)的架构来避免二次计算复杂度。扩展这些努力以设计轻量级的基于transformer的分割方法，以缓解时间序列处理的高计算成本问题，还需要进一步的工作。

除了关注数据集的规模，随着ViTs（视觉Transformer）的出现，我们注意到需要收集更多样化和具有挑战性的医学影像数据集。尽管多样化和具有挑战性的数据集对于评估ViTs在其他医学影像应用中的性能也至关重要，但它们对于医学图像分割尤其重要，因为这一领域涌入了大量基于ViT（视觉Transformer）的模型。我们相信这些数据集将在探索ViTs在医学图像分割方面的极限方面发挥决定性作用。

4.医学图像分类

医学图像的准确分类在辅助临床护理和治疗方面发挥着重要作用。在本节中，我们全面涵盖了ViTs在医学图像分类中的应用。如图13所示，我们根据这些类别所面临的不同挑战，将这些方法大致分为基于COVID-19、肿瘤和视网膜疾病分类的方法。

4.1.COVID-19诊断

研究表明,与耗时的实时聚合酶链反应(RT-PCR)测试相比,COVID-19可能通过放射影像学检查得到更好的诊断(Ai等人,2020; Fang等人,2020; Chen等人,2021c)。最近,ViTs已成功应用于COVID-19的诊断和严重程度预测,显示出良好的性能。本节简要描述了ViTs在推进COVID-19诊断过程的自动化图像分析方面的影响。这些工作大多使用三种模态,包括计算机断层扫描(CT)、超声扫描(US)和X射线。我们根据输入图像类型,将基于ViT的COVID-19分类方法进一步分为2D和3D分类类别。以下简要描述这些方法:

2D COVID-19分类：ViTs的高计算成本阻碍了它们在便携设备上的部署,从而限制了它们在实时COVID-19诊断中的应用。Perera等人(2021)提出了一种轻量级的即时护理Transformer(POCFormer),用于通过便携设备捕获的肺部图像诊断COVID-19。具体来说,POCFormer利用Linformer(Wang等人,2020a)将自注意力的空间和时间复杂度从二次降低到线性。POCFormer有两百万个参数,约为MobileNetv2(Sandler等人,2018)的一半,在每秒70帧的情况下平均准确率为91%。在COVID-19肺部POCUS数据集(Born等人,2020; Cohen等人,2020)上的实验证明了他们提出的架构的有效性,分类准确率超过90%。在另一项工作中,Liu和Yin(2021)提出了基于ViT的COVID-19诊断模型,利用了一种名为Vision Outlooker(VOLO)(Yuan等人,2021b)的新注意力机制。VOLO有效地将细粒度特征编码到ViT的token表示中,从而提高分类性能。此外,他们利用迁移学习方法来处理COVID-19数据集不足和普遍不平衡的问题。在两个公开可用的COVID-19 CXR数据集(Chowdhury等人,2020; Cohen等人,2020)上的实验证明了他们架构的有效性。同样,Jiang和Lin(2021)利用Swin Transformer(Liu等人,2021a)和Transformer-in-Transformer(Han等人,2021)将COVID-19图像与肺炎和正常图像进行分类。为进一步提高准确率,他们采用了加权平均的模型集成方法。

基于ViT的COVID-19诊断方法的研究进展受到严重阻碍,因为需要大量标记的COVID-19数据,因此需要医院之间的合作。由于患者同意有限、隐私问题和道德数据使用(Dou等人,2021),这种合作很困难。为缓解这一问题,Park等人(2021a)提出了一个联邦分割任务不可知(FESTA)框架,利用联邦学习和分割学习(Yang等人,2019; Vepakomma等人,2018)的优点,使用ViT同时处理多个胸部X线任务,包括在大规模分散数据集上诊断COVID-19胸部X线图像。具体来说,他们将ViT分为共享的transformer主体和特定任务的头部。transformer主体通过利用多任务学习(MTL)策略(Caruana,1997)在多个任务之间共享,如图16所示。他们通过在CXR数据集上进行广泛实验,确认了ViTs适用于医学影像应用中的协作学习。

图13. 基于ViT的医学图像分类方法的分类体系。随着大量基于ViT的COVID-19分类方法的出现，这一类别已成为分类体系中的主导力量。

一些作者还展示了影响基于ViT的COVID-19分类模型决策的特征,通常通过可视化技术如基于显著性的方法(Cong等人,2018)、Grad-CAM(Selvaraju等人,2017)等。基于显著性的可视化:Park等人(2021b)提出了一种基于ViT的COVID-19诊断方法,利用从预训练骨干网络中提取的低级CXR特征。骨干网络以自监督方式(使用基于对比学习的SimCLR(Chen等人,2020a)方法)进行训练,从大型且精心策划的CheXpert(Irvin等人,2019) CXR数据集中提取异常CXR特征嵌入。这些特征嵌入被ViT模型用于COVID-19图像的高级诊断。在从不同医院获得的三个CXR测试数据集上进行的广泛实验证明了他们的方法相对于基于CNN的模型的优越性。他们还验证了所提出方法的泛化能力,并采用显著性图可视化(Chefer等人,2021)提供可解释的结果。在另一项工作中,Mondal等人(2021)引入了xViTCOS用于从肺部CT和X射线图像中筛查COVID-19。具体来说,他们在ImageNet上预训练xViTCOS以学习通用图像表示,并在大型胸部放射影像数据集上对预训练模型进行微调。此外,xViTCOS利用可解释性驱动的基于显著性的方法(Chefer等人,2021),通过临床上可解释的可视化来突出关键因素在结果预测中的作用,如图14所示。在COVID CT-2 A(Gunraj等人,2021)和他们自己收集的胸部X射线数据集上的实验证明了xViTCOS的有效性。基于Grad-CAM的可视化:Shome等人(2021)提出了一个基于ViT的模型来大规模诊断COVID-19感染。他们结合了几个开源的COVID-19 CXR数据集,形成了一个大规模的多类和二元分类数据集。为了更好的视觉表示和模型可解释性,他们进一步创建了基于Grad-CAM的可视化(Selvaraju等人,2017)。

图14. CT扫描(a)和X射线(b)图像,以及它们对应的真实标签(左)和显著性图(右)。

对于图(a),xViTCOS-CT在双侧肺后基底部定位出可疑病变区域,表现为磨玻璃影、实变和网状影。xViTCOS-CT (Mondal等,2021)能够正确预测这些区域。对于图(b),放射科医生的诊断是:右中肺区域有厚壁空洞,周围伴有实变。如最后一列所示,xViTCOS-CXR (Mondal等,2021)能够正确预测这一情况。图片来源:Mondal等(2021)提供。

3D COVID-19分类:大多数基于ViT的COVID-19分类方法仅在2D信息上运作。然而,正如Kwee和Kwee(2020)所建议的,COVID-19的症状可能在不同患者的不同深度(切片)出现。为了同时利用2D和3D信息,Hsu等人(2021)提出了一个由transformers和CNNs组成的混合网络。具体来说,他们基于CT扫描中的显著症状,通过Wilcoxon符号秩检验(Woolson,2007)确定切片的重要性,以Swin Transformer(Liu等人,2021a)作为骨干网络。为进一步利用空间和时间维度的内在特征,他们提出了一个卷积CT扫描感知Transformer模块,以充分捕捉3D扫描的上下文。在COVID-19-CT数据集上的广泛实验显示了他们提出的架构组件的有效性。同样,Zhang和Wen(2021b,2021a)也提出了基于Swin Transformer的两阶段框架,用于3D CT扫描数据集(Kollias等人,2021)中COVID-19的诊断。具体来说,他们的框架由基于UNet的肺部分割模型和以Swin Transformer(Liu等人,2021a)为骨干的图像分类组成。同样,Gao等人(2021b)提出COVID-ViT,作为MIA-COVID19挑战赛(Kollias等人,2021)的一部分,用于将COVID图像与非COVID图像分类。他们在3D CT肺部图像上的实验证明了基于ViT的方法在F1分数方面优于DenseNet(Huang等人,2017a)基线。然而,他们在挑战赛排行榜(BraTS,2019b)上无法击败基于CNN的方法,他们在12个优于基线的团队中排名第12。

图15. 基于 Transformer 的多实例学习（TransMIL）架构（Shao et al., 2021a）用于整个切片脑肿瘤分类。WSI（整个切片成像）的图像块被嵌入到ResNet-50的特征空间中。嵌入特征的序列然后被他们提出的管道处理，包括：序列的平方、序列的相关性建模、条件位置编码（通过金字塔位置编码生成器（PPEG）模块）和局部信息融合、特征聚合，以及从Transformer空间到标签空间的映射。图片来源：Shao et al. (2021a)。

图16. 配备Transformer的联邦分割任务不可知(FESTA)框架(Park等人,2021a)的实现细节,用于同时处理多个胸部X线任务,包括COVID-19的诊断。

(a)胸部X线图像分类、分割和检测的多任务学习实验设置。客户端只训练网络的头部(θh)和尾部(θt)部分,而transformer主体(θb)在多个客户端之间共享。在第二步中,头部中的嵌入特征被transformers用于处理各个任务。

(b)显示了单任务的训练方案。

(c)显示了多任务学习的训练方案。图片来自Park等人(2021a)。

4.2. 肿瘤分类

肿瘤是身体组织异常生长,可以是癌性(恶性)或非癌性(良性)。早期恶性肿瘤诊断对后续治疗计划至关重要,可以大大提高患者的存活率。本节我们回顾了基于ViT的肿瘤分类模型。我们根据涉及的器官对这些模型进行分类。

肺部:类似地,其他工作采用混合Transformer-CNN架构来解决不同器官的医学分类问题。例如,Khan和Lee (2021)提出Gene-Transformer来预测肺癌亚型。在TCGA-NSCLC(Napel和Plevritis, 2014)数据集上的实验表明Gene Transformer优于CNN基线。为诊断肺部肿瘤,Zheng等人(2021a)提出图转换网络(GTN)来利用WSI（整个切片成像）的基于图的表示。GTN由图卷积层(Kipf和Welling, 2016)、transformer层和池化层组成。GTN还采用GraphCAM(Chefer等人, 2021)来识别与类别标签高度相关的区域。在TCGA数据集(Napel和Plevritis, 2014)上的广泛评估显示了GTN的有效性。

大脑:后来,Lu等人(2021)提出了一个两阶段框架,首先对大脑胶质瘤亚型分类进行对比预训练,然后通过提出的基于transformer的稀疏注意力模块进行特征聚合。在TCGA-NSCLC(Napel和Plevritis, 2014)数据集上的消融研究显示了他们两阶段框架的有效性。

乳腺:对于乳腺癌分类任务,Gheflati和Rivaz (2021)系统评估了单一和混合预训练ViT模型的性能。在Al-Dhabyani等人(2020)和Yap等人(2017)提供的两个乳腺超声数据集上的实验表明,基于ViT的模型在将图像分类为良性、恶性和正常类别方面提供了比CNN更好的结果。

胃:Chen等人(2021d)提出了多尺度GasHis-Transformer来诊断胃部胃癌。GasHis-Transformer结合了CNN和ViT的优势,分别提取局部和全局信息。GasHis-Transformer显示出对对抗性噪声的改进鲁棒性,并展示了良好的泛化能力。

其他:由于标注程序昂贵且繁琐,在基于整个切片成像(WSI)的病理诊断中,一个标签被分配给一组实例(包)。这种类型的弱监督学习被称为多实例学习(Fung等人, 2007),其中如果至少一个实例为正,则一个包被标记为正,当包中所有实例为负时,则被标记为负。大多数当前的MIL方法假设每个包中的实例是独立同分布的,从而忽略了不同实例之间的相关性。Shao等人(2021a)提出TransMIL来探索弱监督WSI分类中的形态和空间信息。具体来说,TransMIL通过两个基于transformer的模块和一个位置编码层聚合形态信息,如图15所示。为了编码空间信息,提出了金字塔位置编码生成器。此外,还可视化了TransMIL的注意力分数以展示可解释性,如图17所示。TransMIL在三个不同的计算病理学数据集CAMELYON16(乳腺)(Bejnordi等人, 2017)、TCGA-NSCLC(肺)(Napel和Plevritis, 2014)和TCGA-R(肾)(TCGA, 2013)上表现良好。类似地,Li等人(2021f)提出了一种基于可变形transformer架构和卷积层的新型嵌入空间MIL模型,用于组织病理学图像分析。在组织病理学图像分析任务上的实验表明,DT-MIL与其他基于transformer的MIL架构相比表现良好。在另一项工作中,TransMed(Dai等人, 2021)利用ViT进行医学图像分类。TransMed是一种混合CNN和基于transformer的架构,能够对多模态MRI医学图像中的腮腺肿瘤进行分类。TransMed还采用了一种新颖的图像融合策略来捕获不同模态图像的互信息,从而在他们自己收集的腮腺肿瘤分类数据集上取得了具有竞争力的结果。同样,Jiang等人(2021)提出了一种由卷积和transformer层组成的混合模型,使用对称交叉熵损失函数来诊断急性淋巴细胞白血病。在另一项工作中,Xia等人(2021)探索了从无造影CT扫描中检测胰腺癌,这是一种相对便宜和安全的成像方式。具体来说,他们提出的混合transformer模型能够达到与平均放射科医生相比较高的特异性和敏感性。

图17. 左图:蓝色区域内是癌症区域。中间:来自TransMIL的注意力分数被可视化为热图(红色表示肿瘤,蓝色表示正常),以解释用于诊断的重要形态。右图:中间图中黑色方框的放大视图。图片来自Shao等人(2021a)。

4.3. 视网膜疾病分类

Yu等人(2021a)提出MIL-ViT模型,该模型首先在大型眼底图像数据集上进行预训练,然后在视网膜疾病分类的下游任务上进行微调。MIL-ViT架构使用MIL-based head,可以与ViT以即插即用的方式使用。在APTOS2019(APTOS, 2019)和RFMiD2020(Quellec等人, 2020)数据集上进行的评估表明,MIL-ViT比基于CNN的基线实现了更有利的性能。大多数数据驱动的方法将糖尿病视网膜病变(DR)分级和病变发现视为两个独立的任务,这可能是次优的,因为错误可能从一个阶段传播到另一个阶段。为了共同处理这两个任务,Sun等人(2021)提出了病变感知transformer(LAT),它由基于像素关系的编码器和病变感知transformer解码器组成。特别是,他们利用transformer解码器将病变发现表述为弱监督病变定位问题。LAT模型在Messidor-1(Decencière等人, 2014)、Messidor-2(Decencière等人, 2014)和EyePACS(Cuadros和Bresnick, 2009)数据集上创下了最先进的水平。Yang等人(2021a)提出了一种由卷积和Transformer层组成的混合架构,用于OIA数据集(OIA, 2019)上的眼底疾病分类。类似地,Wu等人(2021b)和AlDahoul等人(2021)也验证了ViT模型在DR分级方面比其CNN对应物更准确。

表5. 基于ViT（视觉Transformer）的医学图像分类方法概述

表6. 在医学图像分类任务上比较原始CNN与不同初始化策略的ViT（视觉Transformer）。对于APTOS 2019 (APTOS, 2019)和ISIC 2019 (Tschandl等人, 2018)数据集,报告了二次Cohen Kappa和召回率分数。

第一行:对于随机初始化的网络,CNN优于ViT。第二行:ViT似乎从在ImageNet数据集上的预训练中获益显著。第三行:ViT和CNN都通过自监督预训练表现更好。表格来自Matsoukas等人(2021)。

4.4. 讨论

在本节中,我们全面概述了约25篇与ViT（视觉Transformer）在医学图像分类中应用相关的论文。特别是,我们看到用于诊断COVID-19的基于Transformer的架构激增,这促使我们相应地制定分类法。

缺乏大型COVID-19数据集阻碍了ViT模型在诊断COVID-19方面的应用。Shome等人(2021)最近的一项工作试图通过结合三个开源COVID-19数据集来创建一个包含30,000张图像的大型数据集来缓解这个问题。尽管如此,创建多样化和大型的COVID-19数据集仍然具有挑战性,需要医学界付出重大努力。

必须更多地关注设计可解释(以获得最终用户的信任)和高效(用于即时检测)的ViT模型,以诊断COVID-19,使其在未来成为RT-PCR测试的可行替代方案。

我们注意到,大多数工作都以即插即用的方式使用原始ViT（视觉Transformer）模型(Dosovitskiy等人, 2020)来提高医学图像分类性能。在这方面,我们认为整合特定领域的上下文并相应地设计架构组件和损失函数可以提高性能,并为未来设计有效的基于ViT的分类模型提供更多见解。

最后,让我们强调Matsoukas等人(2021)的激动人心的工作,该工作首次证明,在ImageNet上预训练的ViT（视觉Transformer）在医学图像分类任务上的表现与CNN相当,如表6所示。这也提出了一个有趣的问题:"在医学成像数据集上预训练的ViT模型是否能比在ImageNet上预训练的ViT模型在医学图像分类方面表现更好?"Xie等人(2021b)最近的一项工作试图通过在大规模2D和3D医学图像上预训练ViT来回答这个问题。在医学图像分类问题上,他们的模型相比在ImageNet上预训练的ViT模型获得了显著的性能提升,表明这个领域值得进一步探索。表5提供了基于ViT的医学图像分类方法的简要概述。

5.医学目标检测

在医学图像分析中,目标检测指的是定位和识别感兴趣区域(ROIs),例如从X射线图像中识别肺结节,这通常是诊断的一个重要方面。然而,这是临床医生最耗时的任务之一,因此需要准确的计算机辅助诊断(CAD)系统作为第二观察者来加速这一过程。继CNN在医学图像检测方面取得成功之后(Liao等人, 2019; Ganatra, 2021),最近已经有一些尝试使用Transformer模型来进一步提高性能。这些方法主要基于检测transformer(DETR)框架(Zhu等人, 2020)。

Shen等人(2021a)提出了第一个混合框架COTR,由卷积层和transformer层组成,用于端到端息肉检测。具体来说,COTR的编码器包含六个混合卷积-in-transformer层来编码特征。而解码器由六个transformer层组成,用于对象查询,然后是一个前馈网络用于对象检测。COTR在ETIS-LARIB和CVC-ColonDB两个不同的数据集上的表现优于DETR。DETR模型(Zhu等人, 2020)也被其他工作(Liu等人, 2021e; Mathai等人, 2021)采用,用于端到端息肉检测(Liu等人, 2021e),以及在T2 MRI扫描中检测淋巴结以评估淋巴增殖性疾病(Mathai等人, 2021)。在另一项工作中,Tao和Zheng(2021)提出了一种基于transformers的3D目标检测器,称为Spine-Transformers,并应用于任意视野脊柱CT中椎骨的自动检测和定位任务。在一个内部数据集和两个公共数据集上的实验证明了其良好的性能。

5.1. 讨论

总的来说，用于医学图像检测问题的新的基于Transformer的方法的频率低于用于分割和分类的方法。这与CNN设计的早期形成对比，在早期，用于医学图像检测的CNN设计被迅速开发出来，如图32所示。Maaz等人(2021)的最近一项工作表明，在自然图像-文本对上预训练的多模态ViT（视觉Transformer）（如MDETR（Kamath等人，2021））的通用类别无关检测机制在医学数据集上表现不佳。因此，通过在特定模态的医学成像数据集上预训练多模态ViT来研究其性能是一个有前景的未来研究方向。此外，由于最近基于ViT的方法在医学图像检测问题上取得了有竞争力的结果，我们预计在不久的将来会看到更多的贡献。