乳腺影像学在早期诊断和干预以改善乳腺癌患者的预后方面发挥着重要作用。在过去的十年中,深度学习在乳腺癌成像分析方面取得了显着进展,在解释乳腺成像模式的丰富信息和复杂背景方面具有巨大前景。
基于深度学习的乳腺癌成像研究涵盖了对乳房X光检查、超声、磁共振成像和数字病理图像的研究。阐述和讨论了基于影像的筛查、诊断、治疗反应预测和预后的主要深度学习方法和应用。
本文的主要目的是回顾深度学习在乳腺癌成像中的发展,确定该领域尚待解决的挑战,并强调应对这些挑战的潜在解决方案。具体地说,这项调查包括从筛查、诊断、治疗反应预测到预后的应用,涵盖了从乳房x光检查、超声波、MRI到病理图像的成像方式。
1. 介绍
乳腺癌已成为全球发病率最高的恶性肿瘤,预计2020年将有230万新发病例。尽管自1989年以来死亡率稳步下降,但乳腺癌仍然是全球癌症死亡的第五大原因,也是妇女癌症死亡的主要原因,在过去40年的大部分时间里,发病率不断上升,估计2020年将有68.5万人死亡[2], [3]。
乳腺癌根据是否扩散可分为浸润性癌和原位癌,浸润性癌根据扩散程度又分为I、II、III、IV期四个阶段[4]。美国癌症协会(American Cancer Society)最近的统计数据显示,乳腺癌患者的存活率因诊断阶段的不同而有很大差异。2012-2018年美国确诊患者的5年生存率I期>99%,II期> 93%,III期> 75%,IV期> 29%[2]。早期发现和有效的全身治疗是降低乳腺癌死亡率的关键[1]。
乳房成像,包括乳房x光检查、超声检查、磁共振成像和病理成像,在提供乳腺癌的宏观和微观调查以指导治疗决策方面发挥了至关重要的作用。
1.1 乳房X光检查
乳房x光检查使用低能x射线检查乳房,通常将组织投射成二维图像。世界卫生组织推荐对女性进行有组织的基于人群的乳房x光检查[6],可以为潜在患者提供早期诊断和改善预后[7]。除了筛查,乳房x光检查也用于诊断异常,如肿块、钙化、结构扭曲或区域不对称。由于二维乳房x光片的叠加性,可能需要不同的乳房视图来获得更丰富的信息。标准的乳房x线照相术是两个乳房的颅侧(CC)和中外侧斜位(MLO),分别从乳房的上方和倾斜侧面直接拍摄。还可以根据实际需要生成额外的视图。
数字乳腺断层合成(Digital breast tomosynthesis, DBT),也被称为3D乳房x线摄影,已经被引入,为乳房的详细检查提供更多的空间背景,并正在成为乳房成像的标准[8]。
1.2 超声成像
超声成像(sonography)使用高频声波来观察人体内部,而不使用任何电离辐射。在过去的几十年里,由于传感器设计、电子、计算机和信号技术的进步,超声图像的质量得到了很大的提高。因此超声检查已成为临床诊断乳腺癌的主要影像学方式[10]。目前,乳腺超声被广泛用于区分囊肿和实性结节,特异性高[11],并结合乳房x线摄影对实性肿块进行良恶性分类[12]。
特异性(Specificity)通常指的是一个诊断测试正确识别未患某种疾病或未呈现某种状况的个体(即真阴性率)的能力。换句话说,它衡量的是测试在“无病”或“无状况”的样本中给出阴性结果的比例。
它也被证明对早期乳腺癌的筛查和检测有用[13],并被推荐用于亚洲乳腺致密的女性[14]。由于其易于使用和实时成像能力,乳房超声在指导乳房活检和其他介入性手术中变得流行。
复合成像和谐波成像也越来越多地应用于可视化乳房病变和减少图像伪影。此外,人们对应用彩色多普勒超声和造影剂测量肿瘤血流和成像肿瘤血管的兴趣越来越大。
1.2.1 复合成像
复合成像,也被称为空间复合成像或超声空间复合成像,是一种使用不同角度的声束来探查目标的技术。它将不同声束反射回来的回声整合成一幅图像。每个像素的信号实际上是多条不同角度声束的回声信号合成的。这种技术能更清晰地显示与探头表面不平行的界面,同时减少噪音和斑点伪像,有助于揭示被声影遮挡或声衰减区的结构。
1.2.2 谐波成像
在超声领域,通常涉及利用组织非线性声学效应产生的谐波来成像。这些谐波信号相比基频信号具有更宽的频谱和更窄的时域信号,因此可以提高图像的分辨率。然而,由于声衰减量与频率平方成比例,二次谐波超声信号通常比较微弱,因此有效提取这些信号是一个挑战。
1.2.3 彩色多普勒超声
彩色多普勒超声,也被称为彩超,是一种医用设备,适用于全身各部位脏器超声检查,特别是心脏、肢体血管和浅表器官以及腹部、妇产等部位的检查诊断。它通过观察不同的色彩来表示血流的速度和方向,相比黑白B超,其图像更清晰,诊断率也更高。
1.2.4 造影剂测量肿瘤血流
造影剂测量肿瘤血流通常涉及超声造影定量分析(如团注法)。这种方法利用超声造影剂,这些造影剂是外包脂质或蛋白质外壳内充气体的微泡,具有高度可压缩性和对超声波的强散射作用。它们可以增强血液对超声波的背向散射,提高超声对低速血流的敏感性,从而可以检测流速较慢的毛细血管内的血流。通过分析造影过程中的时间-强度曲线,可以得出组织的血流动力学参数,如血容量、血流量和灌注量等,进而评估肿瘤血管生成的情况以及治疗的疗效。
1.2.5 肿瘤血管成像
肿瘤血管成像则是指通过各种成像技术来观察和描绘肿瘤血管的结构和状态。在B超造影时,肿瘤血管通常会呈现高增强、高密度表现,这与正常血管内壁光滑、腔内无回声的特点形成对比。这种差异可以帮助医生区分正常血管和肿瘤血管,并进一步评估肿瘤的情况。
1.3 乳房磁共振成像(MRI)
乳房磁共振成像(MRI)[16]利用无线电波和磁场产生更详细的信息,通常是乳房内部的三维图像。乳腺MRI是乳腺癌检测的放射成像技术中灵敏度最高的技术[16],被广泛用作乳腺相关病变诊断和预后的辅助工具。如今,MRI检查正在成为监测周期治疗反应和复发的主要扫描方式,在不引入电离辐射的情况下提供乳房的更多细节。
考虑到乳房解剖结构包含不同类型的组织,脂肪抑制技术[17]被引入,作为辅助步骤抑制来自脂肪组织的信号。为了提供不同的可见病灶,可以生成多种类型的序列[18],如t1加权、t2加权和弥散加权MRI。
动态对比增强(Dynamic Contrast Enhanced, DCE)-MRI已成为临床和研究的主要序列,通过观察注射造影剂后多个阶段的T1变化,可以提供额外的信息[19]。采用单个早期DCE的简易乳房MRI已被引入作为筛查乳腺癌的一种缩短的检查方法。
1.4 乳腺组织病理学
在临床实践中,病理成像显微分析也被认为是最终确定乳腺癌的金标准。病理学家将从病人的乳房组织中取出样本,放在显微镜载玻片上。然后,使用特定的染色剂和染料来识别癌细胞并确认化学受体的存在。
乳腺组织标本最常用的染色方法是苏木精-伊红染色(H&E染色)[21],该染色方法已经使用了一个多世纪,至今仍是组织病理学诊断的标准方法[22]。此外,通常需要辅助技术来完成诊断,如免疫组织化学(IHC)[23]和原位杂交(ISH)[24]。
在常规临床病理中,通过免疫组化分析雌激素受体α (ER)、孕激素受体(PgR)、人表皮生长因子受体2 (HER2)和 增殖相关核蛋白Ki67的预测 和 预后生物标志物[25]。HER2基因扩增可通过 ISH 分析进一步验证。
乳房成像报告和数据系统(BI-RADS)来对放射成像结果的整体评估进行分类[26]:
BI-RADS 0表示检查不完全;
BI-RADS 1指阴性结果;
BI-RADS 2指良性表现;BI-RADS 3指可能为良性,恶性几率<2%;
BI-RADS 4分为4a、4b和4c三个亚类,分别指2%-10%、10%-50%和50%-95%可能性为恶性肿瘤的可疑发现;
BIRADS 5为可疑发现,恶性可能性>95%;BI-RADS 6指病理证实的恶性肿瘤。
影像学表现只能作为怀疑恶性肿瘤的参考。通常,BI-RADS 4或以上的患者会被建议进行活检检查,以确定在显微镜下恶性肿瘤的状态
与依赖手工设计特征的传统计算机辅助诊断技术相比,深度学习模型在从高维数据(例如图像)中提取表征方面表现出极大的功效,并且随着训练数据的增加,深度模型的性能通常会更好。
2. 乳腺癌分析的深度学习方法
将根据输出类型将乳腺癌图像分析分为分类、检测和分割三个基本任务,首先介绍其配方和一些常用的深度学习模型,各任务中常用的深度学习模型如图3所示。然后,我们将介绍广泛应用的深度学习范式,包括监督学习、半监督学习、弱监督学习、无监督学习、迁移学习和多模态学习。
(a)一个典型的分类网络,使用卷积和池化对图像进行下采样,同时扩展特征通道。最终的特征映射将被汇集成一个特征向量,通常可以使用一个全连接层来进行基于特征向量的分类。
在ImageNet上预训练的ResNet-18从第1层、第7层和第17层提取的典型特征图分别如图(b)、(c)和(d)所示。
(e)典型的探测网。下采样工作流通常遵循分类网络。然后,对特征映射进行上采样,将多尺度特征输入到区域建议网络(RPN)中进行区域建议生成,并进行区域分类以确定最终输出。
(f)典型的分段网。下采样工作流可以遵循分类网络。然后,对特征映射进行多次上采样,并与浅层特征相连接。最后的结果是基于最大特征图上的逐像素分类得到的。所有模型都通过反向传播进行优化。
2.1 分类
分类的目的是给出离散的预测,对整个输入进行分类,例如,1表示乳房图像包含癌症,0表示图像不包含癌症。
一个分类模型可以看作是一个映射函数 ,其中X是图像或特征的域,Y∈R 通常是疾病存在性的单热表示。形式上,给定 为输入, 为目标输出, 为模型输出,分类模型通常通过最小化 和 之间的交叉熵来优化:
为了构造映射函数 ,人工神经网络由几个完全连接的层构建,并将手工制作的特征作为输入。卷积神经网络摆脱了特征工程,使图像上的分类问题完全端到端。
2012年,由图形处理单元(GPU)驱动的5层CNN AlexNet 的成功,开启了深度学习的时代。VGG 用更小的核和辅助损失扩展了CNN 的深度。残差网络(ResNet) 进一步将 CNN 深化到数百层,克服了跳跃连接的梯度消失问题。除了AlexNet、VGG和ResNet外,密集连接网络(dense Connected Network, DenseNet) 和Inception 系列 等许多网络都被广泛应用于乳腺癌成像。近年来,Vision Transformer 作为一种主要基于注意机制的深度神经网络 ,在图像处理中也显示出了巨大的潜力。
2.2 检测
检测的目的是预测区域分类结果,例如,为识别的恶性肿瘤绘制边界框。将作为检测模型的映射函数,X 仍然是图像域,Y是的集合,其中 b 为区域,Y为该区域对应的类。如果图像上没有感兴趣的区域(roi), 可能是一个空集。b最常用的表述是一个四重组合{u, v, w, h},其中 u 和 v 分别表示物体盒的中心,w 和 h 分别表示重量和高度。检测目标通常被形式化为包含区域分类损失 和边界盒回归损失 的兄弟任务: