计算机辅助检测 (CAD) 系统的开发是为了帮助放射科医生分析筛查性乳房 X 光检查,深度 CNN 有可能彻底改变医学图像分析。我们提出了一种基于最成功的对象检测框架之一 Faster R-CNN 的 CAD 系统。该系统无需任何人为干预即可检测乳房 X 光照片上的恶性或良性病变并对其进行分类。
Region-based Convolutional Neural Networks,是一种基于卷积神经网络(CNN)的目标检测算法。
R-CNN的基本思想是使用选择性搜索算法或其他方法在输入图像中选取候选区域(Region of Interest,RoI),然后对每个RoI分别进行CNN的特征提取和分类。
筛查乳房X光检查
在标准乳房 X 光筛查检查期间,从每个乳房的 2 个角度捕获 X 射线图像。这些图像由一到两名经验丰富的放射科医生检查是否存在恶性病变。可疑病例被召回以进行进一步的诊断评估。
双重读数可以提高乳房X线照相评估的性能,最多可超过 10 个读数器,这证明乳房 X 光检查评估除了双重读数之外还有改进的空间。
双重读数(或称双重阅片)在乳房X线照相(乳腺X线摄影)评估中,指的是同一份X线图像由两位或更多的专业医生或技师进行独立解读和分析,以确保诊断的准确性和一致性。
数字乳房X线(数据科学竞赛)
要求参与者编写算法,可以预测筛查性乳房 X 线摄影检查中的乳房是否会被诊断为癌症。该数据集由 86000 次检查组成,没有像素级注释,只有一个二进制标签,指示检查后的未来 12 个月内是否诊断出乳腺癌。乳房的每一侧都被视为单独的案例。
材料和方法数据
需要具有像素级注释的乳房 X 光照片来训练病变检测器并测试分类和定位性能。在公共乳腺筛查数字数据库 (DDSM) 和布达佩斯 Semmelweis 大学的数据集上训练了模型,并在公共 INbreast 数据集上对其进行了测试。
用于训练的图像包含组织学证明的癌症或良性病变,这些图像被召回进行进一步检查,但后来证明是非恶性的。
DDSM 数据集包含 2620 个数字化胶片屏幕筛查乳房 X 线摄影检查,以及病变的像素级实况注释。癌性病变有组织学证据。我们仅使用 DDSM 数据库来训练我们的模型,而不是对其进行评估。数字化胶片屏幕乳房 X 光检查的质量不如全视野数字乳房 X 光检查,因此对这些病例的评估不相关。我们将无损 jpeg 图像转换为 png 格式,使用 DDSM 网站的校准函数将像素值映射到光密度,并将像素值重新调整到 0-255 范围。
匈牙利布达佩斯 Semmelweis 大学放射科的数据集包含 174 名患者 214 次检查的 847 张 FFDM 图像。
INbreast 数据集包含 115 个 FFDM 病例,带有像素级地面实况注释以及癌症的组织学证据。我们调整了 INbreast 像素级注释以适应我们的测试场景。我们忽略所有良性注释,并将恶性病变注释转换为边界框。
FFDM病例是指利用全视野数字乳房X光片(Full-Field Digital Mammography)进行乳腺摄影的病例
方法
模型的核心是最先进的目标检测框架 Faster R-CNN。Faster R-CNN 基于卷积神经网络,具有用于检测、定位和分类图像中的对象的附加组件。
Faster R-CNN 在原始网络的最后一个卷积层之上有一个称为区域提议网络 (RPN) 的卷积层 分支,该分支经过训练以检测和定位图像上的对象,无论对象的类别如何。它使用不同大小和纵横比的默认检测框来查找不同大小和形状的对象。得分最高的默认框称为网络其他分支的区域提议。
区域提议是一个重要的概念。它通常指的是从图像中生成一系列候选区域,这些区域可能包含目标对象。这些候选区域随后会被进一步处理,以确定它们是否确实包含目标,并对目标进行定位和分类。
神经网络的另一个分支用来评估来自最后一个卷积层的每个建议区域的信号,该信号被重新采样到固定大小。两个分支都尝试解决分类任务以检测对象的存在,以及边界框回归任务以细化区域中存在的对象的边界。从检测到的重叠对象中,使用非极大值抑制选择最佳预测。
非极大值抑制(Non-Maximum Suppression,NMS)是一种在图像处理和目标检测中广泛应用的技术。其基本思想是抑制不是极大值的元素,可以理解为局部最大搜索。
在目标检测任务中,NMS的主要作用是去除检测出来的冗余框,只保留最有可能包含目标物体的框,从而保留最优的检测结果。
Faster R-CNN 模型
模型中使用的基础 CNN 是 VGG16 网络,它是 16 层深的 CNN。最后一层可以检测图像中的两种对象:良性或恶性病变。该模型的输出是每个检测到的病变的边界框和一个分数,该分数反映了病变类别的置信度。
病变类别的置信度中的“置信度”指的是对模型预测或分类结果的可靠程度或可信度的度量。它通常表示为0到1之间的数字,其中1表示完全置信,0则表示完全不置信。
为了用一个分数来描述一张图像,我们计算图像中检测到的所有恶性病变的分数的最大值。对于同一乳房的多个图像,我们取各个图像分数的平均值。
在训练过程中,我们同时优化模型的目标检测和分类器部分,称为联合优化。我们使用反向传播和带有权重衰减的随机梯度下降。用于训练的初始模型是在 ImageNet 数据集的 120 万张图像上进行预训练的。
乳房 X 光照片被等比例缩放(isotropically downscaled),使得它们的长边小于2100像素,而短边小于1700像素。该分辨率接近所用显卡内存的最大尺寸。选择长宽比以适应 Hologic 图像的常规长宽比。更高的分辨率会产生更好的结果。
Hologic乳腺钼靶X线摄影系统也是一种常用的乳腺检查设备。它能够生成高分辨率的乳腺图像,有助于医生发现乳腺疾病,特别是乳腺癌的早期病变。
应用垂直和水平翻转来增强训练数据集。乳房 X 光照片包含的对象比普通图像少,并且在训练行为的初始检查过程中,我们在小批量中观察到病理性的阳性区域很少。为了解决类平衡问题,我们将 区域提议网络 中前景对象的交并集 (IoU) 阈值从 0.7 降低到 0.5。这种选择允许在小批量中提供更多正面示例,并有效地稳定训练。
IoU,即交并比,用于量化预测边界框或分段区域与真实边界框或注释区域之间的重叠程度。如果预测的边界框与真实边界框的IoU高于或等于这个阈值,通常认为该预测是正确的;否则,它会被视为误检。
与普通图像相比,乳房 X 光照片代表压缩且相对较薄的 3D 空间,因此预计重叠检测的发生频率低于通常的目标检测。
乳房X光照片是通过将乳房组织压缩在一个相对较薄的层面内进行成像的。这种压缩使得乳房组织的不同部分在二维平面上得以展现,从而减少了组织之间的重叠。