6.7.32 用于计算机辅助检测和诊断研究的精选乳房 X 线摄影数据集

由于在乳房 X 线摄影决策支持系统领域缺乏标准的评估数据集，已发表的研究结果很难复制；大多数乳房 X 线摄影中乳腺癌的计算机辅助诊断 (CADx) 和检测 (CADe) 算法都是在私人数据集或公共数据库的未指定子集上进行评估的。这导致无法直接比较方法的性能或复制以前的结果。

希望通过发布乳房 X 线摄影筛查数字数据库 (DDSM) 的更新和标准化版本来解决这一重大挑战，以评估未来乳房 X 线摄影中的 CADx 和 CADe 系统（有时统称为 CAD）研究。数据集 CBIS-DDSM（DDSM 的精选乳腺成像子集）包括解压缩的图像、由经过培训的乳房 X 线摄影师进行的数据选择和管理、更新的大规模分割和边界框以及训练数据的病理诊断，格式类似于现代计算机视觉数据集。该数据集包含753例钙化病例和891例肿块病例，其数据集大小足以分析乳房X光检查中的决策支持系统。

1. 背景和总结

计算机辅助检测 (CADe) 和诊断 (CADx) 系统旨在协助放射科医生对乳房 X 线摄影进行解释。CADe 用于发现乳房 X 线摄影中的异常结构，而 CADx 用于确定所发现异常的重要性。

当前的 CADe 系统受到高假阳性率的限制，并且乳房 X 线摄影的 CADx 系统尚未获准用于临床。尽管乳房 X 线摄影中 CAD 的技术难度很大，但还有另一个障碍必须解决才能实现这项研究：决策支持系统评估。对 CAD 文献的审查发现数据源和数据集大小不一致。此外，由于大多数评估数据都不公开，因此只有少数已发表的结果可以直接重现。表 1 和表 2 分别包含许多系统（CADe 和 CADx）的样本，这些系统已使用私有数据集或公共数据集的未定义部分进行了评估。没有通用数据集，就不可能严格比较方法。

非医学计算机视觉社区采用了开放式研究方式，包括提供用于评估算法的标准数据集。例如，ImageNet 是一个包含 14197122 幅图像的数据库，这些图像来自 27 个“高级”类别，包括动物、食物和车辆。每个类别至少有 51 个子类别，可以进行高度具体的分类。其他公共数据库包括混合国家标准与技术研究所 (MNIST) 数据库（手写数字数据库）和 Caltech 256（包含 265 个物体类别，如直升机、飞机、摩托车和校车）的数据库。这些数据集和其他类似数据集为计算机视觉研究提供了基准。

为乳房 X 线摄影社区提供的精心策划的公共数据集很少。其中包括乳房 X 线摄影筛查数字数据库 (DDSM)、乳房 X 线摄影成像分析协会 (MIAS) 数据库和医学应用中的图像检索 (IRMA) 项目。虽然这些公共数据集很有用，但它们在数据集大小和可访问性方面受到限制。 DDSM 图像保存在非标准压缩文件中，需要使用尚未为现代计算机更新或维护的解压缩代码。最后，提供了 DDSM 中异常的感兴趣区域 (ROI) 注释以指示病变的大致位置，但没有对病变进行精确分割。因此，许多研究人员必须实施分割算法才能准确提取特征。

DDSM 是一个包含 2,620 项扫描胶片乳房 X 线摄影研究的数据库。它包含正常、良性和恶性病例，并带有经过验证的病理信息。尽管图像是扫描胶片而不是全视野数字乳房 X 线摄影，但数据库的规模以及地面实况验证使 DDSM 成为决策支持系统开发和测试的有用工具。目前没有这种规模的乳房 X 线摄影数据库可供公众使用。在此报告 CBIS-DDSM（DDSM 的精选乳腺成像子集）的开发情况并提议发布，这是 DDSM 的更新版本，提供易于访问的数据和改进的 ROI 分割。该资源将有助于乳房 X 线摄影决策支持系统研究的进步，提供标准化的乳房 X 线摄影数据。

1.1 CBIS-DDSM 制备流程图

CBIS-DDSM: 指的是数字数据库为乳腺影像学（Curated Breast Imaging Subset of DDSM），DDSM是数字数据库为乳腺病变研究（Digital Database for Screening Mammography）的缩写，这是一个公开的医学影像数据库，用于支持计算机辅助诊断（CAD）的研究。

Cases filtered by: 按条件筛选的案例。这可能指的是根据特定标准（如病变类型、年龄、性别等）筛选的病例。

118 Images: 指的是在这个流程中处理的图像数量。

reannotated by mammographer: 由乳腺放射科医生重新注释。

Mammograms saved in DICOM format: 乳腺X线摄影图像以DICOM（数字成像和通信医学）格式保存，这是一种广泛使用的医学图像存储标准。

Decompressed by mammographer: 由乳腺放射科医生解压。这可能指的是由专业人员处理图像，以确保图像数据的完整性和可用性。

Metadata extracted from .ics and .OVERLAY files: 从.ics和.OVERLAY文件中提取元数据。元数据可能包括患者信息、图像采集参数等。

Metadata included in .csv files: 元数据被包含在.csv文件中。.csv文件是一种用于存储表格数据的文件格式，这里用来存储提取的元数据。

ROI outlines: 感兴趣区域（Region of Interest）轮廓。这是指在图像中定义的特定区域，这些区域对于诊断或分析是重要的。

Automated Mass Outlines and Calcification Outlines: 自动化的肿块和钙化轮廓。这指的是使用计算机算法自动检测并勾勒出图像中的肿块和钙化点。

Segmentation saved as binary DICOM images: 将分割结果保存为二进制DICOM图像。这意味着分割后的图像数据被保存为DICOM格式的二进制文件，以便于进一步的分析和使用。

乳腺X线摄影图像的存储、解压、元数据提取、重新注释，到自动化的感兴趣区域检测和分割，最后将结果保存为DICOM格式图像的完整流程。

2. 方法

DDSM 已经包含了 2,620 个病例的大量信息。但是，有些信息有限，特别是 ROI 注释，而其他信息则难以访问。我们通过更新 ROI 分段以及收集元数据并将其重新格式化为更易于访问的格式解决了这些问题。上图显示了准备数据集所执行的流程图：图像解压缩和重新注释以及元数据提取和重新格式化。

2.1 DDSM的描述

DDSM 收集了来自以下来源的乳房 X 光照片：麻省总医院、维克森林大学医学院、圣心医院和华盛顿圣路易斯大学医学院。DDSM 由国防部乳腺癌研究计划和美国陆军研究与物资司令部资助开发，DDSM的原始开发者已获得必要的患者同意。病例中标注了钙化和肿块的 ROI，以及以下可能对 CADe 和 CADx 算法有用的信息：乳腺成像报告和数据系统 (BI-RADS) 中肿块形状、肿块边缘、钙化类型、钙化分布和乳房密度的描述符；整体 BI-RADS 评估从 0 到 5；异常细微程度的评级从 1 到 5；以及患者年龄。

2.2 解析语义特征

DDSM 以 .ics 文件的形式提供元数据。这些文件包括患者年龄、研究日期以及数字化日期、致密组织类别、用于数字化的扫描仪以及每幅图像的分辨率。此外，那些有异常的病例有 .OVERLAY 文件，其中包含有关每种异常的信息，包括异常类型（肿块或钙化）和上面提到的 BI-RADS 描述符。这些元数据已被提取并编译成单个逗号分隔值 (CSV) 文件。

2.3 删除可疑群体性病例

其他研究人员指出，并非所有 DDSM ROI 注释都是准确的，发现一些注释指出了图像中未显示的可疑病变。在此过程中，我们发现 339 张图像中肿块看不清楚。这些图像已从最终数据集中删除。此外，TCIA 还删除了几例病例，因为图像中包含个人健康信息。

2.4 图像解压缩

DDSM 图像以无损联合图像专家组 (JPEG) 文件 (LJPEG) 的形式分发，这是一种过时的图像格式。唯一能够解压缩这些图像的库是 Stanford PVRGJPEG Codec v1.1，它最后一次更新是在 1993 年。我们修改了 PVRG-JPEG 编解码器，以便使用 Apple GCC clang-602.0.53 在 OSX 10.10.5 (Yosemite) 发行版上成功编译。原始解压缩代码以 8 位或 16 位原始二进制位图输出数据。编写了 python 工具来读取这些原始数据并将其存储为 16 位灰度标记图像文件格式 (TIFF) 文件。文件后来被转换为医学数字成像和通信 (DICOM) 格式，这是医学图像的标准格式。这个过程完全无损，并保留了原始 DDSM 文件中的所有信息。

2.5 图像处理

原始 DDSM 文件随一组 Linux 版 bash 和 C 工具一起分发，用于执行图像校正和元数据处理。这些工具很难重构以在现代系统上使用。

DDSM 中的所有图像均来自不同机构的几台不同扫描仪。DDSM 数据描述提供了将原始像素数据转换为 64 位光密度值的方法，这些值在所有图像中都是标准化的。然后将光密度值重新映射到 16 位灰度 TIFF 文件，然后转换为 DICOM 格式以供数据存储库使用。

DDSM 会自动将光密度值剪切到 0.05 到 3.0 之间以降低噪音。执行此剪切，但提供一个标志来删除剪切并保留原始光密度值。

2.6 图像裁剪

提供了一组便利图像，这些图像是异常的重点裁剪图。通过确定异常相对于其 ROI 的边界矩形来裁剪异常。

2.7 肿块分割

肿块边缘和形状被证明是乳房 X 线摄影诊断的重要指标。因此，许多方法都是基于开发肿瘤轮廓的数学描述。由于这些方法依赖于准确的 ROI 分割，并且 DDSM 提供的许多注释都不精确（如下图所示），应用了一种病变分割算法（如下所述），该算法由一般的原始 DDSM 轮廓初始化，但能够提供更准确的 ROI。图 2 包含来自 DDSM、我们的乳房 X 线摄影师和自动分割算法的示例 ROI。如图所示，DDSM 轮廓仅提供大致位置，而不是精确的肿块边界。分割算法旨在提供肿块与周围组织的精确划分。这种分割仅针对肿块进行，不针对钙化。

病变分割是通过对局部水平集框架进行修改来实现的，如 Chan 和 Vese10-12 中所述。水平集模型遵循非参数可变形模型，因此可以处理演化过程中的拓扑变化。Chan-Vese 模型是一种基于区域的方法，它估计图像区域的空间统计数据并找到模型最适合图像的最小能量，从而使轮廓向所需对象收敛。对局部框架的修改包括自动评估每个轮廓点周围的局部区域。对于低对比度病变，确定较小的局部区域，从而防止过度的曲线演化。另一方面，对于噪声或异质病变，将相对较大的局部区域分配给轮廓点，以防止水平集轮廓收敛到局部最小值。局部框架需要对轮廓进行初始化，案例中，原始 DDSM 注释被用作水平集分割初始化。

2.8 标准化训练/测试分割

具体而言，测试集应包含不同难度的案例，以确保彻底测试该方法。根据 BI-RADS 类别，将数据分为训练集和测试集。这允许对从事 CADe 和 CADx 的研究人员进行适当的分层。使用 20% 的案例进行测试，其余案例进行训练，从而获得分割结果。数据被分别拆分为所有肿块病例和所有钙化病例。这里的“病例”用于表示在头尾 (CC) 和/或内外斜 (MLO) 视图上看到的特定异常，这些视图是筛查乳房 X 线摄影的标准视图。图 3 显示了钙化病例和肿块病例的训练集和测试集的 BI-RADS 评估和病理直方图。如图所示，数据分割的方式使得训练集和测试集的难度等级相同。表 3 包含每个组的良性和恶性病例数。