诊断通常使用组织病理学切片,可以确定组织是否处于导管原位癌(DCIS)阶段,其中癌细胞尚未扩散到周围乳腺组织,或浸润性导管癌(IDC)阶段,其中细胞已渗透到邻近组织。对于医生来说,检测IDC非常耗时且具有挑战性。因此,这可以建模为图像分类任务,其中模式识别和机器学习可用于帮助医生和医疗从业者做出此类关键决策。
在本文中,使用包含277,524张图像的IDC乳腺癌数据集(其中78,786张IDC阳性图像和198,738张IDC阴性图像)将图像分为IDC(+)和IDC(-)。为此,使用了特征提取器,包括SIFT、SURF和ORB等纹理特征,以及Haralick纹理特征等统计特征。然后将这些特征组合起来,生成一个包含782个特征的数据集。通过使用各种机器学习分类器(如Random Forest, Extra Trees, XGBoost, AdaBoost, CatBoost和多层感知器)堆叠这些特征,然后使用Pearson相关系数进行特征选择,产生具有四个特征的数据集,然后用于分类。从实验结果中,发现CatBoost产生了最高的准确率(92.55%),这与其他最先进的结果相当,其中大多数使用深度学习架构。
1. 引言
由于治疗取决于癌症的分期,任何病理学家的初步任务之一包括对苏木精和伊红(H&E)染色的组织病理学切片进行视觉分析。通过切片可以判断组织是导管原位癌(DCIS)期还是浸润性导管癌(IDC)期。乳腺导管原位癌是一种非侵袭性癌症,在乳腺导管内壁发现癌细胞,但尚未扩散到周围乳腺组织。然而,在IDC中,在乳管中开始形成的异常癌细胞扩散到乳管以外的乳腺组织的其他部分。IDC是最常见的乳腺癌类型,约占所有乳腺癌诊断的70-80%。IDC检测作为治疗过程的重要组成部分,是一项极其耗时和困难的工作。
鉴于上述情况,使用图像处理技术将组织病理切片分类为IDC(+)和IDC(-)的问题委托给ML。机器学习依赖于从图像中提取特征描述符,然后进行分类。这些描述符包括颜色描述符,如RGB直方图;统计描述符,比如哈拉里克特征;和纹理描述符,如加速鲁棒特征(SURF)等。
ML的替代方案是在DL中使用神经网络,这省去了手工制作特征的需要。然而,这是以更大的复杂性和更高的计算能力为代价的。此外,为了正确地训练DL模型,需要大量的输入样本,而这些样本有时可能无法用于现实问题。
本文中,尝试使用纹理和统计特征的集合将组织病理学图像分为IDC(+)和IDC(-)。
使用随机森林(Random Forest)、CatBoost (CB)和AdaBoost (AB)等各种标准ML算法,计算了尺度不变特征变换(SIFT)、SURF、定向FAST和旋转BRIEF (ORB)和灰度共生矩阵(GLCM)等纹理特征和统计特征(Haralick特征)的精度。然后将这些分数与这些特征的各种组合的准确性指标进行比较。用叠加的方法将所有的特征集合在一起,得到了最好的结果。
1.1 工作贡献
提出了一种纹理和统计描述符的集成方法,然后使用ML分类器(如RF和CB)进行分类。用于组合的方法是堆叠。
利用基于Pearson’s Correlation Coefficient的特征选择,对传统的叠加方法进行了修改,以剔除潜在的冗余特征。
对SURF、SIFT、ORB、GLCM和Haralick及其各种组合的相对性能进行了全面的比较。
创建了一个轻量级的ML模型,它在计算上便宜,在算法上易于设计。与其他现有的方法相比,它即使不是更准确,也是同样准确的。
(a)在训练集上训练分类器。然后使用训练好的分类器来预测验证集和测试集的结果。
(b)第二阶段,堆叠不同分类器的验证预测以生成新的训练特征,同时堆叠不同分类器的测试预测以生成新的测试特征。利用这些新的训练和测试特征,对分类器进行评估。
(c)提出的模型,其中第二阶段被修改,在模型训练和测试之前对新的训练和测试特征进行特征选择。
2. 文献调查
Narayanan等提出了一种新颖的深度CNN架构。图像从50 × 50缩小到48 × 48。在预处理阶段,采用了颜色恒常性技术和直方图均衡化技术。然后将预处理后的图像输入CNN。所提出的架构由五个卷积层组成,然后是一个完全连接(FC)层和一个softmax层。与使用直方图均衡化预处理的图像相比,使用颜色恒定技术预处理的图像产生了更好的性能指标。
Debelee等使用CNN提取特征,并采用主成分分析进行降维。使用k-近邻(k-NN)对乳房x线照片进行正常或异常分类。Debelee等使用预训练的Inception-V3及其提出的改进的自适应K-means (MAKM)方法从图像中提取特征。从ROI和基于cnn提取的特征中融合GLCM和Gabor(纹理特征),并将其输入5个分类器(SVM、k-NN、NB、MLP和RF)中,以量化特征的描述能力。
Rahman等提出了多层CNN。IDC数据集存在明显的类不平衡。从IDC(+)和IDC(-)两个类别中选取相同数量的图像,以消除类别不平衡问题。图像的选择是随机进行的,以避免偏差。通过应用各种数据增强来减轻过拟合,即随机10度旋转,移动,缩放和水平和垂直翻转。实现的体系结构达到89%的准确率。
Romano和Hernandez也纠正了IDC(+)数据集中存在的阶级不平衡。对图像进行归一化处理,并对数据进行增强,防止过拟合。使用随机转换数组增强图像,以便分类器永远不会两次查看完全相同的图像。
Cruz-Roa等提出了一种三层CNN架构,用于自动检测全幻灯片图像(WSI)中的IDC组织区域。CNN在第一层、第二层卷积池化层和FC层分别有16、32和128个神经元。Wang等人将Cruz-Roa等人的架构的工作扩展到四种不同的架构。得出结论,数据增强在使用IDC(+)数据集自动检测乳腺癌方面无效。删除了分割不规则性。有太多的图像不是50 × 50的,必须删除。所有的冗余图像90%的黑色空间或90%的白色空间被删除。
3. 提出的方法
通过提取IDC(+)和IDC(-)图像的SIFT、SURF和ORB等纹理特征和Haralick特征等统计特征对其进行分类。提取后,对这些特征进行组合,再通过叠加进行集合。然后使用叠加的特征来获得最终的预测。
从组织病理学图像开始,从中提取256个SIFT, 256个SURF, 256个ORB和14个Haralicks特征。然后将782(= 256 + 256 + 256 + 14)个特征组合起来。然后通过堆叠将这些特征组合起来。为了剔除冗余特征,使用Pearson相关系数。然后进行模型训练和测试,最终将图像分类为IDC(-)和IDC(+)。
3.1 数据集描述
IDC乳腺组织病理学图像数据集。原始数据集由162张40倍扫描的乳腺癌标本WSI组成。从WSI中提取277,524个分辨率为50 × 50的斑块。其中,IDC(-)为198738张,IDC(+)为78786张。
IDC数据集https://www.kaggle.com/datasets/paultimothymooney/breast-histopathology-images
3.2 特征提取
3.2.1 尺度不变特征变换(SIFT)
SIFT是一种特征提取方法,用于在图像中检测和描述局部特征。这些特征(或关键点)在图像尺度变化和旋转时都是不变的。这意味着,即使图像被放大、缩小或旋转,这些关键点仍然可以被识别出来。
SIFT的工作流程:
首先,从一组参考图像中提取SIFT关键点,并将这些关键点存储在数据库中。当有新图像需要识别时,算法会模拟新图像中的每个属性与数据库中的属性。基于欧几里得距离(一种衡量两点间“直线”距离的方法),算法会查找与新图像中特征向量相近的候选对象。具体来说,新图像中的每个特征都会与数据库中的特征进行比较,并基于特征向量之间的欧几里得距离来找到候选匹配对象。为了有效地确定一致的特征群集(即指向同一对象的多个关键点),算法使用了一个基于广义霍夫变换的哈希表实现。这有助于快速找到在多个位置都出现的特征,从而指示可能存在的对象。一旦找到指向同一对象的三个或更多特征,算法会进行额外的模型验证来确保这些特征确实属于同一对象。在验证过程中,不符合模型的特征(即异常值)会被剔除。最后,根据匹配的准确性和可能的错误匹配数量,算法会计算某个特征集指示对象存在的可能性。只有通过了所有测试的对象匹配才会被认为是正确的。
SIFT算法通过提取和比较图像中的关键点来识别对象,这些关键点在图像尺度变化和旋转时都是不变的。它使用广义霍夫变换和哈希表来有效地找到一致的特征群集,并通过模型验证来剔除异常值。最终,算法根据匹配的准确性和可能性来确定哪些对象匹配是正确的。
3.2.2 加速的健壮特性(SURF)
SURF是一种用于对象识别、图像配准、分类等任务的局部特征检测器和描述符。尽管它受到SIFT描述符的启发,但SURF的执行速度比SIFT快得多。SURF特征检测器通过在不同尺度上应用近似的高斯二阶导数掩模到图像上来工作。与Harris角点检测方法相比,SURF对旋转的鲁棒性更强。SURF之所以非常快,是因为它使用了积分图像。在积分图像中,像素(x, y)的值是由原点和(x, y)定义的矩形内所有值的和。源图像中任何大小的矩形内的像素和都可以通过四个操作找到。这允许以非常少的计算时间应用任何大小的矩形掩模。
3.2.3 ORB (Oriented FAST and Rotated BRIEF)
ORB是一个旨在为SIFT提供一个高效且快速的替代品的特征检测器和描述符。由Rublee等人提出,是FAST关键点检测器和视觉描述符BRIEF(Binary Robust Independent Elementary Features)的修改版本的结合。ORB在特征检测任务上的性能与SIFT相当,但速度要快得多。ORB的基础检测器,即FAST关键点检测器和BRIEF描述符,都以低成本提供了良好的性能。ORB的主要贡献包括:
- 为FAST添加了方向组件。
- 有效地计算了定向BRIEF特征。
- 一种在旋转不变性下使BRIEF特征去相关的方法,从而在最近邻应用中获得更好的性能。
- 对定向BRIEF特征的方差和相关性进行分析。
3.2.4 Haralick Features
Haralick纹理特征是基于灰度共生矩阵(GLC)计算的。灰度共生矩阵是一种用于描述图像中灰度级空间分布和关系的矩阵。通过计算GLC的不同统计量(如对比度、相关性、能量等),可以获得一组能够描述图像纹理的特征。这些特征在医学图像分析、机器视觉、无损检测等领域有广泛应用。
3.3 堆叠集成
集成学习是一种机器学习范式,其中多个模型(通常被称为“弱学习器”)被训练来解决相同的问题,并通过某种方式组合起来以获得更好的结果。集成学习的主要思想是,当弱学习器被正确组合时,我们可以获得更准确和更鲁棒的模型。
堆叠是集成学习的一种方法,其中多个弱学习器被训练,并通过训练一个元模型(meta-model)来组合它们。这个元模型基于这些弱学习器返回的多个预测结果来产生最终的预测。堆叠与其他集成算法(如boosting和bagging)的不同之处在于,它考虑了不同类型的算法作为弱学习器,即异质弱学习器。
对于我们的分类任务,选择了以下算法作为弱学习器:XGBoost(XGB)、AdaBoost(AB)、CatBoost(CB)、随机森林(RF)、Extra Trees(ET)和多层感知器(MLP)。这些弱学习器将基于包含SURF、SIFT、ORB和Haralick特征的数据集进行训练。
堆叠的过程包括以下几个步骤:
- 分割训练数据:将训练数据分为两部分(两折)。
- 训练弱学习器:使用第一折训练数据来拟合(训练)选择的弱学习器,即XGB、AB、CB、RF、ET和MLP。
- 进行预测:对于每个弱学习器,使用它们在验证数据和测试数据上进行预测。
- 训练元模型:将弱学习器在验证集上的预测结果作为新的训练特征,在测试集上的预测结果作为新的测试特征。然后,使用这些新的特征来训练和测试元模型(如逻辑回归、支持向量机等)。元模型的输出将是最终的预测结果。
因此,堆叠本质上是两个模型的结合,一个是拟合训练数据并编译其预测的基本模型,另一个是学习如何最好地组合基本模型生成的预测的元模型。在实践中,在步骤3之后,检查新创建的特征之间的Pearson相关系数,以剔除潜在的冗余特征,然后进行最终预测。
在机器学习的堆叠集成(Stacking)中,元模型扮演着将多个基本模型的输出作为新的特征输入并进行最终预测的角色。具体来说,堆叠集成首先将原始训练数据划分为训练集和验证集,然后使用训练集训练多个基本模型,每个模型在验证集上生成预测结果。这些预测结果作为新的特征,与原始特征一起输入到元模型中,训练元模型以获得最终的预测。