代码以及视频讲解
本文所涉及所有资源均在传知代码平台可获取
概述
本文将基于多示例深度学习EPLA模型实现对乳腺癌数据集BreaKHis_v1的分类。EPLA模型是处理组织病理学图像的经典之作。EPLA模型是基于多示例学习来进行了,那么多示例学习模型对处理病理学图像具有天然的优势,因为多示例学习(Multiple Instance Learning 简称 MIL)是由监督型学习算法演变出的一种方法,定义“包”为多个示例的集合,具有广泛的应用。学习者不是接收一组单独标记的实例,而是接收一组带标签的包,每个包拥有多个实例。在多实例二进制分类的简单情况下,如果包中的所有实例都是否定的,则可以将包标记为否定。另一方面,如果包中只要至少有一个是正面的,则包被标记为阳性。所以这与将组织病理学图像WSI就可以认为是一个包;而从WSI切分下来的patch就可以认为是一个个示例。
EPLA框架解读
EPLA原文是用来预测结直肠癌微卫星不稳定性MSI的,但是在摘要部分明确说明了可以用来预测其他数据集,这也得益于多示例模型处理病理学图像的天然优势。下面就来看一下论文整体的框架结构图:
数据预处理
在原文中拿到组织病理学图像WSI后,首先要对WSI中的肿瘤区域进行标注,然后进行切成小patch,这是因为:
聚焦关键区域:病理图像通常非常大,包含大量的背景信息(如正常组织、脂肪组织等),这些信息对肿瘤检测和分类没有帮助。通过对肿瘤区域进行标注,可以引导模型关注关键的病变区域,从而提高模型的训练效率和性能。
减小计算复杂度:病理学图像(特别是全切片图像,WSI)通常非常大,直接处理整张图像需要消耗大量的计算资源和内存。将大图像切片成小块(patch)不仅降低了计算的复杂性,还能有效利用现有的计算资源进行模型训练。
数据增强和多样性:通过将图像切成多个patch,可以大大增加可用于训练的数据量。这些patch代表了同一图像中的不同局部区域,能够让模型在学习时看到更多的变异性,提升模型的泛化能力。
平衡正负样本比例:在病理图像中,肿瘤区域通常占比较小。通过切片成patch并对肿瘤区域进行标注,能够更好地平衡肿瘤区域(正样本)和非肿瘤区域(负样本)的比例,防止模型过拟合于背景信息。
捕捉局部细节:病理图像中有许多重要的微观结构,例如细胞形态、细胞核大小、密度等。切成patch后,模型可以更专注于局部特征的学习,从而更好地捕捉与疾病相关的细节。
提高训练效率:小尺寸的patch在计算上更快,易于并行处理。这样不仅能够加快模型的训练速度,还能更好地利用硬件资源(如GPU)。
在patch级别的预测中,使用残差卷积神经网络(ResNet-18)进行训练,通过MIL框架计算patch的预测概率,其中每个patch被分配了WSI的标签。网络的优化采用了二元交叉熵(BCE)损失函数,使用小批量梯度下降法进行训练。
词袋模型
在BoW方法中,每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI。然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。具体可以理解为:
在BoW方法中,首先把大图像切成小块(patch),然后通过一种叫做TF-IDF的技术,把每个小块的特征转化为数值。TF-IDF原本是用在文本分析中的,可以帮助我们理解哪些词在一篇文章里更重要。这里,我们用类似的方法来判断每个小块图像的重要性。
接着,把这些数值组合成一个特征向量,用来代表整张大图像。然后,使用传统的机器学习算法,比如朴素贝叶斯,来对这些特征进行训练,最终的目标是预测这张大图像的微卫星状态(即判断图像是否有微卫星不稳定性,和癌症相关)。
PALHI模型
在PALHI方法中,先对大图像(WSI)进行分割成小块(patch),然后为每个小块进行预测,得出这些小块的预测概率。接着,将这些小块的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示,这个特征就用来表示整个大图像(WSI)。
之后,利用一种叫做极端梯度提升(xgboost)的机器学习分类器,来处理这些直方图特征,并通过训练预测该大图像的微卫星状态(即判断图像是否表现出微卫星不稳定性)。xgboost是一种非常强大的分类器,它通过结合多个决策树模型来提高分类性能。
聚合
最后通过一定的比例将BoW模型和PALHI模型按照一定的比例进行聚合,从而做出最终的预测。
论文复现
数据集介绍
Spanhol等人(2016)发布BreakHis (breast cancer histopathological database )数据集包含了来自82位患者的7909幅乳腺组织病理图像。BreakHis对乳腺的病变给出了细粒度的临床分型标注信息包括良性病变中的乳腺病(adenosis, A)、纤维腺瘤(fibroadenoma, F)、叶状瘤( phyllodes tumor, PT)管状腺瘤(tubular adenoma, TA) ,以及恶性病变中的导管癌(ductal carcinoma, DC)、小叶癌(lobular carcinoma, LC),黏液癌(mucinous carcinoma, MC)和乳头状癌(papillary carcinoma, PC)。这让BreakHis数据集不仅能推进良恶性二分类算法研究,还可以推进临床意义更重大的病理分型算法(多分类)研究。本文只针对良性和恶行进行二分类。
数据集处理
由于整张WSI的处理过程中涉及到肿瘤区域的标注,但是在实际情况中难以找到专业的病理学家为我们标注数据,因此,我们选用了已经数据预处理好的BreaKHis_v1数据集进行复现。
除此之外需要将切分好的数据集处理成csv文件:路径和标签两列。如下图:
以上是patch级别的标签,它继承了WSI的标签,为了获取WSI级别的预测结果也需要wsi级别的标签,如下:
环境配置
* torch 1.1.0
* torchvision 0.2.1
* numpy 1.15.2
* pandas 1.0.3
* xgboost 0.90
* pillow 5.3.0
* sklearn 0.23.1
* logging 0.5.1.2
* joblib 0.15.1
* pickle 4.0
运行步骤
- 特征提取
python dnnPatchClser_rst.py # dnnPatchClser_rst.py为**附件**中的脚本,主要作用是**提取图像特征**。
def build_model_on(device):
model_ft = models.resnet18(pretrained=True)
#model_ft = torch.load(model_path,map_location=device)
#num_ftrs = model_ft.fc.in_features
#model_ft.fc = nn.Linear(num_ftrs, 2)
#model_ft = model_ft.to(device)
return model_ft
这里可以使用经过该数据集训练过的模型进行提取特征会更准确。比如使用ResNet网络对该数据集提取特征后保存的权重文件,重新加载到这个脚本中。这个脚本运行完成后会产生两个特征文件,train和test。
2. PALHI模型
python PALHI.py # PALHI.py 为**附件**中的脚本,主要作用是**得到patch的重要性**。
该脚本会加载 dnnPatchClser_rst.py产生的两个文件。
- BoW模型
python BoW.py # BoW.py 为**附件**中的脚本,主要作用是**WSI级别的概率**。
该脚本同样会加载 dnnPatchClser_rst.py产生的两个文件。
- 模型聚合
python ensemble.py # ensemble.py 为**附件**中的脚本,主要作用是**聚合上述两个结果**。
该脚本同样会加载 PALHI和BoW模型产生的两个文件。从而产生最终的预测结果。
模型特点与改进建议
该模型能够从最基础的提取图像特征,得到每一个patch的特征值,然后将这些patch的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示。改进建议是可以采用其他的汇总方式得到的结果来表征WSI。接着使用词袋模型将每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI,然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。改进建议那么这里可以使用具有针对性的分类器,也可以进行相应的分类器的调参,提高预测准确率。
源码下载