34、StoHisNet：CNN+Transformer结合首次用于胃病理图像4分类[奔狼怎配质疑雄狮!]

本文由贵州大学医学院，贵州省人民医院医学影像教研室，精密影像诊疗国际示范合作基地，贵州大学计算机科学与技术学院，清华大学北京信息科学与技术国家研究中心，共同合作，于2022年5月28日发表于<Computer Methods and Programs in Biomedicine>IF：6.1\JCR：Q1

论文创新点/主要贡献：

1.该研究提出了一种混合CNN与Transformer架构的网络，以整合全局和局部信息，获得更好的效果。

2. 该研究首次成功地将Transformer架构应用于胃病理图像的多分类任务。

3. 所提出的模型在三个不同的组织病理学图像数据集上取得了令人满意的结果。

我总结一下：本论文在我国首次使用CNN-Transformer模型去做胃部病理图像分类，而且做的还是4分类，这篇论文出来之前做的都是2分类，也就是有病和没病，这里分为了：正常组织(NT)、管状腺癌(TA)、粘液腺癌(MA)和乳头状腺癌(PA)。其中CNN和残差结构的引入非常引人注意，值得我们学习，是质量很高的一篇文章！

论文地址：

StoHisNet: A hybrid multi-classification model with CNN and Transformer for gastric pathology images (sciencedirectassets.com)

0、引言

胃癌与其他肿瘤相比具有较高的发病率和死亡率。准确的组织病理学诊断对胃癌的治疗具有重要意义。随着人工智能的发展，许多研究者将深度学习应用于胃癌病理图像的分类。然而，大多数研究对胃癌病理图像采用二分类，这难以满足临床需要。

为了解决上述问题，2022年5月，由中国贵州大学，贵州省人民医院和北京信息科学与技术国家研究中心组成的联合研究团队共同提出了一种更具有临床实用价值的基于深度学习的胃癌病理图像多分类模型StoHisNet。该模型基于Transformer和卷积神经网络(CNN)，并结合了多尺度思想。StoHisNet采用Transformer学习全局特征，解决了卷积运算捕获全局特征表示方面的局限性。StoHisNet可以将公开可用的胃病理图像数据集分为四类：正常组织(NT)、管状腺癌(TA)、粘液腺癌(MA)和乳头状腺癌(PA)。实验结果表明，StoHisNet模型在胃组织病理图像的多分类中具有较高的性能，对其他病理数据集具有较强的泛化能力。该模型在未来能够协助病理学家分析胃组织病理图像。

1、方法

图 1. StoHisNet的整体结构。该网络有两个通道，左边通道是局部信息特征提取模块，右边通道是全局特征提取模块，最后使用softmax层输出病理图像的类别。残差模块由两个卷积层和一个残差连接组成。深度可分离卷积(DSC)块包含三个类别。⊕表示加法。

StoHisNet是一个混合CNN与Transformer架构的深度学习模型。其总体架构如图1所示。为了学习各种全局信息，StoHisNet主要由两部分构成：基于ResNet、Attention Feature Fusion (AFF)和Swin Transformer的全局信息特征提取模块(GFM)和基于Xception结构的局部信息特征提取模块(LFM)组成。StoHisNet利用Swin Transformer模块和AFF模块将注意力机制集成到GFM中。在GFM中，首先使用卷积层作为特征提取器为输入生成特征映射。Conv Layer由64个7×7大小的滤波器组成。三个残差模块的卷积核大小为3×3。每层滤波器的数量在第一残差模块中为64个，在第二残差模块中为128个，在第三残差模块中为256个。接下来，利用注意力融合模块(AFF)根据关注权重进行特征映射的融合。然后，采用补丁合并策略对融合后的特征图进行下采样处理。在全局特征模块(GFM)的最后阶段，经过下采样处理的特征映射被输入到Swin Transformer模块中，以便提取更丰富的上下文信息。LFM由深度可分离的卷积块组成，主要遵循Xception模型的思想，修改了全连接层以适应分类任务。最后，将GFM和LFM的输出作为输入连接到softmax层，该层计算四种类别的概率。其中，最高的概率对应的类别为最后的分类。

模型总结：

构建了两个通道，这里参照了孪生神经网络。左边通道提局部特征，右边的提取全局特征，特征颗粒度对比出来了。

左侧通道：先接入一个普通二维卷积，后接卷积核大小不一的深度可分离卷积，这里说一下DSC，每个DSC由两层二维卷积搭建，第一层卷积核大小3*3，第二层kernel_size=1*1。在提取时间特征信息中，DSC性能优于Conv2d。就这样，后接4个(做4分类)DSC直到FC输出。

右侧通道：先接入Conv2d，后接一块残差结构，残差由两层3*3大小的2维卷积搭建，每个残差各有一个跳跃链接，随后接注意力特征融合机制+Patch Merging,最后加入Swin Transformer模块。

2、结果

2.1 数据集

该实验使用了SEED公开竞赛中的胃癌病理图像来评估StoHisNet的分类性能。这些图像由专业医生提取、标注并以PNG格式存储。该数据集共包含四个类别：正常组织(NT，895张图像)、管状腺癌(TA，1292张图像)、粘液腺癌(MA，1495张图像)和乳头状腺癌(PA，608张图像)。如表1所示，将原始数据按3:1:1的比例随机分为训练集、验证集和测试集。由于PA图像数量较少，通过图像旋转和翻转将其数据量增加了一倍。

StoHisNet是基于PyTorch 1.7构建的。由于数据集中图像的分辨率不同，输入图像被调整为224×224像素进行训练和测试。使用图像旋转、翻转和颜色抖动等数据增强技术来增加数据的多样性。批次大小设置为32，在GeForce RTX 2080Ti上进行70次epoch的训练。优化器选择Adam，初始学习率为0.001，并使用余弦退火来调整学习率，将调整周期设置为20，最小学习率设置为4e-8。为了减轻数据类别不平衡的影响，该研究不仅通过数据扩增来扩大数据的数量，还使用了focal loss作为损失函数。

2.2 实验结果

该研究选择准确率(Acc)、F1-score(F1)、准确率(Pre)、召回率(Rec)和混淆矩阵来评估StoHisNet模型的性能。在测试数据集中，StoHisNet表现良好，Acc、F1、Pre和Rec分别为91.33%、91.73%、91.76%和91.71%。此外，该研究还将StoHisNet与其他模型进行了比较，包括EfficientNet-B4、ResNet-50、Xception、GoogLeNet、ViT、AFF+ResNet、Data-efficient image Transformer(DeiT)、Transformer iN Transformer(TNT)、pool -based Vision Transformer(PiT)。所有分类结果如表2所示，StoHisNet混淆矩阵如图2所示。对比其他CNN模型和注意机制模型，结果表明StoHisNet具有优异的图像分类性能。

观察分类结果后，对错误结果进行分析。NT和MA的分类较准确，而TA和PA的分类结果错误相对较多。可能的原因如下。首先，对数据集中的图像进行不同尺度的截取，再进行相同尺度的缩放，造成部分信息的丢失和图像尺度的变化。其次，数字病理图像包含了大量的信息，并且存在相似性和差异性，导致最终的分类错误。第三，一些癌变病理图像含有NT等背景区域，干扰了模型的判断。此外，通过比较在ImageNet上预训练的权值模型与未经预训练的权值模型。根据图2所示的混淆矩阵，可以观察到使用预训练权值的模型在分类性能上有所提升，这表明预训练权值对模型的性能有积极的影响。由于Transformer模型需要更多的训练时间来获得良好的结果，因此使用预训练的权重以加速模型的收敛。

此外，在BreakHis数据集的测试结果(图3)表明，混合模型表现最好。与其他模型相比，StoHisNet模型在Pre、Rec、F1和Acc方面表现良好，分别为91.76%、91.58%、91.64%和91.58%，这说明StoHisNet结合了CNN和Transformer的优点，具有良好的泛化能力。在公开的子宫内膜数据集上的测试结果(图4)表明，StoHisNet的准确率为81.74%，Xception的准确率为80.28%，优于其他模型。

不同模型在BreakHis数据集上的整体性能。使用四个评价指标来比较模型的性能：准确率，F1分数，精度和召回率。

公开的子宫内膜数据集上不同模型的准确性

3、总结

该研究提出了一个基于CNN和Transformer的混合模型StoHisNet。与其他模型相比，StoHisNet在胃癌病理图像的多分类方面表现出更高的性能(包括更高的准确率、F1分数、精度、召回率和混淆矩阵)。此外，在对三种不同的组织病理图像数据集进行评估后，StoHisNet显示出很强的泛化和鲁棒性。在乳腺癌和子宫内膜疾病的对比实验中，StoHisNet也优于其他模型。此外，这是第一次将Transformer应用于胃癌病理图像的多分类任务。未来工作可以考虑以下几点：(1)从公共数据集中寻找其他类型的胃癌病理图像，并与医院合作收集更多类型的病理图像。(2)将胃癌病理影像的分期和分级纳入下一步的工作。(3)研究如何使用半监督或无监督学习来开发人工智能辅助诊断系统，以减少对病理图像进行手动注释的耗时。

写在最后：

记得我小时，记事早。04年05年的，那时没有智能手机。当时上幼儿园，记得老爸拿着他的小灵通整宿整宿看什么劳子小说，看的那个入迷，我当时特不理解，白天还要上班，晚上看小说到凌晨。直到我大学之后，也看了他当年入迷的小说，我也看的入迷，看到凌晨深夜。也看了其他没看过的小说。其中看的最多的便是斗破，直到这几年出了漫画出了动漫那叫一个爽。是啊，人生在世，在外打拼，也会把自己代入斗破中，我不渴望成为萧炎，若人人都是主角，那这世界也太无趣了。

我们无非是乌坦城萧家的一个门卫，甚至一个扫院子的，在云岚宗大长老带人来寻仇时，已经over了，更不会是独身强闯云岚宗，赴三年之约的少年萧炎。但是当年明月说过，无论人生走到哪，地位如何，都不能抛却两样东西，一是良心，二是希望。所以我是萧家小小的扫地小哥也好，万幸在云棱偷袭本家之后得以活命，但是与萧家彻底断了联系，便独自出去谋生，我在自己闯荡中，不免会遇到一个个强者，一开始周围全是斗灵，后面有了斗王，自己一番拼搏也成为了斗王，但人达到一定高度后，依靠自身努力便很难再进一层，所以这时需要斗皇强者出手相助。随后成为斗皇，甚至在社会上达到斗宗层次，此时我也能够像自己少爷那番，说出当年的豪气壮语之词：“云岚宗主不过如此！”这句话，从一个不到二十岁的少年口中说出，谁说过谁知道，爽得很！

但可惜，我现今已不是少年，步入青年了，现在还无资格和能力说出这种话，我现在最多只是个小小的斗王，我时常问自己，何时地位和能力能达到斗宗层次呢，斗宗之后还有斗尊，甚至传说中的斗圣层次。但是我并不气馁，我还年轻，有一定的能力和资源，我会慢慢提升自己的修为的。

最后希望大家加入我的这个群聊哈，不定时的发送脑机接口的学习资料~