传知代码-多示例AI模型实现病理图像分类

news2024/11/13 15:41:00

代码以及视频讲解

本文所涉及所有资源均在传知代码平台可获取

概述

本文将基于多示例深度学习EPLA模型实现对乳腺癌数据集BreaKHis_v1的分类。EPLA模型是处理组织病理学图像的经典之作。EPLA模型是基于多示例学习来进行了,那么多示例学习模型对处理病理学图像具有天然的优势,因为多示例学习(Multiple Instance Learning 简称 MIL)是由监督型学习算法演变出的一种方法,定义“”为多个示例的集合,具有广泛的应用。学习者不是接收一组单独标记的实例,而是接收一组带标签的包,每个包拥有多个实例。在多实例二进制分类的简单情况下,如果包中的所有实例都是否定的,则可以将包标记为否定。另一方面,如果包中只要至少有一个是正面的,则包被标记为阳性。所以这与将组织病理学图像WSI就可以认为是一个包;而从WSI切分下来的patch就可以认为是一个个示例
在这里插入图片描述

EPLA框架解读

EPLA原文是用来预测结直肠癌微卫星不稳定性MSI的,但是在摘要部分明确说明了可以用来预测其他数据集,这也得益于多示例模型处理病理学图像的天然优势。下面就来看一下论文整体的框架结构图
在这里插入图片描述

数据预处理

在原文中拿到组织病理学图像WSI后,首先要对WSI中的肿瘤区域进行标注,然后进行切成小patch,这是因为:

聚焦关键区域:病理图像通常非常大,包含大量的背景信息(如正常组织、脂肪组织等),这些信息对肿瘤检测和分类没有帮助。通过对肿瘤区域进行标注,可以引导模型关注关键的病变区域,从而提高模型的训练效率和性能。
减小计算复杂度:病理学图像(特别是全切片图像,WSI)通常非常大,直接处理整张图像需要消耗大量的计算资源和内存。将大图像切片成小块(patch)不仅降低了计算的复杂性,还能有效利用现有的计算资源进行模型训练。
数据增强和多样性:通过将图像切成多个patch,可以大大增加可用于训练的数据量。这些patch代表了同一图像中的不同局部区域,能够让模型在学习时看到更多的变异性,提升模型的泛化能力。
平衡正负样本比例:在病理图像中,肿瘤区域通常占比较小。通过切片成patch并对肿瘤区域进行标注,能够更好地平衡肿瘤区域(正样本)和非肿瘤区域(负样本)的比例,防止模型过拟合于背景信息。
捕捉局部细节:病理图像中有许多重要的微观结构,例如细胞形态、细胞核大小、密度等。切成patch后,模型可以更专注于局部特征的学习,从而更好地捕捉与疾病相关的细节。
提高训练效率:小尺寸的patch在计算上更快,易于并行处理。这样不仅能够加快模型的训练速度,还能更好地利用硬件资源(如GPU)。

在patch级别的预测中,使用残差卷积神经网络(ResNet-18)进行训练,通过MIL框架计算patch的预测概率,其中每个patch被分配了WSI的标签。网络的优化采用了二元交叉熵(BCE)损失函数,使用小批量梯度下降法进行训练。

词袋模型

BoW方法中,每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI。然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。具体可以理解为:

在BoW方法中,首先把大图像切成小块(patch),然后通过一种叫做TF-IDF的技术,把每个小块的特征转化为数值。TF-IDF原本是用在文本分析中的,可以帮助我们理解哪些词在一篇文章里更重要。这里,我们用类似的方法来判断每个小块图像的重要性
接着,把这些数值组合成一个特征向量,用来代表整张大图像。然后,使用传统的机器学习算法,比如朴素贝叶斯,来对这些特征进行训练,最终的目标是预测这张大图像的微卫星状态(即判断图像是否有微卫星不稳定性,和癌症相关)。

PALHI模型

在PALHI方法中,先对大图像(WSI)进行分割成小块(patch),然后为每个小块进行预测,得出这些小块的预测概率。接着,将这些小块的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示,这个特征就用来表示整个大图像(WSI)。
之后,利用一种叫做极端梯度提升(xgboost)的机器学习分类器,来处理这些直方图特征,并通过训练预测该大图像的微卫星状态(即判断图像是否表现出微卫星不稳定性)。xgboost是一种非常强大的分类器,它通过结合多个决策树模型来提高分类性能。

聚合

最后通过一定的比例将BoW模型和PALHI模型按照一定的比例进行聚合,从而做出最终的预测。

论文复现

数据集介绍

Spanhol等人(2016)发布BreakHis (breast cancer histopathological database )数据集包含了来自82位患者7909幅乳腺组织病理图像。BreakHis对乳腺的病变给出了细粒度的临床分型标注信息包括良性病变中的乳腺病(adenosis, A)、纤维腺瘤(fibroadenoma, F)、叶状瘤( phyllodes tumor, PT)管状腺瘤(tubular adenoma, TA) ,以及恶性病变中的导管癌(ductal carcinoma, DC)、小叶癌(lobular carcinoma, LC),黏液癌(mucinous carcinoma, MC)和乳头状癌(papillary carcinoma, PC)。这让BreakHis数据集不仅能推进良恶性二分类算法研究,还可以推进临床意义更重大的病理分型算法(多分类)研究。本文只针对良性和恶行进行二分类。
在这里插入图片描述
在这里插入图片描述

数据集处理

由于整张WSI的处理过程中涉及到肿瘤区域的标注,但是在实际情况中难以找到专业的病理学家为我们标注数据,因此,我们选用了已经数据预处理好的BreaKHis_v1数据集进行复现。
除此之外需要将切分好的数据集处理成csv文件:路径和标签两列。如下图:
在这里插入图片描述

以上是patch级别的标签,它继承了WSI的标签,为了获取WSI级别的预测结果也需要wsi级别的标签,如下:
在这里插入图片描述

环境配置

* torch 1.1.0
* torchvision 0.2.1
* numpy 1.15.2
* pandas 1.0.3
* xgboost 0.90
* pillow 5.3.0
* sklearn 0.23.1
* logging 0.5.1.2
* joblib 0.15.1
* pickle 4.0

运行步骤

  1. 特征提取
python dnnPatchClser_rst.py  # dnnPatchClser_rst.py为**附件**中的脚本,主要作用是**提取图像特征**。
def build_model_on(device):
    model_ft = models.resnet18(pretrained=True)
    #model_ft = torch.load(model_path,map_location=device)
   
    #num_ftrs = model_ft.fc.in_features
    #model_ft.fc = nn.Linear(num_ftrs, 2)
    #model_ft = model_ft.to(device)
    return model_ft

这里可以使用经过该数据集训练过的模型进行提取特征会更准确。比如使用ResNet网络对该数据集提取特征后保存的权重文件,重新加载到这个脚本中。这个脚本运行完成后会产生两个特征文件,train和test
2. PALHI模型

python PALHI.py     # PALHI.py 为**附件**中的脚本,主要作用是**得到patch的重要性**。

该脚本会加载 dnnPatchClser_rst.py产生的两个文件。

  1. BoW模型
python BoW.py  #  BoW.py 为**附件**中的脚本,主要作用是**WSI级别的概率**。

该脚本同样会加载 dnnPatchClser_rst.py产生的两个文件。

  1. 模型聚合
python ensemble.py       #  ensemble.py 为**附件**中的脚本,主要作用是**聚合上述两个结果**。

该脚本同样会加载 PALHI和BoW模型产生的两个文件。从而产生最终的预测结果

模型特点与改进建议

该模型能够从最基础的提取图像特征,得到每一个patch的特征值,然后将这些patch的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示。改进建议是可以采用其他的汇总方式得到的结果来表征WSI。接着使用词袋模型将每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI,然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。改进建议那么这里可以使用具有针对性的分类器,也可以进行相应的分类器的调参,提高预测准确率。

源码下载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2151874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VCNet论文阅读笔记

VCNet论文阅读笔记 0、基本信息 信息细节英文题目VCNet and Functional Targeted Regularization For Learning Causal Effects of Continuous Treatments翻译VCNet和功能目标正则化用于学习连续处理的因果效应单位芝加哥大学年份2021论文链接[2103.07861] VCNet和功能定向正…

java数据结构----树

二叉查找树 二叉查找树的API设计 put方法的实现思想: public class BinaryTree<Key extends Comparable<Key>, Value> {private Node root;private int N;public int size(){return N;}public void put(Key key, Value value){root put(root,key,value);}public …

k8s 中的 Ingress 简介

一、关于 Ingress Ingress 是 K8s 中的一个 API 对象&#xff0c;用于管理和配置外部对集群内服务的访问。它可定义 HTTP 和 HTTPS 路由规则&#xff0c;将请求从集群外部的负载均衡器引导到相应的服务。Ingress 的灵活性使得我们能够实现高级的应用程序路由、SSL 终端和负载均…

一种新的电子邮件攻击方式:AiTM

新的攻击组利用合作伙伴组织之间的信任关系来绕过多重身份验证。 一种新的攻击方式开始出现&#xff0c;它利用合作伙伴组织之间的信任关系绕过多重身份验证。在一个利用不同组织之间关系的攻击中&#xff0c;攻击者成功地对四家或更多组织进行了商业电子邮件欺诈(BEC)攻击&…

中泰免签,准备去泰国旅游了吗?《泰语翻译通》app支持文本翻译和语音识别翻译,解放双手对着说话就能翻译。

泰国是很多中国游客的热门选择&#xff0c;现在去泰国旅游更方便了&#xff0c;因为泰国对中国免签了。如果你打算去泰国&#xff0c;那么下载一个好用的泰语翻译软件是很有必要的。 简单好用的翻译工具 《泰语翻译通》App就是为泰国旅游设计的&#xff0c;它翻译准确&#x…

Golang | Leetcode Golang题解之第420题强密码检验器

题目&#xff1a; 题解&#xff1a; func strongPasswordChecker(password string) int {hasLower, hasUpper, hasDigit : 0, 0, 0for _, ch : range password {if unicode.IsLower(ch) {hasLower 1} else if unicode.IsUpper(ch) {hasUpper 1} else if unicode.IsDigit(ch)…

Python | Leetcode Python题解之第421题数组中两个数的最大异或值

题目&#xff1a; 题解&#xff1a; class Trie:def __init__(self):# 左子树指向表示 0 的子节点self.left None# 右子树指向表示 1 的子节点self.right Noneclass Solution:def findMaximumXOR(self, nums: List[int]) -> int:# 字典树的根节点root Trie()# 最高位的二…

大模型中常见 loss 函数

loss 函数 首先&#xff0c;Loss 是允许不降到 0 的&#xff0c;模型计算的 loss 最终结果可以接近 0。 可以成为 loss 函数的条件## 常用 loss 以下函数调用基于 Pytorch&#xff0c;头文件导入&#xff1a; import torch.nn as nn 均方差&#xff08;MSE&#xff09; nn.…

基于微信小程序的剧本杀游玩一体化平台

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 基于微信小程序JavaSpringBootVueMySQL的剧…

详细分析Java中的ObjectMapper基本知识(附Demo)

目录 1. 基本知识2. 基本操作2.1 转换Java对象为JSON2.2 转换JSON为Java对象 3. 拓展 1. 基本知识 ObjectMapper 是 Jackson 数据处理库中的核心类之一&#xff0c;主要用于将 Java 对象转换为 JSON 和将 JSON 转换为 Java 对象 Jackson 是当前最流行的 JSON 处理库之一&…

秒懂Linux之消息队列与信号量(了解)

目录 前言 消息队列原理 信号量理论 信号量原理 IPC资源 前言 消息队列与信息量目前已经不常用了&#xff0c;大家也可以参考共享内存去了解基本原理即可。 消息队列原理 消息队列提供了一个从一个进程向另外一个进程发送一块数据的方法 每个数据块都被认为是有一个类型&…

ArcGIS10.2/10.6安装包下载与安装(附详细安装步骤)

相信从事地理专业的小伙伴来说&#xff0c;应该对今天的标题不会陌生。Arcgis是一款很常用的地理信息系统软件&#xff0c;主要用于地理数据的采集、管理、分析和展示。目前比较常见的版本有ArcGIS 10.2和ArcGIS 10.6。 不可否认&#xff0c;Arcgis具有强大的地图制作、空间分…

Linux环境Docker安装Mongodb

Linux环境Docker安装Mongodb 环境要求拉取指定版本镜像创建映射目录&#xff08;相当于数据存放于容器外&#xff0c;容器被删除不会影响数据&#xff09;启动容器 进入mongo命令行为指定db创建新用户查看mongodb的容器id进入命令行查看所有db切换db为指定db创建新用户使用新账…

5、论文阅读:深水下的图像增强

深水下的图像增强 前言介绍贡献UWCNN介绍网络架构残差Residuals块 Blocks网络层密集串联网络深度减少边界伪影网络损失Loss后处理前言 水下场景中,与波长相关的光吸收和散射会降低图像的可见度,导致对比度低和色偏失真。为了解决这个问题,我们提出了一种基于卷积神经网络的…

【JavaEE】线程创建和终止,Thread类方法,变量捕获(7000字长文)

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯&#xff0c;你们的点赞收藏是我前进最大的动力&#xff01;&#xff01;7000字长文&#xff0c;希望本文内容能够帮助到你&#xff01; 目录 一&#xff1a;创建线程五种方式 方式一&#xff1a;继承Thread类&#xff0c;…

服务器非法关闭后MySQL服务启动失败

在写这篇文章前&#xff0c;我弄好了&#xff0c;写完之后把成功安装的几个MySQL都删除了&#xff0c;只留了最后测试成功的服务“mysql-test” ,然后点击运行&#xff0c;发现又出现上图的错误。心态炸了。 本以为定位到问题了&#xff0c;但是这个错误让我迷茫了。我只能临时…

缓存技巧 · Spring Cache Caffeine 高性能缓存库

Caffeine 背景 Caffeine是一个高性能的Java缓存库&#xff0c;它基于Guava Cache进行了增强&#xff0c;提供了更加出色的缓存体验。Caffeine的主要特点包括&#xff1a; 高性能&#xff1a;Caffeine使用了Java 8最新的StampedLock乐观锁技术&#xff0c;极大地提高了缓存的并…

VisionPro - 基础 - 00 模板匹配技术和在VP中的使用 - PMAlign - PatMax - (3)

前言&#xff1a; 针对PatMax 的高级应用和原理&#xff0c;在这一节继续进行说明&#xff1a;这一节主要考虑的是PatMax模板匹配的原理&#xff1a; How PatMax Finds Patterns in an Image PatMax 模板匹配原理 1 Run-time Space When you search for a PatMax pattern in …

World of Warcraft [CLASSIC] International translation bug

internationalization i18n_getinternationalizationjs-CSDN博客 1&#xff09;国际化翻译不完整 Chance on melee and ranged critical strike to increase your attack power by 1262 for 10s. 2&#xff09;更新美酒节&#xff0c;服务器并发太高&#xff0c;被提出副本 Wo…

DataFrame生成excel后为什么多了一行数字

问题描述 python查询数据生成excel文件&#xff0c;生成的excel多了第一行数字索引&#xff0c;1,2,3,4,5...... 代码&#xff1a; df pd.DataFrame(data)df.to_excel(filename, sheet_name用户信息表, indexFalse) 解决&#xff1a; 原理也很简单&#xff0c;就是设置个参…