基于深度残差网络迁移学习的浸润性导管癌检测

news2024/9/20 8:49:09

1. 引言

        癌症是一种异常细胞不受控制地分裂损害健康组织的疾病。皮肤或覆盖我们内脏的组织中的癌细胞被称为癌。乳房中的大多数癌是导管癌。侵袭性导管癌(Invasive Ductal Carcinoma, IDC)始于乳管,侵犯乳房周围纤维组织,晚期可通过血液扩散至淋巴结或身体其他部位,威胁患者生命。这种恶性肿瘤的治疗取决于它的分期、严重程度和它所属的亚型。事实证明,早期诊断有助于减少治疗过程中的并发症,从而提高患者的生存几率。

        IDC癌的诊断可基于病理任务,包括显微镜观察和多片载玻片检查。但是这种测试方法既耗时又容易出错。因此,为了辅助测试过程,可以采用计算机辅助诊断(CAD)测试方案,主要涉及基于深度学习(DL)的方法。对组织病理学图像进行图像分析是鉴别和识别癌症亚型的一种有效方法。

        组织病理学图像是在特定放大倍数(x10, x20或x40)下染色活检样本的WSI数字化扫描。研究了IDC阳性病例的组织病理切片图像。深度学习模型可以根据从组织病理学图像中提取的代表乳腺癌组织成分的特征来学习对阳性样本进行分类。本文中,提出了一种由基于ResNet的特征提取器组成的深度学习模型,该模型可以有效地提取组织特征,分类器头部使用这些特征对IDC组织病理图像样本进行准确分类。

1.1 机器学习(ML)方案

        预处理的重要性:ML算法通常需要在预处理后的数据集上进行训练。预处理的方式和性质对ML模型的性能有重要影响。

        线性回归与ANN:Turgay等人[8]比较了线性回归和人工神经网络(ANN)在癌症样本分类中的应用。

        SVM与图像增强:M.A.Awasthy等人[9]提出了一种基于支持向量机(SVM)的模型,其中使用图像增强技术对组织病理学图像进行增强,并通过分割在预处理步骤中提取关键特征。这些特征随后被输入到分类器中。通过分割进行特征提取的预处理步骤有助于提高模型性能,与其他ML模型(如KNN和ANN)相比。

        Catboost模型:S.D.Roy等人[10]提出了一种Catboost模型,该模型在通过堆叠各种文本特征并应用皮尔逊相关性而提取的782个特征上进行训练时,取得了高准确性。

1.2 深度学习(DL)方案

        大数据集与计算成本:组织病理学图像数据集通常非常大,预处理这样的数据集是一个计算成本高昂的任务。

        CNN的应用:为了应对这一挑战,基于DL的模型发挥了显著作用,因为它们即使在基本预处理后也能表现出色。卷积神经网络(CNN)因其从空间相邻特征中学习的能力而成为医学图像处理应用领域中最有效的模型之一。

        CNN架构:A.C. Roa等人[11]提出了一种具有3层CNN架构的模型,该模型在考虑到数据巨大规模的情况下,对样本图像进行了16:1的缩小训练。

        残差网络:C. C. Chatterjee等人[12]提出了一种具有4个残差块的残差网络,每个残差块由2D卷积层构成。该模型的限制是它从未在整个数据集上进行训练,而是仅在数据集的一个子集(即代表性数据集)上进行了实施。

3. 提出的方法

        带有跳跃连接的残差网络作为最优解决方案,尽管神经网络的维数很大,但跳跃连接传播损失却没有太大的退化。跳跃连接通过在卷积层之间具有中间连接来促进输出层和输入层之间的梯度流动。

3.1 数据集预处理

        由于IDC数据集的规模非常大,直接在整个数据集上训练模型是一项计算密集型的任务。这意味着训练过程可能需要很长时间,并且需要强大的计算资源。为了解决这个问题,研究者们选择了使用k-fold交叉验证的方法来训练和优化模型。这种方法将数据集分成k个部分(或“折”),然后多次进行训练和测试,每次使用不同的折作为训练集和测试集。

        在特定的例子中,数据集被分为9折,其中7折用于训练数据集,2折用于测试训练好的模型。这样,每个样本都有机会被用作测试集的一部分,这有助于更准确地评估模型的性能。测试集由数据集的2折组成,总共包含大约59,462个样本。这意味着训练集和测试集之间的比例大约是80:20,用于在机器学习项目中评估模型的性能。

        每个折中IDC正样本(即存在浸润性导管癌的样本)和IDC负样本(即不存在浸润性导管癌的样本)的比例是不均等的,这导致数据分布出现偏斜。这种不平衡的数据分布可能会挑战模型的学习能力和性能,因为模型可能更偏向于预测数量更多的类别(在这种情况下是IDC负样本)。

        为了解决样本不平衡的问题,研究者们采取了一种称为“随机采样”的策略。随机选择IDC负样本以形成一个新的样本集,这个新样本集中的IDC负样本数量与IDC正样本数量相同。通过这样做,每个折的IDC正样本和IDC负样本数量变得相等,从而解决了数据分布不平衡的问题

3.2 模型开发

        残差网络是由多层卷积网络通过跳跃连接相互连接而成的。对于特征提取,使用一个预训练的CNN编码器ResNet152。ResNet152返回一个具有2048个特征的特征向量。这些提取的特征被输入到全连接层以生成输出。

        1)预训练特征提取器:ResNet是一个由多个CNN层组成的深度学习模型。残差学习的概念形成了联系。考虑需要学习的映射为H(x),当拟合多个非线性层时,模型F(x)学习到的映射可以定义为:

F(x)=H(x)-x 

x是模型没有学习到的残差。因此,原始映射可以推导为: H(x)=F(x)+x

ResNet152架构

由152个CNN层堆叠并通过跳跃连接连接。 

        利用预训练的ResNet152模型从组织病理学图像中提取重要特征。从组织病理学图像中提取特征是预训练模型的下游任务。利用或嵌入预训练模型作为下游任务整体架构的组成部分的方法称为迁移学习。使用Imagenet分类任务训练后更新的最优权值从组织病理图像中提取特征,用于IDC分类下游任务。

        2)分类器头(Classifier head):从残差网络中提取的特征作为全连接层的输入,最终的Time分布致密层作为分类器头,通过预测给定样本的类概率来进行二值分类。

        3)激活函数:激活函数在输出中引入非线性,使非凸状态变为凸,从而使凸函数的优化(通过梯度下降)变得可行。

4. 实验结果

        数据集被划分为 f_k折(folds),其中 是一个整数。训练集由\{f_1,f_2,...f_{k-m}\}组成,而测试集由\{f_{k-m+1},......,f_k\}组成。在这个例子中,训练集包含了 k-m 折数据,而测试集包含了剩下的    折数据。

        对于训练集中的每一折 f_i,模型都会进行训练。由于数据集体积庞大,每次训练完一折数据后,都会保存模型的检查点(checkpoint),以便保存优化后的权重,这些权重将被用于下一折f_{i+1} 的训练。这个过程会持续到所有训练折都被训练完毕。

        当模型对所有训练折都进行了训练后,最终优化后的权重将被用于在测试集的所有折上进行验证。如果测试集包含多折数据(即n(testset)>1fold),那么将在每一折上进行测试,并将每个折上的性能指标进行加权平均,以得出最终的评估结果。例如,如果测试集包含两折\{f_1,f_2\},那么平均准确率将是mean\_accuracy=\frac{(acc_{f_1}*n(f_1))+(acc_{f_2}*n(f_2))}{n(f_1)+n(f_2)}

实验设置

        实验使用了Keras框架来实现提出的模型架构。优化器选择了Adam,学习率设置为0.001。损失函数是二元交叉熵损失函数。性能评估指标考虑了准确率、召回率和AUC。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1935191.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PublicCMS:企业级的Java CMS系统

PublicCMS:企业级的Java CMS系统 在当今互联网飞速发展的时代,PublicCMS作为一款功能强大的开源Java CMS系统,为用户提供了全面的建站解决方案。本文将介绍PublicCMS的基本信息、特点以及如何快速部署和使用。 软件简介 PublicCMS是一款现代…

进程空间的回收以及执行当前进程空间内的另一进程

1.进程的退出 1.exit 功能: 让进程退出,并刷新缓存区 参数: status:进程退出的状态 返回值: 缺省 exit -> 刷新缓存区 -> atexit注册的退出函数 -> _exit 2._exit 功能: 让进程退出,不刷…

【驱动程序】霍尔编码器电机_CubeMX_HAL库

【驱动程序】霍尔编码器电机_CubeMX_HAL库 电机型号:MG310 霍尔编码器电机 驱动模块:L298N 接线 注: L298N 12V接线柱位置可以接50V~5V当跳线帽接入时,5V接线柱为5V输出,可以给驱动板供电当跳线帽拔出时&#xff0…

OpenAI开打价格战 GPT-4o最新变种价格骤降96%-97%

当地时间周四早晨,美国人工智能初创公司OpenAI宣布,正式上架价格显著下降的新一代入门级别人工智能“小模型”GPT-4o mini。OpenAI在今年5月发布公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型。最新上架的GPT-4o mini则是一个…

0718,TCP协议,三次握手,四次挥手

目录 上课喵: TCP(Transmission Control Protocol,传输控制协议)的状态迁移图 TCP连接的状态迁移图 状态迁移说明: 注意: big_htonl.c 字节序转换 addr.c IP地址的转换 作业喵: …

Hugging Face开源力作:探索五款顶尖LLM,GPT之外的选择

之前,我们分享了国内一些开源的大型语言模型(LLM)。今天,我想向大家介绍在Hugging Face平台上发现的一些国际上备受关注、被誉为超越GPT的LLM。对于熟悉LLM的朋友们而言,你们一定知道这些模型的强大之处:它…

流量卡什么时候激活比较适合,这个问题你考虑过吗?

在办理流量卡时,很多朋友不知道什么时候激活比较划算,在这里文章里,小编给大家简单的说一下,可供参考。 ​ 1、大家要知道,在使用流量卡时,流量卡的激活时间就是号卡的入网时间,也是计费的开始。…

【Vue】`v-bind` 指令详解:动态绑定属性的强大工具

文章目录 一、v-bind 指令概述二、v-bind 的基本用法1. 动态绑定 HTML 属性2. 动态绑定布尔属性3. 动态绑定对象属性 三、v-bind 指令的高级用法1. 动态绑定 CSS 类字符串绑定对象绑定数组绑定 2. 动态绑定内联样式对象绑定数组绑定 四、v-bind 的简写形式1. 绑定单个属性2. 绑…

初学SpringMVC之文件上传和下载

pom.xml 文件导入 commons-fileupload 的 jar 包 <!-- 文件上传 --><dependency><groupId>commons-fileupload</groupId><artifactId>commons-fileupload</artifactId><version>1.5</version></dependency><dependen…

无线物联网新时代,RFID拣货标签跟随潮流

拣选技术的演变历程&#xff0c;本质上是从人力操作向自动化、智能化转型的持续进程。近期&#xff0c;“货寻人”技术成为众多企业热烈追捧的对象&#xff0c;它可以根据企业的特定需求&#xff0c;从众多拣选方案中选出最优解。那么&#xff0c;在采用“货到人”拣选技术时&a…

全国媒体邀约,主流媒体到场出席采访报道

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 全国媒体邀约&#xff0c;确保主流媒体到场出席采访报道&#xff0c;可以带来一系列的好处&#xff0c;这些好处不仅能够增强活动的可见度&#xff0c;还能对品牌或组织的长期形象产生积…

《系统架构设计师教程(第2版)》第12章-信息系统架构设计理论与实践-02-信息系统架构

文章目录 1. 概述1.1 信息系统架构&#xff08;ISA&#xff09;1.2 架构风格 2. 信息系统架构分类2.1 信息系统物理结构2.1.1 集中式结构2.1.2 分布式结构 2.2 信息系统的逻辑结构1&#xff09;横向综合2&#xff09;纵向综合3&#xff09;纵横综合 3. 信息系统架构的一般原理4…

PixPro 全开源图床系统源码,非常强大的压缩率

简介&#xff1a; 一款专为个人需求设计的高效图床解决方案&#xff0c;集成了强大的图片压缩功能与优雅的前台后台管理界面。 项目结构精简高效&#xff0c;提供自定义图片压缩率与尺寸设置&#xff0c;有效降低存储与带宽成本。 支持上传JPEG、PNG、GIF格式图片并转换为WE…

51单片机嵌入式开发:12、STC89C52RC 红外解码数码管显示

STC89C52RC 红外解码数码管显示 1 概述2 HX1838原理2.1 原理概述2.2 原理概述 3 HX1838代码实现3.1 工程整理3.2 工程代码3.3 演示 4 HX1838总结 1 概述 HX1838是一种常见的红外接收模块&#xff0c;用于接收和解码红外遥控器发送的红外信号。 HX1838具有以下特点和功能&#…

1. LeetCode-数组和字符串

1.数组简介 1.1 集合、列表和数组 集合 集合定义&#xff1a;由一个或多个确定的元素所构成的整体。 集合的特性&#xff1a; 首先&#xff0c;集合里的元素类型不一定相同。 你可以将商品看作一个集合&#xff0c;也可以将整个商店看作一个集合&#xff0c;这个商店中有人…

4. docker镜像、Dockerfile

docker镜像、Dockerfile 一、docker镜像1、镜像介绍2、镜像核心技术 二、Dockerfile定制镜像1、Dockerfile使用流程1.1 编写Dockerfile1.2、构建镜像1.3 创建容器测试镜像定制操作 2、Dockerfile常用指令 一、docker镜像 1、镜像介绍 分层的文件系统 优势&#xff1a;节省空间…

【C++】C++11的新特性 --- 右值引用与移动语义

假如生活欺骗了你 不要悲伤&#xff0c;不要心急&#xff01; 忧郁的日子里须要镇静 相信吧 快乐的日子将会来临 -- 普希金 《假如生活欺骗了你》 C11的新特性 1 左值与右值2 左值引用和右值引用3 引用的意义4 移动语义4.1 移动构造与移动赋值4.2 区分现代写法与移动语义…

【C++进阶学习】第七弹——AVL树——树形结构存储数据的经典模块

二叉搜索树&#xff1a;【C进阶学习】第五弹——二叉搜索树——二叉树进阶及set和map的铺垫-CSDN博客 目录 一、AVL树的概念 二、AVL树的原理与实现 AVL树的节点 AVL树的插入 AVL树的旋转 AVL树的打印 AVL树的检查 三、实现AVL树的完整代码 四、总结 前言&#xff1a…

开源模型应用落地-FastAPI-助力模型交互-进阶篇(三)

一、前言 FastAPI 的高级用法可以为开发人员带来许多好处。它能帮助实现更复杂的路由逻辑和参数处理&#xff0c;使应用程序能够处理各种不同的请求场景&#xff0c;提高应用程序的灵活性和可扩展性。 在数据验证和转换方面&#xff0c;高级用法提供了更精细和准确的控制&#…

旧系统的会员信息如何导入新系统?

千呼新零售2.0系统是零售行业连锁店一体化收银系统&#xff0c;包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体&#xff0c;线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…