迁移学习在乳腺浸润性导管癌病理图像分类中的应用

news2025/1/24 7:26:39

1. 引言 

        乳腺癌主要有两种类型:原位癌:原位癌是非常早期的癌症,开始在乳管中扩散,但没有扩散到乳房组织的其他部分。这也称为导管原位癌(DCIS)。浸润性乳腺癌:浸润性乳腺癌已经扩散(侵入)到周围的乳腺组织。侵袭性癌症比原位癌更难治愈。将乳汁输送到乳晕的管道是大多数乳房生长开始的地方(导管癌)。

        在本文中,使用了一组浸润性导管癌(Invasive Ductal Carcinoma, IDC)数据集,它是一种非常常见的癌症类型,比原位癌具有更高的致死性。肿瘤分级是一种常用的疾病侵袭性评估,用于检查浸润性癌症。首先提取乳腺组织的组织病理学斑块特征,在侵入性和非侵入性之间进行类似的兴趣区域匹配,然后进行其分化。各种分级方案对肿瘤分化进行进一步检查,这涉及到病理学家的监督,这可能是劳动密集型的。正确识别恶性肿瘤区域是一项具有挑战性的工作和耗时的工作。

        乳腺癌筛查是通过医生的临床评估和乳房x光摄影或超声成像来完成的。若筛查结果提示有恶性组织生长的可能,则进行体检筛查后再进行乳腺组织活检以最终诊断。活检方法包括收集细胞样本,在显微镜下观察并固定,然后标记。活检的优点是病理学家可以通过组织显微结构的可视化来进行高度准确的诊断。 

        使用CNN作为特征提取网络。CNN是卷积神经网络(convolutional neural networks)的缩写,它在图像patch上使用卷积函数,并使用滤波器来提取图像的特征。卷积操作之后通常是规范化和激活函数,它们堆叠在一起创建具有多层卷积网络的大型体系结构。批处理归一化层尝试将图像像素转换为0到1的范围。网络体系结构中使用的激活函数等待触发特定值,然后通过它传递该值。 

2. 文献综述

        数据集:使用了名为BreaKH的数据集,包含7909张图像,这些图像来自82位患者的良性和恶性乳腺肿瘤信息。数据集包含2480张良性图像和5429张恶性图像,这些图像通过40倍、100倍、200倍和400倍的放大因子获得。

        图像预处理:对所有图像进行了旋转,并向原始数据集中添加了随机图像失真。通过数据增强,数据集的大小增加到11,184张图像,其中3504张是良性的,7680张是恶性的。

        模型:使用基于迁移学习的方法开发的模型,结合了inception v3和传统CNN模型。在500个训练步骤后,获得了0.89的训练准确度。

        性能:恶性类别的曲线下面积(AUC)为0.93,良性类别的AUC也为0.93,截断值为0.4。

        截断值通常指的是用于修正异常值的界值,即将超出正常区间的数据设为正常区间的最大值或最小值。这样做的好处是可以有效地去除异常值对数据分析的干扰,提高分析结果的精确度和可靠性。 


        数据集:使用了两个数据集来比较传统CNN模型的性能。其中一个数据集是乳腺组织病理图像数据集,包含277,524张大小为50x50的RGB图像,其中90,000张图像用于分析,其中65,279张属于类别‘0’,24,781张属于类别‘1’。另一个数据集是乳腺组织学图像数据集,包含5547张图像,其中2788张是IDC(浸润性导管癌),2759张是非IDC。

        模型:用于该研究的模型包括LeNet、AlexNet、VGG 19、VGG 16、ResNet 50、SVM和Twin SVM。

        训练数据:从乳腺组织学图像数据集中选择了4437张图像作为训练数据。


使用胶囊网络(Capsule Network)来识别和分类癌细胞:

        病理图像预处理:首先,对病理图像进行了预处理,包括图像恢复、亮度调整等,以改善图像质量,提高后续分析的准确性。基于图像属性的分割:根据图像的某些属性(如颜色、纹理等)对图像进行分割,将图像中的不同区域(如正常组织、癌细胞等)区分开来。对象定位:通过像素分组的方法,定位图像中的感兴趣对象(如癌细胞)。分类:将处理后的图像分类为四种类型:正常组织、原位癌、良性病变和浸润性癌。

GLCM用于区分正常与异常肿瘤细胞

        GLCM(灰度共生矩阵):一种用于描述图像中灰度级空间分布关系的矩阵。这里,它被用来区分正常和异常的肿瘤细胞。模糊值转换:利用模糊化方法将癌细胞转换为模糊值。模糊化是通过使用如年龄、评分等成员函数来完成的。函数选择:该研究使用了三角形和梯形函数来进行计算。基于知识库的特征提取:使用已知样本的知识库来获取特征。这些特征是基于已知样本的属性和模式来确定的。分类器应用:将经过模糊化和特征提取的图像数据输入到胶囊网络分类器中,以获取癌细胞的类型和阶段。分类数据共享:将最终分类的数据与研究人员共享,以便进行进一步的评估和研究。

3. 方法

3.1 数据集

数据类型与数量

        研究使用了浸润性导管癌(IDC)的组织病理学图像,包括癌症(IDC +ve,即IDC阳性)和非癌症(IDC -ve,即IDC阴性)的样本。总共有277,524个大小为50x50的图像块(patches),其中198,738个是IDC阴性(非癌症),78,786个是IDC阳性(癌症)。

目标类别

        IDC阴性和IDC阳性是研究的两个目标类别,需要预测图像块是否属于这两个类别之一。IDC阴性(非癌症)被标记为类别0,IDC阳性(癌症)被标记为类别1。

数据集不平衡

数据集显示非癌症的图像块数量超过癌症图像块的两倍。

图像块与标签

        每个图像块都与一个患者ID相关联。图像块的标签由专业医生标记为IDC阳性(癌症)或IDC阴性(非癌症)。

图像大小调整

原始图像块的大小是50x50,但在研究中被重新调整为70x70。

数据集划分

        为了训练和测试,数据集被随机分割。不是使用完整的数据集,而是从277,524个图像块中随机抽取了157,572个。这些50x50的图像块被重新调整为70x70的大小。其中75%的数据用于训练,即118,179个图像块是训练样本;25%的数据用于测试,即39,393个图像块是测试样本。

3.2 迁移学习

        使用预训练的系统模型被称为机器学习中的迁移学习,其中知识(特征,权重等)从先前的模型转移到新模型中以增加其预测。 

        CNN模型在解决与图像分类、图像识别、物体检测增强现实等相关的现实问题方面发挥了重要作用。最常见的是效率网、densenet、MobileNet和Resnet。为了解决更具挑战性的计算机视觉问题,在CNN模型中添加更多的层可能是一种选择。但它也有自己的一系列问题,因为训练神经网络的任务可能很繁琐,增加的附加层也会影响性能衡量。

        MobileNet是CNN的一个类。它使用深度可分离卷积。主要用于移动应用程序。与常规网络卷积相比,深度可分离卷积减少了参数的数量。DenseNet是卷积神经结构,也被称为密集连接卷积网络。在这种情况下,前一层的所有输出都作为下一层的输入。EfficientNet 使用复合系数均匀地缩放所有分辨率/宽度/深度维度。复合缩放方法的前提是,随着输入图像变大,网络需要额外的层来增加接受野,需要更多的通道来捕获更大图像上的更细粒度的模式。

3.3 模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1935900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++中的new和模版

前言 随着C的学习,讲了C的发展过程、流插入、流提取、函数缺省值、类与构造等等。接下来学习C很方便的 玩意,函数模版。函数模版就像是模具一样,C会自动用模版编译出合适的函数供程序员使用。以前不同类型相同操作的函数都能通过函数模版&…

【iOS】——内存对齐

内存对齐是什么 内存对齐指的是数据在内存中的布局方式,它确保每个数据类型的起始地址能够满足该类型对齐的要求。这是因为现代处理器在访问内存时,如果数据的起始地址能够对齐到一定的边界,那么访问速度会更快。这种对齐通常是基于数据类型…

客户中心应急管理的作用和特征

近些年作为事故、灾难等风险的预防主体和第一响应者,客户中心的应急管理取得了较大进展,但总体上仍存在很多薄弱环节,如安全事故频发,自然灾害、公共卫生、社会安全事件等给运营机构带来了多方面的不利影响。从信息角度看&#xf…

20240720 每日AI必读资讯

OpenAI 推出GPT-4o mini取代 GPT 3.5! - 性能超越 GPT 4,而且更快更便宜 - 该模型在MMLU上得分为82%,在LMSYS排行榜上的聊天偏好测试中表现优于GPT-4。 - GPT-4o mini的定价为每百万输入标记15美分和每百万输出标记60美分,比之…

【golang-ent】go-zero框架 整合 ent orm框架 | 解决left join未关联报错的问题

一、场景 1、子表:cp_member_point_history cp_member_point_history表中字段:cp_point_reward_id 是cp_point_reward的主键id 当本表中的cp_point_reward_id字段为0(即:没有可关联主表的) CREATE TABLE cp_member_poi…

项目开发之文件上传 (秒传、断点续传、分片上传)(看这一篇就懂了)

目录: 前言秒传什么是秒传核心逻辑代码实现 小文件上传什么是小文件上传核心逻辑代码实现 分片上传什么是分片上传核心逻辑代码实现 断点续传什么是断点续传核心代码实现 前言 文件上传在项目开发中再常见不过了,大多项目都会涉及到图片、音频、视频、文…

npm安装依赖包报错,npm ERR! code ENOTFOUND

一、报错现象: npm WARN registry Unexpected warning for https://registry.npmjs.org/: Miscellaneous Warning ETIMEDOUT: request to https://registry.npmjs.org/vue failed, reason: connect ETIMEDOUT 104.16.23.35:443 npm WARN registry Using stale data…

Python | Leetcode Python题解之第235题二叉搜索树的最近公共祖先

题目&#xff1a; 题解&#xff1a; class Solution:def lowestCommonAncestor(self, root: TreeNode, p: TreeNode, q: TreeNode) -> TreeNode:ancestor rootwhile True:if p.val < ancestor.val and q.val < ancestor.val:ancestor ancestor.leftelif p.val >…

【力扣】最小栈

&#x1f525;博客主页&#xff1a; 我要成为C领域大神&#x1f3a5;系列专栏&#xff1a;【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 设计一个支持 push…

object-C 解答算法:合并两个有序数组(leetCode-88)

合并两个有序数组(leetCode-88) 题目如下图:(也可以到leetCode上看完整题目,题号88) 首先搞懂,什么叫“非递减顺序” 非递减顺序,是指一个序列中的元素从前往后&#xff08;或从左到右&#xff09;保持不减少或相等。 这意味着序列中的元素可以保持相同的值&#xff0c;但不会…

c++ pc输入法例子

1、微软开源demo Windows-classic-samples/Samples/IME at master jiangdon2007/Windows-classic-samples (github.com) 2、打开SampleIME.sln 编译【32位或者64位】 3、将SampleIME.dll 和SampleIMESimplifiedQuanPin.txt 放在同一个目录 4、注册 regsvr32 SampleIME.dl…

spring 5.3.x 、6.1.x、6.0.x 源码本地编译运行

参考大佬文章&#xff0c;完美完成本地idea spring源码编译和demo测试 参考链接&#xff08;spring5.3.x&#xff09; spring5.3.x源码阅读环境搭建 下面是spring6.0.x参考 spring6.0.x jdk调成17 idea 2022.2.4版本本地编译spring源码项目 spring6.0.x 分支 gradle-8…

小程序-4(自定义组件:数据、属性、数据监听器、生命周期函数、插槽、父子通信、behaviors)

目录 1.组件的创建和引用 局部引用组件 全局引用组件 组件和页面的区别 组件样式隔离 ​编辑 组件样式隔离的注意点 修改组件的样式隔离选项 data数据 methods方法 properties属性 data和properties属性的区别 使用setData修改properties的值 2.数据监听器 什么…

stm32入门-----EXTI外部中断(下——实践篇)

目录 前言 一、硬件介绍 1.对射红外线传感器 2.旋转编码器 二、EXTI外部中断C编程 1.开启RCC时钟 2.配置GPIOK口初始化 3.配置AFIO 4.配置EXIT 5.配置NVIC 三、EXIT外部中断项目实操 1.对射红外传感器计数 2.选择编码器计数 前言 本期接着上一期的内容继续学习stm3…

AutoMQ 生态集成 Redpanda Console

通过 Kafka Web UI 更加便利地管理 Kafka/AutoMQ 集群 随着大数据技术的飞速发展&#xff0c;Kafka 作为一种高吞吐量、低延迟的分布式消息系统&#xff0c;已经成为企业实时数据处理的核心组件。然而&#xff0c;Kafka 集群的管理和监控却并非易事。传统的命令行工具和脚本虽…

Java流的概念及API

流的概念 流&#xff08;Stream)的概念代表的是程序中数据的流通&#xff0c;数据流是一串连续不断的数据的集合。在Java程序中&#xff0c;对于数据的输入/输出操作是以流(Stream)的方式进行的。可以把流分为输入流和输出流两种。程序从输入流读取数据&#xff0c;向输出流写入…

Python项目打包与依赖管理指南

在Python开发中&#xff0c;python文件需要在安装有python解释器的计算机的电脑上才能运行&#xff0c;但是在工作时&#xff0c;我们需要给客户介绍演示项目功能时并不一定可以条件安装解释器&#xff0c;而且这样做非常不方便。这时候我们可以打包项目&#xff0c;用于给客户…

《驾驭AI浪潮:伦理挑战与应对策略》

AI发展下的伦理挑战&#xff0c;应当如何应对&#xff1f; 人工智能飞速发展的同时&#xff0c;也逐渐暴露出侵犯数据隐私、制造“信息茧房”等种种伦理风险。随着AI技术在社会各个领域的广泛应用&#xff0c;关于AI伦理和隐私保护问题日趋凸显。尽管国外已出台系列法规来规范…

达梦数据库DM8-索引篇

目录 一、前景二、名词三、语法1、命令方式创建索引1.1 创建索引空间1.2.1 创建普通索引并指定索引数据空间1.2.2 另一种没验证&#xff0c;官方写法1.3 复合索引1.4 唯一索引1.5 位图索引1.6 函数索引 2、创建表时候创建索引3、可视化方式创建索引3.1 打开DM管理工具3.2 找到要…

nginx负载均衡实例

实现效果 浏览器输入地址http://nginx服务器ip(:80)/edu/a.html&#xff0c;实现负债均衡效果&#xff0c;平均分配到 服务器ip:8080和 服务器ip:8081进程中。 准备工作 准备两个tomcat&#xff0c;一个监听在8080端口&#xff0c;一个监听在8081端口。也可以准备多个tomcat。…