基于纹理和统计图像特征集成的计算机辅助乳腺癌检测

news2025/1/23 6:04:36

        诊断通常使用组织病理学切片,可以确定组织是否处于导管原位癌(DCIS)阶段,其中癌细胞尚未扩散到周围乳腺组织,或浸润性导管癌(IDC)阶段,其中细胞已渗透到邻近组织。对于医生来说,检测IDC非常耗时且具有挑战性。因此,这可以建模为图像分类任务,其中模式识别和机器学习可用于帮助医生和医疗从业者做出此类关键决策。

        在本文中,使用包含277,524张图像的IDC乳腺癌数据集(其中78,786张IDC阳性图像和198,738张IDC阴性图像)将图像分为IDC(+)和IDC(-)。为此,使用了特征提取器,包括SIFT、SURF和ORB等纹理特征,以及Haralick纹理特征等统计特征。然后将这些特征组合起来,生成一个包含782个特征的数据集。通过使用各种机器学习分类器(如Random Forest, Extra Trees, XGBoost, AdaBoost, CatBoost和多层感知器)堆叠这些特征,然后使用Pearson相关系数进行特征选择,产生具有四个特征的数据集,然后用于分类。从实验结果中,发现CatBoost产生了最高的准确率(92.55%),这与其他最先进的结果相当,其中大多数使用深度学习架构。


1. 引言

        由于治疗取决于癌症的分期,任何病理学家的初步任务之一包括对苏木精和伊红(H&E)染色的组织病理学切片进行视觉分析。通过切片可以判断组织是导管原位癌(DCIS)期还是浸润性导管癌(IDC)期。乳腺导管原位癌是一种非侵袭性癌症,在乳腺导管内壁发现癌细胞,但尚未扩散到周围乳腺组织。然而,在IDC中,在乳管中开始形成的异常癌细胞扩散到乳管以外的乳腺组织的其他部分。IDC是最常见的乳腺癌类型,约占所有乳腺癌诊断的70-80%。IDC检测作为治疗过程的重要组成部分,是一项极其耗时和困难的工作。

        鉴于上述情况,使用图像处理技术将组织病理切片分类为IDC(+)和IDC(-)的问题委托给ML。机器学习依赖于从图像中提取特征描述符,然后进行分类。这些描述符包括颜色描述符,如RGB直方图;统计描述符,比如哈拉里克特征;和纹理描述符,如加速鲁棒特征(SURF)等。

        ML的替代方案是在DL中使用神经网络,这省去了手工制作特征的需要。然而,这是以更大的复杂性和更高的计算能力为代价的。此外,为了正确地训练DL模型,需要大量的输入样本,而这些样本有时可能无法用于现实问题。

本文中,尝试使用纹理和统计特征的集合将组织病理学图像分为IDC(+)和IDC(-)。

        使用随机森林(Random Forest)、CatBoost (CB)和AdaBoost (AB)等各种标准ML算法,计算了尺度不变特征变换(SIFT)、SURF、定向FAST和旋转BRIEF (ORB)和灰度共生矩阵(GLCM)等纹理特征和统计特征(Haralick特征)的精度。然后将这些分数与这些特征的各种组合的准确性指标进行比较。用叠加的方法将所有的特征集合在一起,得到了最好的结果。

1.1 工作贡献

        提出了一种纹理和统计描述符的集成方法,然后使用ML分类器(如RF和CB)进行分类。用于组合的方法是堆叠。

        利用基于Pearson’s Correlation Coefficient的特征选择,对传统的叠加方法进行了修改,以剔除潜在的冗余特征。

        对SURF、SIFT、ORB、GLCM和Haralick及其各种组合的相对性能进行了全面的比较。

        创建了一个轻量级的ML模型,它在计算上便宜,在算法上易于设计。与其他现有的方法相比,它即使不是更准确,也是同样准确的。

(a)在训练集上训练分类器。然后使用训练好的分类器来预测验证集和测试集的结果。 

 (b)第二阶段,堆叠不同分类器的验证预测以生成新的训练特征,同时堆叠不同分类器的测试预测以生成新的测试特征。利用这些新的训练和测试特征,对分类器进行评估。

(c)提出的模型,其中第二阶段被修改,在模型训练和测试之前对新的训练和测试特征进行特征选择。 

2. 文献调查

        Narayanan等提出了一种新颖的深度CNN架构。图像从50 × 50缩小到48 × 48。在预处理阶段,采用了颜色恒常性技术和直方图均衡化技术。然后将预处理后的图像输入CNN。所提出的架构由五个卷积层组成,然后是一个完全连接(FC)层和一个softmax层。与使用直方图均衡化预处理的图像相比,使用颜色恒定技术预处理的图像产生了更好的性能指标。 

        Debelee等使用CNN提取特征,并采用主成分分析进行降维。使用k-近邻(k-NN)对乳房x线照片进行正常或异常分类。Debelee等使用预训练的Inception-V3及其提出的改进的自适应K-means (MAKM)方法从图像中提取特征。从ROI和基于cnn提取的特征中融合GLCM和Gabor(纹理特征),并将其输入5个分类器(SVM、k-NN、NB、MLP和RF)中,以量化特征的描述能力。 

        Rahman等提出了多层CNN。IDC数据集存在明显的类不平衡。从IDC(+)和IDC(-)两个类别中选取相同数量的图像,以消除类别不平衡问题。图像的选择是随机进行的,以避免偏差。通过应用各种数据增强来减轻过拟合,即随机10度旋转,移动,缩放和水平和垂直翻转。实现的体系结构达到89%的准确率。

        Romano和Hernandez也纠正了IDC(+)数据集中存在的阶级不平衡。对图像进行归一化处理,并对数据进行增强,防止过拟合。使用随机转换数组增强图像,以便分类器永远不会两次查看完全相同的图像。

        Cruz-Roa等提出了一种三层CNN架构,用于自动检测全幻灯片图像(WSI)中的IDC组织区域。CNN在第一层、第二层卷积池化层和FC层分别有16、32和128个神经元。Wang等人将Cruz-Roa等人的架构的工作扩展到四种不同的架构。得出结论,数据增强在使用IDC(+)数据集自动检测乳腺癌方面无效。删除了分割不规则性。有太多的图像不是50 × 50的,必须删除。所有的冗余图像90%的黑色空间或90%的白色空间被删除。

3. 提出的方法

        通过提取IDC(+)和IDC(-)图像的SIFT、SURF和ORB等纹理特征和Haralick特征等统计特征对其进行分类。提取后,对这些特征进行组合,再通过叠加进行集合。然后使用叠加的特征来获得最终的预测。

        从组织病理学图像开始,从中提取256个SIFT, 256个SURF, 256个ORB和14个Haralicks特征。然后将782(= 256 + 256 + 256 + 14)个特征组合起来。然后通过堆叠将这些特征组合起来。为了剔除冗余特征,使用Pearson相关系数。然后进行模型训练和测试,最终将图像分类为IDC(-)和IDC(+)。 

3.1 数据集描述

        IDC乳腺组织病理学图像数据集。原始数据集由162张40倍扫描的乳腺癌标本WSI组成。从WSI中提取277,524个分辨率为50 × 50的斑块。其中,IDC(-)为198738张,IDC(+)为78786张。 

IDC数据集icon-default.png?t=N7T8https://www.kaggle.com/datasets/paultimothymooney/breast-histopathology-images

3.2 特征提取

3.2.1 尺度不变特征变换(SIFT)

        SIFT是一种特征提取方法,用于在图像中检测和描述局部特征。这些特征(或关键点)在图像尺度变化和旋转时都是不变的。这意味着,即使图像被放大、缩小或旋转,这些关键点仍然可以被识别出来。

SIFT的工作流程

        首先,从一组参考图像中提取SIFT关键点,并将这些关键点存储在数据库中。当有新图像需要识别时,算法会模拟新图像中的每个属性与数据库中的属性。基于欧几里得距离(一种衡量两点间“直线”距离的方法),算法会查找与新图像中特征向量相近的候选对象。具体来说,新图像中的每个特征都会与数据库中的特征进行比较,并基于特征向量之间的欧几里得距离来找到候选匹配对象。为了有效地确定一致的特征群集(即指向同一对象的多个关键点),算法使用了一个基于广义霍夫变换的哈希表实现。这有助于快速找到在多个位置都出现的特征,从而指示可能存在的对象。一旦找到指向同一对象的三个或更多特征,算法会进行额外的模型验证来确保这些特征确实属于同一对象。在验证过程中,不符合模型的特征(即异常值)会被剔除。最后,根据匹配的准确性和可能的错误匹配数量,算法会计算某个特征集指示对象存在的可能性。只有通过了所有测试的对象匹配才会被认为是正确的。

        SIFT算法通过提取和比较图像中的关键点来识别对象,这些关键点在图像尺度变化和旋转时都是不变的。它使用广义霍夫变换和哈希表来有效地找到一致的特征群集,并通过模型验证来剔除异常值。最终,算法根据匹配的准确性和可能性来确定哪些对象匹配是正确的。

3.2.2  加速的健壮特性(SURF)

        SURF是一种用于对象识别、图像配准、分类等任务的局部特征检测器和描述符。尽管它受到SIFT描述符的启发,但SURF的执行速度比SIFT快得多。SURF特征检测器通过在不同尺度上应用近似的高斯二阶导数掩模到图像上来工作。与Harris角点检测方法相比,SURF对旋转的鲁棒性更强。SURF之所以非常快,是因为它使用了积分图像。在积分图像中,像素(x, y)的值是由原点和(x, y)定义的矩形内所有值的和。源图像中任何大小的矩形内的像素和都可以通过四个操作找到。这允许以非常少的计算时间应用任何大小的矩形掩模。

3.2.3 ORB (Oriented FAST and Rotated BRIEF)

        ORB是一个旨在为SIFT提供一个高效且快速的替代品的特征检测器和描述符。由Rublee等人提出,是FAST关键点检测器和视觉描述符BRIEF(Binary Robust Independent Elementary Features)的修改版本的结合。ORB在特征检测任务上的性能与SIFT相当,但速度要快得多。ORB的基础检测器,即FAST关键点检测器和BRIEF描述符,都以低成本提供了良好的性能。ORB的主要贡献包括:

  • 为FAST添加了方向组件。
  • 有效地计算了定向BRIEF特征。
  • 一种在旋转不变性下使BRIEF特征去相关的方法,从而在最近邻应用中获得更好的性能。
  • 对定向BRIEF特征的方差和相关性进行分析。

3.2.4 Haralick Features

        Haralick纹理特征是基于灰度共生矩阵(GLC)计算的。灰度共生矩阵是一种用于描述图像中灰度级空间分布和关系的矩阵。通过计算GLC的不同统计量(如对比度、相关性、能量等),可以获得一组能够描述图像纹理的特征。这些特征在医学图像分析、机器视觉、无损检测等领域有广泛应用。

3.3 堆叠集成

        集成学习是一种机器学习范式,其中多个模型(通常被称为“弱学习器”)被训练来解决相同的问题,并通过某种方式组合起来以获得更好的结果。集成学习的主要思想是,当弱学习器被正确组合时,我们可以获得更准确和更鲁棒的模型。
        堆叠是集成学习的一种方法,其中多个弱学习器被训练,并通过训练一个元模型(meta-model)来组合它们。这个元模型基于这些弱学习器返回的多个预测结果来产生最终的预测。堆叠与其他集成算法(如boosting和bagging)的不同之处在于,它考虑了不同类型的算法作为弱学习器,即异质弱学习器。
        对于我们的分类任务,选择了以下算法作为弱学习器:XGBoost(XGB)、AdaBoost(AB)、CatBoost(CB)、随机森林(RF)、Extra Trees(ET)和多层感知器(MLP)。这些弱学习器将基于包含SURF、SIFT、ORB和Haralick特征的数据集进行训练。

堆叠的过程包括以下几个步骤:

  • 分割训练数据:将训练数据分为两部分(两折)。
  • 训练弱学习器:使用第一折训练数据来拟合(训练)选择的弱学习器,即XGB、AB、CB、RF、ET和MLP。
  • 进行预测:对于每个弱学习器,使用它们在验证数据和测试数据上进行预测。
  • 训练元模型:将弱学习器在验证集上的预测结果作为新的训练特征,在测试集上的预测结果作为新的测试特征。然后,使用这些新的特征来训练和测试元模型(如逻辑回归、支持向量机等)。元模型的输出将是最终的预测结果。

        因此,堆叠本质上是两个模型的结合,一个是拟合训练数据并编译其预测的基本模型,另一个是学习如何最好地组合基本模型生成的预测的元模型。在实践中,在步骤3之后,检查新创建的特征之间的Pearson相关系数,以剔除潜在的冗余特征,然后进行最终预测。 

        在机器学习的堆叠集成(Stacking)中,元模型扮演着将多个基本模型的输出作为新的特征输入并进行最终预测的角色。具体来说,堆叠集成首先将原始训练数据划分为训练集和验证集,然后使用训练集训练多个基本模型,每个模型在验证集上生成预测结果。这些预测结果作为新的特征,与原始特征一起输入到元模型中,训练元模型以获得最终的预测。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1936110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搜集日志。

logstash 负责: 接收数据 input — 解析过滤并转换数据 filter(此插件可选) — 输出数据 output input — decode — filter — encode — output elasticsearch 查询和保存数据 Elasticsearch 去中心化集群 Data node 消耗大量 CPU、内存和 I/O 资源 分担一部分…

分布式搜索引擎ES-elasticsearch入门

1.分布式搜索引擎:luceneVS Solr VS Elasticsearch 什么是分布式搜索引擎 搜索引擎:数据源:数据库或者爬虫资源 分布式存储与搜索:多个节点组成的服务,提高扩展性(扩展成集群) 使用搜索引擎为搜索提供服务。可以从海量…

Linux下docker快速安装gitea

之前在服务器上装的gitlab来管理个人项目,但是gitlab服务启动后能明显感受到占用资源比较严重。最近服务器到期,换了个服务器还没来得及装gitlab,刚好最近接触到gitea,网上是这么说的 占用资源少,适合个人开发者&…

【数据结构】:时间和空间复杂度在这篇里面一点都不复杂

目录 如何衡量一个代码的好坏 时间复杂度 概念 计算方法 实例计算 【实例1】 【实例2】 【实例3】 【实例4】:冒泡排序的时间复杂度 【实例5】:二分查找的时间复杂度 【实例6】:阶乘递归的时间复杂度 【实例7】:斐波那契…

P3-AI产品经理-九五小庞

AI产品的数据流向 美团外卖,实时只能调度 美团28分钟送达需求的分析 AI产品常用的算法 常用算法 常见的AI算法解析 自然语言生成NLG语音识别:科大讯飞,通义千问 虚拟现实机器学习平台 决策管理系统生物特征识别技术 RPA(机器人流程自动…

百日筑基第二十五天-java开发程序员常犯的错总结

百日筑基第二十五天-java开发程序员常犯的错 一、将数组转换为ArrayList 要将数组转换为ArrayList&#xff0c;开发人员通常会这样做&#xff1a; List<String> list Arrays.asList(arr);**Arrays.asList()将返回 ArrayList私有静态类的 Arrays&#xff0c;而不是 ja…

《数据结构:栈和队列》

文章目录 一、栈1、概念与结构 二、栈的实现1、栈的结构和功能2、初始化栈3、入栈4、出栈5、判断栈是否为空6、取栈元素和栈有效个数7、销毁栈 三、队列1、概念与结构 四、队列的实现1、队列的实现结构和功能2、队列初始化3、入队列4、判断队列是否为空5、出队列6、取队头/队尾…

WPF+Mvvm 项目入门完整教程(一)

WPF+Mvvm 入门完整教程一 创建项目MvvmLight框架安装完善整个项目的目录结构创建自定义的字体资源下载更新和使用字体资源创建项目 打开VS2022,点击创建新项目,选择**WPF应用(.NET Framework)** 创建一个名称为 CommonProject_DeskTop 的项目,如下图所示:MvvmLight框架安装…

C++基础语法:STL之容器(5)--序列容器中的list(二)

前言 "打牢基础,万事不愁" .C的基础语法的学习 引入 序列容器的学习.以<C Prime Plus> 6th Edition(以下称"本书")内容理解 本书中容器内容不多只有几页.最好是有数据结构方面的知识积累,如果没有在学的同时补上 接上一篇C基础语法:STL之容器…

自己用vps起网页(用于测试题目回显)

0x01 首先要有一台vps&#xff0c;这里我推荐dk盾 base64 UVGkGjcyNzA3NzA1NQ0x02 那么我们就可以进行环境的配置了 我是选择的nginx&#xff0c;因为挺好用的吧&#xff0c;各方面参数也还行 我是使用的Ubuntu 的vps所以下面的命令也只有Ubuntu可以使用sudo apt updatesu…

<Rust>egui部件学习:如何在egui窗口中添加按钮button以及标签label部件?

前言 本专栏是关于Rust的GUI库egui的部件讲解及应用实例分析&#xff0c;主要讲解egui的源代码、部件属性、如何应用。 环境配置 系统&#xff1a;windows 平台&#xff1a;visual studio code 语言&#xff1a;rust 库&#xff1a;egui、eframe 概述 本文是本专栏的第二篇博…

15. 【C++】详解搜索二叉树 | KV模型

目录 1.定义 初始化 插入 查找 删除 完整代码 2.运用 K 模型和 KV 模型详解 K 模型 KV 模型 代码解释 为了更好地理解 map 和 set 的特性&#xff0c;和后面讲解查找效率极高的平衡搜索二叉树&#xff0c;和红黑树去实现模拟&#xff0c;所以决定在这里对搜索二叉树…

基于asp.net小区物业信息管理系统设计与实现

博主介绍&#xff1a;专注于Java .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设&#xff0c;从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的可以…

【机器学习】使用Python的dlib库实现人脸识别技术

&#x1f525; 个人主页&#xff1a;空白诗 文章目录 一、引言二、传统人脸识别技术1. 基于几何特征的方法2. 基于模板匹配的方法3. 基于统计学习的方法 三、深度学习在脸识别中的应用1. 卷积神经网络&#xff08;CNN&#xff09;2. FaceNet和ArcFace 四、使用Python和dlib库实…

辅助类BigDecima/BigInteger

** 大数据的运算** 编号1方法解释1add2subtract-3multiply*4divide/

p19 C语言操作符详解

算术操作符 1.除了%操作符之外&#xff0c;其他的几个操作符可以作用于整数和浮点数。 2.对于/操作符如果两个操作数都为整数&#xff0c;执行整数除法。而只要有浮点数值型的就是浮点除法。 3.%操作符的两个操作数必须为 整数。返回的是整除之后的余数。 #include<std…

通信流程:https【SSL/TLS】,git仓库【https/SSH】,蓝牙【面对面快传/AirDrop】

目录 HTTPS HTTP&#xff08;80端口&#xff09; SSL/TLS协议&#xff08;传输层&#xff0c;443端口&#xff09; 密文传输&#xff1a;SSL的后续版本TLS TLS1.2握手 1.摘要算法(散列函数 Hash Function)&#xff1a;验证信息的完整性&#xff0c;不可逆 第三方认证 引…

GO:Socket编程

目录 一、TCP/IP协议族和四层模型概述 1.1 互联网协议族&#xff08;TCP/IP&#xff09; 1.2 TCP/IP四层模型 1. 网络访问层&#xff08;Network Access Layer&#xff09; 2. 网络层&#xff08;Internet Layer&#xff09; 3. 传输层&#xff08;Transport Layer&#…

kotlin compose 实现应用内多语言切换(不重新打开App)

1. 示例图 2.具体实现 如何实现上述示例,且不需要重新打开App ①自定义 MainApplication 实现 Application ,定义两个变量: class MainApplication : Application() { object GlobalDpData { var language: String = "" var defaultLanguage: Strin…

你不是拖延,是没找对感觉!

在这个快节奏的时代&#xff0c;学习效率成为了我们每个人都渴望提升的关键能力。如何通过训练潜意识、深化知识印象、调整学习模式、找到适合自己的学习方法&#xff0c;以及利用倒计时硬逼法来提高执行力&#xff1f; 1. 训练潜意识&#xff1a;形成习惯 习惯的力量是巨大的…