UM-Net: 重新思考用于息肉分割的ICGNet,结合不确定性建模|文献速递-基于多模态-半监督深度学习的病理学诊断与病灶分割

news2024/11/23 8:45:02

Title

题目

UM-Net: Rethinking ICGNet for polyp segmentation with uncertainty modeling

UM-Net: 重新思考用于息肉分割的ICGNet,结合不确定性建模

01

文献速递介绍

结直肠癌(CRC)是男性中第三大、女性中第二大常见的恶性肿瘤,2020年约有一百万例新发病例,占全球癌症死亡的9.4%(Sung等,2021)。85%的结直肠癌源于结直肠腺瘤性息肉,特别是高危腺瘤(Strum和Williamson,2016)。幸运的是,如果能在结肠癌发生前及时检测并切除结直肠息肉,CRC的发病率和死亡率可以得到有效降低,5年生存率可达90%(Siegel等,2021)。在临床实践中,高质量的结肠镜检查是筛查和切除结直肠息肉的最佳方法,并被视为金标准,能够提供息肉的位置和外观信息。然而,这一过程通常由内镜医生手动进行,可能受到人为主观因素的影响,因息肉的多样性而导致漏诊。一些研究表明,结肠镜检查中息肉漏诊率高达21.4%(Kim等,2017)。因此,迫切需要一种自动且可靠的息肉分割方法,以辅助医生在诊断过程中定位息肉区域。

在不同的发育阶段,结直肠息肉的结构和特征会随时间变化(Jha等,2021)。息肉的大小不一、形状不规则、颜色和外观各异,这使得其分析具有挑战性。此外,一些因素可能会导致分割过程中的错误,如图像中的水流、肠道内容物、模糊、气泡和亮度变化等伪影(Wu等,2021)。

Abatract

摘要

Automatic segmentation of polyps from colonoscopy images plays a critical role in the early diagnosis andtreatment of colorectal cancer. Nevertheless, some bottlenecks still exist. In our previous work, we mainlyfocused on polyps with intra-class inconsistency and low contrast, using ICGNet to solve them. Due to thedifferent equipment, specific locations and properties of polyps, the color distribution of the collected images isinconsistent. ICGNet was designed primarily with reverse-contour guide information and local–global contextinformation, ignoring this inconsistent color distribution, which leads to overfitting problems and makes itdifficult to focus only on beneficial image content. In addition, a trustworthy segmentation model should notonly produce high-precision results but also provide a measure of uncertainty to accompany its predictionsso that physicians can make informed decisions. However, ICGNet only gives the segmentation result andlacks the uncertainty measure. To cope with these novel bottlenecks, we further extend the original ICGNetto a comprehensive and effective network (UM-Net) with two main contributions that have been proved byexperiments to have substantial practical value. Firstly, we employ a color transfer operation to weaken therelationship between color and polyps, making the model more concerned with the shape of the polyps.Secondly, we provide the uncertainty to represent the reliability of the segmentation results and use varianceto rectify uncertainty. Our improved method is evaluated on five polyp datasets, which shows competitiveresults compared to other advanced methods in both learning ability and generalization capability.

结肠镜图像中息肉的自动分割在结直肠癌的早期诊断和治疗中起着关键作用。然而,仍然存在一些瓶颈问题。在我们之前的工作中,主要针对类内不一致和低对比度的息肉,使用了ICGNet来解决这些问题。由于不同的设备、息肉的具体位置和特性,收集到的图像的颜色分布不一致。ICGNet主要通过反向轮廓引导信息和局部-全局上下文信息来设计,但忽视了这种不一致的颜色分布,导致了过拟合问题,使得模型难以仅专注于有用的图像内容。此外,一个可信的分割模型不仅应该产生高精度的结果,还应提供不确定性度量,以便医生能够做出更有根据的决策。然而,ICGNet仅给出了分割结果,缺乏不确定性度量。为了解决这些新出现的瓶颈,我们进一步扩展了原有的ICGNet,提出了一个综合且有效的网络(UM-Net),并通过实验验证了其具有显著的实际价值。首先,我们采用了颜色转移操作,以削弱颜色与息肉之间的关系,使模型更加关注息肉的形状。其次,我们提供了不确定性来表示分割结果的可靠性,并使用方差来修正不确定性。我们改进的方法在五个息肉数据集上进行了评估,与其他先进方法相比,在学习能力和泛化能力方面表现出竞争力。

Method

方法

3.1. Problem definition

Let 𝑇 = {(𝑋𝑖 , 𝑌𝑖 )}𝑁𝑖=1 represent the 𝑁 labeled set, where each pair( 𝑋𝑖 , 𝑌𝑖 ) consists of an image 𝑋𝑖 ∈ R𝐶×𝐻×𝑊 and its correspondingground truth 𝑌𝑖 ∈ {0, 1} 𝐻×𝑊 , where 𝐻 × 𝑊 are spatial dimensions and𝐶 is the number of channels. As discussed in the introduction, the aim isto train a segmentation network 𝐹𝑠𝑒𝑔 under solving the polyp color anduncertainty problem to obtain good performance on the test data. Inthis work, given two inputs 𝑋1 𝑎 and 𝑋2 𝑏 , the color 𝑏 of 𝑋2 𝑏 is transferredto 𝑋1 𝑎 to get the new input 𝑋1 𝑏 , which constitute the segmentationnetwork 𝐹𝑠𝑒𝑔 ( 𝑋1 𝑏 ) . We also model uncertainty in the prediction results𝑈𝑠𝑎𝑣𝑔 ( 𝐹𝑠𝑒𝑔 ( 𝑋1 𝑏 )), with 𝑠 ∈ [0, 4], while minimizing the prediction bias𝑉 𝑎𝑟 ( 𝐹𝑠𝑒𝑔 ( 𝑋1 𝑏 ) , 𝑌 1 )

3.1 问题定义

设 𝑇 = {(𝑋𝑖 , 𝑌𝑖 )}𝑁𝑖=1 代表 𝑁 个已标注的数据集,其中每一对 ( 𝑋𝑖 , 𝑌𝑖 ) 包含一个图像 𝑋𝑖 ∈ R𝐶×𝐻×𝑊 及其对应的真实标签 𝑌𝑖 ∈ {0, 1} 𝐻×𝑊,其中 𝐻 × 𝑊 为空间维度,𝐶 表示通道数。如前文所述,我们的目标是在解决息肉颜色和不确定性问题的同时,训练一个分割网络 𝐹𝑠𝑒𝑔,以在测试数据上获得良好的表现。在本工作中,给定两个输入 𝑋1 𝑎 和 𝑋2 𝑏,将 𝑋2 𝑏 的颜色 𝑏 转换到 𝑋1 𝑎,得到新的输入 𝑋1 𝑏,然后输入到分割网络 𝐹𝑠𝑒𝑔 ( 𝑋1 𝑏 )。我们还对预测结果的不确定性 𝑈𝑠𝑎𝑣𝑔 ( 𝐹𝑠𝑒𝑔 ( 𝑋1 𝑏 )) 进行建模,𝑠 ∈ [0, 4],并且在最小化预测偏差 𝑉𝑎𝑟 ( 𝐹𝑠𝑒𝑔 ( 𝑋1 𝑏 ), 𝑌* 1 ) 的同时进行优化。

Results

结果

5.1. Quantitative evaluation for metric superiority

5.1.1. Learning ability

In this section, we perform the learning ability of our approachon two datasets, and the quantitative results are shown in Tables 2and 3. Compared with ICGNet, UM-Net has improved the Dice andmIoU metrics from 87.93%, 89.56% to 89.26%, and 90.33% respectively on the EndoScene dataset, and from 92.35%, 91.99% to 93.04%,and 92.54% respectively on the Kvasir-SEG dataset. Similarly, ourmethod is superior to other advanced approaches and achieves the bestperformance, further demonstrating good model learning ability.In addition, we also conduct the complexity analysis comparingour method with other advanced methods. The indicators we compare include floating point operations (FLOPs), network parameters(Params), and frames per second (FPS). On the EndoScene dataset,the FLOPs, Params, and FPS of the UM-Net are 16.87G, 22.75M, and46 respectively, meanwhile achieving 15.62G, 22.75M, and 50 on theKvasir-SEG dataset. Although Polyp-PVT obtains the minimum valuein FLOPs, our method only increases 8.28G, and 7.66G on the twodatasets, respectively. In terms of Params, our model has fewer networkparameters than most advanced methods. Since the accuracy of polypsegmentation is crucial for physicians to produce accurate diagnosticresults, we pay more attention to the accuracy of segmentation withlittle difference in model computational complexity. Therefore, UM-Netis still considered to be the optimal model with reasonable efficiency.It is worth noting that the inference speed of our model can reachan average of 48 FPS, which can be used as an auxiliary system fordiagnosis to satisfy real-time prediction.

5.1. 定量评估指标的优越性

5.1.1. 学习能力

在本节中,我们对两个数据集进行了学习能力的评估,定量结果如表2和表3所示。与ICGNet相比,UM-Net在EndoScene数据集上的Dice系数和mIoU(平均交并比)分别从87.93%、89.56%提升至89.26%和90.33%,在Kvasir-SEG数据集上的Dice系数和mIoU分别从92.35%、91.99%提升至93.04%和92.54%。同样,我们的方法优于其他先进的方法,并取得了最佳性能,进一步证明了模型良好的学习能力。

此外,我们还进行了复杂度分析,将我们的方法与其他先进方法进行比较。我们比较的指标包括浮点运算次数(FLOPs)、网络参数(Params)和每秒帧数(FPS)。在EndoScene数据集上,UM-Net的FLOPs、Params和FPS分别为16.87G、22.75M和46;在Kvasir-SEG数据集上,它们分别为15.62G、22.75M和50。尽管Polyp-PVT在FLOPs上取得了最小值,我们的方法仅分别在两个数据集上增加了8.28G和7.66G。在Params方面,我们的模型拥有比大多数先进方法更少的网络参数。由于息肉分割的准确性对于医生生成精确的诊断结果至关重要,因此我们更注重分割的准确性,而模型计算复杂度的差异相对较小。因此,UM-Net仍被认为是具有合理效率的最佳模型。

值得注意的是,我们模型的推理速度平均可以达到48 FPS,这使其可以作为辅助诊断系统,满足实时预测的需求。

Figure

图片

Fig. 1. Challenges and method of our framework to handle the polyps segmentation via using the colonoscopy images. From (a) to (b), they are preliminary work ICGNet and improved method UM-Net, the new challenges of our tasks, respectively

图 1. 我们框架处理通过结肠镜图像进行息肉分割的挑战与方法。从 (a) 到 (b),分别是初步工作ICGNet和改进方法UM-Net,以及我们任务面临的新挑战。

图片

Fig. 2. Overview of the improved UM-Net. It segments the polyps and consists of three stages. Stage1 Input: By using the new polyp images after the color transfer operationas input. Stage2 Feature extraction. Stage3 Outputs: Output segmentation mask as well as corresponding uncertainty. Specifically, the RCG, ALGM, and HPPF modules refer toICGNet (Du et al., 2022)

图 2. 改进后的UM-Net概述。该网络用于息肉分割,包含三个阶段。阶段1 输入:通过颜色转换操作后的新息肉图像作为输入。阶段2 特征提取。阶段3 输出:输出分割掩码及相应的不确定性。特别地,RCG、ALGM和HPPF模块参考了ICGNet(Du等,2022)。

图片

Fig. 3. One iteration of the color transfer operation.

图 3. 颜色转换操作的一次迭代流程。

图片

Fig. 4. Qualitative results of different methods on Kvasir-SEG and EndoScene datasets. The segmentation results are converted to contours and shown in the last column (groundtruth in red, PraNet in cyan, ACSNet in yellow, CCBANet in black, SANet in white, ICGNet in blue, UM-Net in green). In addition, the red dashed boxes indicate the misseddiagnosis area, the red arrows indicate areas that are larger than the ground truth, and the white dashed boxes show the difference between ICGNet and UM-Net predictions.

图 4. 不同方法在Kvasir-SEG和EndoScene数据集上的定性结果。分割结果被转换为轮廓并显示在最后一列(红色为真实值,青色为PraNet,黄色为ACSNet,黑色为CCBANet,白色为SANet,蓝色为ICGNet,绿色为UM-Net)。此外,红色虚线框表示漏诊区域,红色箭头指示大于真实值的区域,白色虚线框显示ICGNet和UM-Net预测结果之间的差异。

图片

Fig. 5. Forest plot of ablation study on the EndoScene test set. Listed on the leftside are the submodules of the ablation study. On the right side are the submodulescorresponding Dice scores and 95% confidence intervals, and in the middle are theirvisual results, where diamond represents the Dice score of each submodule, and thehorizontal line connecting the diamond represents the upper and lower limits of thescore confidence interval

图 5. EndoScene测试集上消融实验的森林图。左侧列出消融实验的各个子模块,右侧为各子模块对应的Dice分数及95%置信区间,中间为它们的可视化结果,其中菱形代表每个子模块的Dice分数,连接菱形的水平线表示该分数置信区间的上下限。

图片

Fig. 6. Feature visualization examples of the UM-Net’s second layer. From left to right are input images (the green curve represents the outline of ground truth), the E-Block 2feature, the RCG module feature, and the ALGM module feature, respectively. After applying two modules, the network well captured missing object parts and details near theboundary, and achieved feature representation.

图 6. UM-Net第二层特征可视化示例。从左到右分别为输入图像(绿色曲线表示真实轮廓)、E-Block 2特征、RCG模块特征和ALGM模块特征。在应用这两个模块后,网络很好地捕捉到了缺失的物体部分和边界附近的细节,并实现了特征表达。

图片

Fig. 7. Shows the variation of UM-Net modeling uncertainty as the number of training iterations continues to increase. From top to bottom on the left are the input images,the ground truth, and the corresponding uncertainty. Row (a) denotes the uncertainty output without variance rectification. Row (b) denotes the uncertainty results of variancerectification. Row (c) denotes the variance calculated between the prediction masks and the ground truth

图 7. 显示了随着训练迭代次数的增加,UM-Net建模不确定性的变化情况。左侧从上到下分别为输入图像、真实值及其对应的不确定性。(a)行表示未经过方差修正的不确定性输出。(b)行表示经过方差修正的不确定性结果。(c)行表示预测掩码与真实值之间计算的方差。

图片

Fig. 8. Provide an evaluation of the reliability degree of the result of two cases in the test set. For each case, from left to right, the first column is the input image and itscorresponding ground truth. The second column displays the prediction for the ICGNet and UM-Net. The third column displays the uncertainty map associated with the predictionfor both models. The last column displays the variance.

图 8. 对测试集中两个案例的结果可靠性进行评估。对于每个案例,从左到右,第一列是输入图像及其对应的真实值。第二列显示ICGNet和UM-Net的预测结果。第三列显示与这两种模型预测相关的不确定性图。最后一列显示方差图。

图片

Fig. 9. Failure cases in EndoScene (a, b) and Kvasir-SEG (c, d) datasets. Green and red contours outline our prediction and ground truth of the polyp boundary

图 9. EndoScene (a, b) 和 Kvasir-SEG (c, d) 数据集中的失败案例。绿色和红色轮廓分别勾勒出我们的预测结果和息肉边界的真实值。

Table

图片

Table 1Details of the datasets for training, validation and testing.

表 1用于训练、验证和测试的数据集详情。

图片

Table 2Quantitative results of the EndoScene test datasets. ‘n/a’ denotes that the results are not available.

表 2EndoScene测试数据集的定量结果。“n/a”表示结果不可用。

图片

Table 3Quantitative results of the Kvasir-SEG test datasets. ‘n/a’ denotes that the results are not available.

表 3Kvasir-SEG测试数据集的定量结果。“n/a”表示结果不可用。

图片

Table 4Quantitative results of the test datasets ColonDB, ETIS and CVC300.

表 4ColonDB、ETIS和CVC300测试数据集的定量结果。

图片

Table 5The quantitative evaluation of the ablation studies on the EndoScene test set.

表 5EndoScene测试集上消融实验的定量评估结果。

图片

Table 695% confidence intervals for all metrics.

表 6所有指标的95%置信区间。

图片

Table 7Quantitative results for a subset (C6) of the PolypGen dataset.

表 7PolypGen数据集子集(C6)的定量结果。

图片

Table 8Quantitative results on CVC-300-TV dataset

表 8CVC-300-TV数据集的定量结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2202971.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python+pytest+request 接口自动化测试

一、环境配置 1.安装python3 brew update brew install pyenv 然后在 .bash_profile 文件中添加 eval “$(pyenv init -)” pyenv install 3.5.3 -v pyenv rehash 安装完成后,更新数据库 pyenv versions 查看目前系统已安装的 Python 版本 pyenv global 3.5…

[实用工具]Docker安装nextcloud实现私有云服务和onlyoffice

Nextcloud是一款开源的云存储和协作平台,允许用户在自己的服务器上存储和访问文件,同时提供强大的协作工具。它可以替代商业云存储服务,让用户拥有完全控制和自主管理自己的数据。 Nextcloud支持文件上传和下载,可以通过Web界面、…

Android实现RecyclerView宽度变化动画

效果图 实现思路就是定义一个属性动画,在动画监听器中不断修改RecyclerView的宽度 valueAnimator ValueAnimator.ofInt(begin, recyclerView.getWidth() * 2);valueAnimator.addUpdateListener(new ValueAnimator.AnimatorUpdateListener() {Overridepublic void …

EasyAnimate

https://github.com/aigc-apps/EasyAnimate/blob/main/README_zh-CN.mdhttps://github.com/aigc-apps/EasyAnimate/blob/main/README_zh-CN.md EasyAnimate v4是一个用于生成高分辨率和长视频的端到端解决方案。我们可以训练基于转换器的扩散生成器,训练用于处理长视频的VAE,…

python35_控制台简单计算年薪

控制台简单计算年薪 def calculate_annual_salary(monthly_salaries):"""计算年薪。参数:monthly_salaries: list of float,每个月的工资列表。返回值:float,用户的年薪。"""annual_salary sum(monthly_salaries)return…

论文作者署名排序是怎么界定的?

人人都想在论文的作者名单中占个位子,特别是一作和通讯作者,我也经常会收到一些人的哭诉,说自己明明做了大部分的工作,但却让别人的名字挂在第一作者。 在厘清一作与通讯作者的意义之前,我们先来看看谁可以署名。目前国…

经典蓝牙BLE版本区别:【图文讲解】

蓝牙是一种短距的无线通讯技术,可实现固定设备、移动设备之间的数据交换。一般将蓝牙3.0之前的BR/EDR蓝牙称为传统蓝牙,而将蓝牙4.0规范下的LE蓝牙称为低功耗蓝牙(BLE)。 1:蓝牙4.0 BLE 4.0版本是3.0版本的升级版本&a…

MySQL 初探:从基础到优化

什么是 MySQL? MySQL 是一个开源的关系型数据库管理系统 (RDBMS),使用结构化查询语言 (SQL) 进行数据管理。作为最流行的数据库之一,MySQL 被广泛应用于各类网站和应用中,从小型应用到大型复杂系统。 MySQL 的特点 开源免费&am…

antdv树形表格 大量tooltip等组件导致页面卡顿问题优化

vue3、ant-design-vue 4.2.3 遇到的问题:页面中有个展示树形数据的表格,默认需要全部展开,有一组数据量较大时页面首次渲染时非常卡顿,发现每次都大概用了7、8秒才完成渲染。表格展开的数据大概300条数据,操作列中有5…

SpringBoot框架下的服装生产管理系统

1 绪论 1.1 研究背景 当今时代是飞速发展的信息时代。在各行各业中离不开信息处理,这正是计算机被广泛应用于信息管理系统的环境。计算机的最大好处在于利用它能够进行信息管理。使用计算机进行信息控制,不仅提高了工作效率,而且大大的提高…

leetcode:反转字符串中的单词III

题目链接 string reverse(string s1) {string s2;string::reverse_iterator rit s1.rbegin();while (rit ! s1.rend()){s2 *rit;rit;}return s2; } class Solution { public:string reverseWords(string s) {string s1; int i 0; int j 0; int length s.length(); for (i …

2024年【金属非金属矿山(地下矿山)安全管理人员】复审考试及金属非金属矿山(地下矿山)安全管理人员在线考试

题库来源:安全生产模拟考试一点通公众号小程序 金属非金属矿山(地下矿山)安全管理人员复审考试考前必练!安全生产模拟考试一点通每个月更新金属非金属矿山(地下矿山)安全管理人员在线考试题目及答案&#…

防汛可视化系统:提升应急响应能力

通过图扑可视化系统实时监测水情、雨情和地理数据,辅助防汛决策与调度,提供直观的风险预警信息,从而优化资源分配,提高防汛应急响应效率。

进程通讯方式区别(从不同角度看)

*常用到的不同主机间进程通讯:Socket。比如:host和引擎间socket指令通讯、分派和复判之间指令通讯; *共享内存:在Windows系统中,共享内存的实现通常有以下几种方式: 1.内存映射文件(最常用):(…

linux上的smb共享文件夹

需求描述 公司的打印机使用扫描功能的时候,需要发送大量文件。然鹅公司的电脑都是加入了AzureAD的,不能在公司电脑上简单设置共享。好在公司有很多阿里云上的服务器,Linux和Windows的都有,所以就来尝试用阿里云的服务器来进行smb…

正点原子学习笔记之汇编LED驱动实验

1 汇编LED原理分析 为什么要写汇编     需要用汇编初始化一些SOC外设     使用汇编初始化DDR、I.MX6U不需要     设置sp指针,一般指向DDR,设置好C语言运行环境 1.1 LED硬件分析 可以看到LED灯一端接高电平,一端连接了GPIO_3上面…

华捷艾米3D结构光模组测试

1.测试项目总览 本次测试主要测试以下几个方面: 模组的基本属性和SDK基本功能;华捷艾米提供的人脸防伪算法性能;模组的逆光性能。 2.基本属性和SDK基本功能 图像属性: 模组提供的3d深度数据标称分辨率最大为640x480&#xff0…

软件测试学习笔记丨MongoDB

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/32359 一、MangoDB数据库 1.1 关系与非关系 1.1.1 关系型数据库 关系型数据库 MySQL,Oracle, SQLServer, Access…SQL(结构化查询语句&#x…

[图形学]smallpt代码详解(上)

一、简介 本文介绍了著名的99行代码实现全局光照的光线跟踪代码smallpt。 包括对smallpt的功能介绍、编译运行介绍,和对代码的详细解释。希望能够帮助读者更进一步的理解光线跟踪。 二、smallpt介绍 1.smallpt是什么 smallpt(small Path Tracing) 是一个全局光照…

微信服务号灰度测试折叠,看谁该慌了?

2024年国庆节前夕,突然发现我的微信的会话列表清静了不少。 紧接着,我马上就慌了... 🤔怎么“丰巢快递”不见了,我要找取件码 🤔我的flomo浮墨笔记公众号呢?我要记笔记啊 🤔这个月怎么没有…