I 2U-Net:具有丰富信息交互的双路径 U-Net 用于医学图像分割| 文献速递-基于深度学习的多模态数据分析与生存分析

news2024/11/13 15:19:02

Title

题目

I 2U-Net: A dual-path U-Net with rich information interaction for medical image segmentation

I 2U-Net:具有丰富信息交互的双路径 U-Net 用于医学图像分割

01

文献速递介绍

在计算机视觉领域,医学图像分割是一个主要挑战,例如皮肤镜图像中的皮肤病变分割(Dai等,2022年)、结肠镜图像中的息肉分割(Fan等,2020年)、磁共振图像中的脑肿瘤分割(Wang等,2021年)以及腹部CT图像中的多器官分割(Cao等,2021年)。这些分割结果提供了关于解剖区域的宝贵信息,有助于详细分析和帮助医生准确描绘损伤、监测疾病进展,并评估适当治疗的需求。随着对智能医学图像分析需求的增加,精确而稳健的分割方法变得越来越重要。

为了满足这一需求,许多具有编码器-解码器结构的深度学习方法被提出(Ramesh等,2021年)。它们的编码器通常用于提取图像特征,解码器则用于将提取的特征恢复到原始图像大小,并输出最终的分割结果。作为编码器-解码器网络的代表,U-Net(Ronneberger等,2015年)在许多医学分割任务中证明了其有效性,这启发了一系列高效的U形分割网络的发展,如Attention U-Net(Oktay等,2018年)、Res-UNet(Xiao等,2018年)和DR-UNet(Li等,2019年)。

尽管这些U形网络在医学图像分割中被广泛使用,但仍存在一个不可忽视的问题,即对具有模糊边界和不规则形状病变的分割结果不理想。这一结果主要归因于两个因素:(i)U形网络编码器提取的特征几乎被抽象语义信息所占据,失去了大量详细内容描述;(ii)尽管解码器中的跳跃连接可以融合低分辨率和高分辨率信息以改善特征学习,但受限于低分辨率和高分辨率特征之间的较大语义差距,导致特征图模糊和分割结果不佳(Pang等,2019年)。如图1所示,随着网络加深,详细信息(如边界、形状和纹理)逐渐减少,这显然对密集预测任务不利

Abstract

摘要

尽管 U 形网络在许多医学图像分割任务中取得了显著的性能,但它们很少建模层次化层之间的顺序关系。这一弱点使得当前层难以有效利用前一层的历史信息,导致对具有模糊边界和不规则形状病变的分割结果不尽如人意。为了解决这一问题,我们提出了一种新颖的双路径 U-Net,称为 I2U-Net。新提出的网络通过双路径之间的丰富信息交互,鼓励历史信息的重复使用和重新探索,使得深层可以学习更全面的特征,既包含低层次的详细描述,又包含高层次的语义抽象。具体来说,我们引入了一个多功能信息交互模块(MFII),它通过统一设计可以建模跨路径、跨层次和跨路径-层次的信息交互,使得所提出的 I2U-Net 表现类似于展开的 RNN,并享有建模时间序列信息的优势。此外,为了进一步选择性地和敏感地整合双路径编码器提取的信息,我们提出了一种全面信息融合和增强模块(HIFA),可以有效地连接编码器和解码器。在包括皮肤病变、息肉、脑肿瘤和腹部多器官分割在内的四个具有挑战性的任务上进行的广泛实验一致显示,所提出的 I2U-Net 在性能和泛化能力上均优于其他最先进的方法。

Method

方法

Chen et al. (2017) revealed that residual connection (He et al.,enables feature re-usage while dense connection (Huang et al.,encourages new feature exploration, which are both importantfor learning valuable representations. They also found that while residual and dense connections differ on the surface, both of them aremanifestations of a higher-order recurrent neural network (HORNN).Motivated by these, we propose a dual-path U-Net for medical imagesegmentation, dubbed I2U-Net. One path of I2U-Net is dedicated toimage feature information, while the other is to hidden state information with shared convolutional kernels along the depth. This structureallows I2U-Net to work similarly to an unfolded RNN (LeCun et al.,2015; Zhao et al., 2021) and enjoy its advantage of modeling time sequence information. It also allows I2U-Net to inherit the advantages ofresidual and dense connections, enabling convenient re-usage of historyfeatures and flexible exploration of new features with an acceptablecomputation cost.

Chen等人(2017年)揭示了残差连接(He等,2016年)能够实现特征的重复使用,而密集连接(Huang等,2017年)则鼓励新特征的探索,这两者对于学习有价值的表示是非常重要的。他们还发现,尽管在表面上残差连接和密集连接有所不同,但它们都是高阶递归神经网络(HORNN)的表现形式。

受此启发,我们提出了一种用于医学图像分割的双路径 U-Net,名为 I2U-Net。I2U-Net 的一个路径专注于图像特征信息,而另一个路径专注于隐藏状态信息,并且沿着深度使用共享的卷积核。这种结构使得 I2U-Net 可以类似于展开的RNN(LeCun等,2015年;Zhao等,2021年),享受其建模时间序列信息的优势。同时,这种结构也让 I2U-Net 继承了残差连接和密集连接的优势,能够方便地重复使用历史特征,并以可接受的计算成本灵活探索新特征。

Conclusion

结论

This paper proposed a dual-path U-net (dubbed I2U-Net) with richinformation interaction for medical image segmentation, which workssimilarly to an unfolded RNN and enjoys the advantage of modeling thetime-sequential relationship between different network layers. Specifically, I2U-Net developed a multi-functional information interactionmodule (MFII) that enables the current layer to effectively re-use andre-explore the previous layers’ historical information, allowing deeplayers to learn more comprehensive features that contain both low-leveldetail description and high-level semantic abstraction. Moreover, I2UNet developed a holistic information fusion and augmentation module(HIFA) to sensitively augment the information extracted by the dualpath encoder. The proposed HIFA merges the advantage of local andglobal operation and can flexibly learn discriminative representationfrom a wider frequency range, bridging the encoder and the decodermore efficiently. Thanks to these creative designs, extensive experiments on four challenging tasks, including skin lesion, polyp, braintumor, and abdominal multi-organ segmentation, consistently provedthat the proposed I2U-Net has excellent segmentation performance andgeneralization ability.

本文提出了一种具有丰富信息交互的双路径U-Net(称为I2U-Net),用于医学图像分割,其工作原理类似于展开的RNN,并享有建模不同网络层之间时间序列关系的优势。具体而言,I2U-Net开发了一个多功能信息交互模块(MFII),使当前层能够有效地重复使用和重新探索前几层的历史信息,从而使深层能够学习到更全面的特征,既包括低级别的详细描述,也包括高级别的语义抽象。此外,I2U-Net开发了一个全面的信息融合和增强模块(HIFA),以敏感地增强双路径编码器提取的信息。所提出的HIFA融合了局部和全局操作的优势,可以灵活地从更广泛的频率范围学习判别性表示,更有效地连接编码器和解码器。由于这些创新设计,针对皮肤病变、息肉、脑肿瘤和腹部多器官分割等四项挑战性任务的广泛实验一致表明,所提出的I2U-Net具有出色的分割性能和泛化能力。

Figure

图片

Fig. 1. Heat maps in four different layers of the U-Net.

图1. U-Net 中四个不同层次的热力图。

图片

Fig. 2. Illustration of the proposed I2U-Net. I2U-Net is a dual-path U-Net with rich information interaction. One path uses medical images as input to extract image featureinformation like traditional U-Nets. In contrast, the other path uses zero-initialized learnable matrix as input to store the hidden state information with shared convolutional kernelsalong the depth. This structure allows I2U-Net to work similarly to an unfolded RNN and enjoy its advantages, including modeling the time-sequential relationship of hierarchicallayers and making the most of historical information.

图2. 所提出的I2U-Net示意图。I2U-Net是一个具有丰富信息交互的双路径U-Net。其中一条路径使用医学图像作为输入,提取像传统U-Net一样的图像特征信息。相比之下,另一条路径使用零初始化的可学习矩阵作为输入,在深度上使用共享的卷积核存储隐藏状态信息。这种结构使得I2U-Net可以类似于展开的RNN工作,并享受其优势,包括建模层次化层之间的时间序列关系,充分利用历史信息。

图片

Fig. 3. Illustration of the proposed MFII module. MFII enables multi-faceted information interaction among the dual paths of I2U-Net. MFII has three differentrepresentations: E-MFII, E-MFII, and D-MFII. E-MFII and E-MFII are used in theencoder stage. Their difference is that E-MFII* reduces the feature size by convolutionwith stride 2, while E-MFII keeps the size unchanged. D-MFII is used in the decoderstage, which increases the feature size by deconvolution.

图3. 所提出的MFII模块示意图。MFII模块实现了I2U-Net双路径之间的多方面信息交互。MFII具有三种不同的表示形式:E-MFII、E-MFII和D-MFII。E-MFII和E-MFII用于编码器阶段。它们的区别在于,E-MFII*通过步幅为2的卷积来减小特征大小,而E-MFII保持大小不变。D-MFII用于解码器阶段,通过反卷积来增加特征大小。

图片

Fig. 4. Demonstration of the pyramid pooling and the multi-scale atrous convolution in HIFA module.

图4. HIFA模块中金字塔池化和多尺度空洞卷积的示意图。

图片

Fig. 5. Sample results of skin lesion segmentation on ISIC2018 (first three rows)and PH2 (last two rows). The colors white, green, and red represent the correctsegmentation, under-segmentation, and over-segmentation, respectively.

图5. 在ISIC2018数据集上的皮肤病变分割示例结果(前三行)和在PH2数据集上的示例结果(后两行)。白色、绿色和红色分别表示正确分割、欠分割和过分割。

图片

Fig. 6. Trend graph of IoU score in skin lesion segmentation task.

图6. 皮肤病变分割任务中IoU分数的趋势图。

图片

Fig. 7. Sample results of polyp segmentation on five public datasets. The colorswhite, green, and red represent the correct segmentation, under-segmentation, andover-segmentation, respectively.

图7. 在五个公共数据集上的息肉分割示例结果。白色、绿色和红色分别表示正确分割、欠分割和过分割。

图片

Fig. 8. Sample results of brain tumor segmentation. The union of red, blue, and greenregions represents the Whole Tumor(WT); the union of red and blue regions representsthe Tumor Core (TC); and the green region denotes the Enhancing Tumor (ET).

图8. 脑肿瘤分割的示例结果。红色、蓝色和绿色区域的并集代表整个肿瘤(WT);红色和蓝色区域的并集代表肿瘤核心(TC);绿色区域表示增强肿瘤(ET)。

图片

Fig. 9. Sample results of abdominal multi-organ segmentation.

图9. 腹部多器官分割的示例结果。

图片

Fig. 10. Segmentation results of different models in our system.

图10. 我们系统中不同模型的分割结果。

图片

Fig. 11. Heat maps are obtained by the four encoder stages of the Baseline and ourI 2U-Net.

图11. 热力图由基线模型和我们的I2U-Net的四个编码器阶段获取。

图片

Fig. 12. Heat maps are obtained by different bridges in our system.

图12. 我们系统中不同桥接方式获取的热力图。

图片

Fig. 13. Influence of pre-trained parameters on IoU score of skin disease segmentation tasks.

图13. 预训练参数对皮肤病分割任务IoU分数的影响

Table

图片

Table 1Compared with different methods for skin lesion segmentation. The best results are in bold

表1与不同的皮肤病变分割方法比较。最佳结果用粗体显示。

图片

Table 2 Compared with different methods for polyp segmentation. The best results are in bold.

表2 不同息肉分割方法的比较。最佳结果用粗体显示。

图片

Table 3Compared with different methods for brain tumor segmentation. WT, ET and TC represent Whole Tumor, Enhancing Tumor and Tumor Core sub-regions, respectively. The bestresults are in bold.

表3 不同脑肿瘤分割方法的比较。WT、ET和TC分别代表整个肿瘤、增强肿瘤和肿瘤核心子区域。最佳结果用粗体显示。

图片

Table 4Compared with different methods for abdominal multi-organ segmentation. The best results are in bold.

表4 不同腹部多器官分割方法的比较。最佳结果用粗体显示。

图片

Table 5Segmentation performances of different models in our system. The proposed I2U-Net is Model 4. The number of parameter and FLOPs are calculated based onthe 2D segmentation tasks.

表5 我们系统中不同模型的分割性能。提出的I2U-Net是模型4。参数数量和FLOPs是基于2D分割任务计算的。

图片

图片

Table 6 Segmentation performance of I2U-Net variants equipped with different bridges. The number of parameter and FLOPs are calculated based on the 2D segmentation tasks

表6 不同桥接方式装备的I2U-Net变体的分割性能。参数数量和FLOPs是基于2D分割任务计算的。

图片

Table 7Segmentation performances of MFII and its two variants

表7 MFII及其两个变体的分割性能

图片

Table 8Segmentation performance of different hidden state initialization methods.

表8 不同隐藏状态初始化方法的分割性能

图片

Table 9Influence of pre-trained parameters on the performance of different methods.

表9 预训练参数对不同方法性能的影响

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1907274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入解析:抖音视频标题的Python爬虫提取方法

引言 随着短视频的兴起,抖音已经成为全球最受欢迎的社交媒体平台之一。对于数据分析师、市场研究人员以及内容创作者来说,能够从抖音上抓取数据是一项宝贵的技能。本文将深入解析如何使用Python编写爬虫程序来提取抖音视频的标题。 爬虫基础 在开始编…

家里猫咪浮毛太多怎么办?值得买的猫毛空气净化器推荐

作为一位拥有5年铲屎经验的铲屎官,我知道许多新手铲屎官可能听说过宠物空气净化器,但了解得不多。事实上,宠物空气净化器确实是养猫家庭必备的小家电之一。它的大面积进风口可以有效吸附空气中的微小浮毛和皮屑,专门的除臭技术能有…

使用 Python 处理 Lumerical 导出的 .txt 文件(完结)

使用 Python 处理 Lumerical 导出的 .txt 文件 引言正文以 , 隔开的波长与透射率以 \t 隔开的波长与透射率引言 之前在 添加链接描述 一文中我们已经介绍了如何将 Lumerical 仿真中的 S 参数相关数据导出为 .txt 文件。这里我们来分享如何使用 Python 对这些数据进行处理。 正…

旋转木马案例

旋转木马 如果接口需要的数据格式和原始数据提供的格式有差异 不要去改接口方法 也不要改原始数据 做一层中间件(数据处理函数/方法) <!DOCTYPE html> <html lang"zh-cn"><head><meta charset"UTF-8"><meta name"viewport…

分销密文下单

背景 事情的经过就是今天早上一共下了10个单&#xff0c;然后就下不了单了。 如下图&#xff1a; 来到抖店后台显示什么解密额度已经用完了 所以&#xff0c;今天必须把困扰我很久的分销密文下单解决掉 操作 1688分销下单-逸淘订单 1 先关联商品 2 下单 首页导航栏--1688分…

重塑通信边界,基于ZYNQ7000 FPGA驱动的多频段多协议软件无线电平台

01、产品概述 本平台是基于高性能ZYNQ-7000系列中的XC7Z045处理器构建的多频段多协议软件无线电解决方案&#xff0c;集成了AD9364芯片——一款业界领先的1x1通道RF敏捷收发器&#xff0c;为无线通信应用提供了强大支持。其存储架构包括2路高速4GB DDR3内存、1路32GB EMMC存储以…

可信验证解释

学习目标&#xff1a;可信验证解释 可信验证是一种基于计算机技术和安全机制&#xff0c;用于确保系统、程序或数据的完整性和可信性的方法。以下是关于可信验证的详细解释&#xff1a;一、定义与原理 可信验证指的是利用计算机技术和安全机制&#xff0c;对系统、程序或数据…

MobaXterm工具

MobaXterm 是一个增强型的 Windows 终端。其为 Windows 桌面提供所有重要的远程网络终端工具&#xff08;如 SSH、X11、RDP、VNC、FTP、SFTP、Telnet、Serial、Mosh、WSL 等&#xff09;&#xff0c;和 Unix 命令&#xff08;如 bash、ls、cat、sed、grep、awk、rsync 等&#…

深度学习编码解码结构-以及kreas简单实现

图像分割中的编码解码结构&#xff08;Encoder-Decoder Model&#xff09;是一种广泛应用的网络架构&#xff0c;它有效地结合了特征提取&#xff08;编码&#xff09;和分割结果生成&#xff08;解码&#xff09;两个过程。以下是对图像分割中编码解码结构的详细解析&#xff…

写一个函数,返回参数二进制中 1 的个数

代码要求 输入一个整数n&#xff0c;输出该数32位二进制中为1的个数&#xff08;包括最高位的符号位&#xff09;&#xff0c;其中负数用补码表示 如&#xff1a;输入&#xff1a;15 &#xff08;15的二进制表示&#xff1a;0000 1111&#xff09; 输出&#xff1a;4 代码实…

音频demo:使用fdk-aac将PCM数据编码成aac数据

1、README a. 编译 编译demo 本demo是使用的开源项目fdk-aac将PCM数据编码成aac音频文件。由于提供的.a静态库是在x86_64的机器上编译的&#xff0c;所以默认情况下仅支持该架构的主机上编译运行。 $ make编译fdk-aac&#xff08;可选&#xff09; 如果想要在其他架构的CP…

20240709 每日AI必读资讯

&#x1f9e0;手把手教你如何打造《星际穿越》中的 TARS 机器人复制品&#xff01; - 一位名为 Charles Diaz 的开发者使用树莓派创建了一个完全功能的 TARS 复制品。 - 使用树莓派3B作为主控&#xff0c;配合Adafruit PCA-9685伺服驱动器&#xff0c;通过编写的步态控制程序…

【版面费优惠丨ACM独立出版丨接受全文摘要投稿】2024年生物医药和智能技术国际学术会议(ICBIT 2024,8月23-25)

“2024年生物医药和智能技术国际学术会议&#xff08;ICBIT 2024&#xff09;”拟定于2024年8月23-25日于珠海召开。近年来&#xff0c;智能技术已经逐渐走入生物医药领域&#xff0c;并在与生物医药领域的融合创新中凸显出巨大的发展潜力和社会价值。人工智能技术在生物医药领…

原创作品——教育课程界面设计

教育行业UI界面设计需直观易懂&#xff0c;确保学习者能迅速上手&#xff0c;减少认知负担。布局清晰&#xff0c;导航便捷&#xff0c;功能按钮和图标设计应符合教育场景&#xff0c;直接支持学习目标的达成&#xff0c;促进高效学习体验。 通过丰富的互动元素&#xff08;如拖…

面试题005-Java-JVM(上)

面试题005-Java-JVM(上) 目录 面试题005-Java-JVM(上)题目自测题目答案1. JVM由哪几部分组成&#xff1f;2. 运行时数据区中包含哪些区域&#xff1f;3. 栈和堆中分别存放什么数据&#xff1f;4. 为什么要将永久代 (PermGen) 替换为元空间 (MetaSpace) &#xff1f;5. 堆空间的…

vue详解

目录 ​编辑 常用指令 v-for v-bind v-if & v-show v-if v-show v-on v-model Vue生命周期 ​编辑 Axios Axios使用步骤 Axios-请求方式别名 Vue简单案例 常用指令 指令:HTML标签上带有 v-前缀的特殊属性&#xff0c;不同的指令具有不同的含义&#xff0c;可…

股票数据分析(K线图、均值图、MACD图、RSI图)--股票日数据

数据 数据是上证指数日行情数据&#xff0c;股票代码000002.sz&#xff0c;原始数据shdata示例如下&#xff1a; 读取数据&#xff1a; import numpy as np import pandas as pd import mplfinance as mpf import matplotlib.pyplot as plt from datetime import datetime imp…

三、mysql-万字长文读懂mysql

mysql 三、 Mysql3.1 基础3.1.1 mysql执行流程-组成架构3.2 索引3.2.1 索引底层的数据结构与算法分类在创建表时,InnoDB 存储引擎会根据不同的场景选择不同的列作为索引B+树结构3.2.2 为什么 MySQL InnoDB 选择 B+tree 作为索引的数据结构3.2.2.1. 从磁盘角度出发3.2.2.2. 数据…

全志A527 T527 设置左右分屏修改为单屏幕,应用分屏改为单屏

1.前言 android13中,A527的系统设置变成,左边是一级菜单,右侧是二级菜单, 这样跟我们以前android7/8/9的布局是不一样的,我们需要将它修改为一级菜单,点进去才是二级菜单这种。 效果如下 2.系统设置实现分析 它这里使用的是google新出的embedding activity, 相关的知…