Title
题目
I 2U-Net: A dual-path U-Net with rich information interaction for medical image segmentation
I 2U-Net:具有丰富信息交互的双路径 U-Net 用于医学图像分割
01
文献速递介绍
在计算机视觉领域,医学图像分割是一个主要挑战,例如皮肤镜图像中的皮肤病变分割(Dai等,2022年)、结肠镜图像中的息肉分割(Fan等,2020年)、磁共振图像中的脑肿瘤分割(Wang等,2021年)以及腹部CT图像中的多器官分割(Cao等,2021年)。这些分割结果提供了关于解剖区域的宝贵信息,有助于详细分析和帮助医生准确描绘损伤、监测疾病进展,并评估适当治疗的需求。随着对智能医学图像分析需求的增加,精确而稳健的分割方法变得越来越重要。
为了满足这一需求,许多具有编码器-解码器结构的深度学习方法被提出(Ramesh等,2021年)。它们的编码器通常用于提取图像特征,解码器则用于将提取的特征恢复到原始图像大小,并输出最终的分割结果。作为编码器-解码器网络的代表,U-Net(Ronneberger等,2015年)在许多医学分割任务中证明了其有效性,这启发了一系列高效的U形分割网络的发展,如Attention U-Net(Oktay等,2018年)、Res-UNet(Xiao等,2018年)和DR-UNet(Li等,2019年)。
尽管这些U形网络在医学图像分割中被广泛使用,但仍存在一个不可忽视的问题,即对具有模糊边界和不规则形状病变的分割结果不理想。这一结果主要归因于两个因素:(i)U形网络编码器提取的特征几乎被抽象语义信息所占据,失去了大量详细内容描述;(ii)尽管解码器中的跳跃连接可以融合低分辨率和高分辨率信息以改善特征学习,但受限于低分辨率和高分辨率特征之间的较大语义差距,导致特征图模糊和分割结果不佳(Pang等,2019年)。如图1所示,随着网络加深,详细信息(如边界、形状和纹理)逐渐减少,这显然对密集预测任务不利
Abstract
摘要
尽管 U 形网络在许多医学图像分割任务中取得了显著的性能,但它们很少建模层次化层之间的顺序关系。这一弱点使得当前层难以有效利用前一层的历史信息,导致对具有模糊边界和不规则形状病变的分割结果不尽如人意。为了解决这一问题,我们提出了一种新颖的双路径 U-Net,称为 I2U-Net。新提出的网络通过双路径之间的丰富信息交互,鼓励历史信息的重复使用和重新探索,使得深层可以学习更全面的特征,既包含低层次的详细描述,又包含高层次的语义抽象。具体来说,我们引入了一个多功能信息交互模块(MFII),它通过统一设计可以建模跨路径、跨层次和跨路径-层次的信息交互,使得所提出的 I2U-Net 表现类似于展开的 RNN,并享有建模时间序列信息的优势。此外,为了进一步选择性地和敏感地整合双路径编码器提取的信息,我们提出了一种全面信息融合和增强模块(HIFA),可以有效地连接编码器和解码器。在包括皮肤病变、息肉、脑肿瘤和腹部多器官分割在内的四个具有挑战性的任务上进行的广泛实验一致显示,所提出的 I2U-Net 在性能和泛化能力上均优于其他最先进的方法。
Method
方法
Chen et al. (2017) revealed that residual connection (He et al.,enables feature re-usage while dense connection (Huang et al.,encourages new feature exploration, which are both importantfor learning valuable representations. They also found that while residual and dense connections differ on the surface, both of them aremanifestations of a higher-order recurrent neural network (HORNN).Motivated by these, we propose a dual-path U-Net for medical imagesegmentation, dubbed I2U-Net. One path of I2U-Net is dedicated toimage feature information, while the other is to hidden state information with shared convolutional kernels along the depth. This structureallows I2U-Net to work similarly to an unfolded RNN (LeCun et al.,2015; Zhao et al., 2021) and enjoy its advantage of modeling time sequence information. It also allows I2U-Net to inherit the advantages ofresidual and dense connections, enabling convenient re-usage of historyfeatures and flexible exploration of new features with an acceptablecomputation cost.
Chen等人(2017年)揭示了残差连接(He等,2016年)能够实现特征的重复使用,而密集连接(Huang等,2017年)则鼓励新特征的探索,这两者对于学习有价值的表示是非常重要的。他们还发现,尽管在表面上残差连接和密集连接有所不同,但它们都是高阶递归神经网络(HORNN)的表现形式。
受此启发,我们提出了一种用于医学图像分割的双路径 U-Net,名为 I2U-Net。I2U-Net 的一个路径专注于图像特征信息,而另一个路径专注于隐藏状态信息,并且沿着深度使用共享的卷积核。这种结构使得 I2U-Net 可以类似于展开的RNN(LeCun等,2015年;Zhao等,2021年),享受其建模时间序列信息的优势。同时,这种结构也让 I2U-Net 继承了残差连接和密集连接的优势,能够方便地重复使用历史特征,并以可接受的计算成本灵活探索新特征。
Conclusion
结论
This paper proposed a dual-path U-net (dubbed I2U-Net) with richinformation interaction for medical image segmentation, which workssimilarly to an unfolded RNN and enjoys the advantage of modeling thetime-sequential relationship between different network layers. Specifically, I2U-Net developed a multi-functional information interactionmodule (MFII) that enables the current layer to effectively re-use andre-explore the previous layers’ historical information, allowing deeplayers to learn more comprehensive features that contain both low-leveldetail description and high-level semantic abstraction. Moreover, I2UNet developed a holistic information fusion and augmentation module(HIFA) to sensitively augment the information extracted by the dualpath encoder. The proposed HIFA merges the advantage of local andglobal operation and can flexibly learn discriminative representationfrom a wider frequency range, bridging the encoder and the decodermore efficiently. Thanks to these creative designs, extensive experiments on four challenging tasks, including skin lesion, polyp, braintumor, and abdominal multi-organ segmentation, consistently provedthat the proposed I2U-Net has excellent segmentation performance andgeneralization ability.
本文提出了一种具有丰富信息交互的双路径U-Net(称为I2U-Net),用于医学图像分割,其工作原理类似于展开的RNN,并享有建模不同网络层之间时间序列关系的优势。具体而言,I2U-Net开发了一个多功能信息交互模块(MFII),使当前层能够有效地重复使用和重新探索前几层的历史信息,从而使深层能够学习到更全面的特征,既包括低级别的详细描述,也包括高级别的语义抽象。此外,I2U-Net开发了一个全面的信息融合和增强模块(HIFA),以敏感地增强双路径编码器提取的信息。所提出的HIFA融合了局部和全局操作的优势,可以灵活地从更广泛的频率范围学习判别性表示,更有效地连接编码器和解码器。由于这些创新设计,针对皮肤病变、息肉、脑肿瘤和腹部多器官分割等四项挑战性任务的广泛实验一致表明,所提出的I2U-Net具有出色的分割性能和泛化能力。
Figure
图
Fig. 1. Heat maps in four different layers of the U-Net.
图1. U-Net 中四个不同层次的热力图。
Fig. 2. Illustration of the proposed I2U-Net. I2U-Net is a dual-path U-Net with rich information interaction. One path uses medical images as input to extract image featureinformation like traditional U-Nets. In contrast, the other path uses zero-initialized learnable matrix as input to store the hidden state information with shared convolutional kernelsalong the depth. This structure allows I2U-Net to work similarly to an unfolded RNN and enjoy its advantages, including modeling the time-sequential relationship of hierarchicallayers and making the most of historical information.
图2. 所提出的I2U-Net示意图。I2U-Net是一个具有丰富信息交互的双路径U-Net。其中一条路径使用医学图像作为输入,提取像传统U-Net一样的图像特征信息。相比之下,另一条路径使用零初始化的可学习矩阵作为输入,在深度上使用共享的卷积核存储隐藏状态信息。这种结构使得I2U-Net可以类似于展开的RNN工作,并享受其优势,包括建模层次化层之间的时间序列关系,充分利用历史信息。
Fig. 3. Illustration of the proposed MFII module. MFII enables multi-faceted information interaction among the dual paths of I2U-Net. MFII has three differentrepresentations: E-MFII, E-MFII, and D-MFII. E-MFII and E-MFII are used in theencoder stage. Their difference is that E-MFII* reduces the feature size by convolutionwith stride 2, while E-MFII keeps the size unchanged. D-MFII is used in the decoderstage, which increases the feature size by deconvolution.
图3. 所提出的MFII模块示意图。MFII模块实现了I2U-Net双路径之间的多方面信息交互。MFII具有三种不同的表示形式:E-MFII、E-MFII和D-MFII。E-MFII和E-MFII用于编码器阶段。它们的区别在于,E-MFII*通过步幅为2的卷积来减小特征大小,而E-MFII保持大小不变。D-MFII用于解码器阶段,通过反卷积来增加特征大小。
Fig. 4. Demonstration of the pyramid pooling and the multi-scale atrous convolution in HIFA module.
图4. HIFA模块中金字塔池化和多尺度空洞卷积的示意图。
Fig. 5. Sample results of skin lesion segmentation on ISIC2018 (first three rows)and PH2 (last two rows). The colors white, green, and red represent the correctsegmentation, under-segmentation, and over-segmentation, respectively.
图5. 在ISIC2018数据集上的皮肤病变分割示例结果(前三行)和在PH2数据集上的示例结果(后两行)。白色、绿色和红色分别表示正确分割、欠分割和过分割。
Fig. 6. Trend graph of IoU score in skin lesion segmentation task.
图6. 皮肤病变分割任务中IoU分数的趋势图。
Fig. 7. Sample results of polyp segmentation on five public datasets. The colorswhite, green, and red represent the correct segmentation, under-segmentation, andover-segmentation, respectively.
图7. 在五个公共数据集上的息肉分割示例结果。白色、绿色和红色分别表示正确分割、欠分割和过分割。
Fig. 8. Sample results of brain tumor segmentation. The union of red, blue, and greenregions represents the Whole Tumor(WT); the union of red and blue regions representsthe Tumor Core (TC); and the green region denotes the Enhancing Tumor (ET).
图8. 脑肿瘤分割的示例结果。红色、蓝色和绿色区域的并集代表整个肿瘤(WT);红色和蓝色区域的并集代表肿瘤核心(TC);绿色区域表示增强肿瘤(ET)。
Fig. 9. Sample results of abdominal multi-organ segmentation.
图9. 腹部多器官分割的示例结果。
Fig. 10. Segmentation results of different models in our system.
图10. 我们系统中不同模型的分割结果。
Fig. 11. Heat maps are obtained by the four encoder stages of the Baseline and ourI 2U-Net.
图11. 热力图由基线模型和我们的I2U-Net的四个编码器阶段获取。
Fig. 12. Heat maps are obtained by different bridges in our system.
图12. 我们系统中不同桥接方式获取的热力图。
Fig. 13. Influence of pre-trained parameters on IoU score of skin disease segmentation tasks.
图13. 预训练参数对皮肤病分割任务IoU分数的影响
Table
表
Table 1Compared with different methods for skin lesion segmentation. The best results are in bold
表1与不同的皮肤病变分割方法比较。最佳结果用粗体显示。
Table 2 Compared with different methods for polyp segmentation. The best results are in bold.
表2 不同息肉分割方法的比较。最佳结果用粗体显示。
Table 3Compared with different methods for brain tumor segmentation. WT, ET and TC represent Whole Tumor, Enhancing Tumor and Tumor Core sub-regions, respectively. The bestresults are in bold.
表3 不同脑肿瘤分割方法的比较。WT、ET和TC分别代表整个肿瘤、增强肿瘤和肿瘤核心子区域。最佳结果用粗体显示。
Table 4Compared with different methods for abdominal multi-organ segmentation. The best results are in bold.
表4 不同腹部多器官分割方法的比较。最佳结果用粗体显示。
Table 5Segmentation performances of different models in our system. The proposed I2U-Net is Model 4. The number of parameter and FLOPs are calculated based onthe 2D segmentation tasks.
表5 我们系统中不同模型的分割性能。提出的I2U-Net是模型4。参数数量和FLOPs是基于2D分割任务计算的。
Table 6 Segmentation performance of I2U-Net variants equipped with different bridges. The number of parameter and FLOPs are calculated based on the 2D segmentation tasks
表6 不同桥接方式装备的I2U-Net变体的分割性能。参数数量和FLOPs是基于2D分割任务计算的。
Table 7Segmentation performances of MFII and its two variants
表7 MFII及其两个变体的分割性能
Table 8Segmentation performance of different hidden state initialization methods.
表8 不同隐藏状态初始化方法的分割性能
Table 9Influence of pre-trained parameters on the performance of different methods.
表9 预训练参数对不同方法性能的影响