Dynamic Snake Convolution based on Topological Geometric Constraints for Tubular Structure Segmentation
ICCV 2023
用于管状结构分割的动态蛇形卷积
仍存在一些复杂的领域,大模型还未能够很好的覆盖(也许只是时间问题)。例如伪装目标、非显著性目标,以及本文所关注的特殊管状结构(占比小、特征弱且分布广)等等。
本文关注到管状结构细长连续的特点,并利用这一信息在神经网络以下三个阶段同时增强感知:特征提取、特征融合和损失约束。分别设计了动态蛇形卷积(Dynamic Snake Convolution),多视角特征融合策略与连续性拓扑约束损失。
- 动机
管状结构的精确提取仍然具有挑战:细长且脆弱的局部结构。如图 1 所示,细长的结构仅占整个图像的一小部分,像素的组成有限。此外,这些结构容易受到复杂背景的干扰,因此模型很难精确分辨目标的细微变化,从而导致分割出现破碎与断裂。
受到Deformable Convolution[3]的启发,我们希望模型在学习特征的过程中,改变卷积核的形状,从而关注管状结构的核心结构特点。由此衍生出很多工作,并在视网膜血管的分割工作中得到了应用。然而在我们的初期实验中发现,由于管状结构所占比例较小,模型不可避免地失去对相应结构的感知,卷积核完全游离在目标以外。因此我们希望根据管状结构的特点来设计特定的网络结构,从而指导模型关注关键特征。
动态蛇形卷积核(Dynamic Snake Convolution, DSConv)
可变形卷积:操控单个卷积核形变的所有偏置(offset),是在网络中一次性全部学到的,并且阅读其核心代码会发现,对于这一个偏置只有一个范围的约束,即感受野范围(extend)。控制所有的卷积发生形变,是依赖于整个网络最终的损失约束回传,这个变化过程是相当自由的。
完全的自由,容易让模型丢失占比小的细小结构特征,这对于细长管状结构分割任务来说,是一个巨大挑战。因此,如图4所示,我们以蛇来举例,蛇的连续移动,是其头带动身体,一节一节如同波浪一般。因此,我们将连续性约束加入卷积核的设计中。每一个卷积位置都由其前一个位置作为基准,自由选择摆动方向,从而在自由选择的同时确保感受的连续性。
方法框架
多视角特征融合
我们考虑到管状结构的走向与视角从来不是单一的,因此在设计中融合多视角特征也是必然的选择。然而,融合更多的特征带来的必然结果,就是更大的网络负载,且如此多的特征难免会出现冗余,因此我们在特征融合的训练过程中加入了分组与随机丢弃的策略,一定程度上缓解了网络内内存的压力并避免模型陷入过拟合。
基于持续同调的拓扑连续损失(TCLoss)
我们的目标是构建数据的拓扑结构,并提取复杂管状结构中的高维关系,也就是持续同源性(Persistence Homology, PH)。基于 PH 所设计的拓扑损失函数也有很多优秀的工作 [6] [7] 已经采用,拓扑约束确实针对这类细长且占比小的结构非常有效,设计中所采用的推土机距离(Wasserstein Distance, WD)用来衡量点集的差异。简单描述,WD 用来衡量的是从一种离散分布,转变为另一种离散分布需要的代价。在 [6] [7] 的方法中,利用这一算法来计算点与点的最佳匹配,点集中的离散点会被匹配到对角线(刚出现就消失的点聚集在对角线上),因此这些离散的点不会参与损失函数的计算与约束。
假设 PO 的上端存在着一个异常的离散点(横坐标表示出现的时间,纵坐标表示消失的时间),这表明存在一个构件直到最后才与其他构件获得连接从而消失。因此我们在本文中采用的是豪斯多夫距离(Hausdorff Distance, HD),HD 也是用于衡量点集相似度的一个重要算法,对离散点也非常敏感。
End
以上仅作个人学习记录使用