结直肠癌(CRC)是全球第二大致命癌症和第三大常见的恶性肿瘤,据估计每年会在全球范围内造成数百万人发病和死亡。结直肠癌患者在第一阶段的生存概率超过95%,但在第四和第五阶段却大幅下降到35%以下。因此,通过结肠镜、乙状结肠镜等筛查技术对阳性结直肠癌病例进行早期预诊,对于提高患者生存率具有重要意义。为达到预防目的,内科医师可以切除有癌变风险的结肠息肉。然而,这一过程高度依赖于医师的经验水平,且出现了较高的息肉漏诊率(即:22%-28%)。
近年来,人工智能(AI)技术被医生用于执行结肠镜检查过程中进行病变息肉自动检测。然而,开发出具有令人满意的检测率的人工智能方案仍具有挑战性,其主要存在以下两个问题:
(a)有限的标注数据:深度学习模型通常需要具有密集标注的大规模视频数据集。此外,研究社区内也缺乏一个广泛认可的评测基准用于评估对比方法的版实能力(例如:准确率和效率)。
(b)动态复杂性:结肠镜检查通常涉及到不太理想的相机运动和图像采集条件,包括息肉的多样性(例如:边缘对比度、形状、方向、角度)、肠道杂物(例如:水流、残留物)和成像退化(例如:颜色失版、镜面反射)。
为此,本文呈现了一个系统性的研究工作,用以推动深度学习模型在视频息肉分割(VPS)领域的发展。主要贡献如下:
•视频息肉分割数据集:本文提出一个名为SUN-SEG的大规模视频息肉分割数据集,其包含了从SUN中选取的158690个视频帧。本文还提供了各类标签,包括:属性标签、目标掩码、边缘标签、线标签和多边形标签,用于进一步推动结肠镜诊断、定位及其衍生任务的发展。
SUN-SEG数据集详细统计信息:
https://github.com/GewelsJI/VPS/blob/main/docs/DATA_DESCRIPTION.md
•视频息肉分割基线模型:本文设计了一个简单且高效的视频息肉分割基线模型,名为PNS+,其由一个全局编码器、一个局部编码器和两个归一化自注意力(NS)模块组成。全局编码器和局部编码器分别用于从锚帧和多个连续帧中提取长期和短期表征。归一化自注意力模块则用于在所提取特征之间耦合注意力线索时,动态地更新感受野。实验表明PNS+在具有挑战性的SUN-SEG数据集上取得了最佳性能。
基于归一化自注意力(NS)模块(b)的PNS+网络的框架流程图(a)
•视频息肉分割评测基准:为了对视频息肉分割发展提供更为全面的理解,本文进行了首个大规模基准评测,其包含了对13个(即:5个基于图像和8个基于视频)前沿的息肉分割/目标分割方法进行评测。根据评测基准的结果,本文观察到视频息肉分割任务尚未很好的解决。这为未来进一步的探索留下了很大的空间。
中国学位论文有关息肉分割
仅供参考