Polyp-DDPM: Diffusion-Based Semantic Polyp Synthesis for Enhanced Segmentation

news2025/1/23 2:13:24

Polyp- ddpm:基于扩散的语义Polyp合成增强分割

摘要:

本研究介绍了一种基于扩散的方法Polyp-DDPM,该方法用于生成假面条件下息肉的逼真图像,旨在增强胃肠道息肉的分割。我们的方法解决了与医学图像相关的数据限制、高注释成本和隐私问题的挑战。通过对分割掩模(代表异常区域的二进制掩模)的扩散模型进行调节,poly - ddpm在图像质量(实现fr起始距离(FID)得分为78.47,而高于83.79)和分割性能(实现交集比(IoU)为0.7156,而基线模型合成图像低于0.6694,真实数据为0.7067)方面优于最先进的方法。我们的方法生成了一个高质量的、多样化的合成数据集用于训练,从而增强了息肉分割模型与真实图像的可比性,并提供了更大的数据增强能力来改进分割模型。

1 介绍

结直肠癌(Colorectal cancer, CRC)是全球第三常见、第二致命的癌症[1]。结直肠癌通常以结直肠息肉开始,这是该疾病的早期指标。

通过结肠镜检查及早发现并切除这些息肉可预防结直肠癌,降低死亡率。然而,在结肠镜检查中识别小息肉可能很困难,这取决于医生的专业知识和其他挑战,例如息肉在检查过程中看不到或被忽视[2]。

为了加强息肉的检测,研究人员正在利用机器学习来自主识别和强调内镜下的息肉[3]。然而,由于需要广泛和多样化的数据集,这些技术的发展面临着重大挑战,这些数据集对于训练模型实现高精度至关重要。由于异常区域出现的多样性、招募患者的困难、数据标注的高成本以及对患者数据隐私的担忧等原因,医疗行业经常面临此类数据的短缺[4]。

为了缓解数据稀缺问题,探索合成图像作为一种可行的解决方案已经引起了人们的关注[5]。

Thambawita等人[6]开发了一种基于gan的方法,用于使用分割蒙版创建息肉图像,使用两个阶段的过程,包括在1,000张图像的HyperKvasir数据集[7]上进行初始训练,然后进行风格转移以生成合成图像。尽管比其他GAN模型获得了更真实的图像,但他们的SinGAN-Seg模型在多样性和细节准确性方面面临挑战。GAN模型的一个普遍问题是模态崩溃问题。基于扩散的模型的最新进展已经克服了模式崩溃问题,产生了比gan更好的多样化、高质量的图像[8]。Macháček等人[9]使用Kvasir-SEG数据集[10],引入了一种用于息肉图像和掩模生成的两阶段扩散模型。这个过程包括使用改进的扩散模型生成掩模,然后在这些掩模上调节潜在扩散模型以创建图像。尽管该方法可以有效地生成各种图像,但由于需要两个模型,该方法在训练和推理方面的计算成本很高。

为了应对这些挑战,我们引入了一种新的基于扩散的语义息肉合成方法,polyypddpm,旨在增强我们之前的工作Med-DDPM[11]的息肉分割。这种方法通过掩膜图像的通道级联来调节扩散模型。我们使用Kvasir-SEG数据集进行了实验,并将我们提出的方法与SinGAN-Seg[6]和潜在扩散模型[9]进行了比较,因为这些方法代表了注释息肉数据集生成的最新进展,包括基于gan和基于扩散的方法。在我们的实验中,与基线模型相比,poly - ddpm在图像质量和分割任务方面表现出优越的性能。本研究为任意给定掩模图像合成高质量的合成息肉图像提供了一种新的基于扩散的方法,可用于训练更准确的息肉分割模型,从而为该领域的研究做出了贡献。源代码和预训练模型是公开的,以进一步研究和应用在这一重要领域的医学成像。

2 方法

在本研究中,我们在之前语义3D脑MRI合成工作的基础上[11],并增强了基于分割蒙版生成条件2D息肉图像的架构。

我们的方法涉及前向扩散过程𝑞,由方差调度ϵ∼𝒩(0,i)定义的少量高斯噪声α̅t在给定时间步T中的每个时间步𝑥被添加到训练数据集的图像样本𝑡0:

为了避免噪声水平的突然波动,对[12]中提出的余弦噪声时间表进行了调整,定义如下:

其中,参数𝑠表示一个较小的偏移值,以防止在时间步长接近零时计划过小。[11]

在反向扩散过程𝑝θ中,我们采用了具有输入通道的U-Net结构作为去噪模型。我们所提出的方法的核心结构如图1所示。去噪器U-Net结构的主要组件包括正弦位置嵌入,它被用来编码时间步长𝑡,从而通知模型关于影响输入图像的特定噪声水平。该架构的一个关键元素是宽ResNet块,它由卷积层、完全连接层、组归一化、SI鲁激活层和跳过连接组成。组归一化结合了关注层之后的2D卷积层。为了实现条件建模,我们引入了一种简单而高效的技术,该技术通过以通道方式串联分割掩码𝑥𝑡来修改输入图像𝑐。

3 实验和结果

我们使用Kvasir-SEG数据集[10],与LDM[9]使用相同的训练和测试拆分来训练我们提出的方法。图像大小调整为256x256像素,像素强度调整为范围[-1,1]。我们的模型使用900张图像进行训练,然后在100张测试图像上进行测试。为了确保公平的比较,我们使用了LDM[9]和SinGan-Seg[6]的预训练模型。然而,SinGan-Seg模型在HyperKvasir数据集的1000张图像上进行了训练,并包含了样式转移,与仅在900张图像上训练而没有样式转移的模型进行了不公平的比较。尽管如此,我们的目标是评估我们的扩散模型对它的有效性。我们的模型使用了100,000次迭代,学习率为10-4,批次大小为32,输入通道,仅使用250个时间步,并使用了L1损失函数。在训练过程中,我们应用了旋转、水平翻转和随机旋转等增强技术。对于息肉分割任务,作为对合成图像的定性评估,我们使用了相同的分割模型-UNET++、FPN和DeepLabv3plus-AS[9],除了将历元数更改为100以及修改训练和测试图像数外,具有相同的超参数配置。对来自Kvasir-SEG训练集的900幅图像和从训练集的掩模图像创建的900幅合成图像对所有分割模型进行训练。为了评估合成图像的有效性,我们对HyperKvasir数据集[7]中的1000张图像和ETIS-LaribPolypDB数据集[13]中的196张图像以及Kvasir-SEG数据集的100张测试图像测试了分割模型。通过比较1,000个合成图像和真实图像的样本,使用Fréchet初始距离(FID)、初始分数(IS)和核心初始距离(KID)分数对合成图像进行定量评估。我们对两个不同的数据集:KvasirSEG和HyperKvasir进行了定量评估。使用联合交集(IOU)、F1评分、准确度和精确度评分来评估分割模型的性能。所有型号都在特斯拉V100-SXM2 32 GB GPU卡上进行了培训。

A. 图像合成的结果

图2显示了使用来自HyperKvasir数据集的给定掩模,由我们提出的方法和两个基线模型生成的真实和合成图像之间的比较。该数据集被用于训练SinGan-Seg模型,并作为我们提出的方法和潜在扩散模型(LDM)的不可见数据。比较表明,这两种扩散模型比SinGan-Seg模型具有更高的多样性样本生成能力。尽管使用其训练数据的输入掩码的GaN-Seg模型在理论上应该比其他两个扩散模型生成更好的图像,但很明显,预先训练的SinGANSeg模型遭受了模式崩溃的影响,并且只产生略有变化的图像。相比之下,这两种扩散模型能够产生多样化、高质量的样本。将提出的POLIP-DDPM算法与LDM算法进行比较,我们的模型能够生成比LDM算法更丰富、细节更精确的图像。在定量评估方面,我们提出的POLIP-DDPM方法在Kvasir-SEG和HyperKvasir数据集上的表现优于其他基线模型(表I)。

与Kvasir-SEG数据集的图像相比,我们的方法获得了最低的Fréchet初始距离(FID)得分78.47和核初始距离(KID)0.07,而在HyperKvasir数据集中的真实图像上FID和KID分别为81.10和0.07。相比之下,LDM的得分第二高,FID为95.82Kvasir-SEG上的KID为0.09,HyperKvasir上的FID为97.01,KID为0.09。

相反,与它自己的训练数据集HyperKvasir相比,SinGan-Seg的FID和KID得分分别为131.13和0.14,而且在Kvasir-SEG数据集上的表现也很差。然而,与两个基于扩散的模型相比,SinGan-Seg模型获得了最高的初始得分,这归因于SinGan-Seg模型从真实图像中转移风格的能力。

B.分割实验结果

我们在三个不同的测试数据集:KvasirSEG、HyperKvasir和ETIS-LaribPolypDB上,对三种分割模型-UNET++、FPN和DeepLabv3plus的性能进行了全面的分析,比较了使用合成图像和真实图像进行训练的效果,如表II所示。当对900幅合成图像进行训练时,PolypDDPM模型在Kvasir-SEG数据集的测试集上显示了显著的结果。具体地说,该模型的欠条为0.7156,F1得分为0.8342,准确度为0.9464,精确度为0.8203,超过了SINGAN-SEG和LDM模型。与用900张真实图像训练时相比,这一改进更加明显,当时IOU为0.7067,F1得分为0.8281,突显了合成数据在提高分割性能方面的有效性。在FPN和DeepLabv3plus模型中也观察到了类似的趋势,其中Polyp-DDPM的表现优于其他两个基线模型。然而,FPN和DeepLabv3plus模型的IOU和F1得分低于真实图像结果。在不可见的HyperKvasir数据集上,PolypDDPM的优势更加明显。使用unet++模型,它获得了0.7739的借条和0.8725的F1得分,超过了在整个HyperKvasir数据集上训练的SinGan-Seg模型的性能,也超过了LDM。这一趋势在FPN和DeepLabv3plus模型中继续下去,甚至在未见过的ETIS-LaribPolypDB数据集中继续下去,强调了Polyp-DDPM更好地泛化的能力。在Kvasir-SEG和HyperKvasir数据集上的SinGAN-Seg图像上,FPN模型的唯一精度分数高于其他模型。然而,在ETIS-LaribPolypDB数据集上没有观察到这种模式。然而,当应用于这些看不见的数据集时,合成图像的性能与真实图像的性能不匹配,导致得分较低。这突出表明需要进一步改进合成图像的质量。此外,我们研究了使用真实图像和合成图像的组合来训练分割模型,并发现我们所提出的方法在数据增强能力方面有相当大的前景。例如,包含1800张图像(900REAL和900Polyp-DDPM)的混合训练集获得了0.7484的借条和0.8561的F1分数。相比之下,只使用了900张真实图像,借条和F1得分较低:unet++分别为0.7067和0.8281。同样,对于DeepLabv3plus,混合设置产生的借条为0.7496,F1为0.8569,超过了真实图像的借条0.7217和F1 0.8384。

4 结论

这项研究介绍了PolyP-DDPM,一种新的基于扩散的语义息肉合成方法,它在生成高质量、多样化的合成息肉图像方面优于现有的基于GaN和基于扩散的模型。使用Fréchet初始距离和核初始距离度量的定量评估进一步证实了POLIP-DDPM相对于SinGAN-Seg和潜在扩散模型的优势,特别是在生成与真实数据集特征非常相似的图像方面。此外,分割实验强调了我们提出的方法生成的合成图像有潜力改进息肉分割模型的训练,使其与真实图像具有可比性,并在各种测试数据集上取得了显著的结果。PolypDDPM的相对优势尤其明显,它能够以更高的多样性和精确度生成图像,从而解决了医学成像领域数据稀缺的关键挑战。这项研究不仅推进了合成图像生成的技术前沿,而且为更有效和更容易获得的医学成像解决方案铺平了道路,最终有助于改进对模型的培训,以早期发现和预防结直肠癌。

图1.用于训练和生成合成息肉图像的Polyp-DDPM的总体架构。A)训练:通过调节异常区域的二值分割掩模,训练Polyp-DDPM将随机噪声转换为逼真的息肉图像。B)PolypDDPM模型的核心构建块。C)推理:训练好的Polyp-DDPM模型对给定的输入掩模进行推理,生成相应的合成图像。

图2.真实样本和合成样本的比较:展示了从单一输入掩模生成的合成图像的多样性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1847539.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络编程(四)wireshark基本使用 TCP的三次握手和四次回挥手 TCP和UDP的比较

一、使用wireshark抓包分析协议头 &#xff08;一&#xff09;wireshark常用的过滤语句 tcp.port <想要查看的端口号> ip.src <想要查看的源IP地址> ip.dest <想要查看的目的IP地址> ip.addr <想要查看的IP地址>&#xff08;二&#xff09;抓包分…

DevEco鸿蒙开发请求网络交互设置

首先&#xff0c;在鸿蒙项目下config.json中找到module项&#xff0c;在里面填写"reqPermissions": [{"name": "ohos.permission.INTERNET"}] 在页面对应js文件内&#xff0c;填写import fetch from system.fetch;。 GET和POST区别 GET将表单数…

界面控件DevExpress v24.1全新发布 - 跨平台性进一步增强

DevExpress拥有.NET开发需要的所有平台控件&#xff0c;包含600多个UI控件、报表平台、DevExpress Dashboard eXpressApp 框架、适用于 Visual Studio的CodeRush等一系列辅助工具。屡获大奖的软件开发平台DevExpress 今年第一个重要版本v23.1正式发布&#xff0c;该版本拥有众多…

1. 基础设计流程(以时钟分频器的设计为例)

1. 准备工作 1. 写有vcs编译命令的run_vcs.csh的shell脚本 2. 装有timescale&#xff0c;设计文件以及仿真文件的flish.f&#xff08;filelist文件&#xff0c;用于VCS直接读取&#xff09; vcs -R -full64 -fsdb -f flist.f -l test.log 2. 写代码&#xff08;重点了解代码…

【Mac】DMG Canvas for mac(DMG镜像制作工具)软件介绍

软件介绍 DMG Canvas 是一款专门用于创建 macOS 磁盘映像文件&#xff08;DMG&#xff09;的软件。它的主要功能是让用户可以轻松地设计、定制和生成 macOS 上的安装器和磁盘映像文件&#xff0c;以下是它的一些主要特点和功能。 主要特点和功能 1. 用户界面设计 DMG Canva…

定义和反射Annotation类(注解)

文章目录 前言一、定义Annotation类二、反射Anootation类 1.元注解2.反射注解总结 前言 在写代码的过程中&#xff0c;我们经常会写到注释&#xff0c;以此来提醒代码中的点。但是&#xff0c;这些注释不会被查看&#xff0c;也不在整个代码之中&#xff0c;只能在源代码中进行…

Mistral AI最新力作——Mistral Large媲美GPT-4

Mistral AI自豪地宣布&#xff0c;他们的最新力作——Mistral Large&#xff0c;已经正式面世。这款尖端的文本生成模型不仅在多语言理解上表现出色&#xff0c;更在推理能力上达到了顶级水平。Mistral Large能够处理包括文本理解、转换和代码生成在内的复杂多语言推理任务。 M…

依赖注入(Dependency Injection, DI)在 iOS 开发中的应用

在 iOS 开发中&#xff0c;我们经常会遇到类与类之间存在依赖关系的情况。例如&#xff0c;一个视图控制器可能需要一个服务对象来处理数据&#xff0c;这种情况下&#xff0c;视图控制器就依赖于这个服务对象。传统的做法是直接在视图控制器中创建服务对象&#xff0c;但这会导…

目标跟踪算法(bytetrack)-tensorrt部署教程

一、本机安装python环境 conda create -n bytetrace_env python=3.8 activate bytetrace_env conda install pytorch torchvision cudatoolkit=10.1 -c检测GPU是否可用,不可用不行 import torch print(torch.cuda.is_available())安装bytetrack git clone https://github.c…

车辆轨迹预测系列 (二):常见数据集介绍

车辆轨迹预测系列 (二)&#xff1a;常见数据集介绍 文章目录 车辆轨迹预测系列 (二)&#xff1a;常见数据集介绍1、NuScenes (2020)&#xff1a;1、下载2、说明 2、Waymo Open Dataset (2020)&#xff1a;1、介绍2、概述3、下载4、教程5、参考 3、Lyft Level 5 (2020)&#xff…

Ubuntu系统如何配置通过图形界面登录root用户

Ubuntu系统中的root账号默认是锁定的&#xff0c;但可以通过设置密码来启用。 需要注意的是&#xff0c;由于root用户具有对系统完全控制的权限&#xff0c;因此在使用root账户时应格外小心。一个错误的命令可能会导致系统损坏&#xff0c;这就是为什么Ubuntu默认不启用root账户…

ELK Kibana搜索框模糊搜索包含不包含

默认是KQL,点击切换Lucene搜索&#xff0c;搜索日志中包含Exception关键字&#xff0c;不包含BizException、IllegalArgumentException、DATA_SYNC_EXCEPTION关键字的日志&#xff0c;如下&#xff1a; message: *Exception AND !(message : *BizException OR message : *Ille…

五十三、openlayers官网示例Layer Spy解析——跟随鼠标透视望远镜效果、图层剪裁

官网demo地址&#xff1a; Layer Spy 这篇实现了鼠标跟随望远镜效果&#xff0c;鼠标移动时绘制一个圆形的剪裁区剪裁上层图层。 container.addEventListener("mousemove", function (event) {mousePosition map.getEventPixel(event);map.render();});container.a…

工具分享:Search_Viewer

文章目录 前言Search_Viewer介绍安装方式使用方式 前言 本文推荐工具Search_Viewer&#xff0c;详细介绍其安装和使用方式。 Search_Viewer介绍 集Fofa、Hunter鹰图、Shodan、360 quake、Zoomeye 钟馗之眼、censys 为一体的空间测绘gui图形界面化工具&#xff0c;支持一键采…

【Python】成功解决TypeError: missing 1 required positional argument

【Python】成功解决TypeError: missing 1 required positional argument 下滑即可查看博客内容 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地&#xff01;&#x1f387; &#x1f393; 博主简介&#xff1…

事件驱动架构详解:触发与响应构建高效系统

目录 前言1. 事件驱动架构概述1.1 什么是事件1.2 事件驱动架构的核心概念 2. 事件驱动架构的实现2.1 基于消息队列的实现2.2 基于发布-订阅模式的实现2.3 基于流处理的实现 3. 事件驱动架构的优势3.1 松耦合性3.2 可扩展性3.3 异步处理3.4 灵活性 4. 事件驱动架构的应用场景4.1…

【论文复现|智能算法改进】改进麻雀算法的无人机三维路径规划

目录 1.UAV路径规划数学模型2.改进点3.结果展示4.参考文献5.代码获取 1.UAV路径规划数学模型 【智能算法应用】蜣螂优化算法DBO求解UAV路径规划 2.改进点 Logistics混沌映射 X n 1 μ X n ( 1 − X n ) , X n ∈ ( 0 , 1 ) (1) X_{_{n1}} \mu X_{_n}( 1 - X_{_n} ) ,\qua…

CSS属性选择器具有不区分大小写的模式

今天&#xff0c;我偶然发现了 caniuse.com 项目的一期&#xff0c;其中提到了新的和即将推出的 CSS Level 4 选择器。 这个列表很长&#xff0c;并且有许多新的选择器正在开发中。一个新的选择器标志引起了我的注意&#xff1b;属性选择器将变成一个 i 标志&#xff0c;这使得…

CRMEB PRO企业微信通讯录配置

企业微信通讯录配置 登录企业微信管理后台 企业微信 1、点击【管理工具】找到【通讯录同步】点击进入 2、点击【开启API接口同步】 进入设置【通讯录同步】页面后&#xff0c;权限一栏&#xff0c;勾选【API编辑通讯录】勾选【开启手动编辑】&#xff1b; 3、点击下图箭头所…

服务端代码编写中MySql大小写在Java中报错问题解决

报错信息&#xff1a; 原因&#xff1a;MySql和Java变量大小写产生的冲突。 经过查阅各个博客等&#xff0c;得出浅显结论&#xff08;不一定对&#xff09;&#xff1a;MySql大小写不敏感&#xff0c;Java大小写敏感&#xff0c;当Javabean转为MySql数据库表时&#xff0c;Ja…