【论文阅读笔记】EndoL2H: Deep Super-Resolution for Capsule Endoscopy

news2025/1/23 4:38:12

论文地址:https://arxiv.org/abs/2002.05459
代码地址:https://github.com/CapsuleEndoscope/EndoL2H

论文小结

  顾名思义,本文是胶囊内窥镜领域的超分算法。本文的网络结构是条件对抗网络 + 空间attention块的方式,实现8倍、10倍和12倍的超分,方法的主要思路如下图所示。
在这里插入图片描述

  本文对比的方式仍为DBPN,RCAN和SRGAN等较为简单的方法,与这些方法进行了定性定量分析,来证明本文方法EndoL2H的优越性。由 30 名胃肠病学家进行的 MOS 测试定性评估并确认了该方法的临床相关性。

  本文设计了一种损失函数,名为高保真损失函数(High fidelity loss function),称为EndoL2H Loss,是专门针对内窥镜图像优化的加权混合损失函数。它协作地结合了感知、内容、纹理、基于像素的损失描述,并在像素值、内容和纹理方面提高图像质量。 即使在高达 10 -12 的极高比例因子下,这种组合也能保持图像质量。

  总的来说,值得参考的点在于不同损失函数之间的融合。至于实验内容,也是普通的高斯白噪声,以及高延时的图像超分算法。胶囊内窥镜只是说明其图像对象,并没有实时性相关要求。

论文介绍

  从HR图像到LR图像是要经过退化过程的。未知的退化过程,可能会收到散焦(defausing)压缩伪影(compression artefacts)各向异性退化(anisotropic degradations)传感器噪声(sensor noise)散斑噪声等各种因素的影响。本文的退化模型是集中退化因子的组合。

  本文的退化过程如下:在HR图像经过模糊核 κ \kappa κ处理后,下采样,以及添加标准差为 ς \varsigma ς的高斯白噪声。 D ( I H R ; δ ) = ( I H R ⊗ κ ) ↓ r + n ς , { κ , r , ς } ⊂ δ (3) \mathcal{D}(I^{HR};\delta)=(I^{HR}\otimes \kappa)\downarrow_r+\mathcal{n}_\varsigma,\{\kappa,r,\varsigma \} \subset \delta \tag{3} D(IHR;δ)=(IHRκ)r+nς{κ,r,ς}δ(3)

  本文所提出的网络架构EndoL2H如下图所示:由4个部分(生成器,空间注意力模块,判别器和混合目标函数)组成。
在这里插入图片描述

  空间注意力块如上面网络结构图b所示。在本文,空间注意力块(Spatial Attention Blcok,SAB)被放在了第一层卷积层后。

  生成器和判别器如上图a所示,是UNet结构的派生(带有大量的skip connection),其中带有一个额外的空间注意力块。将 C k Ck Ck定义为 k k k个核的卷积层,BN层和ReLU层的堆叠,将 C D k CDk CDk定义为 k k k个核的卷积层,BN层, 50 % 50\% 50%概率的dropout层和ReLU层的堆叠。所有卷积层都是 4 ∗ 4 4*4 44,空间核的stride为 2 2 2。注意力U-Net编码器和注意力U-Net解码器的结构如下:然后在解码器的后面接一层卷积和 t a n h tanh tanh非线性层来将解码器的最后一层输出映射到需要的输出channel上。上述结构中还有一个例外,即编码器的第一个 C 64 C64 C64层没有BN层。编码器中的所有ReLU都是倾斜度 α = 0.2 \alpha=0.2 α=0.2的Leaky ReLU,而解码器中是没有倾斜度的。
在这里插入图片描述

  EndoL2H Loss将集中损失进行了结合。Per-Pixel Loss,衡量的是像素级别上的差异;GAN判别器是对高频结构进行建模,以确保输出更针织和有用的SR图像。与基于交叉熵的标准 GAN 目标不同,作者定义了基于最小二乘误差的 GAN 损失,从而提高训练期间的稳定性和训练结束时更好的收敛性。内容损失鼓励低频域中的感知相似性和一致性;纹理损失强调从退化的输入图像中重新捕获纹理信息。
  作者称,这种混合损失函数,EndoL2H 损失,是专门为内窥镜类型的图像设计和经验优化的,使其在标准和胶囊内窥镜图像超分辨率方面都是独一无二的。

  Per-Pixel Loss采用的是 L 1 L_1 L1损失的变体,为Charbonnier Loss,定义如下:其中 ϵ \epsilon ϵ是一个小值常量,比如 1 0 − 3 10^{-3} 103。像素损失可以有更高的PSNR,但其有一个众所周知的缺点:它无法保持感知图像质量以及经常以过于平滑的纹理结束的高频信息。 L C h a ( I S R , I H R ) = 1 h w c ∑ i , j , k ( I i , j , k S R − I i , j , k H R ) 2 + ϵ 2 \mathcal{L}_{Cha}(I^{SR},I^{HR})=\frac1{hwc}\sum_{i,j,k}\sqrt{(I^{SR}_{i,j,k}-I^{HR}_{i,j,k})^2+\epsilon^2} LCha(ISR,IHR)=hwc1i,j,k(Ii,j,kSRIi,j,kHR)2+ϵ2

  Content Loss.,也叫感知损失,是通过预训练的模型作为语义特征提取器进行评估的。本文使用带ReLU激活层的预训练VGG网络。对VGG提取的特征,使用欧式距离进行衡量。

  Texture Loss.应该是使用边缘检测等算子,对提取出来的特征进行处理,处理结果进行相应的举例衡量。 L t e x t u r e ( I S R , I H R , ϕ , l ) = 1 c l 2 ∑ i , j ( G i , j ( l ) ( I S R ) − G i , j ( l ) ( I H R ) ) 2 \mathcal{L}_{texture}(I^{SR}, I^{HR}, \phi, l)=\frac1{c^2_l}\sqrt{\sum_{i,j}(G_{i,j}^{(l)}(I^{SR}) - G_{i,j}^{(l)}(I^{HR}))^2} Ltexture(ISR,IHR,ϕ,l)=cl21i,j(Gi,j(l)(ISR)Gi,j(l)(IHR))2

  Adversarial Loss.本文使用的对抗损失没有使用交叉熵损失,而是使用最小二乘误差。 L a d v ( I S R , I H R ; D ) = ( D ( I S R ) ) 2 + ( D ( I H R ) − 1 ) 2 \mathcal{L}_{adv}(I^{SR},I^{HR};D)=(D(I^{SR}))^2 + (D(I^{HR}) - 1)^2 Ladv(ISR,IHR;D)=(D(ISR))2+(D(IHR)1)2

  EndoL2H Loss.,是数个损失的结合。 L L 2 H = α ∗ L a d v + ( 1 − α ) ( 1 − β ) ( 1 − γ ) ∗ L C h a + γ ∗ L c o n t e n t + β ∗ L t e x t u r e \mathcal{L}_{L2H}=\alpha*\mathcal{L}_{adv}+(1-\alpha)(1-\beta)(1-\gamma)*\mathcal{L}_{Cha}+\gamma*\mathcal{L}_{content}+\beta * \mathcal{L}_{texture} LL2H=αLadv+(1α)(1β)(1γ)LCha+γLcontent+βLtexture

论文实验

  本文使用的数据集来自原始的 Kvasir 数据集。在定量指标方面,应用了 PSNR、SSIM、LPIPS 和 GMSD。根据定性指标,进行了临床 MOS,其中 30 名胃肠病学家对来自测试数据集的 15 个随机采样图像进行了投票。
  GMSD指标,是从[58]引入的,是基于梯度的相似性方法家族的成员

  原始的 Kvasir 数据,由80000张内窥镜图像组成,是由奥林巴斯和宾得的各种内窥镜设备记录,从不同的胃肠道器官获得,包括肠、胃、食道、十二指肠 (v2)[50]。10折划分法的每一个都由包含八个不同类别的测试和训练集组成:染色的息肉、染色的切除边缘、食管炎、正常盲肠、正常幽门、正常 z 线、息肉和溃疡性结肠炎。在这项研究中,作者删除了带有大绿色注释的图像样本,这些注释说明了所用内窥镜设备的位置和配置。 剩余数据集由 21220 张分辨率为 1280x1024 的图像组成,包含来自食管炎、正常幽门、正常 z 线、息肉和溃疡性结肠炎类的图像。

  制作超分数据集,使用双三次(bicubic)进行下采样,因子分别为8倍,10倍和12倍,以及添加额外的高斯核作为模糊核。前面讲一堆,后面还是只用了高斯噪声

  训练使用Nvidia Tesla V100显卡。数据集分为三份:17,220张图像用于训练,2000张图像用户验证,2000张图像用于测试。EndoL2H使用 1 0 − 4 10^{-4} 104的学习率训练 1 0 5 10^5 105次迭代,然后使用 1 0 − 5 10^{-5} 105的学习率训练 1 0 5 10^5 105次迭代。Pytorch训练框架,Adam优化器,动量参数 β 1 = 0.5 , β 2 = 0.999 \beta_1=0.5,\beta_2=0.999 β1=0.5,β2=0.999

  下表是实验结果,其中EndoL2H-w/o-C是没有 L c o n t e n t \mathcal{L}_{content} Lcontent,EndoL2H-w/o-T是没有 L t e x t u r e \mathcal{L}_{texture} Ltexture。与EndoL2H-w/o-C相比,EndoL2H-w/o-T的定量结果都差不少,输出 SR 图像更平滑和更粗糙,揭示了 SR 的纹理损失的有效性。(如果将内窥镜图像进行分类,比如按食道炎、正常幽门、正常z线、息肉和溃疡性结肠炎分为5类,结果也差不多)。绝大多数情况下,EndoL2H-w/o-C都是优于EndoL2H-w/o-T的,这表明对于SR而言,纹理损失要比内容损失重要

在这里插入图片描述
  使用混合损失函数时的一个重要挑战是控制参数优化的难度,它最终决定了哪个损失组件应该以何种程度对学习过程做出贡献。 为了最佳地确定 EndoL2H 损失权重,作者从数据集中随机抽取 3,000 张图像并生成 10 个不同的超参数集 { α , β , γ } \{\alpha, \beta, \gamma \} {α,β,γ},实验结果如下表所示: α = 0.35 , β = 0.20 , γ = 0.15 \alpha=0.35,\beta=0.20,\gamma=0.15 α=0.35,β=0.20,γ=0.15有最好的指标结果,4个指标同时达到最佳值。
在这里插入图片描述

  下表是4种超分算法在不同超分倍率下的运行时间对比,运行时间是在Nvidia Tesla V100 GPU上跑多次平均得到的。
在这里插入图片描述

  关于空间注意力块的消融学习,可以看出有明显的提升。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/144556.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

不要再被骗了,解密短视频里追剧看电影都能赚钱的坑。

不要再被骗了,解密短视频里追剧看电影都能赚钱的坑。 最近刷短视频刷到了好多抖音追剧看电影每天收几百,还有截图,还有怎么实操的视频。 关键不是刷到一个两个,是几十个还有越来越多的趋势。 都说新入门实操,终于忍不住&#x…

LeetCode刷题Day05——链表(链表元素删除、相交、环形链表)

文章目录一、删除链表中的倒数第n个节点二、链表相交三、环形链表一、删除链表中的倒数第n个节点 题目链接&#xff1a;19.删除链表中的倒数第n个节点 /*** <pre>* 最简单的方法显然是先遍历一遍链表&#xff0c;知道长度后重新遍历一次就可以找到指定节点了&#xff0…

WebDAV之葫芦儿·派盘+DAVx⁵

DAVx⁵ 支持WebDAV方式连接葫芦儿派盘。 支持移动设备远程同步,是不是比NAS更便捷?并且这款软件最为关键的还是支持各种协议,让你能够在跨平台上面同步安卓和苹果上面的内容,你可以在服务器上面进行一些简单的内容管理,快来试试DAVx⁵与派盘的最佳组合吧。 DAVx⁵是一款…

LeetCode:18. 四数之和

18. 四数之和1&#xff09;题目2&#xff09;思路3&#xff09;代码4&#xff09;结果1&#xff09;题目 给你一个由 n 个整数组成的数组 nums &#xff0c;和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] &…

Codeforces Round #772 (Div. 2)

A. Min Or Sum 题目链接&#xff1a;Problem - A - Codeforces 样例输入&#xff1a; 4 3 1 3 2 5 1 2 4 8 16 2 6 6 3 3 5 6样例输出&#xff1a; 3 31 6 7题意&#xff1a;给你一个长度为n的数组&#xff0c;我们可以对这个数组进行操作&#xff0c;每次操作可以选择两个不…

ThinkPHP5之文件包含审计分析(五)

说明 该文章来源于同事lu2ker转载至此处&#xff0c;更多文章可参考&#xff1a;https://github.com/lu2ker/ 文章目录说明0x00 环境准备0x01 测试代码0x02 代码分析0x03 总结参考链接&#xff1a;Mochazz/ThinkPHP-Vuln/ 影响版本&#xff1a;5.0.0<ThinkPHP5<5.0.18 、…

Java - JIT即时编译

java前端编译器和后端编译器的作用Java前端编译器&#xff1a;javac 编译&#xff0c;在程序运行前&#xff0c;将 源文件 转化为 字节码 即 .class 文件Java 程序最初只能通过解释器解释执行&#xff0c;即 JVM 对字节码逐条解释执行&#xff0c;因此执行速度比较慢。字节码与…

【SAP Abap】SAP Flight 航班系统数据模型简介(SCARR、SPFLI、SFLIGHT、SBOOK等)

SAP Flight 航班系统数据模型简介&#xff08;SCARR、SPFLI、SFLIGHT、SBOOK等&#xff09;1、本文目的2、数据模型3、查看模型数据4、生成演示数据5、模型应用1、本文目的 SAP ABAP 系统都会自带 Flight 航班系统数据模型&#xff0c;其大量应用于 SAP ABAP 帮助文档、系统 D…

移动安全总结 2019

声明 本文是学习移动安全总结 2019. 下载地址 http://github5.com/view/1223而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 序言 随着2019年的逝去&#xff0c;二十一世纪第二个十年也已随之结束。回顾过去的十年&#xff0c;我们的生活随着科技的进…

养老院人员定位方案125K芯片AS3933/SI3933/GC3933/PAN3501

随着社会老龄化&#xff0c;高龄化&#xff0c;空巢化和病残化的迅速发展&#xff0c;将使得越来越多的老人住进养老院。虽养老院数量越来越多&#xff0c;但养老院人也越来越多&#xff0c;给现有的养老管理上带来压力&#xff0c;由于服务人员有限&#xff0c;无法及时顾及到…

【LeetCode每日一题】——89.格雷编码

文章目录一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【解题思路】七【题目提示】八【时间频度】九【代码实现】十【提交结果】一【题目类别】 数学 二【题目难度】 中等 三【题目编号】 89.格雷编码 四【题目描述】 n 位格雷码序列 是一…

举个栗子!Tableau 技巧(249):为文本表中的不同度量设置不同颜色

使用文本表呈现数据时&#xff0c;通常会用颜色的深浅来代表度量的数值大小。单一度量很容易实现&#xff0c;但多个度量的情况&#xff0c;很多数据粉反馈不知道如何实现。 如下示例&#xff0c;在为不同度量设置了不同颜色后&#xff0c;的确既美观又直观。 具体该如何实现呢…

进制转换 2进制转10进制 10进制转2进制

觉得有用的&#xff0c;HXD们请点个赞●▽● 10进制转2进制&#xff08;以十进制100转换为二进制为例子&#xff1a;&#xff09; 方法一&#xff08;除2取余数&#xff0c;倒叙摆列&#xff0c;高位补零 &#xff09; 100/250余0&#xff1b; 50/225余0&#xff1b; 25/21…

Allegro174版本新功能介绍之改变菜单字体大小

Allegro174版本新功能介绍之改变菜单字体大小 Allegro在升级到174的时候,默认的字体是非常小的,如下图 看起来十分费劲 启动界面 菜单界面 但是174是支持把把这些字体调大的,具体操作如下 选择Setup

git远程仓库使用流程

git远程仓库使用流程远程仓库使用流程远程仓库介绍远程仓库使用流程如何将本地文件夹关联远程仓库多人开发配置流程远程仓库SSH配置远程仓库使用流程总结git分支使用流程分支介绍1.2-分支使用流程远程仓库使用流程 Git命名作用详细描述git clone克隆远程仓库代码把服务器的项目…

Laravel 开发 API 时的前置准备

前言 使用 Laravel 有一段时间了&#xff0c;今天来总结我平时进行开发前的一些准备工作&#xff0c;如果有不合理的地方或者有更好的建议欢迎各位大佬指出纠正&#xff01; 环境 PHP8 MySQL5.7 Nginx1.20 IDE&#xff1a;PhpStorm搭建 安装 推荐使用 composer 安装 或者…

舆情监测技术方案,网络舆情分析技术手段有哪些?

网络舆情分析技术手段着力于利用技术实现对海量的网络舆情信息进行深度挖掘与分析&#xff0c;以快速汇总成舆情信息&#xff0c;从而代替人工阅读和分析网络舆情信息的繁复工作&#xff0c;接下来TOOM舆情监测小编带您简单了解舆情监测技术方案&#xff0c;网络舆情分析技术手…

网站服务器运行过程中有哪些常见问题?

网站服务器运行过程中有哪些常见问题?在线业务运转过程中&#xff0c;网站服务器的宕机或无法访问往往会给访客带来极差的用户体验&#xff0c;继而影响到在线业务的品牌声誉及长远发展。下面聊聊关于网站服务器的常见问题&#xff0c;需多加留意。 1.页面加载速度变慢 这是用…

Leetcode:222. 完全二叉树的节点个数(C++)

目录 问题描述&#xff1a; 实现代码与解析&#xff1a; 直接当普通二叉树遍历&#xff1a; 利用完全二叉树和满二叉树的特性&#xff1a; 原理思路&#xff1a; 问题描述&#xff1a; 给你一棵 完全二叉树 的根节点 root &#xff0c;求出该树的节点个数。 完全二叉树 的…

js实现纯前端压缩图片

演示 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>压缩图片</title> </head> <bo…