Structure-Inferred Bi-level Model for Underwater Image Enhancement论文小结

news2024/12/26 13:54:30

背景

随着水下机器人的发展,水下图像增强引起了计算机视觉界越来越多的关注。然而,由于光线在水中传播时会被散射和吸收,水下捕捉到的图像往往存在偏色和能见度低的问题。现有的方法依赖于特定的先验知识和训练数据,在缺乏结构信息的情况下增强水下图像,结果效果不佳且不自然。

传统方法

在传统方法方面,常用的水下图像增强方法包括对数(或幂律)变换、对比度拉伸、直方图均衡化、锐化。这些方法可以有效拓宽图像的显示范围,实现对比度增强。但是,这些方法忽略了每个强度值的统计分布和位置信息,因此效果并不理想。随着深度学习的发展,现有的基于深度学习的方法通过领域或先验知识来增强水下图像,并达到较高的量化分数。但它们忽略了水下物体的颜色和结构信息。此外,这些基于数据驱动的方法依赖于数据信息。因此,在处理复杂的真实水下环境时,这些方法无法取得更好的性能。

提出的方法

本文针对水下图像增强任务开发了一种具有分层增强网络的结构推断双层模型(命名为 SIBM),该网络由三个分支组成(即基于语义的前景分支(SFB)、基于梯度的高频分支(GHB)和水下像素分支(UPB))。所开发的方法采用了分层增强技术,可以利用图像到图像的转换技术来学习不同域之间的映射,即基于梯度域的高频域、基于语义域的前景目标域和基于像素域的图像域。

贡献

 1)针对水下图像增强任务开发了一种结构引导的分层增强模型,该模型有三个分支(即 SFBUPB GHB),结合了不同的领域知识(即基于语义的领域、基于梯度的领域和基于像素的领域)。

 2)设计了一个基于梯度的高频分支(即 GHB),利用梯度空间引导来保留纹理结构。为了避免背景颜色带来的不必要干扰,我们构建了基于语义的前景分支(SFB),以帮助我们的模型获得自然的水下图像。

 3)通过输入语义和梯度信息来构建 UPB,以增强水下图像。为了利用不同领域的信息,我们进一步引入了超参数优化方案,以学习合适的超参数来融合上述三个领域的信息。

网络框架

该结构由三个分支组成。第一部分是基于语义的前景分支。第二部分是基于梯度的高频分支。第三部分是水下像素分支。

问题的提出

1)基于朦胧模型,退化图像可以通过以下模型进行建模:

Ic表示观测到的图像,Jc表示清晰图像,Ac表示均匀背景光,T𝑐(𝑥)=𝑒xp(−𝜷𝑑(𝑥))表示介质透射图,

其中d(x)表示像素x处的场景深度,𝜷表示水质的通道消光系数。

2)为了避免背景颜色造成不必要的干扰,我们引入了语义掩码 M,将水下图像分成两部分:前景图像和背景图像。且,其中 ◦ 表示点积。类似地,有 。在这一模型下,我们采用以下方案同时优化 和 Jc:, L 和 φ 表示的损失函数。

3)为了进一步改善水下图像的纹理结构,我们引入了一个利用梯度信息的最小化模型。

4)受双层优化模型的启发,我们将最小化问题重构为以下超参数优化形式:

各个分支

1)基于语义的前景分支(SFB)

有目的地增强水下图像的目标区域。SFB 是一个由多个特征金字塔块组成的常规残差网络模块。通过多尺度注意力块,我们可以在六个残差块之后获得语义域中的特定前景特征

多尺度注意力块的具体流程如图所示

为了增强水下图像的客观性(即前景信息),我们引入 l2 范式来评估估计语义信息与参考信息之间的距离。因此,

2)基于梯度的高频分支

目标是增强水下退化图像的细节信息。水下图像的梯度图是通过计算相邻像素之间的差值获得的。对于目标输入 Ic (x),高频结构 ∇Ic 定义为

∇1Ic 和∇2Ic 代表两个垂直方向上的梯度。这两个梯度可以描述为 ∇1Ic = Ic (x1 + 1, x2) - Ic (x1 -1, x2) 和 ∇2Ic = Ic (x1, x2 +1) -Ic (x1, x2 -1) 。

在这一分支中,我们首先构建三个 u 型卷积块(记为 G),它们介于两个 3 × 3 卷积之间。估计的∇Jc 为

为了使学习到的特征对细节结构有足够的表示能力,一般的策略是通过给定的损失函数迫使网络对正确的标签进行分类。我们使用 l1 损失作为目标函数。

3)水下像素分支(UPB)

基于水下像素的分支水下图像增强结构的基础部分。首先,为了挖掘不同尺度深度-纹理特征的分层特征,我们在该分支中采用了基于金字塔的多通道注意力块来估计初步像素特征 Fp。

多通道注意力块,沿用了SENet方案。

为了利用语义和梯度域信息,我们将语义和梯度产生的特征图以如下形式输入 UPB

对于训练损失,我们使用 l2 损失和最常用的 SSIM 损失

3)通过输𝜌入𝜌

         𝜌代表l2损失和lssim损失的加权参数

至于 λ,我们设计了一种注意力机制来获得自适应映射,它可以直接从全局上下文中学习通道间信息,从而提高我们的性能。实际上,超参数机制能自动协调不同领域的信息,有助于提高网络的泛化能力。

在融合阶段,利用整体损失来保持融合图像更好的强度分布,其计算公式为

             

实施细节

数据集:

五个不同数据集的训练/测试图像数量和水下图像类型汇总。

衡量标准:

峰值信噪比(PSNR)和结构相似性指数(SSIM),来评估不同方法的性能

为了进一步衡量真实世界水下图像的性能,我们引入了另外四个没有参考(即地面实况)图像的指标。引入了无参考水下图像质量测量(UIQM)、水下彩色图像质量评估(UCIQE)、自然图像质量评估器(NIQE)和感知分数(PS)来定量评估不同的方法。UCIQE、UIQM 或 PS 分数越高,表示人类的视觉感知能力越强。NIQE 分数越低,表示图像质量越好。

比较:

与一些最先进的方法进行了比较,包括传统方法(即 UDCP、Fusion)、基于 GAN 的方法(FUnIE-GAN 、UGAN 、Ucolor )、基于 CNN 的方法(WaterNet)和无监督方法(USUIR)。我们在合成和真实世界水下数据集上进行了定量和定性比较。

定量比较:

没有参考图像的情况下,对具有挑战性的真实世界水下数据集(即 Test-C60、SQUID 和 RUIE)进行了实验。

定性比较:

消融实验:

包括模型分支研究、损失函数的成分分析以及不同尺度和梯度策略的评估。

模型分支研究:

损失函数的成分分析:

不同尺度和梯度策略的评估:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1203022.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

家长群如何发成绩?

老师们是否经常被家长们追问:“老师,我孩子的成绩出来了吗?”、“老师,我孩子考了多少分?”等等。要想解决这个问题,看完这篇文章你就可以让家长们能够自助查询孩子的成绩了。 一、什么是成绩查询系统&…

【Java SE】类和对象(下)

接着上文 目录 6. 封装 6.1 封装的概念 6.2 访问限定符 6.3 封装扩展之包 6.3.1 包的概念 6.3.2 自定义包 6.3.3 导入包中的类 6.3.4 包的访问权限控制举例 6.3.5 常见的包 7. static成员 7.1 static修饰成员变量 ​编辑 ​编辑 7.2 static修饰成员方法 8. 代…

半导体电导率受哪些因素影响?如何正确测量半导体电导率?

半导体的电导率直接影响着半导体器件的工作状态,是半导体材料的重要参数。因此,半导体电导率的检测也是半导体设计和制造过程中的关键环节,确保半导体器件的性能、稳定性和可靠性。 什么是半导体电导率? 半导体电导率是指导电流在单位时间和…

数据结构与算法(二)动态规划(Java)

目录 一、简介1.1 什么是动态规划?1.2 动态规划的两种形式1)自顶向下的备忘录法(记忆化搜索法)2)自底向上的动态规划3)两种方法对比 1.3 动态规划的 3 大步骤 二、小试牛刀:钢条切割2.1 题目描述…

分发饼干(贪心算法+图解)

455. 分发饼干 - 力扣(LeetCode) 题目描述 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的饼干的最…

wireshark打开tcpdump抓的包 vwr: Invalid data length runs past the end of the record

tcpdump -i any -n -s0 > t.pcap 使用此命令在Debian系统上抓包,下载到PC,用wireshark打开时报错: 后来发现写入文件时使用 -w 是没问题的,原因还不清楚。 tcpdump -i any -n -s0 -w t.pcap

JavaScript从入门到精通系列第三十一篇:详解JavaScript中的字符串和正则表达式相关的方法

文章目录 知识回顾 1:概念回顾 2:正则表达式字面量 一:字符串中正则表达式方法 1:split 2:search 3:match 4:replace 大神链接:作者有幸结识技术大神孙哥为好友,…

美国通胀预期高企,现货黄金价格继续承压下滑

上周五现货黄金持续振荡下滑,金价失守1940美元关口,最低至1933.17美元/盎司,最终收跌1.09%,报1936.51美元/盎司,创10月17日以来新低;今日(周一)截止汉声集团分析师发稿前&#xff0c…

竞赛选题 深度学习的动物识别

文章目录 0 前言1 背景2 算法原理2.1 动物识别方法概况2.2 常用的网络模型2.2.1 B-CNN2.2.2 SSD 3 SSD动物目标检测流程4 实现效果5 部分相关代码5.1 数据预处理5.2 构建卷积神经网络5.3 tensorflow计算图可视化5.4 网络模型训练5.5 对猫狗图像进行2分类 6 最后 0 前言 &#…

APS、SAP解析BOM批量核对(我的APS项目三)

APS提供了解析BOM接口 SAP从CU50中解析了BOM 博主开发了一个程序,把两边的BOM数据拉到一起来比对,从最初的一个车型,增加到5个车型,最后成型是30个车型,几乎覆盖了F1、F2的全部车型。 并且程序还实现了消息提醒功能&…

PLM/ERP/APS/MES/SRM/CRM/WMS/QMS

参考一 ERP 1 什么是ERP ERP的英文全称是“Enterprise Resource Planning”,从字面上看,它的意思就是“企业资源计划”。ERP最开始是由美国著名的计算机技术咨询和评估集团Garter Group提出的一整套企业管理系统体系标准。 2 ERP的发展历程&#xff08…

【数据仓库】数仓分层方法

文章目录 一. 数仓分层的意义1. 清晰数据结构。2. 减少重复开发3. 方便数据血缘追踪4. 把复杂问题简单化5. 屏蔽原始数据的异常6. 数据仓库的可维护性 二. 如何进行数仓分层?1. ODS层2. DW层2.1. DW层分类2.2. DWD层2.3. DWS 3. ADS层 4、层次调用规范 一. 数仓分层…

自然语言处理实战项目21-两段文本的查重功能,返回最相似的文本字符串,可应用于文本查重与论文查重

大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目21-两段文本的查重功能,返回最相似的文本字符串,可应用于论文查重。本文想实现一种文本查重功能,通过输入两段文本,从中找出这两段文本中最相似的句子。这项技术有助于检测抄袭、抄袭的论文和文章,提高知识创新…

js设置图片放大缩小拖动

效果: 思路: 在外层box进行相对定位relative,img设置绝对定位absolute;通过监听滚轮事件(wheel),设置样式缩放中心点(transformOrigin)和缩放转换(transform);获取到图片大小和位置,设置对应图片宽度高度和top、left偏移;鼠标按下事件(mousedown)和鼠标移动事…

【教3妹学编程-算法题】给小朋友们分糖果 II

3妹:1 8得8,2 816, 3 8妇女节… 2哥 : 3妹,在干嘛呢 3妹:双11不是过了嘛, 我看看我这个双十一买了多少钱, 省了多少钱。 2哥 : 我可是一分钱没买。 3妹:我买了不少东西, …

WS2812B彩灯 STM32HAL库开发:PWM+DMA(stm32f103c8t6)

目录 一、摘要 二、WS2812B介绍 三、CUBEMX配置 四、程序介绍(KEIL编译器) 五、数据手册 一、摘要 1、本文使用示例单片机型号为stm32f103c8t6,RGB型号为WS2812B; 2、主要实现功能是实现用PWMDMA使RGB_LED亮起不同颜色的灯光…

暖手宝上架亚马逊美国站UL499报告测试标准要求

暖手宝是运用物理及化学原理研制的自动取暖保健用品。该产品以其自动生热,有趣,实用等新颖独特的优势,深受欢迎——暖手宝具有自动取暖,理疗保健等多种功能。只要插上电源等上10分钟左右就能发热,最后一种是通过锂电池…

thinkphp6 只有默认页能访问 其他404 其他模块404

1.只有默认页能访问 其他页404 同时隐藏index.php 在 public/.htaccess 中添加如下配置&#xff0c;后重启服务 <IfModule mod_rewrite.c>Options FollowSymlinks -MultiviewsRewriteEngine OnRewriteCond %{REQUEST_FILENAME} !-dRewriteCond %{REQUEST_FILENAME} !-f…

活跃类指标

活跃类指标反映了用户的真实使用情况。本节我们深入探讨活跃类指标的核心逻辑。 1&#xff0e; UV UV ( Unique Visitor &#xff0c;独立访客&#xff09;&#xff0c;是所有活跃类指标的基础。 既然叫独立访客&#xff0c;何谓之独立&#xff1f; APP 产品界定独立访客相对…

算法的复杂性

通常情况下&#xff0c;一个问题可能对应有多种解决方案&#xff0c;每种解决方案都是一种算法。因此&#xff0c;我们可能经常需要做一件事&#xff1a;从众多算法中挑选出一个最好的算法。所谓“最好”的算法&#xff0c;即最适合当前场景使用的算法。 不同的应用场景&#x…