18、论文阅读:AOD-Net:一体化除雾网络

news2024/11/14 0:47:06

AOD-Net: All-in-One Dehazing Network

  • 前言
  • 介绍
  • 相关工作
    • 物理模型
    • 传统方法
    • 深度学习方法
  • 建模与扩展
    • 变换后的公式
    • 网络设计
    • 与高级特征任务相结合
  • 除雾评价
    • 数据集和实现

前言

该论文提出了一种基于卷积神经网络(CNN)的图像去雾模型,称为 All-in-One 去雾网络(AOD-Net)。该模型基于重构的大气散射模型进行设计,不像以往的模型那样分别估计透射矩阵和大气光,而是通过轻量级的 CNN 直接生成干净图像。这种新颖的端到端设计使 AOD-Net 易于嵌入到其他深度模型中,例如 Faster R-CNN,从而提升雾霾图像上的高层次任务性能。实验结果表明,在合成和真实雾霾图像数据集上,AOD-Net 在 PSNR、SSIM 和主观视觉质量方面均优于现有的最先进方法。此外,将 AOD-Net 与 Faster R-CNN 结合后,我们在雾霾图像上的目标检测性能显著提升。

介绍

在这里插入图片描述
在这里插入图片描述

雾霾的存在会显著降低恶劣天气下拍摄的户外图像的清晰度,影响到目标检测和识别等高层次的计算机视觉任务。因此,单图像去雾成为一种非常实用的技术。尽管从单张图像中估计多个物理参数具有挑战性,许多近期的研究已在这一目标上取得显著进展。除了估计全局的大气光强度,去雾的关键在于恢复传输矩阵,为此采用了多种统计假设和复杂模型。然而,这些估计往往并不准确一些常用的预处理方法(如引导滤波和软抠图)可能会扭曲雾霾图像生成过程,导致恢复性能不佳。此外,传输矩阵和大气光这两个关键参数的非联合估计,可能在应用时放大误差。

本文提出了一种高效的端到端去雾卷积神经网络(CNN)模型,称为 All-in-One 去雾网络(AOD-Net)。尽管一些早期的去雾模型提出了“端到端”的概念,我们认为 AOD-Net 的主要创新在于,它是第一个从雾霾图像到清晰图像进行优化的真正端到端模型,而不是停留在中间的参数估计阶段。AOD-Net 基于重新构造的大气散射模型进行设计,使用合成的雾霾图像进行训练,并在合成和真实自然图像上进行测试。实验结果表明,AOD-Net 在 PSNR 和 SSIM 指标上优于多种现有的先进方法(Figure 1),并在视觉质量上表现出色(Figure 2)。作为轻量化模型,AOD-Net 处理 480 × 640 图像的时间仅需 0.026 秒,具有极快的处理速度。此外,AOD-Net 是第一个探索去雾模型如何帮助后续高层次视觉任务的模型。**由于其端到端的结构,AOD-Net 能轻松嵌入 Faster R-CNN,并大幅提升雾霾图像的目标检测性能。
**

相关工作

物理模型

大气散射模型是模糊图像生成过程的经典描述
在这里插入图片描述
在这里插入图片描述

传统方法

在去雾技术中,有多种方法致力于解决单图像去雾问题。具体而言,[23] 通过最大化局部对比度来处理雾霾去除问题。[6] 提出了一种基于物理的去雾方法,通过估算场景的反照率(albedo)来进行去雾。[8, 24] 则发现了有效的暗通道先验 (Dark Channel Prior, DCP),这使得传输矩阵的计算更加可靠。[12] 进一步引入边界约束和上下文正则化,以获得更清晰的去雾图像。[22] 提出了一个加速的自动恢复大气光强度的方法。[32] 开发了颜色衰减先验,并为雾霾图像建立了一个场景深度的线性模型,然后以监督方式学习模型参数。

深度学习方法

卷积神经网络(CNN)在计算机视觉任务中取得了广泛的成功,最近也被应用于去雾问题中。例如,[17] 提出了一种多尺度CNN (MSCNN) 模型,该模型首先生成一个粗略的传输矩阵,然后进行精细化处理。[3] 提出的 DehazeNet 是一种可训练的端到端模型,用于估计中间传输,通过雾霾图像作为输入,输出其传输矩阵。结合通过经验规则估算的大气光强度,基于大气散射模型可以恢复去雾图像。

上述方法的共同点在于,去雾的关键在于准确估算传输矩阵,同时独立计算大气光,然后利用这些参数恢复清晰图像然而,这种方法尽管直观且具有物理依据,却没有直接对图像的重建失真进行度量或最小化,因此难以避免图像恢复质量的次优表现。分步估算的误差会在每一步累积,可能相互放大,导致图像恢复效果欠佳。

与之相对,AOD-Net 建立在一种不同的信念之上,即物理模型可以通过“更端到端”的方式进行建模,将所有参数统一在一个模型中估算AOD-Net 不需要中间步骤来估算参数,而是直接输出去雾后的清晰图像。不同于 [3] 仅从雾霾图像到传输矩阵的端到端学习,AOD-Net 的完全端到端设计直接缩小了雾霾图像与清晰图像之间的最终目标差距。

建模与扩展

在本节中,解释了所提出的 AOD-Net。 我们首先介绍转换后的大气散射模型,AOD-Net 是基于该模型设计的。 然后详细描述AOD-Net的结构。 此外,由于其端到端设计,我们通过将所提出的模型直接嵌入到其他现有的深度模型中,讨论了将其扩展到模糊图像上的高级任务。

变换后的公式

根据公式 (1) 中的大气散射模型,得到的清晰图像为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

网络设计

在这里插入图片描述
所提出的 AOD-Net 由两个部分组成(见图 4):一个使用五个卷积层来估计K(x) 的 K -估计模块接着是一个清晰图像生成模块,该模块由逐元素相乘层和若干逐元素相加层组成,通过计算公式 (4) 生成复原图像。

K-估计模块是 AOD-Net 的关键组件,负责估计深度和相对雾度水平。如图 4(b) 所示,我们使用五个卷积层,通过融合不同大小的滤波器来形成多尺度特征。[3] 采用了不同滤波器尺寸的并行卷积,[17] 则将粗尺度网络的特征与精细尺度网络的中间层相连接。受到这些方法的启发,AOD-Net 的“concat1”层连接了“conv1”和“conv2”层的特征。“concat2”同样连接“conv2”和“conv3”层的特征;“concat3”则连接“conv1”、“conv2”、“conv3”和“conv4”层的特征。这样的多尺度设计捕捉了不同尺度的特征,中间层的连接也弥补了卷积过程中信息的损失。

作为验证连接的简单基线方法,我们在 TestSetA(见第 4 节)上尝试了不使用连接的结构,即“conv1” → “conv2” → “conv3” → “conv4” → “conv5”。得到的平均 PSNR 为 19.0674 dB,SSIM 为 0.7707,两者均低于表 1 中的当前结果(尤其是 SSIM 的大幅下降)。值得注意的是,AOD-Net 的每个卷积层仅使用三个滤波器,因此与 [3] 和 [17] 等现有的深度方法相比,我们的模型更加轻量。

与高级特征任务相结合

高级计算机视觉任务(如目标检测和识别)关注视觉语义,并已受到广泛关注 [16, 30]。然而,这些算法的性能通常受到多种降质因素的影响传统方法首先通过单独的图像复原步骤作为预处理,再输入目标的高级任务中近期,[27, 4] 证明了复原与识别步骤的联合优化能优于传统的两阶段方法。

先前的研究 [31] 已探讨了噪声、模糊和低分辨率等常见降质的影响及其补救方法。然而,据我们所知,目前还没有类似的研究定量地分析雾霾对高级视觉任务的影响及其缓解方法。当前的去雾模型主要关注复原质量,而我们迈出了实现这一重要目标的第一步。由于其独特的端到端设计,AOD-Net 可以无缝嵌入其他深度模型中,形成一个能够在雾霾图像上执行高级任务的管道,并在其中隐式地进行去雾处理。这种管道可以端到端地联合优化,以提升性能,而如果将 AOD-Net 替换为其他深度去雾模型 [3, 17],这种优化将无法实现。

除雾评价

数据集和实现

我们通过公式 (1) 生成合成的雾霾图像,使用来自 NYU2 Depth Database [21] 的带有深度元数据的真实清晰图像。我们设定不同的大气光 A ,每个通道在 [0.6, 1.0] 范围内均匀选取,并选择 β ∈{0.4, 0.6, 0.8, 1.0, 1.2, 1.4, 1.6}

对于 NYU2 数据库,我们选取了 27,256 张图像作为训练集,3,170 张图像作为不重叠的测试集 TestSet A。我们还使用了 Middlebury 立体数据库 [19, 18, 9] 中的 800 张全尺寸合成图像作为测试集 TestSet B。此外,我们还收集了一组自然雾霾图像来评估我们模型的泛化性能。

在训练过程中,模型的权重通过高斯随机变量进行初始化。我们使用 ReLU 神经元,因为在我们的特定设置中发现其效果优于文献 [3] 中提出的 BReLU 神经元。动量参数和衰减参数分别设置为 0.9 和 0.0001。我们采用简单的均方误差(MSE)损失函数,发现它不仅提升了 PSNR,还提高了 SSIM 和视觉质量。

AOD-Net 模型在大约 10 个训练周期后收敛,通常在 10 个周期后表现足够好。我们还发现将梯度裁剪到 [−0.1, 0.1] 范围内有助于限制梯度范数。这一技术在稳定循环神经网络训练中非常流行 [15]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2237162.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件工程。

图 UML 数据流图(DFD) 1,数据流图概念 描绘信息流和数据从输入移动到输出的过程中所经受的变换。 也就是 数据流图。 数据流图以图形的方式描绘数据在系统中流动和处理的过程。 数据流图(DFD,Data Flow Diagram&a…

机器学习—为什么我们需要激活函数

如果我们使用神经网络中每个神经元的线性激活函数,回想一下这个需求预测示例,如果对所有节点使用线性激活函数,在这个神经网络中,事实证明,这个大神经网络将变得与线性回归没有什么不同,所以这将挫败使用神…

Java基础使用②Java数据变量和类型+小知识点

目录 1. Java小知识点 1.1 Java注释 1.2 Java标识符命名 1.3 Java关键字 2. 字面常量和数据变量 2.1 字面常量 2.2 数据类型 3.变量 3.1 变量概念 3.2 语法格式 3.3 整型变量 3.4 浮点型变量 3.5 字符型变量 3.6 布尔型变量 3.7 类型转换 3.8 类型提升 4. 字符…

Blender 几何、线框猴头的构建 笔记

一、学习blender视频教程链接 案例7:猴头构建_建模动画_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Bt4y1E7qn?spm_id_from333.788.videopod.episodes&vd_sourced0ea58f1127eed138a4ba5421c577eb1&p23 二、几何节点基础教程 1.首先添加几何节…

Kafka面试题解答(二)

1.怎么尽可能保证 Kafka 的可靠性 kafka是可能会出现数据丢失问题的,Leader维护了一个动态的in-sync replica set(ISR),意为和 Leader保持同步的FollowerLeader集合(leader:0,isr:0,1,2)。 如果Follower长…

用科技力量,重塑数字化园区新生态!

数字化园区的成功打造绝非易事,它需要在多个关键层面付出持之以恒的努力,而成都树莓集团在这一进程中无疑发挥着重要作用。 在数据的管理与应用方面,成都树莓集团更是展现出卓越的实力。集团运用先进的数据挖掘、分析技术,助力园区…

Mac上无法访问usr/local的文件

sudo chmod 755 /usr/loca 最后用百度提供的方法解决了

【Lucene】原理学习路线

基于《Lucene原理与代码分析完整版》,借助chatgpt等大模型,制定了一个系统学习Lucene原理的计划,并将每个阶段的学习内容组织成专栏文章,zero2hero 手搓 Lucene的核心概念和实现细节。 深入的学习和专栏计划,覆盖Lucen…

友思特应用 | 动态捕捉:高光谱相机用于移动产线上的食品检测

导读 高光谱成像技术能够为食品安全助力。以友思特BlackIndustry SWIR 1.7 Max 为代表的高光谱相机,完美解决了移动产线检测的应用难点。 高光谱技术:为食品安全保驾护航 食品安全一直是大众关心的热点话题,提供安全、高质量的食品需要对食…

HarmonyOS使用arkTS拉起指定第三方应用程序

HarmonyOS使用arkTS拉起指定第三方应用程序 前言代码及说明bundleName获取abilityName获取 前言 本篇只说采用startAbility方式拉起第三方应用,需要用到两个必备的参数bundleName,abilityName,本篇就介绍如何获取参数… 代码及说明 bundle…

Linux的基本指令(一)

1.ls指令 功能:对于目录,该命令列出该目录下的所有子目录与文件。对于文件,将列出文件名以及信息。 常用选项: -a列出目录下的所有文件,包括以 . 开头的隐含文件。 -l列出文件的详细信息 举例: rooti…

基于Springboot+Vue的博客系统 (含源码数据库)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 这个系…

华为OD机试真题-矩形绘制

题目描述 实现一个简单的绘图模块,绘图模块仅支持矩形的绘制和擦除 当新绘制的矩形与之前的图形重善时,对图形取并集 当新擦除的矩形与之前的图形重善时,对图形取差集 给定一系列矩形的绘制和擦除操作,计算最终图形的面积。下…

数据编排与ETL有什么关系?

数据编排作为近期比较有热度的一个话题,讨论度比较高,同时数据编排的出现也暗示着数字化进程的自动化发展。在谈及数据编排时,通常也会谈到ETL,这两个东西有相似点也有不同点。 数据编排和ETL(提取、转换、加载&#x…

【Golang】Go语言教程

Go语言教程 文章目录 Go语言教程一、Go语言教程二、Go语言特色三、Go语言用途四、第一个Go程序六、运行代码的两种方式七、go run和go buil的区别7.1、go run7.2、Go build 一、Go语言教程 Go全称Golang Go是一个开源的编程语言,它能让构造简单、可靠且高效的软件变…

【重装系统后重新配置2】pycharm 终端无法激活conda环境

pycharm 终端无法激活 conda 环境,但是 Windows本地终端是可以激活的 原因是pycharm 默认的终端是 Windows PowerShell 解决方法有两个: 一、在设置里,修改为cmd 二、下面直接选择

这是一个bug求助帖子--安装kali 遇坑

第一个报错 介质:kali-linux-2024.1-live-amd64 环境:Dell笔记本 i510代cpu 现象及操作 安装完以后 然后我换了个国内的源进行了以下操作 apt-get update:更新源列表 apt-get upgrade:更新所有可以更新的软件包 然后进行清理。…

教你在.Net8.0的WinForm中使用WebView2,实现C#和JavaScript的实时双向互操作

1. 前言 随着 Web 技术的发展,使用网页内容(HTML、JavaScript、CSS 等)作为桌面应用程序的一部分变得越来越常见。在 C# WinForm 中,Microsoft 提供的 WebView2 控件让我们可以轻松地嵌入 Chromium 浏览器,并实现 C# …

如何安装QT(linux/windows)

1. linux 1.1 下载安装程序 进入QT官网,点击右上角下载 Qt | Tools for Each Stage of Software Development Lifecycle​www.qt.io/ 然后选择下载linux版本,这里你需要填写一些信息,注册一些即可 填写之后会出现下面这个网页,…

PVE纵览-PVE与VM:谁才是你的最佳虚拟化选择?

PVE纵览-PVE与VM:谁才是你的最佳虚拟化选择? 文章目录 PVE纵览-PVE与VM:谁才是你的最佳虚拟化选择?摘要1 不同虚拟化平台的基础2 平台特性与功能3 性能与可靠性4 成本与经济性5 应用场景比较6 用户体验与支持7 结论与建议 关键字&…