图像去模糊:MIMO-UNet 模型详解

news2025/1/12 18:06:56

  本内容主要介绍实现图像去模糊的 MIMO-UNet 模型

论文:Rethinking Coarse-to-Fine Approach in Single Image Deblurring

代码(官方):https://github.com/chosj95/MIMO-UNet

1. 背景

  由于深度学习的成功,基于卷积神经网络(CNN)的图像去模糊方法已被广泛研究,并显示出良好的性能。基于卷积神经网络的图像去模糊模型主要分为两大类。早期,采用两阶段图像去模糊框架,即基于 CNN 的模糊核估计阶段和基于模糊核的去模糊阶段。最近,直接以端到端的方式直接学习模糊-清晰图像对之间的复杂关系,即直接从模糊图像获得清晰图像,DeepDeblur 最早使用这种方案。采用这种端到端方式的模型基本上都是采用 从粗到细(Coarse-to-fine) 策略。

  目前,从粗到细(Coarse-to-fine)策略在单图像去模糊领域已经被广泛使用。常规方案通常是通过堆叠多尺度输入图像的子网络,并从底部子网络到顶部子网络逐渐提高图像的清晰度。虽然采用从粗到细策略的网络设计在图像去模糊任务中取得了不错的性能,但是这种性能的提升是以计算复杂度和内存使用量的增加为代价的。从而导致这些模型难以用于成本和时间敏感的环境(例如移动设备、车辆和机器人等场景)

2. 模型设计

  为了实现快速并准确的去模糊网络设计,作者通过重新思考从粗到细的策略,提出了一个多输入多输出 U-net(MIMO-UNet),其架构图详见图 1.1。MIMO-UNet 是一种基于单个编码器-解码器的 U 型网络,具有三个不同的特性:

  • MISE:MIMO-UNet 的单个编码器输入多尺度的输入图像,因此将其命名为多输入单编码器(Multi-input Single Encoder,MISE),以减轻训练的难度。
  • MOSD:MIMO-UNet 的单个解码器输出多个不同尺度的去模糊图像,因此将其命名为多输出单解码器(Multi-output Single Decoder,MOSD)。MOSD 虽然简单,但是其可以模仿由堆叠子网络组成的常规网络架构,并指导解码器层以从粗到细的方式逐渐恢复潜在的清晰图像。
  • AFF:非对称特征融合(Asymmetric Feature Fusion,AFF)有效地合并多尺度特征。AFF 输入不同尺度的特征,并合并编码器和解码器之间的多尺度信息流,以提高去模糊性能。

图 1.1 MIMO-UNet 架构图

2.1 MISE

  编码器由 3 个编码块(Encoder Block,EB)组成,具体的实现流程如下:

  1. 首先,使用一个 SCM(Shallow Convolutional Module,浅卷积模块)从下采样的模糊图像中提取特征,其输出表示为 SCM k out \text{SCM}_k^{\text{out}} SCMkout。注意:只在第二和第三层 EB 中使用 SCM。
  2. 然后,为了能够将 SCM 的输出( SCM k out \text{SCM}_k^{\text{out}} SCMkout)与上一层 EB 的输出( EB k − 1 out \text{EB}_{k-1}^{\text{out}} EBk1out)进行融合,需要对 EB k − 1 out \text{EB}_{k-1}^{\text{out}} EBk1out 进行一个 stride 为 2 的卷积操作(即图 1.1 中 EB 2 \text{EB}_2 EB2 EB 3 \text{EB}_3 EB3 中的紫色块),得到输出 ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^{\text{out}})^{\downarrow} (EBk1out),这样 SCM k out \text{SCM}_k^{\text{out}} SCMkout ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^{\text{out}})^{\downarrow} (EBk1out) 维度相同了。注意:由于第一层没有使用 SCM,所以 EB 1 \text{EB}_1 EB1 中紫色卷积块的 stride 为 1。
  3. 接着,将 SCM k out \text{SCM}_k^{\text{out}} SCMkout ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^{\text{out}})^{\downarrow} (EBk1out) 一起输入到一个 FAM(Feature Attention Module)中(即图 1.1 中 EB 2 \text{EB}_2 EB2 EB 3 \text{EB}_3 EB3 中的绿色块)。注意:只在第二和第三层使用 FAM。
  4. 最后,将 FAM 的输出送入到堆叠残差块中(即图 1.1 中 EB 1 \text{EB}_1 EB1 EB 2 \text{EB}_2 EB2 EB 3 \text{EB}_3 EB3 中的蓝色块)。每个残差块由 2 个 3 x 3 的卷积层组成。MIMO-UNet 堆叠 8 个这样的残差块,MIMO-UNet+ 堆叠 20 个这样的残差块。

2.1.1 SCM

  SCM(Shallow Convolutional Module,浅卷积模块) 用于从下采样图像中提取特征。其结构图详见图 1.2,具体的实现流程如下:

  1. 首先,堆叠两组 3 x 3 和 1 x 1 的卷积层。
  2. 然后,将上一步的输出与 SCM 的输入进行拼接。
  3. 最后,再连接一个 1 x 1 的卷积层。

图 1.2 SCM 结构图

2.1.2 FAM

  FAM(Feature Attention Module,特征注意力模块) 用来强调或抑制先前尺度(也就是上一层 EB 的输出)的特征,并从 SCM 中学习特征的空间、通道重要性。结构图详见图 1.3,具体的实现流程如下:

  1. 首先,将 ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^\text{out})^{\downarrow} (EBk1out) SCM k out \text{SCM}_k^{\text{out}} SCMkout 按元素相乘。(需要注意一下,原论文中 FAM 结构图(即图 1.3)中,标注的 ( EB k out ) ↓ (\text{EB}_{k}^\text{out})^{\downarrow} (EBkout) 是不正确的。)
  2. 然后,将上一步的输出传入一个 3 x 3 的卷积层。
  3. 最后,将上一步卷积层的输出与 ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^\text{out})^{\downarrow} (EBk1out) 进行一个残差连接。

图 1.3 FAM 结构图

2.2 AFF

  为了在单个 U-Net 中实现不同尺度之间的信息流,作者提出了 AFF(Asymmetric Feature Fusion,非对称特征融合)。结构图详见图 1.4,具体的实现流程如下:

  1. 首先,将 3 个 EB 的输出特征进行 resize。
  2. 然后,将上一步 resize 后的特征进行拼接。
  3. 最后,使用卷积层对拼接后的特征进行融合(一个 1 x 1 和 一个 3 x 3 的卷积层)。

图 1.4 AFF 结构图

  每个 AFF 都能够接收所有编码块(EB)的输出作为输入。需要注意的是,每个 AFF 中 resize 后向量的维度是不一样的,具体计算公式如式(1.1)所示:

AFF 1 out = AFF 1 ( EB 1 out , ( EB 2 out ) ↑ , ( EB 3 out ) ↑ ) AFF 2 out = AFF 2 ( ( EB 1 out ) ↓ , EB 2 out , ( EB 3 out ) ↑ ) (1.1) \text{AFF}_1^{\text{out}} = \text{AFF}_1 \Big( \text{EB}_1^{\text{out}}, (\text{EB}_2^{\text{out}})^{\uparrow}, (\text{EB}_3^{\text{out}})^{\uparrow} \Big) \\ \text{AFF}_2^{\text{out}} = \text{AFF}_2 \Big( (\text{EB}_1^{\text{out}})^{\downarrow}, \text{EB}_2^{\text{out}}, (\text{EB}_3^{\text{out}})^{\uparrow} \Big) \tag{1.1} AFF1out=AFF1(EB1out,(EB2out),(EB3out))AFF2out=AFF2((EB1out),EB2out,(EB3out))(1.1)

其中, AFF n out \text{AFF}_n^{\text{out}} AFFnout 表示第 n n n 个 AFF 的输出。使用上采样( ↑ \uparrow )和下采样( ↓ \downarrow )是为了便于不同尺度的特征进行融合。MIMO-UNet 的每个解码块(DB)都能利用多尺度特征,从而提升模型去模糊的性能。

2.3 MOSD

  解码器也是由 3 个解码块(Decoder Block,DB)组成,具体的实现流程如下:

  1. 首先,将 AFF 的输出( AFF n out \text{AFF}_n^{\text{out}} AFFnout)与下一层 DB 的输出进行拼接。注意:只在 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 中有这个操作。
  2. 然后,将上一步拼接后的输出连接一个 1 x 1 的卷积(即图 1.1 中 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 中的第一个紫色块),进行一下特征融合。注意:只在 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 中有这个操作。
  3. 接着,将上一步的输出送入到堆叠残差块中(即图 1.1 中 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中的蓝色块),其组成和 EB 中的残差块一样。
  4. 再次,连接一个转置卷积(即 DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中的黄色块),实现上采样效果。这样操作是为了将其输入到上一层 DB 后,能够与 AFF 的输出( AFF n out \text{AFF}_n^{\text{out}} AFFnout)进行拼接融合。注意:只在 DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中有这个操作。
  5. 最后,在每个 DB 中,第三步的残差块的输出都会连接一个 3 x 3 的卷积层,其输出通道为 3。这样操作是为了输出不同尺度的清晰图像。注意:在进行推理的时候, DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中的这个操作是可以不用进行的。

  上面的实现流程,通过公式表示如式(1.2)所示:

S ^ n = { o ( DB n ( AFF n out ; DB n + 1 out ) ) + B n , n = 1 , 2 o ( DB n ( EB n out ) ) + B n , n = 3 (1.2) \hat{S}_n = \left \{ \begin{array}{cc} o(\text{DB}_n(\text{AFF}_n^{\text{out}};\text{DB}_{n+1}^{\text{out}})) + B_n, &n=1,2 \\ o(\text{DB}_n(\text{EB}_n^{\text{out}})) + B_n, &n = 3 \end{array} \right. \tag{1.2} S^n={o(DBn(AFFnout;DBn+1out))+Bn,o(DBn(EBnout))+Bn,n=1,2n=3(1.2)

其中,函数 o o o 为上面第 5 步中的卷积操作。


2.4 损失函数

  和其他多尺度去模糊网络一样,使用多尺度内容损失函数。作者发现在 MIMO-UNet 中,L1 损失比 MSE 损失的效果更好。内容损失函数定义如式(1.3)所示:

L c o n t = ∑ k = 1 K 1 t k ∣ ∣ S k ^ − S k ∣ ∣ 1 (1.3) L_{cont} = \sum_{k=1}^K \frac{1}{t_k} ||\hat{S_k} - S_k||_1 \tag{1.3} Lcont=k=1Ktk1∣∣Sk^Sk1(1.3)

其中, K K K 是网络层级的数量(在这里是 3), t k t_k tk 是所有元素的数量,除以 t k t_k tk 的目的是为了进行归一化。

  研究表明,除了内容损失外的辅助损失项有助于提高模型性能。由于图像去模糊的目的是恢复丢失的高频部分,因此减少频率空间的差异是非常重要的。基于这个目的,作者提出了 MSFR(Multi-scale Frequency reconstruction,多尺度频率重建) 损失函数。MSFR 损失在频域测量多尺度真实图像和去模糊图像之间的 L1 距离,具体公式如式(1.4)所示:

L M S F R = ∑ k = 1 K 1 t k ∣ ∣ F ( S k ^ ) − F ( S k ) ∣ ∣ 1 (1.4) L_{MSFR} = \sum_{k=1}^K \frac{1}{t_k} ||\mathcal{F}(\hat{S_k}) - \mathcal{F}(S_k)||_1 \tag{1.4} LMSFR=k=1Ktk1∣∣F(Sk^)F(Sk)1(1.4)

其中, F \mathcal{F} F 表示快速傅里叶变换(Fast Fourier Transform,FFT),用于将图像信号转换到频域。

  最终的损失函数如式(1.5)所示:

L t o t a l = L c o n t + λ L M S F R (1.5) L_{total} = L_{cont} + \lambda L_{MSFR} \tag{1.5} Ltotal=Lcont+λLMSFR(1.5)

其中 λ 为 0.1。

2.5 模型变体

  为了平衡计算复杂度和性能,作者提出以下三种变体:

  • MIMO-UNet:每个 EB 和 DB 使用 8 个堆叠的残差块。
  • MIMO-UNet+:每个 EB 和 DB 使用 20 个堆叠的残差块。
  • MIMO-UNet++:通过对 MIMO-UNet+ 使用 几何自集成 推理出清晰图片。

  简单来说,几何自集成(Geometric self-ensemble) 就是在测试时,首先将输入的模糊图像进行翻转(flip)和旋转(rotation),从而得到多张图像;然后使用 MIMO-UNet+ 对这些图像进行去模糊,得到多张清晰图像;最后将这些清晰图像进行对应的逆变换操作,再对这些清晰图像取均值从而得到最终的清晰图像。

参考:

[1] Rethinking Coarse-to-Fine Approach in Single Image Deblurring

[2] https://github.com/chosj95/MIMO-UNet

[3] MIMO-UNet笔记

[4] MIMO-UNet | 对单幅图像去模糊中由粗到细方法的再思考

[5] Enhanced Deep Residual Networks for Single Image Super-Resolution

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker搭建linux网络代理

docker搭建linux网络代理 1.准备 config.yaml 配置文件(含订阅节点、规则,一般机场或者本地配置中含有) 在root下创建文件夹命名为clash。上传配置好的config.yaml至clash文件夹。 2.配置 端口: port: 7890 ; socks-port: 7891 运行局域网…

Python网络爬虫之HTTP原理

写爬虫之前,我们还需要了解一些基础知识,如HTTP原理、网页的基础知识、爬虫的基本原理、Cookies的基本原理等。本文中,我们就对这些基础知识做一个简单的总结。 🌟HTTP 基本原理 在本文中,我们会详细了解 HTTP的基本原…

医学图像分割之MedNeXt

论文:MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation ConvNeXt网络是一种借鉴Transformer的思想进行了改进实现的全卷积网络,其通过全卷积网络和逆向残差瓶颈单元的设计,可以实现比较大的空间感受野。本文…

【MySQL】聚合查询

目录 1、前言 2、插入查询结果 3、聚合查询 3.1 聚合函数 3.1.1 count 3.1.2 sum 3.1.3 avg 3.1.4 max 和 min 4、GROUP BY 子句 5、HAVING 关键字 1、前言 前面的内容已经把基础的增删改查介绍的差不多了,也介绍了表的相关约束, 从本期开始…

windows将exe或者bat封装成系统服务进行管理

NSSM介绍 NSSM(the Non-Sucking Service Manager)是Windows环境下一款免安装的服务管理软件,它可以将应用封装成服务,使之像windows服务可以设置自动启动等。并且可以监控程序运行状态,程序异常中断后自动启动,实现守护进程的功能…

和利时:自主可控 安全高效

4月13—15日,由易派客电子商务有限公司、中国石油和石油化工设备工业协会、北京长城电子商务有限公司共同主办的2023第二届易派客工业品展览会在苏州国际博览中心成功召开。本次展会以“绿色智造融通赋能”为主题,杭州和利时自动化有限公司(简…

Cesium:Particle Systems粒子系统

官网文档,点击此处查看。 粒子系统简述 粒子系统是一种用于模拟复杂物理效果的图形学技术,它是一系列小图片的集合,当这些小图片被放在一起查看时,会形成一种更为模糊的对象,例如:火苗、烟、天气或者烟花。 粒子系统效果在电影和游中是十分普遍的。例如:飞机失…

Spark 之 解析json的复杂和嵌套数据结构

本文主要使用以下几种方法: 1,get_json_object():从一个json 字符串中根据指定的json 路径抽取一个json 对象 2,from_json():从一个json 字符串中按照指定的schema格式抽取出来作为DataFrame的列 3,to_j…

【洋桃一号板】STM32F103CBT6标准库函数驱动TM1640点亮数码管

一、今天介绍如何使用STM32F103CBT6驱动TM1640点亮数码管,硬件用的洋桃开发板,点亮后效果如下,六个数码管依次显示0.1.2.3.4.5.6.7 硬件原理图如下,只用到了单片机的两个IO口即可实现上图的效果,该开发板上用的是PA11…

chapter-3 -数据库数据模型

以下内容来源于MOOC学习—原课程请见:数据库原理与应用 考研复习 概述 关系及关系模式 笛卡尔积 定义在一组域上的有序对的集合, 域是一组具有相同类型的集合,比如自然数,长度小于n的字符串结合等【比如int age】 从n个域的每…

Linux工具make与makefile

Linux项目自动化构建工具-make/Makefile 目录Linux项目自动化构建工具-make/Makefile引言1、make && makefile2、make执行步骤2.1 依赖关系2.2 依赖方法3、项目清理4、伪目标 .PHONY5、文件的三个时间6、make的工作原理7、Linux下的第一个小程序认识缓冲区进度条①函数…

T5模型简单介绍

目录 一、概要 二、深入扩展 2.1 两个要素 2.2 预训练方法 一、概要 谷歌公司的研究人员提出的 T5(Text-to-Text Transfer Transformer,有5个T开头的单词,所以叫做T5)模型采用了一种与前述模型截然不同的策略:将不…

RUAS论文阅读笔记

这是CVPR2021的一篇暗光增强的论文 Retinex增强和去噪部分 第一部分的核心公式是一种retinex公式(用于暗图增强的retinex公式有几种类型,虽然本质一样但是对于各个分量的定义不一样):yx⊗tyx\otimes tyx⊗t,其中x是正…

Trie|并查集|堆|

目录 初始化 插入 查询 合并集合 连通块中点的数量 堆排序 模拟堆 Trie树是用来快速存储和查找字符串集合的数据结构 #include<iostream> using namespace std; const int N 100010; int son[N][26];//本题为小写因为字母&#xff0c;每个节点最多有26个子节点…

JUC编程之——synchronized的底层实现与分析

1 synchronized关键字 synchronized 是 Java 中的关键字&#xff0c;是一种同步锁(也是一种悲观锁)。它修饰的对象有以下几种&#xff1a; 作用于实例方法&#xff0c;当前实例加锁&#xff0c;进入同步代码前要获得当前实例的锁——对象锁&#xff1b;作用于代码块&#xff…

水文水利数据对接详解

数据对接 水雨情监测及视频监控系统需要与什么平台进行对接&#xff1f; 答&#xff1a;水雨情监测及视频监控系统由省统一接收的方式&#xff0c;数据接收中心设在***水利云。 2.水雨情数据接收中心有哪些组成部分&#xff1f; 答&#xff1a;水雨情数据接收中心主要由硬件…

pdf如何压缩变小,pdf压缩教程四招快速学

PDF是我们日常工作中经常使用的文件格式之一。这种文件格式方便易用&#xff0c;能够确保文件在传输和接收过程中不会出现错版等问题。为了方便发送&#xff0c;我们通常会将编辑好的内容转换为PDF格式。但是有时候文件过大&#xff0c;无法通过传输渠道发送怎么办&#xff1f;…

字节5年测试工程师对“测试开发”的理解

写在前面&#xff1a; 写这篇文章的目的是为了能够更好的帮助刚入职的新人了解这个岗位和自己的工作&#xff0c;也想谈谈自己工作一年来对这个领域的了解程度&#xff0c;做一个小小总结吧&#xff5e; 一、我理解的测试开发 测试开发与开发、测试的关系 以前在没有接触测试…

樱花树盛开的季节,我用简单的C代码绘制了一棵樱花树向她表白~『C/C++图形库EasyX』

文章目录&#x1f490;专栏导读&#x1f490;文章导读绘制一根线条绘制一个简易的树干优化树干&#xff0c;使其更加细致绘制樱花树增加随机树形与渐变色效果如何设置随机数进阶——通过鼠标点击来控制生成樱花树进阶——生成樱花树并展示生长过程&#x1f490;专栏导读 &#…

通过阿里云函数计算解决ChatGPT API的调用问题

ChatGPT系列文章 与其被ChatGPT取代&#xff0c;不如征服ChatGPT&#xff0c;做它的主人&#xff01; 文章目录ChatGPT系列文章前言命令行部署准备工作两行命令实现部署应用中心部署使用代理访问API总结前言 自2022年11月30日 OpenAI 发布 ChatGPT 以来&#xff0c;虽然时有唱…