Robust Unsupervised StyleGAN Image Restoration总结整理

news2024/11/25 1:35:22

鲁棒的无监督StyleGAN图像恢复

一.创新点

现有的无监督方法必须针对每个任务和降级级别进行仔细调整。(这里每个任务都是什么?降级级别是什么?)
在这里使用StyleGAN图像恢复健壮,即单组超参数在宽范围的退化水平上起作用。(是不是说之前需要多组参数处理不同任务,现在只要一组超参数可以处理多个任务)
这样就可以处理几种退化的组合,而不需要重新调整

本论文的方法赖于一个3阶段渐进的潜在空间扩展和一个保守的优化器,这避免了需要任何额外的正则化条款。(3阶段渐进的潜在空间扩展和一个保守的优化器是什么?额外的正则化条款又是什么?)

大量的实验表明,在不同的退化水平下,修复,上采样,去噪和去伪影的鲁棒性,优于其他基于StyleGAN的反演技术。(是不是意味着也有其他基于StyleGAN的图像恢复技术,但我们的方法鲁棒性更强?)

我们的方法相比于,基于扩散的恢复有更好的恢复结果。(这种基于扩散的恢复是什么?)

二.详细说明本论文的背景

很多图像恢复任务是不同的,例如降噪,上采样,取出伪影等。现有的方法大多是针对不同任务专门设计数据集,在监督学习中解决。但这样就需要在每个任务上重新训练大型网络。(不同的任务都有专门的网络去解决,那这样遇到一个图片如果同时遭遇不同退化,那是不是就要几种大网络组合起来去恢复)

生成模型出现后,产生了很多无监督的图像恢复方法,不需要对特定任务进行训练,他利用反转生成过程以恢复干净的图像
假设已知(或近似)退化模型,优化过程因此尝试恢复既有以下两种情况的图像:1)在经历类似的退化模型(保真度)之后紧密匹配目标退化图像; 2)存在于由GAN学习到的真实图像空间中(realistic)。

StyleGAN [29-31]被发现对于无监督图像恢复特别有效,因为其潜在空间的优雅设计。事实上,这些方法利用风格反转技术来求解潜在向量,当将其提供给生成器时,创建接近退化目标的图像。不幸的是,只有当模型分布中实际存在这样的匹配时,这才有效,而实际上很少出现这种情况。(这里的潜在向量是什么?意思是不是说利用StyleGAN进行图像恢复时,把需要恢复的图像给StyleGAN,只有当StyleGAN模型中存在这样的恢复前与恢复后图像匹配,才能完成图像恢复过程?)

因此,有效的方法将学习到的潜在空间扩展到增加额外的自由度去容纳更多图像,这产生了对附加正则化损失的需要。因此,必须针对每个特定任务和降级级别仔细调整超参数。(是不是意味着要容纳更多的匹配,需要对每个任务进行调整)

这产生了对附加正则化损失的需要。因此,必须针对每个特定任务和降级级别仔细调整超参数。

在这项工作中,我们使无监督的StyleGAN图像反演恢复对退化的类型和强度具有鲁棒性。我们提出的方法在所有任务和级别上使用相同的超参数,并且不依赖于任何正则化损失。我们的方法依赖于两个关键思想。(成功引出本论文的特点)

三.本方法的关键思想

首先,我们依靠3阶段渐进式潜在空间扩展:

  • 我们通过在学习的(全局)潜在空间上进行优化开始
  • 然后在生成器的各个层上扩展它
  • 并且最后在各个滤波器上进一步扩展它-其中每个阶段的优化利用前一阶段的结果来初始化。

其次,我们依赖于保守的归一化梯度下降(NGD)优化器

  • 与Adam 等更复杂的方法相比,该优化器自然被限制在接近其初始点
  • 在逐渐丰富的潜在空间上的谨慎优化的这种组合完全避免了额外的正则化项
  • 并且在所有任务中保持整个过程简单且恒定

我们评估了我们的方法上采样,修复,去噪和deartifacting在广泛的退化水平,其结果达到了SOTA方法的结果,即使在每个独立的优化器上;并且在这些任务的组合上我们是优于其他任务的,因为我们不改变超参数。

四.贡献

  • 我们提出了一个强大的3阶段StyleGAN图像恢复框架。我们的优化技术保持:1)当退化水平高时,具有强的真实感;2)当它们低时高保真度。我们的方法是完全无监督的,不需要每个任务的训练,并且可以处理不同级别的不同任务,而无需调整超参数。

  • 我们证明了所提出的方法的有效性,根据不同的和组成的退化。我们开发了一个基准的合成图像恢复任务,使他们的退化水平易于控制,小心,以避免不切实际的假设。我们的方法优于现有的无监督[13,40]和基于扩散的[32]方法

(StyleGAN反演取得了很大进展:反转生成过程以推断生成给定图像的潜在参数)
这些方法通过添加额外的参数来对其进行优化来扩展预训练的StyleGAN模型(通常称为W)的学习潜在空间。最常见的方法是为每个层使用不同的潜在代码[3](称为W+)。在[46]中也探索了超越W+,其建议微调生成器参数,并且[44]对于每个卷积滤波器使用不同的潜在代码。我们建立在这些技术的基础上,通过开发一种专门设计用于强大的图像恢复的反演方法。(待总结)
我们的方法不同之处在于,它解决了鲁棒性和组合性。

五.本方法内容

通过避免任何正则化损失,实现了鲁棒性。

其他基于StyleGAN的图像恢复方法仅用于特定情况(例如恢复旧照片),这些方法要想恢复各种退化的组合,则需要对每种退化都使用特定任务的编码器,而我们的方法完全无监督,适用于各种图像域。
去噪扩散恢复模型(DDRM)[32]表明,预训练的DDPM可以用于无监督恢复任务,但仅限于具有加性高斯噪声的线性逆问题。相比之下,我们的方法更灵活,因为它只需要退化函数的可微近似,这可以是非线性的。

5.1原本的StyleGAN图像恢复方法

StyleGAN反演尝试恢复最佳匹配(未知)地面实况图像yclean的图像xclean。为此,我们的目标是搜索潜在码w ∈ W,使得xclean = G(w)在某个图像距离函数下最佳匹配yclean。所产生的最小化问题,
在这里插入图片描述
使用StyleGAN的无监督图像恢复尝试通过找到与此目标匹配的生成图像xclean来恢复退化的目标图像y = f(yclean),该生成图像xclean曾经也退化了x = f(xclean)(sec.这里,f是退化函数f的可微近似,yclean是(未知的)地面实况图像。(可理解为:要恢复的图像为y,y恢复后的图像为yclean,但我们没有yclean,却能利用StyleGAN去找到与yclean匹配的生成图像xclean,这个xclean是通过搜索潜在码w得到,在某个图像距离函数下xclean与yclean最接近。且xclean曾经退化为x,这个x=f^(xclean),这样就能通过某种关系找到y)
因此可以看出该方法的目标是找到w,

在这里插入图片描述

在图像恢复中,地面实况图像yclean是未知的:而是给出目标图像y = f(yclean),即(非单射的、潜在不可微的)退化函数f的结果。假设可以构造一个可微近似f ≈ f,则通过求解
在这里插入图片描述
这样思想就可以推广到多种退化的组合,去求解(一种f^就是一种退化函数)
在这里插入图片描述
这里,假设每个子函数fi具有可微近似Φ fi^,并且合成的阶数是已知的。(即退化的程度是知道的)

从本方法可以看出,结果是很好的,但保真度较低(不容易找到匹配的退化目标。)
保真度最常见的改进方法是:1)执行潜在扩展[3],即求解具有更多自由度的w+ ∈ W+; 2)使用像Adam [33]这样性能更好的优化器。这些技术既提高了保真度,又破坏了现实主义,激发了正则化损失的使用,必须针对不同的任务仔细调整

5.2鲁棒的StyleGAN恢复

重新审视无监督StyleGAN优化流水线的每一部分,即潜在扩展、优化器和损失函数。

5.2.1潜在扩展

受初始化是最佳正则化[46]的直觉启发,我们提出了一个三阶段的潜在扩展,其中每个阶段由前一个阶段的结果初始化

见图3。3.给定生成器中具有NL层的预训练StyleGAN2 [31]模型,我们表示用于调制卷积权重θl ∈ R512×512的层l ∈ [1,NL]处的样式向量sl i ∈ R512。假设1 × 1滤波器以简化符号1,每个特征图像素pl ∈ R512由下式处理:
在这里插入图片描述
(a)阶段I使用全局潜在码w,导致预测X。(b)阶段II执行逐层潜在扩展,得到矩阵w+和预测x+。©阶段III执行逐滤波器的潜在扩展,得到张量w++和最终预测x++。
在这里插入图片描述
(即共有NL层,第l+1层的第i个像素的输出特征为:上一层对应像素的卷积权重和样式向量组合,乘以上一层的输出特征)(这个i到底是什???)

第一阶段
执行全局样式调制(图1A)。3-(a)),并求解跨所有层共享的单个潜在向量w ∈ W = R512,如等式3-(a)中所示。(三)、在优化之前,w被初始化为训练集上的W的平均值,即,E ~ w∈W[~ w]。这里,样式调制矢量sli是可以写成
在这里插入图片描述
Al是对应的仿射投影层(其乘以权重矩阵并添加偏置)。
图1A
在这里插入图片描述
第二阶段
执行逐层潜在扩展,并求解潜在矩阵w+ ∈ W+ = R^(NL×512)。w+的每一行都被初始化为w。这个阶段的风格调制成为
在这里插入图片描述
第三阶段
执行滤波器方式的潜在扩展,并且求解潜在张量w++ ∈ W++ = R^(NF×NL×512),其中不同的潜在码用于每个卷积滤波器,并且其中NF是这样的滤波器的数量。w++的每个子矩阵被初始化为w+。这个阶段的风格调制成为
在这里插入图片描述

(总结:所以潜在扩展就是优化找合适的潜在码w,这里分为三个阶段,第一阶段针对全局,找到适用所有退化的单个潜在向量w;第二阶段逐层潜在扩展,找到潜在矩阵w+;第三阶段滤波器方式的潜在扩展,找到潜在张量w++)
疑问:w+把每一行都初始化为w,这里每一行代表什么?既然已经初始化了w,那么是通过什么方法计算之后的w+呢?第三阶段为什么要加入滤波器?

5.2.2优化器

没有用多数方法用到的Adam找w,而是用较弱的归一化梯度下降NGD,这是SGD的一个简单变体,在每一步之前对梯度进行归一化:
在这里插入图片描述
在潜在扩展之后,我们分别归一化每个潜在代码(即,W+和W++的每一行)。NGD保持损失规模不变性,这是Adam的一个关键属性,它避免了损失函数变化后的学习率调整。

5.2.3损失函数

staple损失函数是LPIPS [63]感知损失与L2或L1 [4]像素损失的组合。由于更多分辨率损失函数更有鲁棒性,可用于:
在这里插入图片描述
φ(x,2^i)使用平均池化以 2i的因子下采样,并且我们针对1024×1024的图像分辨率设置k = 6。所有分辨率的权重相等,给出最终的损失函数,其中λL1 = 0.1
在这里插入图片描述

5.3该方法的伪码

在这里插入图片描述
G+和G++分别表示修改为接受w+ ∈ W+和w++ ∈ W++后的合成网络G。学习率和步骤数等超参数被明确提供,因为它们在所有任务中保持不变。

六、基准恢复鲁棒性

本节首先描述了在所有实验中使用的所提出的退化模型以及它们的可微分逼近,并解释了他们如何组合在一起。

6.1单个的退化

对常见的四种图像退化源进行实验:上采样、修复、去噪和去伪像。合成模型用于促进在不同退化水平下的比较。在五个水平下测试每种退化,其被称为超小(XS)、小(S)、中等(M)、大(L)和超大(XL)。下面将以相同的顺序为每个任务提供每个退化级别的参数。图4示出了在XS和XL水平处的所有四个降级的示例,
在这里插入图片描述

6.1.1上采样

整数因子kdown ∈ {2,4,8,16,32}对地面实况图像yclean进行下采样来产生目标y
下采样滤波器是从常用的双线性、双三次和Lanczos滤波器均匀采样的,这提供了粗略但宽范围的混叠轮廓
(问题:这三个滤波器具体是怎样的?)

6.1.2修复

预测图像中缺失的区域。
通过绘制宽度为0.08r的kstroke ∈ {1,5,9,13,17}随机笔划来生成随机掩码,其中r是图像分辨率,每个笔划连接位于图像的外三分之一中的两个随机点。

6.1.3去噪

通过使用泊松噪声和伯努利噪声的混合来生成目标,分别模拟相机中的常见噪声源,即散粒噪声和死(或热)像素。
因为与高斯噪声不同,泊松噪声是非加性的和信号相关的,而伯努利噪声是有偏置的。此外,两者都是不可微的。

使用参数kp ∈ {96,48,24,12,6}和kb ∈ {0.04,0.08,0.16,0.32,0.64},其中kp给出根据泊松分布添加到像素(独立于每个通道)的最可能值,kb是像素的所有通道被黑色替换的概率。
整体噪声模型:
在这里插入图片描述
对于地面实况图像像素值p ∈ [0.0,1.0],并且其中clamp(·)使[0,255]之外的所有值饱和。注意,p′只能取离散值。

对于可微近似f^,我们用高斯可逼近代替(不可微的,离散的)泊松噪声。并将伯努利噪声视为未知掩码
在这里插入图片描述

6.1.4去伪像

伪像:图像上不该出现的要素

在质量水平kjpeg ∈ {18,15,12,9,6}下对用libjpeg [2,12]压缩的JPEG图像执行去噪。

6.2组合的退化

在求w时,假设知道退化的顺序
这里图像恢复过程为
在这里插入图片描述
任务组合是用这种顺序(的子序列)创建的。例如,上采样和去伪像形成长度为2的合成。所有组合物均在退化水平培养基(M)下用任务形成。

七.结果

7.1 与其他基于StyleGAN模型相比

退化水平的鲁棒性
学习感知图像块相似度LPIPS越低,表示图像的相似度越好
在这里插入图片描述
组合的鲁棒性
其中U为上采样、N为去噪、A为去伪像、P为修复
在这里插入图片描述
在这里插入图片描述

7.2与扩散模型相比

在这里插入图片描述

八.总结

本文提出了一种方法,该方法使基于StyleGAN的图像恢复对退化水平的变化和不同退化的组成都具有鲁棒性。我们提出的方法依赖于一个保守的优化过程,逐步丰富的潜在空间,并完全避免正则化条款。使用一组超参数,我们获得了竞争力,甚至国家的最先进的结果,在几个具有挑战性的情况下相比,为每个任务/水平单独优化的基线。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/785393.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Angular] 主从表结构,从表记录在主表固定栏位上呈现

Background 主从表结构,有时为了方便数据呈现,在UI上不显示从表资料,那么需要动态把从表的资料加载到主表的固定栏位上。 例如:主表是人员信息,从表是银行卡信息,一个人在同一家银行可能有多张银行卡&…

Kubernetes.Service—使用源 IP

使用源 IP 运行在 Kubernetes 集群中的应用程序通过 Service 抽象发现彼此并相互通信,它们也用 Service 与外部世界通信。 本文解释了发送到不同类型 Service 的数据包的源 IP 会发生什么情况,以及如何根据需要切换此行为。 准备开始 术语表 本文使用…

大模型开发(十二):Function calling 流程优化并实现多轮对话任务

全文共1w余字,预计阅读时间约25~40分钟 | 满满干货(附代码案例),建议收藏! 本文目标:围绕Chat模型的Function calling功能进行更高层次的函数封装,并实现一个能够调用外部函数的多轮对话任务 写在前面:本文…

Vue系列第四篇:Vue2 + Element开发登录页面

Vue开发中Element是一个比较受欢迎的界面库,实际开发中Vue2搭配Element UI开发,Vue3搭配Element plus开发,今天就用Vue2 Element来开发登录页面。 目录 1.Element UI介绍 1.1官网 1.2element-ui安装 2.开发环境准备 2.1core-js安装 2…

20230724将真我Realme手机GT NEO3连接到WIN10的电脑的步骤

20230724将真我Realme手机GT NEO3连接到WIN10的电脑的步骤 2023/7/24 23:23 缘起:因为找使用IMX766的手机,找到Realme手机GT NEO3了。 同样使用IMX766的还有:Redmi Note12Pro 5G IMX766 旗舰影像 OIS光学防抖 OLED柔性直屏 8GB256GB时光蓝 现…

C语言 strlen()函数

一、strlen()函数的简介 strlen函数:计算的是字符串str的长度,从字符的首地址开始遍历,以 \0 为结束标志,然后将计算的长度返回,计算的长度并不包含\0。下面是库中的strlen(&#xf…

Dubbo Triple 协议重磅升级:支持通过 HTTP 连通 Web 与后端微服务

作者:刘军 全新升级的 Triple 协议 在微服务协议选型方面我们看到越来越多的应用从 Dubbo2 TCP 二进制协议迁移到 Dubbo3 Triple 协议 (兼容 gRPC),以充分利用 Triple 的高效、全双工、Streaming 流式通信模型等能力;TripleHTTP/2 的组合很…

内存函数讲解

&#x1f495;"痛苦难以避免&#xff0c;而磨难可以选择。"-->村上春树&#x1f495; 作者&#xff1a;Mylvzi 文章主要内容&#xff1a;数据在内存中的存储 内存函数就是管理内存数据的函数&#xff0c;包含于头文件<string.h>中 1.memcpy函数-->内存…

线程池使用时需注意的一些问题

1、正确声明线程池 线程池必须手动通过 ThreadPoolExecutor 的构造函数来声明&#xff0c;避免使用Executors 类创建线程池&#xff0c;会有 OOM 风险。 Executors 返回线程池对象的弊端如下(后文会详细介绍到)&#xff1a; FixedThreadPool 和 SingleThreadExecutor &#xf…

设备JS二次开发指南

设备JS ES6二次开发 #新增设备类 在kiosk-cli-2nd的平台目录下,有摄像头二次开发增加接口示例,继承已有的摄像头类,如下图所示: 在该路径下新建一个设备js文件,如新增密码键盘的设备js:pinpad-2nd.js (1)导入平台设备js import { Device } from @/platform/lib/plat…

Android 海外版本中远程仓库无法拉取问题

在处理海外版本时 &#xff0c;经常遇到远程仓库无法加载的问题&#xff0c;是网络问题导致的。要么&#xff0c;公司运维搭建可翻墙的梯子&#xff0c;或其他的方式避开限制。 还有一种方式&#xff0c;是找到网站对应的ip &#xff0c;在host 中配置&#xff0c;便可绕开限制…

python_day14

导包 from pyspark import SparkConf, SparkContext import osos.environ["PYSPARK_PYTHON"] "D:/dev/python/python3.10.4/python.exe" conf SparkConf().setMaster("local[*]").setAppName("test_spark") sc SparkContext(confc…

【Node.js】低代码管理系统源码:只需点击鼠标,搭建属于你的企业应用

低代码管理系统是一种通过可视化界面和简化的开发工具&#xff0c;使非专业开发人员能够快速构建和管理应用程序的系统。它提供了一套预先定义的组件和模块&#xff0c;使用户可以通过拖放操作来设计应用程序的界面和逻辑。低代码管理系统还提供了自动化的工作流程、数据管理和…

策略模式的实现与应用:掌握灵活算法切换的技巧

文章目录 常用的设计模式有以下几种&#xff1a;一.创建型模式&#xff08;Creational Patterns&#xff09;&#xff1a;二.结构型模式&#xff08;Structural Patterns&#xff09;&#xff1a;三.行为型模式&#xff08;Behavioral Patterns&#xff09;&#xff1a;四.并发…

【RabbitMQ(day1)】RabbitMQ的概述和安装

入门RabbitMQ 一、RabbitMQ的概述二、RabbitMQ的安装三、RabbitMQ管理命令行四、RabbitMQ的GUI界面 一、RabbitMQ的概述 MQ&#xff08;Message Queue&#xff09;翻译为消息队列&#xff0c;通过典型的【生产者】和【消费者】模型&#xff0c;生产者不断向消息队列中生产消息&…

macOS Ventura 13.5 (22G74) Boot ISO 原版可引导镜像下载

macOS Ventura 13.5 (22G74) Boot ISO 原版可引导镜像下载 本站下载的 macOS 软件包&#xff0c;既可以拖拽到 Applications&#xff08;应用程序&#xff09;下直接安装&#xff0c;也可以制作启动 U 盘安装&#xff0c;或者在虚拟机中启动安装。另外也支持在 Windows 和 Lin…

css终极方案PostCSS

一见如故 原理 所有的css框架都在一样的事&#xff0c;那就是由一个css生成一个新的css&#xff0c;那么postcss就来做了一个抽离&#xff1a; 1、将原有的css解析成抽象语法树 2、中间经过若干个插件 3、重新文本化&#xff0c;形成新的css postcss.config.js module.expor…

MX Linux 23 RC1发布

导读MX Linux的开发者宣布MX Linux 23的第一个候选版本已经发布。 MX Linux 是基于 Debian 稳定分支的面向桌面的 Linux 发行&#xff0c;它是 antiX 及早先的 MEPIS Linux 社区合作的产物。它采用 Xfce 作为默认桌面环境&#xff0c;是一份中量级操作系统&#xff0c;并被设计…

技术速览|Meta Llama 2 下一代开源大型语言模型

AI 使用大型语言模型&#xff08;LLM&#xff09;来理解和生成自然语言。LLM 可以从大量文本中学习并创建有关各种主题的文本&#xff0c;并可以完成比如编写代码、生成歌词、总结文章等任务。但有些 LLM 相关课程成本高昂且封闭&#xff0c;而现有的开放课程数量十分有限。这就…

游戏引擎UE如何革新影视行业?创意云全面支持UE云渲染

虚幻引擎UE&#xff08;Unreal Engine&#xff09;作为一款“殿堂级”的游戏引擎&#xff0c;占据了全球80%的商用游戏引擎市场&#xff0c;但如果仅仅将其当做游戏开发的工具&#xff0c;显然是低估了它的能力。比如迪士尼出品的电视剧《曼达洛人》、电影《狮子王》等等都使用…