图像融合方向:《GP-GAN: Towards realistic high-resolution image blending》论文理解

news2025/1/10 23:52:09

《GP-GAN: Towards realistic high-resolution image blending》论文理解

论文:《GP-GAN: Towards realistic high-resolution image blending》ACM MM 2019
链接:GP-GAN: Towards realistic high-resolution image blending

本文目录

  • 《GP-GAN: Towards realistic high-resolution image blending》论文理解
  • 论文创新点
  • 具体实现思路
  • 文章内容解析
    • 使用模型整体架构
    • Blending GAN的实现细节
    • 算法评价方法
      • 定量方法
      • 定性方法
    • 参考文献

论文创新点

  1. 首次将GAN应用在图像融合(ImageBlending)的领域的文章;
  2. 提出了一个高斯-泊松生成对抗网络框架(GP-GAN),目的是为了利用经典的梯度方法和生成对抗网络的优势;
  3. 提出了Blending GAN生成对抗网络来学习合成图像和良好混合图像之间的映射(使用改进的对抗性损失和鉴别器来训练Blending GAN);
  4. 提出了一个高斯-泊松方程来描述高分辨率图像混合问题,该方程受到梯度和图像颜色信息联合的约束优化;
  5. 只需要粗略的mask掩膜,文中提出的方法同样可以很好地处理源图像和目标图像的拼接边缘,从而生成良好的融合图像;

具体实现思路

  1. 第1阶段中,使用提出的Blending GAN在输入图像的基础上生成低分辨率的图像;
  2. 第2阶段中,使用原图的梯度向量场和由第一阶段生成的低分辨率图像(由拉普拉斯金字塔形成的)来求解所提出的高斯泊松方程(即:在方程中添加了图像的梯度信息和颜色信息的共同约束);

文章内容解析

使用模型整体架构

GP-GAN整体架构
整体概述

  1. 给定合成图像 x x x,首先通过将 x 1 x^1 x1馈送到G(x)来获得 x ~ l \widetilde{x}_l x l,其中 x 1 x^1 x1是输入图像 x x x的拉普拉斯金字塔中的最粗尺度;
  2. 然后,通过使用闭式解优化高斯泊松方程来更新 x ~ h 1 \widetilde{x}_h^1 x h1。在输入图像𝑥的拉普拉斯金字塔中, x ~ h 1 \widetilde{x}_h^1 x h1被上采样之后在更精细的尺度上用作 x ~ l \widetilde{x}_l x l
  3. 重复上述步骤2直到在输入图像 x x x的金字塔的最精细尺度上获得与输入的合成图像 x x x分辨率相同的最终真实图像 x ~ h \widetilde{x}_h x h

Blending GAN的实现细节

整体框架结构

Blending GAN整体架构
其中, H ( x h ) H(x_h) H(xh)表示为:
在这里插入图片描述
公式(9)中相关符号的说明在下面有说明。

Blending GAN(x)通过学习混合复制和粘贴图像,并生成语义上与输入相似的真实图像。
由于同时具有输入图像和ground-truth标签图像 x g x_g xg,所以文中选择了有监督的方式对Blending GAN进行训练;

上述任务中使用了无监督的Wasserstein GAN[1]进行监督学习;
文中提出的Blending GAN与Wasserstein GAN的不同之处在于Blending GAN具有适合任务而构造的辅助loss和专门设计的架构;

上述提出的GAN架构参考了文献[2]中的架构,但不同的是,上文中的架构将原始架构中的channel-wise全连接层变换为标准卷积层,这样使得上述的GAN对整个图像的全局信息利用更加的充分;

使用的损失函数

文中提出了组合损失(其中添加了L2损失)作为Blending GAN训练loss函数。
在这里插入图片描述
(2)式中的 L l 2 L_{l_2} Ll2定义如下:
在这里插入图片描述
(2)式中定义的 L a d v L_{adv} Ladv如下:
在这里插入图片描述
(3)式中, G ( x ) G(x) G(x)表示图像x经过GAN编解码之后的输出, x g x_g xg表示数据集中对应的ground-truth图像。(4)式中,表示使用Blending GAN的Decoder模块处理 x g x_g xg G ( x ) G(x) G(x),然后最大化Decoder对真实数据的判别能力 D ( x g ) D(x_g) D(xg),最小化Decoder对生成数据的判别能力 D ( G ( x ) ) D(G(x)) D(G(x))

实验数据中 x g x_g xg的来源

文中特别提到了在Blending GAN计算loss时使用的 x g x_g xg的采集办法: x g x_g xg来自于同一个相机同一个视角下不同时间段的拍摄图像。而本文章的目的就是,将来两个不同时间段的前景和背景图进行融合,来得到背景图像所对应的时间段下的完整融合图像。

高斯泊松方程的实现

文中指出,使用通过Blending GAN(x)方程得到的低分辨率图像的低频信号作为原始的组合图像的颜色约束且使用原始组合图像的梯度场信息来恢复重建图像的高分辨率细节和边缘信息。

将上述语言转换为最小化如下目标函数:
在这里插入图片描述

算法实现细节

在这里插入图片描述

算法评价方法

定量方法

  1. 使用由Realism CNN[3]获得的真实感评分进行判别;
    在这里插入图片描述

  2. 使用用户调研的方法,每次向受试者展示合成图像 x x x,然后由三种不同算法生成的三幅blending结果。受试者需要在这三幅图像中选择最真实的图像;
    在这里插入图片描述

定性方法

在这里插入图片描述

在这里插入图片描述
通过观察上述两幅图可以看到:前景图像和背景图像都可以做到很好的融合,显得非常真实。

参考文献

[1] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN[J]. 2017.
[2] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros. 2016. Context encoders: Feature learning by inpainting. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2536–2544.
[3] Zhu J Y, Krahenbuhl P, Shechtman E, et al. Learning a discriminative model for the perception of realism in composite images[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3943-3951.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/461057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

免费好用的数据可视化软件工具

如果你正在找数据可视化软件工具,或者你正想尝试新的可视化软件,那么接下来的内容一定要认真看。 通过对行业的了解及广泛的研究,小编整理了一份业内绝对最好的且免费的数据可视化工具列表,重点是免费。 D3.js JavaScript 库&a…

【C进阶】-- 动态内存管理

目录 1. 为什么存在动态内存分配❓ 2. 动态内存函数的介绍 2.1 malloc和free✅ ①申请:1️⃣ ②使用:2️⃣ ③释放:3️⃣ 2.2 calloc 🧨与malloc的区别: 2.3 realloc 3.常见的动态内存错误 3.1 对NULL指针的解引用操作 &#x1f3…

这5个PNG免抠素材网站,可商用,赶紧马住了

推荐5个超好用的PNG素材网站,免费下载,还可以商用,建议收藏起来~ 1、菜鸟图库 https://www.sucai999.com/searchlist/66008----all-0-1.html?vNTYxMjky 网站主要分享设计素材为主。像平面海报、免抠元素、背景图片、UI界面模板、图标、电商…

流辰信息微服务平台:数字化转型的优良工具!

在互联网迅猛发展的今天,越来越多的企业倾向于新兴领域带来的便利性和灵活性了,其中,微服务平台就是其中之一了。流辰信息微服务平台是专注于研发系统开发、数据治理、数据分析的平台,致力于为各中大小型企业提供优质的微服务解决…

修炼汇编语言第二章:内存地址空间(概述)

目录 前言 一、主板和接口卡 二、存储器各类芯片 三:内存地址空间 总结 前言 什么是内存地址空间呢?如果地址线为10,那么可以寻址1024个地址空间,这1024个地址空间就构成这个CPU的内存地址空间,下面本文将会介绍…

HTB-DevOops

HTB-DevOops 信息收集5000端口 立足python反序列化攻击XEE读取SSH root 信息收集 5000端口 根据文字所述,下面的图片是feed.py。 目录扫描 /upload如下: 上传测试xml文件。 得到反馈 怀疑是标签不匹配,尝试寻找匹配的标签。前面首页有提…

linux平台移植qt

话不多说直接开干,首先需要下载源码包,进入网址https://download.qt.io/archive/qt/进行下载对应的版本即可,比如我这里下载5.12.12版本的,如下图找到即可。 然后把下载的包放到服务器上进行解压tar xpf qt-everywhere-src-5.12.…

2023PGA塑料行业发展新机遇

什么是PGA塑料? PGA塑料是生物降解塑料中的一种,具有可完全分解的酯结构和降解速度最快的脂肪族聚酯类高分子材料,且无需特定降解条件,同时具有良好的耐高温性、机械强度、降解速率和生物相容性。 从政策面来看,随着中国“限塑…

【问题记录】docker 搭建 minio

一、搭建过程 docker 搜索minio镜像 docker search miniodocker 拉取镜像 docker pull minio/miniodocker 启动 minio docker run -p 9900:9900 --name minio -d --restartalways -e MINIO_ACCESS_KEYminio -e MINIO_SECRET_KEY1qazWSX -v /usr/local/minio/data:/data -v …

【2023软考】信息系统监理师与系统集成项目管理工程师哪个更好考?

肯定是系统集成项目管理工程师更好考。 软考信息系统监理师是一项国家级专业职业资格证书,是我国信息技术行业的重要职业资格之一。软考信息系统监理师主要从事信息系统建设项目的监理和管理工作,包括项目前期准备、项目实施阶段和项目验收阶段的监理和…

Databend 开源周报第 90 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。 元数据优化 最…

推荐给工控人的时间管理办法

艾维利时间管理法 Ivy Lee Time Management Act 艾维利时间管理法是一种被广泛采用的时间管理方法,它能够帮助人们更好地利用时间和精力。该方法通过将任务分为三类,即A类、B类和C类,来确定工作的优先级。在这种方法中,A类任务是…

【技术选型】Mysql和ES数据同步方案汇总

文章目录 背景一、Mysql和ES各自的特点为什么选用Mysql为什么选用 ES 二、数据同步方案1、同步双写2、异步双写(MQ方式)3、基于Mysql表定时扫描同步4、基于Binlog实时同步5、业界目前较为流行的方案:使用canal监听binlog同步数据到es 三、数据…

Java学习笔记-01

目录 jdk安装及环境配置 java前置知识 编写一个HelloWorld 常量 数据类型 变量 类型转换 算数运算符 一元运算符( --) 关系运算符 逻辑运算符(与或非,逻辑异或) 三元(三目)运算符 Scanner类的简单使用 jdk安装及环境配置 看到的一篇文章,…

Vue 过渡与动画的使用

transition 标签的作用:在插入 更新或 移除 DOM 元素时 可以给元素添加动画效果. transition 标签配合的 class 类有: - v-enter:进入的起点。 - v-enter-active:进入时的效果。 - v-enter-to:进入的终点。 - v-leave:离开的起点。 - v-leave-active:离…

USB-C为什么可以取代传统接口?消费类电子产品如何改用TYPE-C接口?

现如今,越来越多的设备选择使用Type-C接口来取代之前传统的接口。例如:手机去掉了之前的Micro USB接口,而选择Type-C;还有好多笔记本也取消了很多传统的传输接口,而采用Type-C来替代它们。那为何Type-C可以取代那么多的…

chatGPT电脑端怎么安装-chatgpt国内怎么用

chatgpt怎么用 ChatGPT是一个大型语言模型,可以用于自然语言生成和理解任务,比如对话系统、文本生成、翻译、摘要等。您可以使用以下步骤来使用ChatGPT: 选择一个平台:ChatGPT可以在不同的平台上运行,比如Python、JavaScript、Jav…

【Java基础练习题】多线程IO流操作实现文件的复制(举一反三)

前言:时不我待,忽而已春,初夏将至。然惊觉自身Java基础仍薄弱不堪,虽“雄关万道真如铁”,只得“万里关山从头越”。把基础打扎实才是根本,对于日后的工作而言也是极为重要。通过不断的学习和理解加上手动实…

使用vue2搭建项目的流程

论坛项目 服务器地址: http://172.16.11.18:9090 http://xawn.f3322.net:10004/ swagger地址: http://172.16.11.18:9090/doc.html http://xawn.f3322.net:10004/doc.html 前端h5地址: http://172.16.11.18:9099/h5/#/ http://xawn.f3322.net:10005/h5/# 前端管理系统…

回文自动机(PAM)入门路线 + P3649 【模板】[APIO2014] 回文串(PAM)

个人比较推荐的回文自动机学习路径: 回文自动机学习博客: 回文树(讲的最严谨,oiwiki上的) 回文自动机(Palindrome Automanton PAM)(讲的最通俗易懂,知乎上的&#xff09…