【翻译】Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning

news2024/12/29 9:05:48

在这里插入图片描述

文章目录

      • ABSTRACT
      • 1 INTRODUCTION
      • 2 RELATED WORK
      • 3 METHOD
        • 3.1 Multi-layer Style Projector
        • 3.2 Contrastive Style Learning
        • 3.3 Domain Enhancement
        • 3.4 Network Training
      • 4 EXPERIMENTS
        • 4.1 Qualitative Evaluation
        • 4.2 Quantitative Evaluation
        • 4.3 Ablation Study
      • 5 CONCLUSION AND FUTURE WORK

ABSTRACT

在这项工作中,我们使用一种新的风格特征表示学习方法来解决任意图像风格转移的挑战性问题。作为图像风格化任务中的一个关键组成部分,合适的风格表示对于取得令人满意的结果至关重要。现有的基于深度神经网络的方法在二阶统计的指导下取得了合理的结果,如内容特征的格拉姆矩阵。然而,他们没有利用足够的风格信息,这导致了局部失真和风格不一致等人为因素。为了解决这些问题,我们建议通过分析多种风格之间的相似性和差异性并考虑风格分布,直接从图像特征中学习风格表示,而不是其二阶统计。具体来说,我们提出了对比性任意风格转移(CAST),这是一种新的风格表示学习和通过对比性学习的风格转移方法。我们的框架由三个关键部分组成,即用于风格代码编码的多层风格投影仪,用于有效学习风格分布的领域增强模块,以及用于图像风格转移的生成网络。我们进行了全面的定性和定量评估,以证明我们的方法与最先进的方法相比,取得了明显更好的结果。代码和模型可在https://github.com/zyxElsa/CAST_pytorch。

1 INTRODUCTION

如果一幅画胜过千言万语,那么一件艺术品就能说明整个故事。艺术风格,描述了艺术作品的外观,是艺术家描绘其主题的方式,以及艺术家如何表达他或她的愿景。风格是由描述艺术作品的特征决定的,如艺术家运用形式、色彩和构图的方式。艺术风格转移,作为一种通过结合自然图像的内容和现有绘画图像的风格来创造新绘画的有效方式,是计算机图形学和计算机视觉的一个主要研究课题[Jing等人,2020b;Liao等人,2017],其中风格表示是最重要的问题。

自Gatys等人[2016]提出使用Gram矩阵作为艺术风格表示后,通过先进的神经风格转移网络产生高质量的视觉效果。尽管在任意图像风格转移领域取得了显著的进展,但二阶特征统计(Gram矩阵或均值/方差)风格表示法限制了其进一步发展和应用。如图1所示,不同艺术品风格的外观不仅在颜色和局部纹理方面有很大差异,而且在布局和构图方面也有很大差异。图2d和2e显示了最近提出的两种最先进的风格转移方法的结果。我们注意到,使用二阶统计学对图像之间的神经激活分布进行调整的结果是很难捕捉到颜色分布或特殊布局,或模仿不同风格的具体细节笔触效果。

在本文中,我们重新审视了神经风格转换的核心问题,即适当的艺术风格表示。广泛使用的二阶统计作为全局风格描述符可以在一定程度上区分风格,但它们不是表示风格的最佳方式。通过二阶统计,任意风格化通过人为设计的图像特征和损失函数以启发式的方式制定了风格。换句话说,网络学会了适应风格图像和生成图像的二阶统计,而不是风格本身。直接从艺术图像中探索风格的关系和分布,而不是使用预先定义的风格表示,是值得的。

为此,我们建议通过基于对比学习的优化,用一种新颖的风格表示来改善任意的风格转移。我们的关键见解是,如果只给一个艺术图像,一个没有艺术知识的人很难定义风格,但识别不同风格之间的差异却相对容易。具体来说,我们提出了一个新颖的对比性任意风格转换(CAST)框架,用于图像风格的表示和风格转换。CAST包括一个基于编码器-变换-解码器结构的主干,一个多层风格投影仪(MSP)模块,以及一个领域增强(DE)模块。我们引入对比学习来考虑风格之间的正负关系,并使用DE来学习整体艺术图像领域的分布。为了捕捉不同尺度的风格特征,我们的MSP模块将风格图像的每一层的特征投射到相应的风格编码空间。我们的贡献可以概括为以下几点。

  • 我们提出了一个用于风格编码的MSP模块和一个新颖的CAST模型,用于基于编码器-变换-解码器的任意风格转移,而不使用二阶统计数据作为风格表示。
  • 我们通过考虑正反面例子之间的关系以及风格的全局分布,引入了对比学习和领域增强,解决了现有风格转移模型不能充分利用大量风格信息的问题。
  • 实验表明,我们的方法在视觉质量方面取得了最先进的风格转移结果。受图灵测试的启发,我们进行了一项具有挑战性的主观调查,结果显示CAST的输出可以误导参与者区分假画和真画。

2 RELATED WORK

图像风格转移。传统的风格转移方法,如基于笔画的渲染[Fišer等人,2016]和图像过滤[Wang等人,2004]通常使用低层次的手工制作的特征。Gatys等人[2016]和后续的变体[Gatys等人2017;Kolkin等人2019]证明了从预训练的深度卷积神经网络中提取的特征的统计分布可以有效地捕获风格模式。虽然结果显著,但这些方法将任务表述为一个复杂的优化问题,这导致了高计算成本。最近的一些方法依靠可学习的神经网络来匹配特征空间中的统计信息以提高效率。每风格-每模型方法[Gao等人,2020;Johnson等人,2016;Puy和Pérez 2019]为每个单独的风格训练一个特定的网络。多风格-每模型方法[Chen等人,2017;Dumoulin等人,2017;Ulyanov等人,2016;Zhang和Dana,2018]使用一个单一模型代表多种风格。

任意风格转移方法[Deng等人,2022,2020;Li等人,2017;Svoboda等人,2020;Wu等人,2021a]建立更灵活的前馈架构,使用统一的模型处理任意风格。AdaIN[Huang and Belongie 2017]和DIN[Jing et al. 2020a]直接将内容特征的总体统计与风格特征的统计相统一,并采用条件实例归一化。然而,在实例归一化层动态生成仿生参数可能会导致失真假象。相反,一些方法遵循编码器-解码器的方式,将特征转换和/或融合引入到基于自动编码器的框架中。例如,Li等人[2019]学习了一个跨域特征线性转换矩阵(LST),以实现通用风格转移,并通过从转换后的特征解码产生所需的风格化结果。Park等人[2019]引入SANet,将语义上最接近的风格特征灵活地匹配到内容特征上。Deng等人[2021]提出MCCNet,通过多通道关联融合示范性风格特征和输入内容特征,实现高效的风格转换。An等人[2021]提出了可逆的神经流和无偏见的特征转移模块(ArtFlow),以防止通用风格转移过程中的内容泄漏。Liu等人[2021b]提出了一个自适应注意力归一化模块(AdaAttN),考虑浅层和深层特征来计算注意力分数。基于GAN的方法[Kotovenko等人,2019a,b;Sanakoyeu等人,2018a;Svoboda等人,2020;Zhu等人,2017]已成功用于集合风格转移,将集合中的风格图像视为一个域[Chen等人,2021b;Lin等人,2021;Xu等人,2021]。

对比性学习。对比学习已被用于许多应用中,如图像去模糊化[Wu et al. 2021b]、上下文预测[Santa Cruz et al. 2019]、几何预测[Liu et al. 2019]和图像翻译。对比学习被引入到图像翻译中,以保留输入的内容[Han等人2021]并减少模式崩溃[Jeong和Shin 2021; Kang和Park 2020; Liu等人2021a]。CUT[Park等人,2020]通过将输入和输出图像裁剪成斑块并最大化斑块之间的互信息,提出了补丁式对比学习。继CUT之后,TUNIT[Baek等人,2021]对具有类似语义结构的图像进行对比学习。然而,语义相似性假设对于任意的风格转移任务并不成立,这导致所学的风格表征的性能明显下降。IEST [Chen et al. 2021a]将对比性学习应用于基于特征统计(平均值和标准差)作为风格先验的图像风格转移。对比性损失只在生成的结果中计算。IEST中的对比学习是一种辅助方法,用于关联共享相同风格的风格化图像,其能力来自预训练的VGG的特征统计。不同的是,我们通过提出一个新颖的框架来引入风格表示的对比性学习,该框架全面使用视觉特征来表示任意图像风格转移的任务的风格。

3 METHOD

3.1 Multi-layer Style Projector

3.2 Contrastive Style Learning

3.3 Domain Enhancement

3.4 Network Training

4 EXPERIMENTS

4.1 Qualitative Evaluation

4.2 Quantitative Evaluation

4.3 Ablation Study

5 CONCLUSION AND FUTURE WORK

在这项工作中,我们提出了一个新的框架,即CAST,用于任意图像风格的转移任务。我们没有依赖二阶指标,如格拉姆矩阵或深度特征的平均值/方差,而是通过引入一个风格编码的MSP模块直接使用图像特征。我们开发了一个对比性的损失函数,以利用现有的艺术品集合中可用的多风格信息,帮助训练MSP模块和我们的生成性风格转移网络。我们进一步提出了一个DE方案来有效地模拟现实和艺术图像领域的分布。广泛的实验结果表明,与最先进的方法相比,我们提出的CAST方法实现了卓越的任意风格转移结果。在未来,我们计划通过考虑艺术家和类别信息来改进对比性风格学习过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/62218.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

装饰模式Decorator

1.意图:动态地给一个对象添加一些额外的职责。就增加功能而言,Decorator模式比生成子类更加灵活。 2.结构 Component定义一个对象接口,可以给这些对象动态地添加职责; ConcreteComponent定义一个对象,可以给这个对象…

[附源码]JAVA毕业设计六如文学网站(系统+LW)

[附源码]JAVA毕业设计六如文学网站(系统LW) 环境项配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术:…

康力源在创业板提交注册:预计全年收入同比下滑,衡墩建持股98%

12月4日,江苏康力源体育科技股份有限公司(下称“康力源”)在深圳证券交易所创业板提交招股书(注册稿)。据贝多财经了解,康力源于2021年11月12日在创业板递交招股书,2022年8月11日获得上市委会议…

螺旋矩阵||真的很有趣!(蓝桥杯宝贝们看过来)

献丑了&#xff0c;画了个图&#xff0c;如果图看不同&#xff0c;没关系&#xff0c;我们还有注释 class Solution { public:vector<vector<int> > generateMatrix(int n) {vector<vector<int> >num(n,vector<int>(n,0)); int startX0,startY0;…

向黑客精神致敬!

不是第一次想在一个特殊的时间写点什么&#xff0c;但是每次都是刚写了几个字就又停下来&#xff0c;有什么好说的呢&#xff1f;既然整个行业都是说的多&#xff0c;做的少&#xff0c;我们不如更多的踏实做点事情比较好&#xff0c;所以又把编辑器关掉。 但这次还是希望能和大…

Java 最常见的800道面试题,老话说:临阵磨枪,不快也光,涨薪指日可待

前言 春招&#xff0c;秋招&#xff0c;社招&#xff0c;我们 Java 程序员的面试之路&#xff0c;是挺难的&#xff0c;过了 HR&#xff0c;还得被技术面&#xff0c;鄙人在去各个厂面试的时候&#xff0c;经常是通宵睡不着觉&#xff0c;头发都脱了一大把&#xff0c;还好最终…

kubernetespod控制器详解2与service详解1

kubernetespod控制器详解2与service详解1 Horizontal Pod Autoscaler(HPA) Kubernetes期望可以实现通过监测Pod的使用情况&#xff0c;实现pod数量的自动调整&#xff0c;于是就产生了Horizontal Pod Autoscaler&#xff08;HPA&#xff09;这种控制器。 HPA可以获取每个Pod利…

【并发】J.U.C之Java锁

java锁 锁的种类和特点 无锁/偏向锁/轻量级锁/重量级锁 这四种锁是指锁的状态&#xff0c;专门针对synchronized的。在介绍这四种锁状态之前还需要介绍一些额外的知识。 首先为什么Synchronized能实现线程同步&#xff1f; 在回答这个问题之前我们需要了解两个重要的概念&a…

室外定位:高精度北斗RTK定位技术

北斗RTK定位技术&#xff0c;也称北斗差分定位技术&#xff0c;利用我国自主研发的北斗卫星定位系统实现精确定位功能。定位精度可根据需要&#xff0c;通过选择不同精度的人员定位终端来实现。 在科技强国的战略驱动下&#xff0c;北斗RTK定位技术迎来了广阔的发展机遇&#x…

【无锁队列】无锁CAS_无锁队列

1 引言 锁是解决并发问题的万能钥匙&#xff0c;可是并发问题只有锁能解决吗&#xff1f; 2 什么是CAS&#xff1f; ⽐较并交换(compare and swap, CAS)&#xff0c;是原⼦操作的⼀种&#xff0c;可⽤于在多线程编程中实现不被打断的数据交换操作&#xff0c;从⽽避免多线程…

[附源码]计算机毕业设计基于Springboot的专业技能认证系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Thread类的常用方法

目录 1.Thread类常用的构造方法 2.Thread类的几个常见属性 2.1 什么是守护线程?isDaemon 2.2线程是否存活 isAliye() 3.终止线程的方法 3.1使用共享标志位通知中断线程 3.2使用Thread自带的标志位通知 4.等待线程 join 5.获取当前线程的引用 6.休眠当前线程 Thread …

Java安全--篇2-类的动态加载

类的动态加载 首先我们来了解一下构造代码块和静态代码块&#xff1a;Java中静态代码块、构造代码块、构造函数、普通代码块 - YSOcean - 博客园 // 静态代码块 static {System.out.println("静态代码块"); }// 构造代码块 {System.out.println("构造代码块&q…

使用Jetpack组件Navigation实现Android开发中页面跳转

使用Jetpack组件Navigation实现Android开发中页面跳转 ​目录 一、前言 1.概述 2.导航图的创建&#xff08;官网&#xff09; 二、基本使用 1.依赖配置 2.具体实例&#xff1a;使用Navigation实现页面的跳转。 2.1.class的创建 2.2 、页面布局文件的创建 2.3 向 Acti…

Abaqus血管支架仿真攻略之几何创建与网格划分

作者&#xff1a;江丙云&#xff0c;仿真秀平台优秀讲师 前不久&#xff0c;笔者推送的冠脉支架的参数化建模和优化、Abaqus网格卷曲WrapMesh&#xff0c;冠脉支架的参数化建模和优化&#xff0c;以及Abaqus疲劳分析|Goodman插件等原创文章后&#xff0c;后台留言的读者众多&a…

GDP-海藻糖,5‘-鸟苷二磷酸岩藻糖,GDP-fucose ,CAS:15839-70-0

产品名称&#xff1a;GDP-海藻糖&#xff0c;5-鸟苷二磷酸岩藻糖&#xff0c;二磷酸鸟苷岩藻糖&#xff0c;GDP-L-岩藻糖 英文名称&#xff1a;GDP-fucose&#xff0c;Guanosine 5-diphosphate-L-fucose disodium salt CAS&#xff1a;15839-70-0 Mol. Formula C16H23N5O…

基于模糊神经网络算法预测电价(Matlab代码实现)

&#x1f4cb;&#x1f4cb;&#x1f4cb;本文目录如下&#xff1a;⛳️⛳️⛳️ ​ 目录 1 概述 2 模糊神经网络简介 3 运行结果 4 参考文献 5 Matlab代码实现 1 概述 近年来,随着能源短缺和环境问题的日益凸显,太阳能、风能等各种形式的清洁能源得到广泛应用,微网作为分布式…

【云原生 | 46】高可用的开源键值数据库Etcd的安装与使用

&#x1f341;博主简介&#xff1a; &#x1f3c5;云计算领域优质创作者 &#x1f3c5;2022年CSDN新星计划python赛道第一名 &#x1f3c5;2022年CSDN原力计划优质作者 &#x1f3c5;阿里云ACE认证高级工程师 &#x1f3c5;阿里云开发者社区专…

第二证券|超300家机构关注两大赛道龙头,透露市场增长及发展方向

中科创达、奥普特成为本周调研组织数量最多的两家公司。 智能操作体系龙头获365家组织调研 证券时报数据宝计算&#xff0c;11月27日至12月3日&#xff0c;组织算计调研上市公司291家。被调研方多属于电子、机械设备、医药生物、电力设备、计算机、国防军工等板块&#xff0c;…

安卓属性动画

​ 一&#xff0e;三种安卓动画 Tween Animation(补间动画、视图动画)&#xff1a;通过对场景里的对象不断做图像变换&#xff08;平移、缩放、旋转&#xff09;产生的动画效果&#xff0c;即是一种渐变动画。 Frame Animation(帧动画)&#xff1a;顺序播放事先做好的图像&…