标题:Language-Driven Artistic Style Transfer
链接:https://sites.cs.ucsb.edu/~william/papers/LDAST.pdf
如标题所示,本文做的是基于文本引导的风格迁移。整体的思路还是用的AST(arbitrary style transfer)那一套自编码器结构。AST的思路就是通过将原图和目标图都经过一个encoder,得到原图的风格和语义特征以及目标图的风格和语义特征而这篇文章唯一的不同就是目标图自带一套文本描述,因此可以抽取文本的特征,然后将之视作风格特征与原图语义融合,最后通过解码器生成符合文本语义的结果即可。而这里的目标图像则是用作了监督信号。
模型结构
模型结构图画的比较复杂,但其实几乎全是同一组encoder和decoder在起作用,所以本质上很简单。唯一要注意的是输入的部分,比如左边的LVA模块,输入的是两张图和一段文字,这段文字是用来描述最底下图像的,也就是配套的一组数据。而右边的CR模块有四张图(c1,c2,s1,s2)和两段文字(x1,x2),s1和x1是配套的,s2和x2是配套的。理解了这里就很简单了。
语言视觉艺术家(LVA)
这个模块位于结构图的左上角,也是最终做测试时候使用的模块。包含了一个文本编码器,一个图像编码器和一个图像解码器。文本编码器就是输入文本输出一个文本特征。图像编码器就是输入图像,输出一个风格特征和一个语义特征。将图像输出的风格特征和语义特征输入解码器就获得了图像的重建结果。而将图像的语义特征和文本特征输入解码器就获得了符合目标文本的风格迁移结果。而为了让解码器能达到这样的效果,自然要设计一系列的训练方案,也就是接下来要说的其他部分。
结构重建
就是把图像编码器和图像解码器当做一组自编码器来训练,做重建损失。
分块风格判别器
这里用了GAN中的判别器来为风格做监督训练。作者将目标图像做随机划分,然后输入判别器作为正样本,将经过LVA输出的风格迁移的结果的随机划分块作为负样本,以此来训练判别器。这样目的自然就是让LVA输出的风格迁移结果贴近目标图像的风格。训练方式和GAN一样。
对比推理
这里虽然有对比两个字,但是并不是对比学习。作者这里的期望就是在相同的图像上加不同的风格时,出来的结果应当有相同的语义特征(Lc-c)。
而当在不同的图像上加相同的风格时,出来的结果应当有相同的风格特征(Lc-s)。
除此以外,作者还希望在将同一张图迁移成不同风格时,相似的风格迁移成相似的结果。比如风格1中有"明亮高耸的山"的描述,而风格2中有“山矗立在湖边”,那这两个风格就是相似的,那他们的结果就需要是比较类似的。因此作者对风格图计算了相似度,并加权在对比loss上(Lr-s)