目录
一、概述
二、相关工作
1、图像风格化
2、视频风格化
三、StyleMaster
1、创建对比数据集
2、提取全局描述子
3、局部描述和全局描述结合
4、时间和风格质量的运动适配器
5、Gray Tile ControlNet
四、实验
一、概述
该论文提出了一种用于视频风格迁移和生成具有艺术风格的视频StyleMaster。现有方法在生成给定风格的视频中,容易存在内容泄露,或者很难将风格迁移。所以风格提取阶段尤为重要,而现有方法强调全局风格,但忽略了局部纹理
(1)提出了一种新的风格提取模块,采用局部块选择来克服风格迁移过程中的内容泄漏,采用全局投影来提取强风格线索。
(2)第一次提出使用模型错觉来生成具有绝对风格一致性的配对图像的数据集,而几乎没有成本。这不仅实现了准确的风格-内容解耦,也利于后续的风格相关研究。
(3)为了填补图像到视频的差距,在静态视频上训练了一个轻量级的motion adapter,隐式增强了风格化的范围,增强生成视频的时间连贯性,另外gray tile controlnet结构实现视频风格的有效传输,这样StyleMaster可以准确的生成给定参考风格的内容,并且效果高于其他方法。
下图表示现有不同methods下存在风格迁移失败和内容泄漏问题。
对于以往的失败,作者提出,主要源于全局特征和纹理特征的不当使用,所以在本文中对纹理特征选取文本信息量少的块作为局部块,利用局部块进行风格引导,而不是以往的用CLIP对所有块读取风格,导致内容泄露。另外使用了对比学习的解耦方法,通过模型幻觉生成无限多的配对图像数据集,确保生成的风格与参考图像完全一致。
二、相关工作
1、图像风格化
现有方法存在一些问题,如无法很好地保留局部纹理特征,或者无法很好地分离内容和风格,导致内容泄露等。
作者提出了一种名为StyleMaster的新方法,通过局部特征选择和全局特征提取来更好地捕捉和迁移图像风格。
另外现有数据集如Style30K存在风格一致性问题,作者提出利用模型幻觉生成一种新的数据集,可以确保配对图像具有绝对的风格一致性。
2、视频风格化
如果通过使用图像生成模型来逐帧进行风格化,那么会导致时间不一致。早期方法采用光流约束,但是需要参考图像作为第一帧。
AnimateDiff通过加时间模块,将T2I模型扩展T2V模型,StillMoving通过训练具有静止视频的motion adaptor,来免除对视频数据的需求。
另外一些T2V模型工作集中于可控视频生成,比如VideoCompose实现了多种控制包括风格控制,但是容易存在内容泄漏。StyleCrafter采用Q-former提取风格描述,但忽视了局部纹理,实现了风格化的生成,而不是风格迁移。
三、StyleMaster
1、创建对比数据集
首先提到StyleTokenizer中创建了一个风格数据集Style30K,一共30个类别style,但是这个数据集存在明显的幻觉。可以看到(左图)Style30K中黄色边框的两张图像即使一个属于真实场景,一个属于动画场景,但仍然归类为同一风格(黄色边框)。
论文借鉴了Visual Anagrams这篇论文的模型幻觉思想,他可以通过给定的T2I模型生成一个新的数据集。
给定一个T2I模型,在采样过程中复制并改变噪声图像的视角(旋转,翻转,或者是patchify成若干像素块进行操作,看下面的图有很多的办法,都是幻觉图),然后用不同的提示引导两个噪声图像的预测,最后将预测的噪声恢复到原始视角,恢复到原有风格下的,内容不同的图像。
该论文中作者也就是通过这种方法,创建了一个具有绝对风格一致性的数据集。
2、提取全局描述子
训练过程由于没有代码支持,猜测与StyleCrafter一样,先训练了风格化的理解,也就是依赖数据集基于对比学习的方式,训练了Global Projection(流程不太清楚),然后对于Q-former应该和stylecrafter类似。
第二阶段将风格化模块冻结,接入T2V模型中,微调T2V模型,保证空间一致性。
提取全局描述子这一部分介绍的就是蓝色框的下路箭头。
首先还是将Style Image输入到Clip image Encoder中,然后不进行patchify,直接利用简单的MLP进行投影,然后采用对比学习的方式来训练这个投影模块,我的理解是对比学习可以保证最小化正样本距离,最大化风格化信息,使其扩大正负样本(不同风格)之间的区别,用了triple loss(对比学习一般用的loss)。
没有全局投影前,只关注特定的区域,而使用全局投影可以关注全部区域,分布更加均匀化。
3、局部描述和全局描述结合
局部描述部分为蓝色部分上路箭头。
首先将style Image输入到Clip image encoder后进行patchify得到patch features,之后计算与文字低相似度的patch features,目的是只保留风格信息,而尽量排除内容信息。
之后再经过Q-Former,并残差连接得到,并从提取第一个N个标记作为纹理特征。
下图上半部分解释了在不同的的过滤率下保留的patch特征,当droprate越大,与内容(人物)相关的信息越少,只保留风格化的信息。下半部分展示droprate=0和0.95时的风格特征与潜在特征注意力映射,droprate=0时关注人物,最后生成的视频也很真实化,然后出现更多人物,droprate=0.95时,只保留了风格信息,特征更加集中于背景纹理信息。
后续的拼接就是将局部特征和全局特征直接concat在一起,后续输入到T2V模型的空间模块中的SCA中。而文本信息在第二阶段微调时经过CLIP输入到TCA中。
4、时间和风格质量的运动适配器
由于直接将风格信息引入视频会造成时间上的抖动和动态范围受限,所以提出一种Stillmoving的方法,来增强时间质量。
具体来说对于时间注意力块的每一个权重矩阵W,做出如下变换。
其中 和都是可学习的参数,在静止的视频上进行训练,为比例因子,当=0时,保持原模型不变,当=1时生成静止视频,当=-1时增强动态范围,增强风格化效果,生成结果远离真实世界域。
5、Gray Tile ControlNet
为了风格迁移中更精确的内容控制,作者采用了一个灰度的controlnet而不是纯彩色的,意义是通过这个方式可以避免颜色干扰风格迁移控制,更好地学习内容信息,并且使用N/2个普通DiT块,将内容特征注入到去噪网络中。(感觉这个也很有用)
四、实验
T2V实验过程基本上论文没有多提及,数据集使用stylecrafter相同的视频数据集,只是提到DiT-based的视频模型,其中用了3D causal VAE模块。
T2I训练中,使用模型错觉生成了10K的数据集,这一部分数据并没有开源。这一部分数据集用于训练全局风格提取器。利用静态视频训练运动适配器。之后运用laion aesthetic训练局部描述子,这一部分跟stylecrafter一样,这里面用到了gray tile controlnet。另外也提到了使用classify-free的指导,应该跟stylecrafter一样,目的为了解耦内容和风格。
效果还是蛮有趣的,甚至支持多参考图像。
对于消融实验,最有趣的是这个,第二排第三个应该就是颜色受到了内容限制,效果一般。
参考项目:StyleMaster