StyleMaster: Stylize Your Video with Artistic Generation and Translation 论文解读

news2025/1/23 9:49:19

目录

一、概述

二、相关工作

1、图像风格化

2、视频风格化

三、StyleMaster

1、创建对比数据集

2、提取全局描述子

3、局部描述和全局描述结合

4、时间和风格质量的运动适配器

5、Gray Tile ControlNet

四、实验


一、概述

Our StyleMaster demonstrates superior video style transfer and stylized generation

        该论文提出了一种用于视频风格迁移和生成具有艺术风格的视频StyleMaster。现有方法在生成给定风格的视频中,容易存在内容泄露,或者很难将风格迁移。所以风格提取阶段尤为重要,而现有方法强调全局风格,但忽略了局部纹理

(1)提出了一种新的风格提取模块,采用局部块选择来克服风格迁移过程中的内容泄漏,采用全局投影来提取强风格线索。

(2)第一次提出使用模型错觉来生成具有绝对风格一致性的配对图像的数据集,而几乎没有成本。这不仅实现了准确的风格-内容解耦,也利于后续的风格相关研究。

(3)为了填补图像到视频的差距,在静态视频上训练了一个轻量级的motion adapter,隐式增强了风格化的范围,增强生成视频的时间连贯性,另外gray tile controlnet结构实现视频风格的有效传输,这样StyleMaster可以准确的生成给定参考风格的内容,并且效果高于其他方法。

        下图表示现有不同methods下存在风格迁移失败和内容泄漏问题。

        对于以往的失败,作者提出,主要源于全局特征和纹理特征的不当使用,所以在本文中对纹理特征选取文本信息量少的块作为局部块,利用局部块进行风格引导,而不是以往的用CLIP对所有块读取风格,导致内容泄露。另外使用了对比学习的解耦方法,通过模型幻觉生成无限多的配对图像数据集,确保生成的风格与参考图像完全一致。

Existing image and video stylization methods either
fail in keeping local texture or suffer from content leakage.

二、相关工作

1、图像风格化

        现有方法存在一些问题,如无法很好地保留局部纹理特征,或者无法很好地分离内容和风格,导致内容泄露等。

        作者提出了一种名为StyleMaster的新方法,通过局部特征选择和全局特征提取来更好地捕捉和迁移图像风格。

        另外现有数据集如Style30K存在风格一致性问题,作者提出利用模型幻觉生成一种新的数据集,可以确保配对图像具有绝对的风格一致性。

2、视频风格化

        如果通过使用图像生成模型来逐帧进行风格化,那么会导致时间不一致。早期方法采用光流约束,但是需要参考图像作为第一帧。

        AnimateDiff通过加时间模块,将T2I模型扩展T2V模型,StillMoving通过训练具有静止视频的motion adaptor,来免除对视频数据的需求。

        另外一些T2V模型工作集中于可控视频生成,比如VideoCompose实现了多种控制包括风格控制,但是容易存在内容泄漏。StyleCrafter采用Q-former提取风格描述,但忽视了局部纹理,实现了风格化的生成,而不是风格迁移。

三、StyleMaster

1、创建对比数据集

        首先提到StyleTokenizer中创建了一个风格数据集Style30K,一共30个类别style,但是这个数据集存在明显的幻觉。可以看到(左图)Style30K中黄色边框的两张图像即使一个属于真实场景,一个属于动画场景,但仍然归类为同一风格(黄色边框)。

        论文借鉴了Visual Anagrams这篇论文的模型幻觉思想,他可以通过给定的T2I模型生成一个新的数据集。

        给定一个T2I模型,在采样过程中复制并改变噪声图像的视角(旋转,翻转,或者是patchify成若干像素块进行操作,看下面的图有很多的办法,都是幻觉图),然后用不同的提示引导两个噪声图像的预测,最后将预测的噪声恢复到原始视角,恢复到原有风格下的,内容不同的图像。

from Visual Anagrams paper

        该论文中作者也就是通过这种方法,创建了一个具有绝对风格一致性的数据集。 

2、提取全局描述子

        训练过程由于没有代码支持,猜测与StyleCrafter一样,先训练了风格化的理解,也就是依赖数据集基于对比学习的方式,训练了Global Projection(流程不太清楚),然后对于Q-former应该和stylecrafter类似。

        第二阶段将风格化模块冻结,接入T2V模型中,微调T2V模型,保证空间一致性。

        提取全局描述子这一部分介绍的就是蓝色框的下路箭头

        首先还是将Style Image输入到Clip image Encoder中,然后不进行patchify,直接利用简单的MLP进行投影,然后采用对比学习的方式来训练这个投影模块,我的理解是对比学习可以保证最小化正样本距离,最大化风格化信息,使其扩大正负样本(不同风格)之间的区别,用了triple loss(对比学习一般用的loss)。

Similarity between the extracted global style representations among image patches

        没有全局投影前,只关注特定的区域,而使用全局投影可以关注全部区域,分布更加均匀化。

3、局部描述和全局描述结合

        局部描述部分为蓝色部分上路箭头

        首先将style Image输入到Clip image encoder后进行patchify得到patch featuresF_p,之后计算与文字低相似度的patch featuresF_p',目的是只保留风格信息,而尽量排除内容信息。

        之后再经过Q-Former,并残差连接得到F_{attn},并从F_{attn}提取第一个N个标记作为纹理特征F_{texture}

        下图上半部分解释了在不同的的过滤率下保留的patch特征,当droprate越大,与内容(人物)相关的信息越少,只保留风格化的信息。下半部分展示droprate=0和0.95时的风格特征与潜在特征注意力映射,droprate=0时关注人物,最后生成的视频也很真实化,然后出现更多人物,droprate=0.95时,只保留了风格信息,特征更加集中于背景纹理信息。

The selection of texture feature using similarity with
prompt features.

      后续的拼接就是将局部特征和全局特征直接concat在一起,后续输入到T2V模型的空间模块中的SCA中。而文本信息在第二阶段微调时经过CLIP输入到TCA中。

4、时间和风格质量的运动适配器

        由于直接将风格信息引入视频会造成时间上的抖动和动态范围受限,所以提出一种Stillmoving的方法,来增强时间质量。

        具体来说对于时间注意力块的每一个权重矩阵W,做出如下变换。

        其中A_t^{W,down} 和A_t^{W,up}都是可学习的参数,在静止的视频上进行训练,\alpha为比例因子,当\alpha=0时,保持原模型不变,当\alpha=1时生成静止视频,当\alpha=-1时增强动态范围,增强风格化效果,生成结果远离真实世界域。

5、Gray Tile ControlNet

        为了风格迁移中更精确的内容控制,作者采用了一个灰度的controlnet而不是纯彩色的,意义是通过这个方式可以避免颜色干扰风格迁移控制,更好地学习内容信息,并且使用N/2个普通DiT块,将内容特征注入到去噪网络中。(感觉这个也很有用)

四、实验

        T2V实验过程基本上论文没有多提及,数据集使用stylecrafter相同的视频数据集,只是提到DiT-based的视频模型,其中用了3D causal VAE模块。

        T2I训练中,使用模型错觉生成了10K的数据集,这一部分数据并没有开源。这一部分数据集用于训练全局风格提取器。利用静态视频训练运动适配器。之后运用laion aesthetic训练局部描述子,这一部分跟stylecrafter一样,这里面用到了gray tile controlnet。另外也提到了使用classify-free的指导,应该跟stylecrafter一样,目的为了解耦内容和风格。

        效果还是蛮有趣的,甚至支持多参考图像。

         对于消融实验,最有趣的是这个,第二排第三个应该就是颜色受到了内容限制,效果一般。

参考项目:StyleMaster 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2280835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++进阶---c++三大特性之一---多态

多态的简单介绍:是一种动态的访问函数,比如:你定义了一个一个人类和一个学生类,当你传入的是学生类的时候,你需要有购物优惠,这种情境下用多态就很适用。 1.简单的多态使用: 1.1构造多态的条件…

安卓程序作为web服务端的技术实现(二):Room 实现数据存储

已经实现web服务器安卓程序作为web服务端的技术实现:AndServer 实现登录权限拦截-CSDN博客 现在需要和正常web项目类似,那么就需要操作数据库 一般web项目都是选择较为重型的数据库如MySQL,SQL server等 这里是安卓项目,我目前…

如何使用Python脚本将本地项目上传到 GitHub

前言 这里我们通过创建一个新的github仓库,来测试我们的脚本能否上传我们本地的项目,并且进行更新。首先你需要先安装 Git,关于这部分我好像没有记录过,这里我搜索看了一下,这篇博客写的Git安装详解应该是比较齐全的&…

Day 15 卡玛笔记

这是基于代码随想录的每日打卡 222. 完全二叉树的节点个数 给你一棵 完全二叉树 的根节点 root ,求出该树的节点个数。 完全二叉树 的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值&#x…

IO进程----进程

进程 什么是进程 进程和程序的区别 概念: 程序:编译好的可执行文件 存放在磁盘上的指令和数据的有序集合(文件) 程序是静态的,没有任何执行的概念 进程:一个独立的可调度的任务 执行一个程序分配资…

【Postgres_Python】使用python脚本将多个PG数据库合并为一个PG数据库

需要合并的多个PG数据库表个数和结构一致,这里提供一种思路,选择sql语句insert插入的方式进行,即将其他PG数据库的每个表内容插入到一个PG数据库中完成数据库合并 示例代码说明: 选择一个数据库导出表结构为.sql文件&#xff08…

微软预测 AI 2025,AI Agents 重塑工作形式

1月初,微软在官网发布了2025年6大AI预测,分别是:AI模型将变得更加强大和有用、AI Agents将彻底改变工作方式、AI伴侣将支持日常生活、AI资源的利用将更高效、测试与定制是开发AI的关键以及AI将加速科学研究突破。 值得一提的是,微…

《Java核心技术 卷II》获取Web数据提交表单数据

提交表单数据 了解即可,直接上案例 package 第4章网络.post;import java.io.IOException; import java.io.InputStream; import java.io.PrintWriter; import java.io.Reader; import java.net.CookieHandler; import java.net.CookieManager; import java.net.Co…

Spring Boot AOP实现动态数据脱敏

依赖&配置 <!-- Spring Boot AOP起步依赖 --> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId> </dependency>/*** Author: 说淑人* Date: 2025/1/18 23:03* Desc…

JavaScript —— 变量与运算符

变量与常量 let&#xff1a;用来定义变量&#xff0c;可以只声明不定义&#xff1b; 例如&#xff1a; <script type"module">let a; // 只声明不定义let x 2, name "kitty"; // 定义若干个变量let d { // 定义一个对象&#xff0c;类似于p…

YOLO-cls训练及踩坑记录

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言 一、模型训练 二、测试 三、踩坑记录 1、推理时设置的imgsz不生效 方法一&#xff1a; 方法二&#xff1a; 2、Windows下torchvision版本问题导致报错 总结 前…

Android BitmapShader简洁实现马赛克,Kotlin(一)

Android BitmapShader简洁实现马赛克&#xff0c;Kotlin&#xff08;一&#xff09; 这一篇&#xff0c; Android使用PorterDuffXfermode模式PorterDuff.Mode.SRC_OUT橡皮擦实现马赛克效果&#xff0c;Kotlin&#xff08;3&#xff09;-CSDN博客 基于PorterDuffXfermode实现马…

全球化趋势与中资企业出海背景

1. 全球化趋势与中资企业出海背景 1.1 全球经济格局变化 全球经济格局正经历深刻变革&#xff0c;新兴经济体崛起&#xff0c;全球产业链重塑&#xff0c;中资企业出海面临新机遇与挑战。据世界银行数据&#xff0c;新兴市场和发展中经济体在全球 GDP 中占比已超 40%&#xff…

无人机在城市执法监管中的应用:技术革新与监管挑战

随着科技的不断进步&#xff0c;无人机技术在城市管理中的应用越来越广泛。无人机以其灵活性、高效性和低成本的优势&#xff0c;正在逐渐成为城市执法监管的得力助手。本文将探讨无人机在城市执法监管中的应用现状、技术优势以及面临的挑战。 无人机技术在城市执法监管中的应用…

总结6..

背包问题的解决过程 在解决问题之前&#xff0c;为描述方便&#xff0c;首先定义一些变量&#xff1a;Vi表示第 i 个物品的价值&#xff0c;Wi表示第 i 个物品的体积&#xff0c;定义V(i,j)&#xff1a;当前背包容量 j&#xff0c;前 i 个物品最佳组合对应的价值&#xff0c;同…

【2024年 CSDN博客之星】我的2024年创作之旅:从C语言到人工智能,个人成长与突破的全景回顾

我的2024年创作之旅&#xff1a;从C语言到人工智能&#xff0c;个人成长与突破的全景回顾 引言 回望2024年&#xff0c;我不仅收获了技术上的成长&#xff0c;更收获了来自CSDN平台上无数粉丝、朋友以及网友们的支持与鼓励。在这条创作之路上&#xff0c;CSDN不仅是我展示技术成…

等变即插即用图像重建

大家读完觉得有帮助记得关注和点赞&#xff01;&#xff01;&#xff01; 摘要 即插即用算法为解决反问题成像问题提供了一个流行的框架&#xff0c;该框架依赖于通过降噪器隐式定义图像先验。这些算法可以利用强大的预训练降噪器来解决各种成像任务&#xff0c;从而避免了在每…

MLCC电容、铝电解电容寿命计算及影响分析

如何评价MLCC的寿命 MLCC的寿命受温度条件和施加的DC电压条件影响&#xff0c;可以用下列加速方程式来表示。 例如&#xff0c;85oC,16V条件的高温负荷测试是比65oC4V环境高2,374.16倍的加速测试&#xff0c;MTTF(测试样本数40pcs,可信度60%情况下)预计为103,562,200h&#…

集成学习算法

集成学习算法 一、集成学习介绍 二、随机森林算法 1、Bootstrap随机抽样 2、Bagging 算法 3、训练算法 4、代码实现 三、Boosting 算法 AdaBoost 算法 1、强分类器与弱分类器 2、训练算法 3、代码实现 一、集成学习介绍 集成学习是通过多个模型的组合形成一个精度更…

算法6(力扣148)-排序链表

1、问题 给你链表的头结点 head &#xff0c;请将其按 升序 排列并返回 排序后的链表 。 2、采用例子 输入&#xff1a;head [4,2,1,3] 输出&#xff1a;[1,2,3,4] 3、实现思路 将链表拆分成节点&#xff0c;存入数组使用sort排序&#xff0c;再用reduce重建链接 4、具…