即插即用,无痛增强模型生成美感!字节跳动提出VMix:细粒度美学控制,光影、色彩全搞定

news2025/1/7 16:49:32

文章链接:https://arxiv.org/pdf/2412.20800
代码地址:https://github.com/fenfenfenfan/VMix
项目地址:https://vmix-diffusion.github.io/VMix/

亮点直击

  • 分析并探索现有模型在光影、色彩等细粒度美学维度上生成图像的差异,提出在文本提示中解耦这些属性,并构建一个细粒度的美学标签体系,提供清晰的模型优化方向;

  • 提出VMix条件注入方法,它将输入文本提示解耦为内容描述和美学描述,通过值混合交叉注意力的条件控制方法,从不同维度提升模型生成的美感;

  • 提出的方法对于现有的扩散模型具有普适效果,作者基于此训练了一个即插即用的美学适配器,与社区模块高度兼容。

  • 实验表明,提出的方法能显著提升现有模型生成美感,优于FreeU、DPO、Textual Inversion等方法

总结速览

解决的问题

  • 扩散模型在文本到图像生成方面表现出色,现有方法在提升图像质量以满足人类偏好方面做出了努力,但未能充分满足人类对视觉生成内容的细粒度审美偏好,如自然光线、丰富色彩和合理构图等;

  • 现有方法在提升图像质量以满足人类偏好方面做出了努力,如FreeU、DPO等,尽管整体生成结果可能在文本对齐方面表现更好,但可能在视觉构图等方面表现较差,现有方法未能准确对齐生成图像与人类偏好。

提出的方案

  • 通过对齐人类设计师偏好,构建包括光影、色彩、构图等不同美学标签,将文本条件解耦成内容描述和美学描述;

  • 提出新的条件注入方法VMix,通过审美嵌入初始化模块和跨注意力混合控制模块,在保持原有模型图文匹配能力同时,提升美学表现;

  • VMix设计灵活,能够与社区模块(如LoRA、ControlNet和IPAdapter)兼容,为图像生成提供更大的创造能力。

应用的技术

  • 扩散模型架构:Stable Diffusion、SDXL被作为基础图像生成模型进行实验,通过冻结基模仅训练额外小参数网络提升模型美感;

  • 美学向量初始化:通过初始化美学向量,将输入文本提示分离为内容描述和多维度美学描述,并通过映射网络将审美标签作为额外条件整合到去噪模型中;

  • 值混合交叉注意力:引入交叉注意力混合控制网络,在不直接改变注意力图的同时,最小化对图像-文本对齐的不利影响,从而更好的注入美学条件。

达到的效果

  • VMix能够在不损害模型原有图文匹配能力的同时,提升模型在光影、色彩、构图等不同美学维度的表现;在与其他方法,如FreeU、DPO、Textual Inversion的比较中表现更出色,证明了其在提升图像美感方面的有效性。

  • 在MJHQ-30K和LAION-HQ10K基准测试中,VMix在Aes分数上取得了最高分,表明其在提升美感的重要性。用户研究也表明,应用VMix后,预训练和开源模型更受用户青睐。

方法

VMix框架的pipeline和实现细节,如下图所示,分为三个阶段:
(1)美学向量初始化阶段;(2)训练阶段;(3)推理阶段

对于大多数微调方法,由于控制条件仅来源于文本模型的文本嵌入,即便输入文本中含有一些美学词汇,相关信息一方面很容易在与其它词汇的自注意力过程中被淹没,另一方面,过度包含美学词汇,使输入提示过长,可能导致无法在提示中生成某些主体,从而导致图文匹配度的下降。为了解决这个问题,论文将文本到图像合成的输入文本解耦为内容描述和美学描述,其中美学描述是引入的细粒度美学标签,内容输入是关于图像中主要主体和相关属性的描述。

美学向量初始化

为了让美学知识更高效注入到扩散模型中,设计了美学向量(AesEmb)初始化阶段,这一阶段产生的AesEmb将在训练和推理阶段使用,并且只需要推理一次即可离线缓存。如上图(a)所示,首先构建N组美学标签,其中表示一个特定的美学维度(例如丰富色彩、自然光线、合理构图等),而代表不包含此标签,即负面美学标签,值得注意的是,使用罕见词来表示,从而防止文本模型的语义先验泄漏到负面美学标签中。然后美学标签将被CLIP冻结的文本模型处理,从而产生一对[CLS]标记,记为, 最终可以得到N组这样预定义好的美学向量,即为AesEmb

其中d是维度,N表示美学标签对的数量。

交叉注意力混合控制

美学向量映射网络:在训练过程中,由于单张图片样本包含的正面美学标签的数量是不同的,这时预先定义好的AesEmb就派上用场了,每个样本会去AesEmb中索引对应向量,对于每个美学标签,如果该样本具备该属性,则索引;否则索引,从而重组得到最终的美学特征。然后通过一些线性层做维度变换,映射网络的最后一层用的是零线性层。整个映射网络的计算如下:

是从美学向量映射网络出的最终文本特征。在训练开始时,作为连接层的零初始化线性层的权重和偏置被设置为零。这种初始化确保了微调模型不会引入有害噪声,从而保留了原始预训练模型的能力。

值混合交叉注意力:交叉注意力层中的注意力图决定了文本标记在每个图像块的概率分布,为了尽可能保留预训练模型中固有的图文匹配能力,通过内容分支和美学分支双分支的方式在扩散模型中引入值混合交叉注意力网络,这两个分支共享注意力图,对于美学分支,仅让网络学习一个新的value,从而减少注入过程中对原始注意力图的影响,这个过程可以表示为:

训练及推理细节

模型全参数训练虽然会有更高的上限,但会产生高昂的成本,并且高度定制化;训练过程中,基模参数被冻结,只训练新增的映射网络和值混合交叉注意力网络,基模通过挂载一个小参数的LoRA,从而使模型训练过程更加稳定,并增强了其适用性。训练完成后,形成一个即插即用的模块。在推理阶段,默认使用所有正面的审美标签,如上图(c)所示,从而提升模型在所有审美维度上的生成质量。尽管在训练阶段使用了LoRA,在推理阶段这不是必需的,后面有相关的消融实验

实验结果

实验设置

训练数据:从LAION等大型公开英文数据集中提取了20万张图片,采用自动和人工过滤组合方式进行清洗。这批图除了内容描述文本外,还会标注不同美学维度(如色彩、光影、构图、重心等)的分类标签,用来作为训练过程中的额外条件。
训练设置: SD1.5和SDXL的学习率分别设置为1e−4和1e−5。Batch size设置为256,实验中的总训练步数为50,000。在推理阶段,使用DDIM采样器进行采样25步,CFG为7.5,不使用反向提示词。
评估细节:除了使用MJHQ-30K数据集进行评估外,额外构建一个只包含高美学和高分辨率图片的LAION-HQ10K数据集,使用FID、CLIP Score和Aes Score衡量生成图像的整体质量。

结果

定性比较:在视觉效果上,VMix显著优于其它方法,并且与使用同样训练集的SFT方法比,VMix的效果更好,从而验证了条件注入的有效性,同时对高质量数据进行消融。此外,VMix作为插件可以直接应用于开源模型,提升它们的美学表现。

SD1.5上不同方法的比较

SDXL上不同方法的比较

应用于开源模型的效果

定量指标:VMix模型有着最高的Aes Score,并且可以看到基模的图文匹配能力并没有受到影响,甚至条件解耦后模型相较普通SFT方式更容易在高质量数据集上收敛。推理阶段随着增大,图片美感也会随之提升。

消融实验:文中进一步分析了AesEmb不同维度对生成结果的影响,可以看到不同美学维度都能明显改善图片质量,当一起使用时效果最好;文中还对对LoRA的使用进行了消融,从而验证模型性能的提升主要来自VMix本身。

结论

这项研究提出了VMix,它通过引入美学标签(光影、色彩、构图等)作为额外的条件,并采用交叉注意力混合控制方法来增强模型在各种美学维度上的表现。论文发现,让模型对齐人类期望的最关键因素之一是使用适当的条件控制方法,在解耦的细粒度美学标签下进行训练。受此启发,论文提出了一种有效的条件控制方法,显著提高了模型的生成质量。广泛的实验验证了VMix在文本忠实度和视觉美学方面超越了其他最先进的方法。作为一个即插即用的插件,VMix可以与开源模型无缝集成,提升审美表现,从而进一步推动社区的发展。

参考文献

[1] VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2271987.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

I.MX6ull-PWM

一、PWM介绍 PWM(Pulse Width Modulation)简称脉宽调制,是利用微处理器的数字输出来对模拟电路进行控制的 一种非常有效的技术,广泛应用在测量、通信、工控等方面。 pwm的工作电路 它的四种时钟信号 (1)High-frequency referenc…

性能测试04|JMeter:连接数据库、逻辑控制器、定时器

目录 一、连接数据库 1、使用场景 2、直连数据库的关键配置 3、案例 ​编辑 二、逻辑控制器 1、if控制器 2、循环控制器 3、ForEach控制器 三、定时器 1、同步定时器 2、常数吞吐量定时器(用的少,了解即可) 3、固定定时器 一、连…

基于SpringBoot和OAuth2,实现通过Github授权登录应用

基于SpringBoot和OAuth2,实现通过Github授权登录应用 文章目录 基于SpringBoot和OAuth2,实现通过Github授权登录应用0. 引言1. 创建Github应用2. 创建SpringBoot测试项目2.1 初始化项目2.2 设置配置文件信息2.3 创建Controller层2.4 创建Html页面 3. 启动…

Visual Studio C++使用笔记

个人学习笔记 右侧项目不显示 CTRL ALT L 创建第一个项目 添加类(头文件、CPP文件)

USB射频微波功率计的功能与优势-盛铂科技

USB射频功率计是一种用于测量射频信号(RF)功率的仪器,它通过USB接口与计算机或其他设备连接,以便于进行数据采集、处理和显示。 主要功能 功率测量:能够测量射频信号的功率,通常以毫瓦(mW&…

百度贴吧的ip属地什么意思?怎么看ip属地

在数字化时代,IP地址不仅是网络设备的唯一标识符,更承载着用户的网络身份与位置信息。百度贴吧作为广受欢迎的社交平台,也遵循相关规定,在用户个人主页等位置展示账号IP属地信息。那么,百度贴吧的IP属地究竟意味着什么…

基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真,仿真输出燃料电池中氢氧元素含量变化以及生成的H2O变化情况。 2.系统仿真结果 3.核心程序与模型 版本…

Linux驱动开发(16):输入子系统–电容触摸驱动实验

有关电容触摸的基础知识内容可以参考野火STM32相关教程,这里只介绍电容触摸驱动的相关内容。 本章配套源码、设备树以及更新固件位于“~/embed_linux_driver_tutorial_imx6_code/linux_driver/touch_scream_GTxxx”目录下。 触摸面板通过双面胶粘在显示屏上&#…

73 mysql replication 集群的交互

前言 新建两个数据库, 分别为 192.168.220.132:3001, 192.168.220.132:3002 设置 192.168.220.132:3001 为 master, 192.168.220.132:3002 为 slave 配置文件如下 然后使用 mysqld --initialize 来初始化 data 目录, 以及相关基础数据库 这里会为 root 账户创建一个随机的…

Unity-Mirror网络框架-从入门到精通之Benchmark示例

文章目录 前言什么是Benchmark?Benchmark 简要说明Benchmark示例BenchmarkNetworkManagerMonsterMovementPlayerMovementInterestManagement性能指标 BenchmarkIdle示例BenchmarkPrediction示例BenchmarkStinkySteak示例 前言 在现代游戏开发中,网络功能…

反射--反射机制

目录 一 java 1.反射的引入: 2.反射机制 1) 反射会生成一个类对象------类型class类型 2)【加载阶段】class类型相当于一面镜子------透过class 反射出 真正的类的结构 3)反射机制原理---编译阶段---加载阶段---运行阶段 2.…

【论文笔记】LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: LongLoRA: Efficient Fine…

LabVIEW四边形阻抗继电器

基于LabVIEW开发了四边形阻抗继电器,该系统主要应用于电力系统的距离保护中。四边形阻抗继电器在克服短路点过渡电阻的影响及躲避负荷阻抗方面展现出优良的特性。通过LabVIEW图形化编程环境实现的该系统,具备用户友好界面和简便的操作流程,有…

计算机网络--路由器问题

一、路由器问题 1.计算下一跳 计算机网络--根据IP地址和路由表计算下一跳-CSDN博客 2.更新路由表 计算机网络--路由表的更新-CSDN博客 3.根据题目要求给出路由表 4.路由器收到某个分组,解释这个分组是如何被转发的 5.转发分组之路由器的选择 二、举个例子 …

Python安装(新手详细版)

前言 第一次接触Python,可能是爬虫或者是信息AI开发的小朋友,都说Python 语言简单,那么多学一些总是有好处的,下面从一个完全不懂的Python 的小白来安装Python 等一系列工作的记录,并且遇到的问题也会写出&#xff0c…

2025 年前端新技术如何塑造未来开发生态?

开发领域:前端开发 | AI 应用 | Web3D | 元宇宙 技术栈:JavaScript、React、ThreeJs、WebGL、Go 经验经验:6 年 前端开发经验,专注于图形渲染和 AI 技术 开源项目:AI智简未来、晓智元宇宙、数字孪生引擎 大家好&#x…

1-markdown转网页样式页面 --[制作网页模板] 【测试代码下载】

markdown转网页 将Markdown转换为带有样式的网页页面通常涉及以下几个步骤:首先,需要使用Markdown解析器将Markdown文本转换为HTML;其次,应用CSS样式来美化HTML内容。此外,还可以加入JavaScript以增加交互性。下面我将…

数据逻辑(十)——逻辑函数的两种标准形式

目录 1 最小项和最大项 1.1 最小项 1.2 最大项 2 逻辑函数的最小项之和 3 逻辑函数的最大项之积 4 最小项之和以及最大项之积的联系和应用场景 4.1 最小项之和以及最大项目之积的联系 4.2 最小项之和以及最大项之积的应用场景 逻辑函数的两种标准形式分别是以最小项之和…

【Ubuntu使用技巧】Ubuntu22.04无人值守Crontab工具实战详解

一个愿意伫立在巨人肩膀上的农民...... Crontab是Linux和类Unix操作系统下的一个任务调度工具,用于周期性地执行指定的任务或命令。Crontab允许用户创建和管理计划任务,以便在特定的时间间隔或时间点自动运行命令或脚本。这些任务可以按照分钟、小时、日…

鸿蒙Flutter实战:15-Flutter引擎Impeller鸿蒙化、性能优化与未来

Flutter 技术原理 Flutter 是一个主流的跨平台应用开发框架,基于 Dart 语言开发 UI 界面,它将描述界面的 Dart 代码直接编译成机器码,并使用渲染引擎调用 GPU/CPU 渲染。 渲染引擎的优势 使用自己的渲染引擎,这也是 Flutter 与其…