​ ​视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!

news2025/1/22 1:07:59

文章链接:https://arxiv.org/pdf/2409.15278

github链接:https://github.com/AFeng-x/PixWizard

亮点直击

  • 任务统一:针对视觉任务的多样性,提出将其框架化为图像到图像的转换问题,并通过后处理将生成的可视化效果转化为所需格式,以简化表示形式的挑战。
  • 数据构建:构建了一个包含3000万个数据点的全面训练集,支持五大功能,包括图像生成、编辑、恢复、定位和密集预测,旨在整合视觉领域的任务和数据多样性。
  • 架构设计:采用基于流的 Diffusion Transformer(DiT)作为基础模型,强调其灵活性和稳定性,并通过动态分区和填充方案增强模型对输入图像的处理能力,结合结构感知和语义感知指导,以支持多模态指令。

总结速览

解决的问题

图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。

提出的方案

  • 设计了一个多功能的图像到图像视觉助手PixWizard,整合各种视觉任务到一个统一的图像-文本到图像生成框架。
  • 构建了一个全面的Omni Pixel-to-Pixel Instruction-Tuning Dataset,使用详细的自然语言指令模板。

应用的技术

  • 基于Diffusion Transformers (DiT)作为基础模型,扩展其功能以支持灵活的任意分辨率机制。
  • 结合结构感知和语义感知的指导,以有效融合输入图像的信息。

达到的效果

  • PixWizard展示了在多种分辨率图像上的卓越生成和理解能力。
  • 具有良好的泛化能力,能够处理未见过的任务和人类指令。

Omni Pixel-to-Pixel Instruction-Tuning数据集

为了使我们的图像到图像视觉助手具备全面的图像生成、操作和翻译功能,首先编译了一个用于视觉指令调优的多任务、多模型训练数据集,该数据集由七个主要领域的3000万个实例组成。据我们所知,这个数据集是最大、最多样化、最易于使用的图像指令图像三元组数据集。它由开源和内部数据集构建,在MLLM和手动审查的帮助下进行过滤,如图1所示:

PIXWIZARD

PixWizard是一个多功能的图像到图像模型,经过自定义的全像素到像素指令调优数据集的微调。本节将从模型架构(如下图2所示)和训练策略的角度介绍PixWizard框架的细节。

基于流的条件指令调优

之前的研究表明,对于图像转换和编辑任务,微调大型扩散模型的效果优于从头开始训练模型。因此,使用预训练的Lumina-Next-T2I检查点初始化PixWizard的权重,该模型是一个基于流的DIT,利用其广泛的文本到图像生成能力。学习一个网络 v θ v_\theta vθ,该网络在给定图像条件 c I c_I cI和文本指令条件 c T c_T cT的情况下预测速度场 u t u_t ut。最小化以下损失函数:

架构

文本编码器。首先使用Gemma-2B作为PixWizard中的文本嵌入器,以对文本提示进行编码。然而,在多任务学习中,仅依赖文本指令不足以准确指导模型执行用户命令。为更好地指导生成过程,结合了CLIP文本编码器。对CLIP文本嵌入应用全局平均池化,以获得粗粒度的文本表示,然后通过基于MLP的任务嵌入器生成任务嵌入。该嵌入随后通过调制机制与时间步嵌入相加,集成到PixWizard Block中。如图3所示,这种方法自适应地在潜在空间中聚类相似的任务指令,同时将不同任务的指令分离,有助于指导模型生成过程朝正确的任务方向发展。

结构感知指导

为了有效捕捉输入图像条件的整体结构特征,首先使用变分自编码器(VAE)从SDXL对图像进行编码。接下来,沿通道维度将图像潜在向量与噪声潜在向量连接在一起。根据(Brooks et al., 2023),向补丁嵌入器添加额外的输入通道,这些新通道的权重最初设置为零。

语义感知指导

除了识别结构特征外,语义信息也至关重要。因此,使用CLIP L/14-336获取语义图像嵌入。在PixWizard块中引入两个零初始化的注意力机制,使潜在目标图像token能够从条件的键和值中查询信息。具体而言,采用零初始化的门控机制,逐步将条件图像和文本信息注入到token序列中。给定目标图像查询 Q i Q_i Qi、键 K i K_i Ki、值 V i V_i Vi,以及文本指令的键 K t K_t Kt和值 V t V_t Vt,和条件图像的键 K c i K_{ci} Kci及值 V c i V_{ci} Vci,最终的注意力输出被表述为:

其中, Q ~ i \tilde{Q}_i Q~i K ~ i \tilde{K}_i K~i表示应用RoPE(Su et al., 2024), d d d是查询和键的维度, α \alpha α表示在门控交叉注意力中的零初始化可学习参数。然而,将所有图像token输入到注意力层中通常会导致显著的计算需求,我们还发现并非所有语义token与特定任务相关。为了解决这个问题,引入了任务感知动态采样器,旨在为每个任务选择最相关的语义token。该采样器使用由四个线性层和激活函数组成的轻量级排名网络。受DynamicViT启发,我们采用一种技术,将图像token映射到局部和全局特征。此外,我们集成任务嵌入 x task x_{\text{task}} xtask,以帮助采样器识别与任务最相关的token。计算过程被表述为:

其中, M i M_i Mi表示第 i i i个token的重要性。然而,在实践中实现token稀疏化是具有挑战性的。基于重要性分数直接采样token是不可微的,这阻碍了端到端的训练。为了解决这个问题,使用Gumbel-Softmax技术,并将其调整为多热Gumbel-Softmax(MHGS),以实现同时采样前 K K K个token。

其中,Gumbel-Softmax的输出是一个多热张量,表示保留token的掩码。 ⊙ \odot 表示哈达玛积,表示按重要性分数前 K K K个token的权重为1,因此被保留,而剩余的 ( N − K ) (N - K) (NK)个token的权重为零并被丢弃。最后,我们为每个Transformer块的每一层配备一个独立的任务感知动态采样器。这种方法不仅有助于捕捉每层所需的最相关语义特征,以满足不同任务的要求,还降低了注意力过程中的计算成本。

任意分辨率

PixWizard继承了(Zhuo et al., 2024)提出的动态分区和填充方案,使模型能够在微调和推理过程中处理任意分辨率和纵横比的图像。然而,在实践中,不同任务所需的分辨率可能有显著差异。为了支持更灵活的任意分辨率处理,并尽可能保留每个图像的原始分辨率,使用[512², 768², 1024²]作为分辨率中心,以生成一组候选补丁分区。在训练过程中,将具有相似分辨率的数据项分组到同一桶中,以确保每批次内最长和最短序列的长度不会过于不同,从而最小化填充token的使用,提高训练效率。在推理过程中,通过结合NTK感知缩放RoPE和夹心归一化,PixWizard还表现出卓越的分辨率外推能力。

两阶段训练和数据平衡策略

为了释放模型的潜力并提高其在数据集较小任务上的性能,我们提出了一种两阶段训练和数据平衡策略。

阶段1:在此阶段,我们通过将预训练的文本到图像模型的权重与随机初始化的新模块权重结合来初始化模型的权重。首先选择数据集较小的任务,并为每个数据集分配一个采样权重,以增加其数据量。该权重决定了在单个周期内数据集的重复次数。通过这种方法,每个任务大约有20k个数据点。然后,我们随机选择来自其他任务的训练样本以匹配此规模,创建我们的第一阶段训练数据集。训练过程持续4个周期。

阶段2:在第二阶段,我们使用第一阶段获得的权重初始化模型,并将所有收集的数据组合进行进一步训练。为了平衡任务,我们手动为每个数据集分配采样权重,如果权重小于1.0,则随机选择数据。我们还以1:1的比例将文本到图像数据包含在内,形成我们的第二阶段训练数据集。在此阶段,总训练数据量达到2000万个样本。

实验

第一部分结果

设置

对于图像修复,遵循之前的研究(Conde et al., 2024; Potlapalli et al., 2024),在训练期间准备各种修复任务的数据集。对于评估,首先选择两个代表性基准:Rain100L用于去雨,SIDD用于去噪。此外,为了进一步评估其他修复任务的性能并检验零-shot能力。

对于图像定位,在gRefCOCO、RefCOCO和RefCOCO+的验证和测试集上评估引用分割任务。为了评估与专门模型的性能差距,报告几种专家方法的结果,并主要将我们的方法与两个统一模型进行比较:Unified-IO和InstructDiffusion。按照标准实践(Liu et al., 2023a),使用累积IoU (cIoU)作为性能指标。

密集图像预测任务评估三项视觉任务:ADE20k 用于语义分割,NYUv2和SUNRGB-D 用于单目深度估计,以及NYU-Depth v2用于表面法线估计。对于语义分割,通过识别最近邻的RGB颜色值来分配标签,使用平均交并比 (mIoU)指标评估准确性。对于单目深度估计,对输出图像在三个通道上进行平均,并应用训练期间使用的线性变换的逆向,获得范围在[0,10]米内的深度估计。准确性使用均方根误差 (RMSE)进行评估。对于表面法线估计,从输出图像中恢复相应的法向量,并使用平均角误差来评估准确性。

结果

表1展示了与近期最先进的任务特定和一体化方法的全面性能比较。结果显示,尽管去噪和去雨数据仅占整体训练集的一小部分,我们的方法在统一方法中表现优异,甚至超越了一些任务特定的方法。在图像定位任务中,PixWizard在RefCOCO(验证集)上比基于扩散的通用模型InstructDiffusion高出4.8 cIoU。然而,与其他高度专业化模型相比,仍有改进空间。此外,如图6所示,PixWizard支持灵活的指令,能够不仅直接在图像上突出和可视化目标对象,还生成相应的二进制掩膜。这突显了其在现实世界互动和实际应用中的强大性能。

对于密集预测任务,在所有三个任务中,PixWizard在与通用基线和任务特定基线的竞争中表现出色。在NYUv2测试集上的深度估计中,PixWizard在RMSE上相比Unified-IO提高了10.0%,并且与Painter和InstructCV的表现相似。在语义分割中,PixWizard在mIoU上超越Unified-IO,提升了11.05分,尽管仍落后于其他方法。此外,图7展示了PixWizard的输出示例。通过为同一图像提供相应的任务特定提示,我们可以轻松生成相应的条件可视化,突显了PixWizard的重要实用价值。

第二部分结果(图像编辑)

设置

在MagicBrush测试(Zhang et al., 2024a)和Emu Edit测试(Sheynin et al., 2024)两个基准上评估PixWizard,以评估其图像编辑能力的有效性。为了公平比较,我们主要与以指令引导的图像编辑方法进行对比,包括InstructPix2Pix、MagicBrush、Emu Edit和UltraEdit。与Emu Edit一致,我们使用L1距离、CLIP图像相似度、DINO相似度、CLIP文本-图像相似度和CLIP文本-图像方向相似度作为指标。

结果
图像编辑

表2展示了我们与基线的结果。结果表明,我们的模型在自动化指标上始终超越InstructPix2Pix、MagicBrush和UltraEdit,并且在性能上与最先进的方法Emu Edit相当。图8提供了定性比较。我们的模型精准识别编辑区域,同时保留其他像素,展现了对给定指令的最佳理解。

第三部分结果(图像生成)

设置

本节重点评估PixWizard的生成能力,具体任务包括经典的文本到图像生成、可控图像生成、图像修复和图像外推。在可控图像生成中,我们评估PixWizard基于特定条件(Canny边缘图和深度图)生成图像的能力。我们通过比较输入条件与生成图像中提取的相应特征之间的相似度来评估可控性,具体使用深度图控制的RMSE和Canny边缘的F1得分。此外,为了评估生成图像的质量及其与输入文本的对齐程度,报告了FID(Fréchet Inception Distance)和CLIP-Score指标,所有实验在512×512的分辨率下进行。

在图像修复任务中,使用潜在扩散设置来测量FID和LPIPS,评估在40-50%图像区域需要修复时生成样本的质量。对于图像外推任务(outpainting),我们遵循MaskGIT设置,将图像向右扩展50%,并使用FID和Inception Score(IS)与常见基线进行比较。这两个任务在Places数据集中的30,000个512×512图像裁剪上进行评估。

在文本到图像生成任务中,使用两种主要评估方法。首先,直观展示PixWizard生成的图像示例。此外,计算两个自动评估指标:人类偏好评分(HPS)v2和MS-COCO数据集上的标准零-shot FID-30K。

可控生成结果

无需为每个模型单独训练,PixWizard是一个一体化解决方案,能够处理多种条件。如表3所示,PixWizard在深度条件下实现了最高的可控性和最佳的图像质量,同时在图像-文本对齐方面与当前的独立模型相当。图9展示了若干视觉样本,证明了我们方法的有效性。

图像修复结果

表3中与其他图像修复方法的比较显示,PixWizard在FID和LPIPS指标上提升了整体图像质量。这归因于PixWizard能够在空白画布上“绘画”,极大增强了其识别被遮挡区域并生成连贯内容的能力。通过这种图像修复能力,PixWizard支持更精确的图像编辑任务:

  1. Remove Anything:解决对象移除问题,允许用户在保持视觉无缝的情况下去除特定对象。过程包括识别和移除,随后将遮罩应用于原始图像,PixWizard填补该区域的适当背景细节。如图10所示。
  2. Replace Anything:允许用户在图像中替换任何对象。该过程与Remove Anything相似,但模型在移除对象的同时,确保用指定对象替换,背景保持一致。
  3. Add Anything:用户可以将任何对象插入图像,并自由放置。用户为所需区域添加遮罩并提供文本提示,PixWizard利用其强大的图像修复能力生成请求内容。

图像外推

在表3的定量比较结果中,PixWizard在图像外推任务上超越了其他基线,提供了7.54的FID分数和22.18的IS分数,展现了最先进的图像生成质量。图11的样本展示了PixWizard在各种场景和风格中合成图像的能力,灵活处理多个方向和纵横比的图像外推,并且边际一致性更好。

文本到图像生成

在表3的定量比较结果中,PixWizard在COCO数据集上测试零-shot性能时取得了9.56的FID分数。尽管某些模型的FID更低,但它们专注于文本到图像任务,且依赖显著更多的训练资源。此外,还评估了人类偏好评分(HPS v2),这一强有力的基准用以评估文本到图像合成中的人类偏好。PixWizard表现出色,生成的图像质量与流行的文本到图像生成器相当。图12提供了视觉样本,PixWizard支持高分辨率图像合成,最高可达1024×1024,且适用于任何分辨率和纵横比。

消融研究

对具有两种不同指导的模型进行比较,即动态语义标记采样(DSTS)和针对不同任务的两阶段训练和数据平衡策略。

讨论与结论

本研究探讨了如何从任务定义、数据构建和模型架构三个关键方面构建一个多功能的交互式图像生成助手。目标是创建一个能够精准遵循自由形式用户指令进行图像生成、操作和转换的系统。PixWizard,消除了对特定任务设计选择的需求,并在一系列多样任务中实现了高度竞争的性能,展现了强大的泛化能力。

然而,本研究仍存在一些局限性。首先,当前的模型架构尚不支持多图像输入条件,这在研究中是一个日益重要和有价值的方向。其次,在与专业化模型相比时,尤其是在分割和图像定位等挑战性任务上,仍有改进的空间。此外,文本编码器和基础模型的性能也发挥着至关重要的作用。更好的文本编码方法使模型能够更准确地理解和执行人类指令,而更大且更稳健的模型架构直接提升了最终输出的质量。值得注意的是,在PixWizard中提出的模块和策略可以轻松应用于其他强大的文本到图像生成器。

未来,将探索使用更先进的扩散基础模型,如SD3和FLUX,并继续推动这一有前景的方向,直到我们在视觉领域实现“GPT-4时刻”。

参考文献

[1] PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2200928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【论文速看】DL最新进展20241009-图像生成、多模态、医学扩散模型、行人重识别

目录 【图像生成】【多模态】【医学扩散模型】【行人重识别】 【图像生成】 [2024] CAR: Controllable Autoregressive Modeling for Visual Generation 论文链接:https://arxiv.org/pdf/2410.04671 代码链接:https://github.com/MiracleDance/CAR 可控…

windows C++-避免死锁(上)

下面通过“哲学家就餐问题”说明了如何使用 concurrency::join 类来避免在应用程序中发生死锁。 在软件应用中,如果两个或多个进程分别留有资源,且相互等待另一进程释放其他资源,就会发生死锁。 “哲学家就餐问题”是在多个并发进程之间共享…

掌握甘特图,没有Excel也能轻松制作的技巧

甘特图是项目管理中常用工具,由亨利甘特发明。不擅长Excel者可用ZohoProjects等软件创建甘特图,其直观展示项目时间和任务,支持实时协作、工时管理等功能,广泛应用于各领域项目管理。 一、甘特图的由来 甘特图最初是由工程师和管…

反射在Go语言中的具体应用场景

在Go语言中,反射(Reflection)是一种强大的特性,它允许程序在运行时检查、修改和操作变量的类型信息。 尽管反射在性能上通常不如直接操作,但它在某些特定场景下非常有用。 反射在Go语言中的具体应用场景:…

YOLO11模型推理 | 目标检测与跟踪 | 实例分割 | 关键点估计 | OBB旋转目标检测

前言 本文分享YOLO11的模型推理,检测任务包括物体分类、目标检测与跟踪、实例分割 、关键点估计、旋转目标检测等。 首先安装YOLO11 官方默认安装方式 通过运行 pip install ultralytics 来快速安装 Ultralytics 包 安装要求: Python 版本要求&…

leetcode125:验证回文串

如果在将所有大写字符转换为小写字符、并移除所有非字母数字字符之后,短语正着读和反着读都一样。则可以认为该短语是一个 回文串 。 字母和数字都属于字母数字字符。 给你一个字符串 s,如果它是 回文串 ,返回 true ;否则&#…

赋能新时代,智象未来(HiDream.ai)推动智能服务深度融入生活

在人工智能领域的最新发展中,智象未来科技有限公司(简称“智象未来(HiDream.ai)”以其卓越的技术创新和深厚的行业积累脱颖而出,一跃成为多模态生成式人工智能技术的领军者。该公司致力于开发和优化视觉多模态基础模型…

天海一体,遨游双卫星智能终端扬帆5G智慧海洋

海洋面积占地球表面的70%以上,世界贸易的90%左右由国际海运行业承运。但是,信号覆盖不均、通信延迟高、定位精度不足等问题,严重制约了海洋作业的效率与安全。智慧海洋,通信先行,AORO M5-5G双卫星智能终端应时代需求而…

MySQL从0到1基础语法笔记(下)

博客主页:誓则盟约系列专栏:Java Web关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 多表问题分析: 部门数据可以直接删除,然后还有部分员工…

为了加速上市,独角兽SHEIN的神秘创始人终于要露脸了?

神秘独角兽SHEIN在假期中迎来一个特殊新闻,《华尔街日报》、英国《金融时报》等媒体都报道称,SHEIN创始人许仰天最近先后前往美国和伦敦会见投资者,为其伦敦上市做准备。 (图源:英国《金融时报》官网) 这条…

使用fastjson解析json格式数据

在java里面无法直接解析JSON格式的字符串或文本&#xff0c;这时候我们就需要一个解析json格式的库&#xff0c;我们这里用fastjson,接下来的代码操作如下&#xff1a; 1、导入依赖 <dependency><groupId>com.alibaba</groupId><artifactId>fastjson&…

【阿克曼odom里程计解算】:从下位机到上位机,从原理到代码实现

前言 本文将从阿克曼的里程计计算原理出发&#xff0c;讲解下位机STM32如何对电机编码器数据进行整合计算&#xff0c;再通过串口进行上下位机进行数据转发&#xff0c;最终在Linux板端对下位机发送来的数据进行积分计算并最终通过ROS的odometry数据进行全局广播。本文使用到的…

JavaScript 数组简单学习

目录 1. 数组 1.1 介绍 1.2 基本使用 1.2.1 声明语法 1.2.2 取值语法 1.2.3 术语 1.3 案例 1. 数组 1.1 介绍 1.2 基本使用 1.2.1 声明语法 1.2.2 取值语法 1.2.3 术语 1.3 案例

自动化测试selenium篇(四)

1.定位一组元素 1.0 小问题 当运行测试代码程序需要跳转到页面&#xff0c;由于没有授权&#xff0c;导致页面不能成功跳转&#xff0c;且出现下面的情况&#xff1a; 步骤一&#xff1a;进入到idea&#xff0c;点击设置&#xff0c;如下所示&#xff1a; 进行上图操作之后&am…

图为大模型一体机的优秀落地案例:图为语伴

随着客户对即时、准确信息和解决方案的期望不断提升&#xff0c;企业面临着处理大量客户咨询、减少人力成本、提高服务效率等多重挑战。 而图为大模型一体机的诞生&#xff0c;就是为了应对传统的人工客服在处理客户咨询时&#xff0c;其产生的数据如聊天记录、通话记录等&…

中科院认可SCI期刊精选合集:5本国人友好刊,涵盖各领域!

本期&#xff0c;科检易学术将为大家精心推荐一系列既享有盛誉又相对容易发表的期刊。这些期刊不仅在各自的学术领域内具有较高的认可度和影响力&#xff0c;同时也以对国内研究者的友好态度而闻名。 无论是初出茅庐的研究新手还是经验丰富的学者&#xff0c;都能在这份涵盖多…

当今SNARKs全景

1. 引言 前序博客有&#xff1a; ZKP历史总览SNARK原理示例SNARK性能及安全——Prover篇SNARK性能及安全——Verifier篇Transparent 且 Post-quantum zkSNARKsSNARK DesignRollup项目的SNARK景观 SNARKs因&#xff1a; proof size证明时长验证时长密码学信任假设是否需要tr…

Chatgpt 原理解构

一、背景知识 1. 自然语言处理的发展历程 自然语言处理在不同时期呈现出不同的特点和发展态势。萌芽期&#xff0c;艾伦・图灵在 1936 年提出 “图灵机” 概念&#xff0c;为计算机诞生奠定基础&#xff0c;1950 年他提出著名的 “图灵测试”&#xff0c;预见了计算机处理自然…

linux 配置nfs

服务器端 sudo apt update sudo apt-get install nfs-kernel-server配置NFS服务器 mkdir /home/aa/workspace/nfsdir chmod 777 /home/aa/workspace/nfsdir sudo vim /etc/exports添加这个语句 /home/aa/workspace/nfsdir *(rw,sync,no_root_squash,insecure)sudo systemctl …

【音频生成】mac安装ffmpeg

前言 ffmpeg是一个开放源代码的自由软件&#xff0c;可以执行音频和视频多种格式的录影、转换、串流功能。算的上是进行音频处理的基本软件了&#xff0c;也是python包pydub的依赖。如果没有安装ffmpeg&#xff0c;就会报这个错。 FileNotFoundError: [Errno 2] No such file…