阿里提出MS-Diffusion:一键合成你喜爱的所有图像元素,个性化生成新思路!

news2024/10/5 20:17:49

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:

  • 需要根据文本描述准确维护每个参考主题的细节;

  • 难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

针对这些问题,阿里联合浙大提出了MS-Diffusion,MS-Diffusion 框架有助于在单主题场景(上图)和多主题上下文(下图)中实现个性化。值得注意的是,在保留主题细节的复杂性的同时,MS-Diffusion 实现了文本保真度的显著提升。

相关链接

项目主页:https://ms-diffusion.github.io/

论文地址:https://arxiv.org/pdf/2406.07209.pdf

代码地址:https://github.com/MS-Diffusion/MS-Diffusion

论文阅读

MS-Diffusion:具有布局指导的多主题零样本图像个性化

摘要

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:

  • 需要根据文本描述准确维护每个参考主题的细节;

  • 难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

为了解决这些问题,我们的研究引入了 MS-Diffusion 框架,用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合,以保持主题之间的细节保真度。在布局指导下,MS-Diffusion 进一步改进了交叉注意力以适应多主题输入,确保每个主题条件作用于特定区域。所提出的多主题交叉注意力在保留文本控制的同时协调了和谐的跨主题构图。全面的定量和定性实验证实,该方法在图像和文本保真度方面均超越现有模型,促进了个性化文本到图像生成的发展。

方法

MS-Diffusion 为模型引入了两项关键增强功能:基础重采样器和多主体交叉注意机制。首先,基础重采样器能够熟练地吸收视觉信息,并将其与特定实体和空间约束相关联。随后,有针对性的交叉注意机制促进了图像条件与多主体注意层内潜在的扩散之间的精确交互。在整个训练阶段,预先存在的扩散模型的所有组件都保持冻结状态。

效果

单主题个性化

MS-Diffusion 在所有主题中都表现出极佳的文本保真度,同时保留了主题细节,尤其是活体(狗)。可以注意到,由于在生成过程中参考了整个图像,因此背景中的一些元素(第三行和第四行)也出现在结果中(草和茶壶架)。它们的作用范围取决于输入边界框。在实际应用中,建议使用蒙版图像作为条件。

多主题个性化

多主题结果涵盖了丰富的组合类型,充分体现了MS-Diffusion的通用性和鲁棒性。当场景根据文本自由变化时,主题的细节得以保留而不受影响。除了常见的平行组合,MS-Diffusion在具有一定重叠区域的组合的个性化生成中也表现出色,例如“生活+穿搭”、“物品+场景”。

布局控制能力

MS-Diffusion 关于布局控制能力的定性示例。不同颜色的边界框对应具有不同颜色边框的主体。可以证明 MS-Diffusion 可以生成符合布局条件的图像,即使是同一类别的两个实例也是如此。但是,生成的位置并不完全准确,尤其是在“草地上的一只猫和一只猫”中,说明与个性化任务中的文本和图像提示相比,布局条件相对较弱。

与 ControlNet 集成

整合不同控制条件时的生成结果。整合的控制网络由深度、Canny Edge 和 Openpose 组成。

主题插值

多主题生成中的主题插值。我们选择两只狗和两顶帽子进行线性插值,文本设置为“沙滩上戴着帽子的狗”。

结论

本研究通过开发 MS-Diffusion 为 P-T2I 扩散模型领域做出了重大贡献。这种零样本框架擅长捕捉复杂的主体细节,并将多个主体平滑地融合成单个连贯的图像。我们的模型配备了创新的 Grounding 重采样器和多主体交叉注意机制,有效地克服了常见的多主体个性化问题,例如主体忽视和冲突。与现有模型相比,广泛的消融研究强调了 MS-Diffusion 在图像合成保真度方面的增强性能。对于无需微调且需要布局指导的 P-T2I 应用程序来说,它是一种突破性的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1866734.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黑马程序员Java基础学习,涉及精细知识点复习【持续更新】

文章目录 01java基础java基础面向对象1.类:2.成员变量:类中方法外的变量,不能赋值3.成员方法:4.java内存分配:5.成员变量有初始值,局部变量没有初始值。6.this关键字:7.封装:8.构造方…

软硬链接 以及 动静态链接

目录 1 软硬链接 2 动静态库 1 软硬链接 不知道大家也没有仔细看过我们的 windows 中的快捷方式的内容,我们右键点开一个快捷方式然后查看其属性,我们发现有一个 目标 的内容 这个目标是一串路径,这也就是我们的程序的安装路径中的一个.exe…

AWS在国内的持续受欢迎:探究背后的原因

亚马逊云(AWS)作为全球领先的云计算服务提供商,在国内市场仍然保持着强劲的竞争力和广泛的用户群。尽管国内也有一些本土云计算服务提供商的崛起,但AWS在国内仍然有大量的用户在使用。我们九河云,一直致力AWS云相关服务…

mapstruct实现各个实体间的类型转换(DTO转BO、BO转Entity)的实践

一、引入 在没有遇见mapstruct的时候,实现各个实体之间的转换,都是手动转换实现的,属性少一带你还好,当属性一多,代码就会变得很冗余,没必要的非逻辑的代码就会加多。。。。 比如: public cl…

对https://registry.npm.taobao.org/tyarn的请求失败,原因:证书过期

今天安装yarn时,报错如下: request to https://registry.npm.taobao.org/yarn failed, reason: certificate has expired 原来淘宝镜像过期了,需要重新搞一下 记录一下解决过程: 1.查看当前npm配置 npm config list 2.清…

Vite: 集成Lint工具规范代码

概述 在前端开发中,尤其是在大型项目中,代码的规范性和一致性对于项目的可维护性、可读性以及团队协作效率至关重要。为了保障代码质量,前端社区涌现出了许多Lint工具,如ESLint、Prettier、Stylelint等,它们能帮助我们…

高考成绩加分,西藏学生推荐使用的《藏文翻译词典》APP,藏文作文高考大纲,初中高中学习内容与考试同步更新!

2024年高考成绩出炉啦!在这个特别的时刻,我想向大家表达最真挚的祝贺。高考不仅是一场考试,更是你多年学习旅程的一次总结。当你的成绩揭晓,无论结果如何,你都应该为自己感到骄傲。 在高原,藏语如同雪山上…

切线与切平面的可视化

切线与切平面的可视化 flyfish 切线的可视化 import numpy as np import matplotlib.pyplot as plt from matplotlib.animation import FuncAnimation, PillowWriter# 定义一个简单的一元函数,例如 f(x) x^2 def func(x):return x**2# 计算函数的导数 def deriva…

鸿蒙开发Ability Kit(程序框架服务):【FA模型切换Stage模型指导】 app和deviceConfig的切换

app和deviceConfig的切换 为了便于开发者维护应用级别的属性配置,Stage模型将config.json中的app和deviceConfig标签提取到了app.json5中进行配置,并对部分标签名称进行了修改,具体差异见下表。 表1 配置文件app标签差异对比 配置项FA模型…

MindSpore中NumPy变量转换为Tensor张量使用的Tensor.from_numpy()函数到底是深拷贝还是浅拷贝

在NumPy转换为Tensor使用的Tensor.from_numpy()函数到底是深拷贝还是浅拷贝 使用Tensor()将NumPy变量转换为Tensor变量。 类似数组转换张量的方法 n np.ones(5) t Tensor.from_numpy(n) print(f"t: {t}", type(t)) np.add(n, 1, outn) print(f"n: {n}"…

导航栏设计的5种类型,新手不容忽视的重要知识!

导航栏是网页设计中不可缺少的一部分。大多数用户在浏览网页时都是从导航栏开始的。导航栏的作用相当于路标和书籍中的目录,其重要性不言而喻。从设计的角度来看,网页导航栏的设计功能大于视觉效果。因此,网页导航栏的设计可以分为 5 类型&am…

Java后端 || ElementUI 显示后端树形表格数据

文章目录 1、前端源码2、数据库设计3、后端设计3.1、实体类3.2、Controller层3.3、具体树形列表后端代码实现 1、前端源码 ElementUI Table 链接 在此链接中找到 树形数据与懒加载 查看其JS源码,可知,每个菜单节点的子节点存放于children字段中&#x…

直播分享|TinyVue 组件库主题适配原理与实战

在前端开发过程中,不同的项目可能需要不同的设计风格。而了解组件库的主题适配功能,也可以帮助开发者轻松定制独特的主题风格,从而满足各种设计需求。因此6月27日晚19点,体验技术团队 TinyVue 项目成员岑灌铭老师将为大家带来以《…

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 学堂在线 习题 2、 过 电子书 是否遗漏 【下载:本章 PDF GitHub 页面链接 】 【第二轮 才整理的,忘光了。。。又看了一遍视频】 3、 过 MOOC 习题 看 PDF 迷迷糊糊, 恍恍惚惚。…

Swift 周报 第五十五期

文章目录 前言新闻和社区苹果公司据悉将推出密码管理应用三大指数涨跌不一,苹果重新夺回美股第二大上市公司宝座苹果iOS 18新动向:AI功能强化隐私保护,用户自主选择启用 提案通过的提案正在审查的提案 Swift论坛推荐博文话题讨论关于我们 前言…

springboot + Vue前后端项目(第十九记)

项目实战第十九记 写在前面1. redis安装(windows安装)1.1 获取软件链接地址:1.2 启动redis1.3 测试是否启动成功1.4 通过 Another Redis DeskTop软件可视化查看redis 2. SpringBoot集成redis2.1 引入依赖2.2 注入RedisTemplate2.3 使用redis2.4 redis更新2.5 redis使…

【经验分享】Claude3.5 Sonnet六大可扩展用途

Claude3.5 Sonnet六大可扩展用途 概述 Claude 3.5 Sonnet的性能比其他大模型都有好,本文基于Claude3.5 Sonnet的Artifact功能进行讨论和分析,提供了Claude3.5 Sonnet的六大可扩展用途。 用途 1.画SVG图像 2.设计网站 3.设计徽标 4.设计游戏 5.分…

JavaScript的学习之dom的查询(一)

一、获得元素 通过document对象调用&#xff1a; getElementById()&#xff1a;通过id属性获取一个元素节点对象getElementsByTagName()&#xff1a;通过标签名获取一组元素节点对象getElementsByName()&#xff1a;通过name属性来获取一组元素节点对象 核心学习代码 <scrip…

【语义分割】1-标注数据集-【单张图片】labelme标注json文件转mask

声明&#xff1a;我学习了b站&#xff1a;标注自己的语义分割数据集_哔哩哔哩_bilibili 并且复现了&#xff0c;记录了所思所得。 主要是说了&#xff1a; 做语义分割&#xff0c;数据集怎么用labelme标注成json文件&#xff0c;以及&#xff0c;json文件怎么转成mask 流程…

springcould-config git源情况下报错app仓库找不到

在使用spring config server服务的时候发现在启动之后的一段时间内控制台会抛出异常&#xff0c;spring admin监控爆红&#xff0c;控制台信息如下 --2024-06-26 20:38:59.615 - WARN 2944 --- [oundedElastic-7] o.s.c.c.s.e.JGitEnvironmentRepository : Error occured …