中山大学和联想研究院提出文本到服装生成模型GarmentAligner,解决服装生成中语义对齐、数量、位置和相互关系等问题。

news2024/9/21 11:06:45

中山大学和联想研究院提出一个能够根据文字描述生成服装图像的智能工具GarmentAligner。它可以从已有服装图像中提取出各个组成部分,并记录下它们的位置和数量。接着根据你的描述进行匹配,找出最吻合的服装组件进行组合。而为了确保生成的图像能够准确反映描述,不仅仅是看上去好看,还可以在细节上做到精准对齐。通过这种方法,GarmentAligner可以在时尚设计的过程中给你提供更多灵感和帮助!

GarmentAligner能够生成高质量的服装图像,准确地描述提供说明中指定的组件的数量和空间对齐。

相关链接

http://arxiv.org/abs/2408.12352v1

论文阅读

GarmentAligner:通过检索增强多级校正实现文本到服装的生成

摘要

通用的文本转图像模型为艺术、设计和媒体领域带来了革命性的创新。然而,当应用于服装生成时,即使是最先进的文本转图像模型也存在细粒度语义错位,特别是在服装组件的数量、位置和相互关系方面。

为了解决这个问题,我们提出了 GarmentAligner,这是一个使用检索增强多级校正训练的文本转服装扩散模型。为了在组件级别实现语义对齐,我们引入了一个自动组件提取管道,以从相应的图像和标题中获取服装组件的空间和定量信息。随后,为了利用服装图像中的组件关系,我们通过基于组件级相似性排名的检索增强为每件服装构建检索子集,并进行对比学习以增强模型对正样本和负样本组件的感知。

为了进一步增强跨语义、空间和定量粒度的组件对齐,我们利用详细组件信息的多级校正损失。实验结果表明,与现有竞争对手相比,GarmentAligner 实现了更高的保真度和细粒度的语义对齐。

方法

最先进的文本到图像模型Midjourney在文本到服装任务中的失败。这种错位主要归因于组件的数量和空间位置,因此很难生成符合预期的细粒度细节的服装。

通过检索增强对比学习来解决不对齐的问题。通过吸收通过组件级相似性排序检索的正面和负面样本的见解,该模型增强了对组件关系的感知。

提出的 GarmentAligner 概述。在训练过程中,系统地构建检索样本,利用多级语义相似性排序进行对比学习,目的是实现全局感知对齐。同时,采用多个校正损失来细化视觉语义、空间位置和服装组件的数量,从而增强细节的粒度。

GarmentAligner 的主要目标是在整体感知和细粒度语义的多个语义层面上增强输入文本提示和生成的服装图像之间的对齐。为了实现这一目标,GarmentAligner 集成了预训练的潜在扩散模型作为主干,以利用其固有知识,并使用检索增强的多级校正对预训练的文本到图像主干进行微调,以使其适应文本到服装生成领域。此外,采用自动组件提取流程,通过先进的开放域检测和分割方法从服装图像中获得深入的组件级信息。

提出的检索增强对比学习的例证。基于组件级语义相似性排序,在包含n个样本的随机选择子集中执行每个样本的检索。随后,对检索结果进行全局评估过滤,获得正样本和负样本进行对比学习。

提出的多级校正的说明。生成的服装图像在组件级别进行分解,然后进行校正程序,包括对齐以确保文本图像一致性、空间交叉注意图和组件数量对齐。

实验

数据集

实验是在CM-Fashion数据集上进行的,该数据集由50万张服装图像组成,分辨率为512×512,每张图像都附有相应的说明文字。采用自动组件提取管道从图像中提取组件级别的服装分割和组件计数。随后用提取的信息来丰富标题。因此,我们设计了一个来自CM-Fashion数据集的增强服装数据集,具有优化的标题和组件级分割和数量。

效果

与基线的视觉比较。红框表示未正确生成的区域,绿框表示正确生成的区域,黄框表示未生成的区域。我们的方法在捕捉服装部件的纹理、定位和数量方面表现出卓越的性能,从而生成具有精确细粒度对齐的逼真时尚图像。

与基线的定量比较结果。与许多方法相比,我们的方法实现了最佳性能,在图像质量和文本与图像之间的一致性指标方面表现出色。

我们的方法和基线的组件级数量和空间精度与用户研究结果。我们的方法表现出出色的性能,在数量和空间维度上都明显优于其他方法,并获得了用户偏好。

消融实验中不同变化的视觉比较。[M]表示[V+S+C]的组合,其余的定义相同。

结论

本研究引入了 GarmentAligner,这是一种文本到服装的扩散模型,旨在纠正服装生成中固有的细粒度语义错位问题。通过将检索增强对比学习与多级校正相结合,GarmentAligner 有效地将生成的服装组件的视觉语义、空间定位和数量与提供的标题对齐。此外,我们设计了一个自动组件提取管道,从图像中提取有关服装组件的空间和定量信息,这些信息可应用于任何服装数据集,从而促进高质量服装生成的进步。我们的实验表明,与现有方法相比,GarmentAligner 可以生成具有改进的语义对齐的优质服装图像。

社会影响和局限性。 在生产高质量服装的同时,我们的方法仍然遇到某些限制。我们方法中使用的训练数据是通过提出的提取管道生成的,这严重依赖于语义分割和检测模型的准确性。不可避免地,可能会出现错误,特别是在处理大规模数据集时。此外,从预训练模型中继承的偏见可能会导致输出缺乏稳健性和用户友好性。未来需要采取措施,通过减少偏见和彻底审查来解决这些道德问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2079787.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nosql数据库redis集群配置详解

一、Redis的安装 环境介绍: 一主双从:10(redis-node1)主,20(redis-node2) 30(redis-node3)从——使用的是红帽9.1系统 源码安装redis [rootredis-node1 ~]# tar zxf red…

【yarn publish : 报错 passed folder/tarball doesn‘t exist 】

当执行yarn publish 时报错,具体命令类似 yarn publish --new-version ${NEW_VERSION} ${my-node-moudle-path}/my-node-modules 报错内容, 网上搜了一圈,基本没有这个报错的相关内容,最后分析并解决了,这里记录分享下…

NoSql数据库 - Redis Cluster集群详解及案例实现

Redis Cluster集群(无中心化设计) 1.1 Redis Cluster 工作原理 在哨兵sentinel机制中,可以解决redis高可用问题,即当master故障后可以自动将slave提升为master,从而可以保证redis服务的正常使用,但是无法…

查看exe文件所需要依赖库的方法

Windows 1.dumpbin /dependendsv [file_path]; 2.Qt windeployqt.exe打包 在exe的同一目录下生成需要的文件和库;如果不是qt程序结果如下:

发那科机床设备数据 转IEC61850项目案例

目录 1 案例说明 1 2 VFBOX网关工作原理 1 3 准备工作 2 4 网关采集发那科机床数据 2 5 用IEC61850协议转发数据 5 6 网关使用多个逻辑设备和逻辑节点的方法 7 7 案例总结 8 1 案例说明 设置网关采集发那科机床数据把采集的数据转成IEC61850协议转发给其他系统。 2 VFBOX网关…

Google Search Console:完整教程

Google 提供了各种工具来收集和分析网站数据,其中最有价值的工具之一是 Google Search Console (GSC)。前身为 Google Webmaster Tools,它为 SEO 提供了对网站性能的宝贵见解。自 2015 年推出以来,该平台取得了长足的发…

分库分表学习笔记(一)

图源(鹅厂技术架构师公众号) MySQL执行顺序: FROM:确定数据来源。JOIN:执行表之间的连接操作。WHERE:过滤记录。GROUP BY:对记录进行分组。HAVING:对分组结果进行过滤。SELECT&#…

如何用Java SpringBoot+Vue搭建美容美发管理系统?实战解析

🎓 作者:计算机毕设小月哥 | 软件开发专家 🖥️ 简介:8年计算机软件程序开发经验。精通Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等技术栈。 🛠️ 专业服务 🛠️ 需求定制化开发源码提…

47.【C语言】指针(重难点)(J)

目录 26.自制排序函数(★★) *分析 *代码 往期推荐 26.自制排序函数 *分析 之前在42.【C语言】冒泡排序写过一个排序函数&#xff0c;可以将此自制一个类似qsort的函数 画圈的地方是需要修改的 #include <stddef.h> void bubble_sort(void* base, size_t num,size_t w…

Mac Cocos2d-x工程通过xcode编译时,提示无法找到SDK的解决办法

经过对整个macOS的升级&#xff0c;发现原来的Cocos2d-x4.0可编译的工程&#xff0c;无法运行。 Xcode错误提示 mac cocos2d-x 4 Showing All Messages unable to find sdk /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX14.…

2024年不可错过的7款最佳UI和UX设计工具推荐

在数字产品的成功中&#xff0c;用户界面 (UI) 和用户体验 (UX) 都起着至关重要的作用。UI 和 UX 是网页设计中相互补充的两个重要方面。UI 主要关注用户界面的设计&#xff0c;而 UX 则涵盖用户与产品或服务互动时的整体体验。在本文中&#xff0c;我们将深入探讨 UX 和 UI 的…

vc矩阵计算(转置,点乘,逆矩阵)

vc计算矩阵的转置,矩阵的点乘,矩阵的逆矩阵,参考网上的例子 矩阵点乘的例子: 矩阵逆矩阵计算例子: #include "stdafx.h" #include <math.h> //#include<complex.h> #include <iostream> #include <complex> #include <cstdli…

短视频SDK解决方案,代码逻辑结构清晰,接入便捷

美摄科技凭借其在多媒体处理领域的深厚积累&#xff0c;推出了高效、易用的短视频SDK解决方案&#xff0c;为开发者及内容创作者提供了一站式的短视频创作与编辑工具&#xff0c;让每一份灵感都能轻松转化为引人入胜的视觉盛宴。 一、技术领先&#xff0c;打造极致体验 美摄科…

非局部均值降噪算法(NLM)原理及实现

文章目录 一、概述二、算法原理三、算法流程四、MATLAB实现五、C实现参考文献 一、概述 在日常生活中&#xff0c;最常见的 CT 图像噪声是高斯白噪声。目前&#xff0c;针对高斯白噪声的处理方法&#xff0c;主要有空间域中的以平滑为基本思想的均值滤波、高斯滤波、局部滤波等…

案例研究丨MaxKB+Ollama:深圳市公共信用中心探索信用服务创新

深圳市公共信用中心隶属于深圳市市场监督管理局&#xff0c;主要负责对外提供深圳市企业公共信用信息报告查询和深圳市企业注册登记档案查询等服务。作为深圳市信用信息的权威发布机构&#xff0c;深圳市公共信用中心一直致力于为公众提供准确、及时的信用信息服务。 深圳信用…

2024年医疗行业关键词:精益管理

随着医疗技术的飞速发展、患者需求的日益多元化以及医疗资源的日益紧张&#xff0c;精益管理作为一种高效、科学的管理模式&#xff0c;正逐步成为医疗行业转型升级的关键驱动力。具体表现如深圳天行健企业管理咨询公司下文所述&#xff1a; 1. 优化服务流程 首先&#xff0c;…

Windows电脑本地安装跨平台文生音乐AI应用MusicGPT详细教程

文章目录 前言1. 本地部署2. 使用方法介绍3. 内网穿透工具下载安装4. 配置公网地址5. 配置固定公网地址 前言 今天和大家分享一下在Windows系统电脑上本地快速部署一个文字生成音乐的AI创作服务MusicGPT&#xff0c;并结合cpolar内网穿透工具实现随时随地远程访问使用进行AI音…

(一) 初入MySQL 【认识和部署】

前置资源 一、数据库概述 1.1、数据库基本概念 数据(Data) 描述事物的符号记录称为数据。数字、文字、图形、图像、声音、档案记录等都是数据。数据是以“记录”的形式按照统一的格式进行存储的&#xff0c;而不是杂乱无章的。 相同格式和类型的数据统一存放在一起&#xff0…

阿里云OSS文件存储

文章目录 参考准备创建bucketendpoint 和 bucket域名的访问路径AccessKey和OSS的开发文档 Springboot整合OSS引入依赖AliyunOssConfigAliyunOssPropertiesapplicatioin.yml简单上传和下载使用签名URL进行临时授权访问生成以PUT方法访问的签名URL来上传文件通过签名URL临时授权简…

WIFI 配网

配网:指的是外部向WiFi模块提供SSID和密码&#xff0c;以便Wi-Fi模块可以连接指定的热点 常见的配网方式有:-键配网smart config、SoftAP配网、蓝牙配网、屏幕配网。 1.0 一键配网 2.0 蓝牙配网 一键配网的模式对应的厂加模式 3.0 状态机WIFI模组物联网 4.0 创建枚举结构体 ty…