上交商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型

news2024/11/22 13:50:01

上交&商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型,强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。从效果展示来看很不错。

相关链接

论文地址:https://arxiv.org/pdf/2406.10539v1

论文阅读

用于增强虚拟衣服试穿的自监督视觉变压器

摘要

虚拟试穿已成为网上购物的重要功能,为消费者提供了一个可视化服装合身程度的重要工具。在我们的研究中,我们介绍了一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型。我们的方法强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。条件指导和重点关注关键区域等技术已融入我们的方法中。这些组合策略使扩散模型能够以更高的清晰度和真实感再现服装细节。实验结果显示,虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。

方法

网络总体框架。我们利用稳定扩散 (SD) 修复网络,并使用经过特别微调的视觉变换器 (ViT) 将网络的焦点引导到复杂的衣服图像细节上。微调的 ViT(表示为 τ)也充当重要特征提取器,有助于计算损失并进一步完善修复过程。此外,我们将扭曲特征集成到输入中,以增强网络内部特征与给定条件下的特征之间的一致性。为了简化表示,我们在描述中省略了 SD 网络的编码器 E 和解码器 D。

在这项研究中,我们的目标是利用扩散用于虚拟试穿的绘画框架中的模型任务,侧重于服装的复杂性,如袖子,项圈和文本模式。以前的方法探索了注入明确信息的各种方法,但他们经常忽略这些关键的服装细节。为了解决这个问题,我们引入了一个基于自监督学习的细节增强器,旨在帮助我们的网络更好地学习认识和整合这些基本特征。

平均头部注意力的可视化ViT中的Class Token。“SS-”表示没有任何参数的场景 微调时,“SS RF”表示使用随机的本地作物进行 自监督微调,“SS SF”表示应用程序 我们的方法,包括选择性地选择当地的作物 self-supervised整合。

在这个可视化中,(a) 显示了输入到条件编码器 τ 的原始图像。子图 (b) 说明了 ViT 的自注意力机制中两个特定头部的注意力图,突出显示了关注区域。子图 (c) 显示了从 (b) 中呈现的注意力图中得出的焦点,精确定位了受到最高关注的特定区域。(d) 描绘了所有头部的焦点聚合,展示了全面的注意力格局。基于 (d) 中的焦点,进行聚类以确定关键聚类中心,这些中心在子图 (e) 中以红色突出显示,表示所有头部的关注区域。

效果展示

定性比较

在DressCode数据集的定性比较

与VITON-HD数据集基线的定性比较

方法局限性

结论

在本文中,我们提出了一种创新且有效的虚拟试衣方法。该方法将自监督的 ViT 与扩散模型相结合。它专注于通过比较 ViT 中的局部和全局服装图像嵌入来增强细节,展示了对复杂视觉元素的敏锐理解。条件指导、关注关键区域和专门的内容丢失等技术有助于其彻底性。这些策略使扩散模型能够准确复制服装细节,从而显着增强虚拟试衣体验的真实感和清晰度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1850584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用粒子滤波(particle filter)进行视频目标跟踪

虽然有许多用于目标跟踪的算法,包括较新的基于深度学习的算法,但对于这项任务,粒子滤波仍然是一个有趣的算法。所以在这篇文章中,我们将介绍视频中的目标跟踪:预测下一帧中物体的位置。在粒子滤波以及许多其他经典跟踪…

Antd Table 表格 拖拽列宽

antd 的表格组件的列宽,是通过width属性去初始化的,有时候渲染的内容不固定,这个宽做不到通用所以研究怎么实现表格列宽拖动,主要的实现步骤如下: 使用table的components API修改表格头部为 react-resizable提供的组件…

专业技能篇---计算机网络

文章目录 前言计算机网络基础一、网络分层模型 HTTP一、从输入URL到页面显示发生了什么?二、Http的状态码有哪些?三、 HTTP与HTTPS有什么区别?四、URI 和 URL 的区别是什么?五、Cookie和Session有什么区别?六、GET与POST WebSock…

基于机器学习和深度学习的C-MAPSS涡扇发动机剩余寿命RUL预测(Python,Jupyter Notebook环境)

涡扇发动机全称为涡轮风扇发动机,是一种先进的空中引擎,由涡轮喷气发动机发展而来。涡扇发动机主要特点是首级压缩机的面积比涡轮喷气发动机大。同时,空气螺旋桨(扇)将部分吸入的空气从喷射引擎喷射出来,并…

尚品汇-(四)

(1)商品的基本知识 1.1基本信息—分类 一般情况可以分为两级或者三级。咱们的项目一共分为三级,即一级分类、二级分类、三级分类。 比如:家用电器是一级分类,电视是二级分类,那么超薄电视就是三级分类。…

一单1800,这个项目凭什么这么火?

AI变现营八期学员一单1800成功拿下,这还是开营不到一周的结果! AI代写这个项目为什么现在越来越火? 第一点原因就是因为AI的火爆,让传统代写行业变现效率增加了N倍,普通人可以入局,只要会调教AI就可以了&am…

Win11下安装VS2022失败的解决办法

前几天我把我的HP Z840的操作系统换成了Win11,在重装VS2022时遇到了麻烦,提示无法安装 Microsoft.VisualStudio.Devenv.Msi。 查看安装日志提示:Could not write value devenv.exe to key \SOFTWARE\Microsoft\Internet Explorer\Main\Featur…

基于JSP的交通事故档案管理系统

开头语:你好,我是计算机学长猫哥,如果你对系统有更多的期待或建议,欢迎随时联系我。 开发语言:Java 数据库:MySQL 技术:JSPJava 工具:ECLIPSE、Tomcat 系统展示 首页 管理员界…

基于YOLOv5的火灾检测系统的设计与实现

基于YOLOv5的火灾检测系统的设计与实现 概述系统架构主要组件代码结构功能描述YOLOv5检测器视频处理器主窗口 详细代码说明YOLOv5检测器类视频处理类主窗口类 使用说明环境配置运行程序操作步骤 检测示例图像检测视频检测实时检测 数据集介绍数据集获取数据集规模 YOLOv5模型介…

vscode中同一页面使用批量替换

在vscode中像word中那样批量替换 首先搜索要替换的内容快捷键是ctrlf 然后输入你要搜索的内容 第二个框中输入你要替换成的内容 点击全部替换,就可以了

Web应用和Tomcat的集成鉴权1-BasicAuthentication

作者:私语茶馆 1.Web应用与Tomcat的集成式鉴权 Web应用部署在Tomcat时,一般有三层鉴权: (1)操作系统鉴权 (2)Tomcat容器层鉴权 (3)应用层鉴权 操作系统层鉴权包括但不限于:Tomcat可以和Windows的域鉴权集成,这个适合企业级的统一管理。也可以在Tomcat和应用层独立…

高级算法入门必看—21个NPC问题及其证明

文章目录 前言一、布尔可满足性问题二、每子句至多3个变量的布尔可满足性问题(3-SAT)三、0-1整数规划(0-1 integer programming)四、Set packing(Set packing)五、最小顶点覆盖问题(Vertex cove…

计算机视觉 | 基于图像处理和边缘检测算法的黄豆计数实验

目录 一、实验原理二、实验步骤1. 图像读取与预处理2. 边缘检测3. 轮廓检测4. 标记轮廓序号 三、实验结果 Hi,大家好,我是半亩花海。 本实验旨在利用 Python 和 OpenCV 库,通过图像处理和边缘检测算法实现黄豆图像的自动识别和计数&#xff0…

港湾周评|高盛眼中的618增长

《港湾商业观察》李镭 年中最重要的购物节618终于尘埃落定了。2024年的618各大电商平台竞技情况如何?又有哪些新的亮点?都成为外界观察消费行为的参考指标。 根据京东618数据显示:累计成交额过10亿的品牌83个,超15万个中小商家销…

python watchdog 配置文件热更新

目录 一、Watchdog示例 二、aiohttp服务配置热更新 在同事的golang代码中学习到了config.json热更新的功能,这里自己也学习了一下python写web服务的时候怎么来实现配置的热更新。主要是利用Watchdog这个第三方python库,来监控文件系统的改变&#xff0…

谷歌主页归属地确认使用的什么接口?

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

CPU飙升100%怎么办?字节跳动面试官告诉你答案!

小北说在前面 CPU占用率突然飙升是技术人员常遇到的一个棘手问题,它是一个与具体技术无关的普遍挑战。 这个问题可以很简单,也可以相当复杂。 有时候,只是一个死循环在作祟。 有时候,是死锁导致的。 有时候,代码中有…

【项目管理】项目管理表单(excel)

PM项目管理模板 甘特图 OKR周报 团队任务 工作总结

Aquila-Med LLM:开创性的全流程开源医疗语言模型

​论文链接:https://arxiv.org/pdf/2406.12182 开源链接:https://huggingface.co/BAAI/AquilaMed-RL http://open.flopsera.com/flopsera-open/details/AquilaMed_SFT http://open.flopsera.com/flopsera-open/details/AquilaMed_DPO 近年来&#xf…

Android设置页面Activity全屏(隐藏导航栏、状态栏)

3、代码中设置:在setContentView 之前调用 requestWindowFeature(Window.FEATURE_NO_TITLE); getWindow().setFlags(WindowManager.LayoutParams.FLAG_FULLSCREEN, WindowManager.LayoutParams.FLAG_FULLSCREEN); 注意: 当有全面屏手机可以显示虚拟…