虚拟试穿技术,通过计算机视觉和人工智能,允许用户在数字界面上试穿服装,无需实际穿戴。这项技术广泛应用于电子商务和时尚工业,使得消费者可以在购买前预览衣物在自己身上的样子。
-
基于扩散的方法:这种方法使用基于图像的技术模拟衣物的穿着效果,通常结合深度学习模型来处理图像中的复杂交互,如遮挡和姿势变化。
-
ControlNet结构的Handpose Aggregation Net:这一特定的网络结构帮助模型理解和编码手部姿势的全局和局部先验知识,以便更准确地处理手部遮挡问题。
-
Hand-feature Disentanglement Embedding:通过这一模块,手部的结构和视觉外观特征被有效地分离,允许模型更细致地处理与手部相关的视觉信息。
-
掩码交叉注意力:这种机制用于进一步提升特征的解耦和细化,提高遮挡区域的处理能力。
-
手部边缘约束损失:这一技术用于优化模型,使其在从手部模板中学习时,能够更好地理解手部边缘的结构信息。
虚拟试穿技术具有重大意义,它不仅提高了消费者的购物体验,减少了因大小不合或样式不满意而导致的退货率,而且支持可持续时尚,减少了实体试穿带来的资源浪费。此外,对于解决手部遮挡问题的新技术,如VTON-HandFit,它能在更复杂的试穿场景中提供更准确的试穿效果,增强了虚拟试穿技术的应用范围和实用性。
论文作者:Yujie Liang,Xiaobin Hu,Boyuan Jiang,Donghao Luo,Kai WU,Wenhui Han,Taisong Jin,Chengjie Wang
作者单位:Xiamen University;Tencent
论文链接:http://arxiv.org/abs/2408.12340v1
内容简介:
1)方向:图像虚拟试穿
2)应用:解决手部遮挡问题的虚拟试穿
3)背景:尽管基于扩散的图像虚拟试穿取得了相当大的进展,但新兴方法仍然难以有效解决手部遮挡问题,导致试穿性能明显下降
4)方法:。为了解决这一在现实场景中普遍存在的问题,提出了VTON-HandFit方法,利用手部先验知识重建手部遮挡情况下的外观和结构。首先,使用基于ControlNet结构的Handpose Aggregation Net,明确和自适应地编码全局手部和姿势先验知识。此外,为了充分利用与手部相关的结构和外观信息,提出了Hand-feature Disentanglement Embedding模块,将手部先验知识解耦为手部结构参数和视觉外观特征,并定制了一个掩码交叉注意力以进一步解耦特征嵌入。最后,定制了手部边缘约束损失,以更好地从模型图像的手部模板中学习结构边缘知识。
5)结果:VTON-HandFit在公共数据集和自行收集的手部遮挡Handfit-3K数据集上,在现实场景中任意手部姿势遮挡情况下,在定性和定量评估中均优于基线方法。代码和数据集将公开提供。