中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT,一键生成换装后视频!

news2024/12/24 21:39:01

视频虚拟试穿技术日益受到关注,然而现有的工作局限于将服装图像转移到姿势和背景简单的视频上,对于随意拍摄的视频则效果不佳。最近,Sora 揭示了 Diffusion Transformer (DiT) 在生成具有真实场景的逼真视频方面的可扩展性,可以说是风头无两。正是在这样的背景下,中山大学和字节跳动团队探索并提出第一个基于 DiT 的视频虚拟试穿框架 VITON-DiT,一键就能生成换装后视频了!

论文题目
VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers

论文链接
http://arxiv.org/abs/2405.18326

论文单位
中山大学、字节跳动

引言

视频虚拟试穿系统旨在通过视频为目标人物穿上所需的服装,同时保持其动作和身份。这项技术在电子商务和娱乐等实际应用中具有巨大的潜力。现有的大部分工作都集中在基于图像的试穿上,例如基于生成对抗网络(GANs)的图像试穿。

尽管图像生成质量令人印象深刻,但基于UNet的LDMs在处理视频场景时表现欠佳。而新兴的基于Transformer的LDMs(或称扩散Transformer,DiT)在生成高保真现实世界图像/视频方面展示了显著的能力和可扩展性,例如Stable Diffusion 3和Sora。受Sora的启发,作者提出了VITON-DiT,这是首个基于DiT的视频虚拟试穿模型,旨在解决真实场景中的视频试穿问题。

具体来说,VITON-DiT 包含三个主要组件:

  • 用于视频潜在生成的空间时间去噪 DiT

  • 用于保持服装细节的服装提取器

  • 用于保留人物姿势和身份的 ID 控制网络

这三个模块通过创新的注意力融合机制连接。这种机制通过一个附加的注意力过程将提取的服装特征与人物去噪特征相结合,从而能够将服装特征无缝地集成到视频生成过程中。

方法

VITON-DiT 的核心是扩散变换器 DiT,这是一种结合了扩散模型和变换器架构的新型神经网络模型。扩散模型通过逐步添加噪声并在反向过程中去除噪声来生成数据,而变换器则利用自注意力机制处理序列数据。这种结合使得VITON-DiT能够生成高质量且逼真的视频内容。

VITON-DiT框架 包含三个组件:去噪DiT、服装提取器和ID ControlNet。时空DiT模块是去噪DiT中的主要结构,每个块包含空间自注意力(SSA)、时间自注意力(TSA)和提示交叉注意力(PCA)层。

 3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

SSA 在空间维度上执行注意力,以生成/保留纹理。而TSA 在时间维度上执行注意力,以保持时间一致性。对于 PCA,则是在提示嵌入(例如,“跳舞的人”)和 TSA 的中间特征之间执行交叉注意力,以增强整体视觉质量。

这些层协同工作,不仅能够生成服装的纹理,还能保持视频序列中的时间连贯性。

对于去噪 DiT 来说,其训练目标仍是标准的潜在扩散损失。

图片

▲图 2. VITON-DiT概述。(a)该架构包含三个组件,具有以下任务。(1)去噪 DiT:通过一组时空 (ST-) DiT 块生成视频内容的潜在表示。(2)ID 控制网络:为去噪 DiT 生成特征残差,以保留参考人物的身份、姿势和背景。(3)服装提取器:通过注意力融合获取并向去噪 DiT 和控制网络传递服装特征,从而在生成的试穿视频中恢复详细的服装纹理。(b)注意力融合说明:使用加性注意力整合人物去噪特征和提取的服装特征。此操作同时用于去噪 DiT 和 ID 控制网络。

👗 服装提取器

服装提取器是VITON-DiT中的另一个关键组件,它负责从输入的服装图像中提取特征。这些特征随后会被融合到去噪DiT和 ID ControlNet中,以确保生成视频中的服装细节得到精确恢复。

由于输入仅包含一张服装图像 (即没有时间信息),因此它去掉了时间注意力机制。

与去噪 DiT 类似,服装图像由  编码并经过  个服装提取模块。在每次传递中,需要存储中间特征,然后将其输入到主 DiT 和 ID 控制网络中。具体来说,如图 2(b) 所示,注意力融合模块发挥作用,并通过加性注意将服装编码器与其他两个模块关联起来。注意力的融合过程可以表述为:

🔒 身份保留控制网络(ID ControlNet)

ID ControlNet的设计目的是在试穿过程中保持人物的姿势和身份信息。它通过一个网络来引导去噪DiT,确保人物的面部和身体特征在生成的视频中保持一致。

从本质上讲,视频虚拟试穿可以看作是一个图像修复(inpainting)问题。它需要四元组  将目标服装  放置在参考人物视频  上,包括与服装无关的图像 、DensePose 图像  和修复掩码 ,如图 2(a) 所示。由于 OpenSora 的预训练权重未针对图像修复任务进行调整,因此作者引入了一个 ID ControlNet  来保留人物的姿势、身份和背景。

形式上,给定一个与服装无关的条件序列 ,VAE 编码器  产生潜在变量 ,这些变量进一步与掩码  拼接。

然后,大小为  的潜在变量被修补,并通过一个零初始化的线性层,然后再送入 ID 控制网络。 的输出信号直接注入去噪 DiT 中作为特征残差。通过这样的设置可以使  能够提供精确、像素对齐的控制信号,以实现准确的身份保留。这个过程可以被描述为:

其中  表示拼接操作。同时,作者发现提出的 ID 控制网络对条件错误具有鲁棒性,以图 5(a) 为例,虽然控制网络的 DensePose 输入有明显的伪影,但 VITON-DiT 仍然产生了合理的结果。

🔄 长视频生成的训练和推理策略

图片

▲图 3.(a)随机不可知条件交换:随机用对应的真实图像且全零掩码替换掉不可知图像和修复掩码。(b)IAR 推断:在每个划分的序列内生成关键帧,然后进行 AR 推断以填充缺失的帧。

直接生成长视频是非常具有挑战性的,特别是在计算资源有限的情况下。为了缓解这一问题,作者在训练过程中使用了一种新的随机选择策略,而在推理过程中使用一种插值自回归(IAR)技术。

在训练过程中,系统会随机选择一些帧,并在这些帧上应用特定的训练技术,以增强模型对不同视角和动作的适应能力。而在推理过程中使用 IAR 技术,通过先生成关键帧、再使用自回归的方法,将剩余帧进行填充,从而生成高质量的长视频。

对于 IAR 技术,作者称它改进了传统的自回归方法,更有利于生成高质量的扩展视频。作者将视频生成分为两个子任务:关键帧生成和帧填充。具体来说,对于生成  帧视频的任务,IAR 首先将其分成  个子视频,根据提供的条件预测每个子视频中的起始帧,然后进行自回归技术填充缺失的  帧。这可以防止模型因遮挡而导致质量下降,还能确保视频的流畅性。

实验结果

作者收集了一个不成对的人类舞蹈视频数据集,其中包含各种服装、背景和身体动作。使用场景检测工具对收集到的数千个视频进行分割,并筛选出多人或一小部分人的片段,从而产生超过 15,000 个高质量视频片段。作者进一步结合 FashionVideo 和 Tiktok 数据集进行训练。最后挑选了50个不同身份、不同背景的片段,作为评估视频试穿效果的新基准。

VITON-DiT采用了多阶段自监督训练策略,具体步骤如下:

  1. 图像预训练(Garment Extractor):在这一阶段,仅训练服装提取器,冻结其他所有模块,从解析出的服装图像中重建人物图像。这有助于模型学习更大量的服装图像,并增强生成人物图像的能力。

  2. 图像预训练(ID ControlNet):接着,加入ID ControlNet,除了去噪ST-DiT的SSA模块,其他的所有参数都设置为可训练。训练目标与第一阶段相同。

  3. 视频微调(VITON-DiT):最后,除了去噪ST-DiT的SSA模块,对所有参数进行训练。

📊 定量与定性结果

  • 定量评估:研究人员使用了结构相似性指数(SSIM)、学习感知图像补丁相似性(LPIPS)和 Fréchet Inception Distance(VFID)等指标来评估生成视频的视觉质量和时间连贯性。

  • 定性评估:VITON-DiT在VVT数据集上与其他基线方法进行了比较。结果显示,VITON-DiT在保持服装形状和颜色一致性,以及在不同摄像机距离下服装-人物对齐方面表现优于其他基线。

图片

▲表 1:VVT 数据集的定量比较。最好的结果用粗体表示。

图片

▲图 4:与基线的定性比较。VITON-DiT 在一致保留服装形状和颜色以及在不同相机距离下稳定的服装与人对齐方面优于其他基线。

📈 消融研究

图片

▲图 5:数据量消融研究。随着数据质量和数量的增加,模型的视觉性能也相应逐渐提高。

研究表明,随着数据质量和数量的增加,模型的视觉性能也逐渐提高。使用少量但是高质量的数据(即 Data-S)训练的模型明显优于 Data-F。此外,更多数量的 HQ 数据能够获得更好的人体先验知识,即使在姿势引导不准确的情况下,模型也能产生合理的结果,如图5所示(Data-M 和 Data-L 列)。

图片

包含空间交叉注意力(SCA)的完整模型在恢复服装纹理方面比其他模型变体表现更好。另外,与传统的自回归(AR)方法相比,IAR技术在处理遮挡和恢复纹理细节方面更为稳健。

图片

总结

这篇文章提出了第一个基于DiT的视频试穿网络VITON-DiT,能够有效地恢复生成视频中的服装细节,实现数十秒的视频生成。

相比于之前的 VITON、GP-VTON等工作,VITON-DIT 方法将当前的先进技术融入进来,包括 DiT、注意力机制等。摒弃了以前工作中的各种形变方法后,不仅获得了非常先进的性能,而且也拓展到了视频生成领域,这也正是技术发展的魅力了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798350.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

任务悬赏APP搭建必备功能有哪些?

搭建一个任务悬赏APP,需要具备以下必备功能: 在线发布需求:允许用户或商家在线发布任务需求,如浏览广告等 在线接单功能:用户可以在线接单和抢单,以及接收任务完成提醒 推广功能:商户可以通过…

回收站找不到已删除的文件怎么办?别急,这里有解决方法

在数字化时代,电脑中的数据成为了我们生活和工作的重要部分。无论是珍贵的照片、重要的文档,还是日常的工作文件,我们都希望能够妥善保存。然而,误删除文件的情况时有发生,而当我们急切地打开回收站试图找回这些文件时…

JSON 无法序列化

JSON 无法序列化通常出现在尝试将某些类型的数据转换为 JSON 字符串时,这些数据类型可能包含不可序列化的内容。 JSON 序列化器通常无法处理特定类型的数据,例如日期时间对象、自定义类实例等。在将数据转换为 JSON 字符串之前,确保所有数据都…

Anaconda配置环境

查看存在的环境 conda list创建环境 #创建 名称为python38的python环境 conda create -n python38 python3.8 #激活 conda activate python38 #退出当前环境 conda deactivate安装python包 #安装numpy包 conda install numpy #安装指定版本 conda install numpy1.0.2 #安装指…

关机重启命令

1.shutdown命令 [rootlocalhost ~]#shutdown [选项] 时间 选项: -c:取消前一个关机命令 -h:关机 -r:重启 正确使用关机重启命令,因为服务器多个人使用的情况下,硬盘正在高速运行,当强制性关机…

数据恢复工具推荐:电脑回收站删除的文件怎么恢复?8个回收站恢复软件,收藏!

当文件从电脑的回收站被删除后,许多用户可能认为这些文件已永久丢失。然而,实际上,在数据被新数据覆盖之前,这些删除的文件仍然可以通过使用专门的数据恢复软件来恢复。本文将介绍8款顶级的文件恢复软件,恢复电脑回收站…

Mybatis-Plus被恶意CVE一事

前言 Mybatis-Plus框架在2024年5月被人在CVE网络安全漏洞库上提交了漏洞,该漏洞可笑无比,但是有趣的是竟然还是被CVE审核确认为了SQL注入漏洞; 发生了什么 见Mybatis-plus发出的申明公告:https://mp.weixin.qq.com/s?__bizMzA…

【UE5:CesiumForUnreal】——从地球全景聚焦到某区域的动画制作

目录 1.添加Render Texture并和SceneCapture2D关联 1.1 场景准备 1.2 添加Render Texture 1.3 添加SceneCapture2D并关联 2.在Widget上显示Render Texture 2.1 创建Widget 2.2 配置Widget 2.3 添加控制按钮 2.4 添加窗口逻辑 3.制作Sequencer动画 3.1 创建Sequencer…

欧美北美南美国外媒体投稿和东南亚中东亚洲媒体海外新闻发稿软文推广营销策略有哪些?

在当今全球化的浪潮中,中国品牌正积极拓展海外市场,寻求更广阔的发展空间。面对国际竞争,有效的海外媒体发稿营销策略对于品牌国际化至关重要。以下是一些关键点和建议,以帮助品牌在海外市场取得成功。 深入了解目标市场&#xf…

2024年最新Stable Diffusion本地化部署详细攻略,手把手教程(建议收藏!!)_stable diffusion 本地部署

今天有网友问到SD本地部署的攻略,我找到以前收集的资料发出来分享给大家,希望对大家有帮助! Stable Diffusion本地化部署详细攻略 一、硬件要求 内存:至少16GB 硬盘:至少60GB以上的磁盘空间,推荐SSD固态…

Unity 集成 FMOD 音频管理插件 2.02

Unity 集成 FMOD 音频管理插件 2.02 3. 集成教程:3.1 设置Unity项目3.2 设置FMOD项目3.3 设置 FMOD for Unity3.4 添加声音:卡丁车引擎3.5 添加声音:氛围3.6 添加声音:音乐3.7 删除现有音频3.8 下一步 10. 脚本 API 参考10.1 基础…

Shopee与Lazada卖家如何运用自养号测评稳定提升销量于评价

在跨境电商行业中,测评对于提高产品销量是个非常优秀的辅助方式。作为东南亚电商巨头,Shopee和Lazada这两大主流平台上,卖家竞争也尤为激烈,卖家们不断寻求有效的方法提升自己的产品销量。为了应对这一挑战,测评应运而…

揭秘重庆耶非凡科技:人力RPO项目真的能帮你赚钱吗?

在当今这个快速变化的市场环境中,企业为了降低运营成本、提升管理效率,越来越倾向于将非核心业务外包给专业的服务提供商。其中,人力资源外包(HRO)作为外包领域的重要组成部分,近年来得到了快速发展。重庆耶非凡科技有限公司的人力…

Laravel框架进阶:掌握队列系统,优化应用性能

Laravel使用队列处理 本文主要讲述如何利用 Laravel 框架的队列系统来管理异步任务和设置周期性执行的任务,从而增强应用程序的效能和可靠性。 Laravel队列的优势 异步执行:将任务添加到队列中后,可以立即返回响应给用户,而任务…

AI绘画如何打造高质量数据集?

遇到难题不要怕!厚德提问大佬答! 厚德提问大佬答11 你是否对AI绘画感兴趣却无从下手?是否有很多疑问却苦于没有大佬解答带你飞?从此刻开始这些问题都将迎刃而解!你感兴趣的话题,厚德云替你问,你…

MySQL表的增删改查初阶(上篇)

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人…

SVNCloud 与 Navicat和IDEA的连接

文章目录 SVNCloud 配置Navicat访问云端数据库与IDEA Java jdbc 的连接 SVNCloud 配置 访问网址:SVN注册账号,进入mysql区域: 数据库管理->创建数据库,输入数据库名称和密码,注意,这里的数据库名称实际…

【机器学习】机器学习在深度学习领域中的作用:半监督学习的视角

👀时空之门👀 🔍引言🎈半监督学习概述🚝机器学习在深度学习领域中的作用☘特征提取与表示学习🍀复杂任务建模❀结合半监督学习提升性能 🚀半监督学习在深度学习中的应用场景📕图像识…

如何搭建一台永久运行的个人服务器?

一、前言 由于本人在这段时候,看到了一个叫做树莓派的东东,初步了解之后觉得很有意思,于是想把整个过程记录下来。 二、树莓派是什么? Raspberry Pi(中文名为树莓派,简写为RPi,(或者RasPi / RPI) 是为学习计算机编程…

HarmonyOS开发-鸿蒙UiAbility 组件间跳转

前言 随着春节假期结束各行各业复产复工,一年一度的春招也持续火热起来。最近,有招聘平台发布了《2024年春招市场行情周报(第一期)》。总体来说今年的就业市场还是人才饱和的状态,竞争会比较激烈。 但是,…