无需训练!多提示视频生成最新SOTA!港中文腾讯等发布DiTCtrl:基于MM-DiT架构

news2025/2/4 18:16:59

文章链接:https://arxiv.org/pdf/2412.18597
项目链接:https://github.com/TencentARC/DiTCtrl

亮点直击

  • DiTCtrl,这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使得不同提示之间能够无缝过渡,且无需额外的训练。

  • 首度分析了MM-DiT的注意力机制,发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力块具有相似的行为,从而实现了基于mask的精确语义控制,使得不同提示之间的生成更加一致。

  • 推出了MPVBench,这是一个专为多提示视频生成设计的新基准,具有多种过渡类型和专门的评估指标,用于多提示视频的评估。 -大量实验表明,本文的方法在多提示视频生成任务上实现了业界领先的性能,同时保持了计算效率。

总结速览

解决的问题
当前的视频生成模型,尤其是基于单一提示(single-prompt)的模型,如Sora,主要聚焦于生成单一提示下的视频内容。它们在生成多个顺序提示(multi-prompt)的连贯场景时存在显著挑战,尤其是在动态场景中需要反映多个动作时,面临的问题包括:

  • 训练数据要求严格;

  • 提示跟随能力较弱;

  • 转场不自然,缺乏平滑过渡。

提出的方案 本文提出了DiTCtrl方法。这是基于MM-DiT架构的、训练无关的多提示视频生成方法,首次能够在没有额外训练的情况下生成多提示的视频,且能够保证多个提示之间的视频内容平滑过渡。

应用的技术

  • MM-DiT架构:多模态扩散Transformer(Multi-Modal Diffusion Transformer)架构被用于视频生成任务,能够有效处理文本、图像和视频的联合表示。

  • 3D全注意力机制:分析了MM-DiT的注意力机制,发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力模块相似,能够在多个提示之间共享注意力,从而实现语义一致性。

  • KV共享和隐混合策略:为实现视频之间的平滑过渡,提出了键值共享(KV-sharing)机制和隐空间混合(latent blending)策略,以连接不同提示生成的视频片段。

达到的效果

  • 平滑过渡与一致性:通过DiTCtrl方法,生成的视频在多个提示之间能够实现平滑的过渡和一致的物体运动,而不需要额外的训练。

  • 高效性能:在MPVBench基准测试上,DiTCtrl在保持计算效率的同时,取得了最先进的性能。

  • 新基准MPVBench:为了促进多提示视频生成的研究,文章还提出了MPVBench基准,专门用于评估多提示视频生成的过渡效果和性能。

方法

本文解决了zero-shot、多提示长视频生成的挑战,无需模型训练或优化。这使我们能够生成高质量的视频,具有平滑和精确的提示间过渡,涵盖各种过渡类型(例如,风格、镜头运动和位置变化)。形式上,给定一个预训练的单提示文本到视频扩散模型 和一个包含 个提示的序列 ,所提出的DiTCtrl能够生成一个连贯的长视频 ,该视频能够随时间忠实地跟随这些提示,可以表示为:

MM-DiT 注意力机制分析

MM-DiT 是当前文本到图像/视频模型的基础架构,与之前的 UNet 架构有根本的不同,因为它将文本和视频映射到一个统一的序列中进行注意力计算。尽管该架构已被广泛使用,但其内部注意力机制的特性尚未得到充分探索,这限制了其在我们多提示长视频生成任务中的应用。因此,本文首次对基于最先进的视频模型(即 CogVideoX)的 3D 全注意力图中的区域注意力模式进行了全面分析。

如下图 2 所示,由于视觉和文本提示的连接,每个注意力矩阵可以分解为四个不同的区域,分别对应不同的注意力操作:视频到视频的注意力、文本到文本的注意力、文本到视频的注意力和视频到文本的注意力。以下是每个区域的详细介绍,灵感来源于先前的 UNet-like 结构中的独立注意力。

文本到视频和视频到文本的注意力
之前的 UNet-like 架构通过交叉注意力实现视频与文本的对齐。在 MM-DiT 中,文本到视频和视频到文本的注意力发挥了类似的作用。计算了所有层和注意力头的平均注意力值,然后通过选择特定的列或行来提取文本到视频和视频到文本区域的注意力值,这些列或行对应文本到视频和视频到文本区域中的token索引。接着,这些注意力值被重塑为 格式,从而能够可视化每一帧的语义激活图。如上图 2 所示,这些可视化结果显示了token级语义定位的显著精度,能够有效捕捉文本描述和视觉元素之间的细粒度关系。这一发现为精确的语义控制和定位提供了强有力的基础,为借用已有的图像/视频编辑技术以增强多提示视频生成的一致性和质量提供了支持。

文本到文本和视频到视频的注意力
文本到文本和视频到视频的区域注意力在某种程度上是新的,与相应的 UNet 结构不同。如下图 3 所示,本文的分析揭示了这两个组件中相似的模式。在文本到文本的注意力组件(图 3(a)(b),其中 (a) 表示较短提示的注意力模式,(b) 表示较长提示的模式)中,观察到一个显著的对角线模式,表明每个文本token主要关注其邻近的token。

值得注意的是,随着文本序列长度的增加,存在明显的垂直线,这些垂直线向后移动,表明所有token对文本序列末尾的特殊token保持显著关注。对于视频到视频的注意力组件,由于 MM-DiT 扁平化了空间和时间token以进行 3D 注意力计算,在单帧级别的分析揭示了空间注意力中的明显对角线模式(上图 3(c))。更重要的是,当检查来自不同帧中相同空间位置的token构建的注意力图时,还观察到显著的对角线模式(图 3(d))。这一特征与最近的基于 UNet 的视频模型中的空间注意力和时间注意力(如 VideoCrafter 和 Lavie)中的发现相似,符合 [25] 中的报告结果。

由于之前的工作仅训练扩散模型的特定部分以进行更高级的控制和生成,本文的发现为从 MM-DiT 角度看待这些方法提供了有力的证据。这些在 MM-DiT 架构中出现的一致对角线模式表明了帧间强相关性,这对于维持空间-时间一致性和保留视频序列中的运动忠实度至关重要。

随时间一致的视频生成

MM-DiT 中的注意力机制与 UNet-like 视频扩散模型中的行为类似。因此,提出了基于mask引导的 KV 共享策略,用于多提示视频生成任务中的一致视频生成。

如下图 4 所示,为了在提示 和提示 之间生成一致的视频,利用 MM-DiT 中第 和第 个提示的中间注意力来分别生成特定一致对象的注意力mask。这是通过对 3D 全注意力中的所有文本到视频/视频到文本部分进行平均,并使用给定的特定主题token来实现的。通过这些mask,接着执行mask引导的注意力融合,生成提示 的新注意力特征。受到 MasaCtrl 的启发,直接利用提示 中的键和值来引导提示 的生成,从而实现随时间变化的一致外观生成。

形式上,在第 步,分别使用固定的 MM-DiT 骨干网络与提示 和下一个提示 进行前向传递,生成中间区域的交叉注意力图。然后,对所有头和层中的注意力图进行平均,得到相同空间分辨率 和时间帧 的平均值。得到的交叉注意力图记作 ,其中 是文本token的数量。接下来,获得与前景对象相关的token的平均交叉注意力图。分别将 和 作为从 和 中提取的前景对象masks。利用这些masks,可以限制在 中的对象仅查询来自 中对象区域的信息:

其中, 是最终的注意力输出。然后,将当前步骤的特征图替换为 ,以便进一步计算。

用于过渡的隐混合策略

尽管之前的方法保证了片段之间的语义一致性,但要实现不同语义片段之间的平滑过渡,仍需要精心设计。因此,提出了一种隐混合策略,旨在确保不同语义片段之间的时间一致性,灵感来源于最近在单提示长视频生成中的工作 [33, 46]。

如下图 5 所示,本文的方法在相邻语义视频片段(视频 和视频 )之间引入重叠区域。对于重叠区域中的每个帧位置,应用一个位置相关的权重函数,该函数遵循对称分布——越靠近各自片段的帧得到更高的权重,而边界处的帧则得到较低的权重。这个加权方案确保了不同语义上下文之间的平滑过渡。

形式上,给定由提示 和 分别生成的两个相邻视频片段 和 ,提出如下隐混合策略。设 表示片段之间的重叠帧数。对于重叠区域中的帧位置 ,计算其混合隐特征 :

其中, 和 分别是来自 和 的隐特征, 是一个位置相关的三角形权重函数,定义为:

本文的方法的关键优势在于,它不需要额外的训练,同时能够有效地处理不同语义上下文之间的过渡。在每个去噪步骤中,首先独立处理每个片段,然后逐步使用位置相关的权重在重叠区域中融合隐特征。这一策略在保持时间一致性的同时,平滑地过渡于不同的语义上下文之间,使其特别适用于多提示视频生成任务。

实验

基于 CogVideoX-2B 实现了 DiTCtrl,CogVideoX-2B 是一种基于 MM-DiT 的先进开源文本到视频扩散模型。在实验中,生成了多提示条件的视频,每个视频片段由 49 帧组成,分辨率为 480×720。此外,还使用了 ChatGPT 来生成不同类型的多个过渡。在实验中将隐采样帧数和重叠大小设置为 13 和 6。实验在单个 NVIDIA A100 GPU 上进行。

质量结果

与当前最先进的多提示视频生成方法[33, 38, 40] 和领先的商业解决方案 进行了全面的定性比较。为了确保公平比较,还在 CogVideoX 主干上实现了 FreeNoise,作为增强的基准。

如下图 6 所示,本文提出的方法在三个关键方面展示了优越的性能:文本到视频对齐、时间一致性和运动质量。尽管 Kling 在高质量视频生成方面展现了令人印象深刻的能力,但它仅限于同时的多语义混合,而不是顺序的语义过渡,这突出了在多提示视频生成任务中实现时间演变内容的重要性。

本文的比较分析揭示了现有方法的 distinct 特征和局限性。Gen-L-Video 存在严重的时间抖动和偶尔的物体消失,影响了整体视频质量。Video-Infinity 和 FreeNoise 都在场景级语义变化方面取得了成功,但缺乏物理上合理的运动——例如,在上图 6 中,车辆看似在运动,但空间位置固定,这是它们基于 UNet 的能力的限制。相比之下,FreeNoise+DiT 利用了 DiT 架构的能力实现了更真实的物体运动,但在语义过渡上存在困难,导致片段之间出现明显的中断。DiTCtrl 方法保留了预训练 DiT 模型的固有能力,同时解决了这些局限性,能够平滑地实现语义过渡,并在整个视频序列中保持运动一致性。

定量结果

首先详细介绍我们提出的用于评估多提示视频生成的新基准 MPVBench,然后讨论定量结果。

MPVBench
MPVBench 包含一个多样化的提示数据集和一个专门为多提示生成定制的新度量标准。具体来说,通过利用 GPT-4,生成了 130 个长格式的提示,涵盖 10 种不同的过渡模式。然后,对于多提示视频生成,观察到 CLIP 特征在单一提示和多提示场景之间的分布有所不同。如下图 7 所示,自然视频的特征点沿着一条连续曲线分布,而两个拼接的孤立视频的特征点则沿着两条连续曲线分布,并且在中间有一个断点。

由于常见的 CLIP 相似度计算的是邻近相似度的平均值,自然视频和孤立视频之间的差异仅在断点处发生,并且在按帧数划分后,差异会变得非常小。为了解决这一限制,提出了 CSCV(Clip Similarity Coefficient of Variation),这一度量标准专门用于评估多提示过渡的平滑度:

其中, 表示帧特征, 和 分别是标准差和平均值。变异系数(CV)= 描述了均匀度的程度,可以大大惩罚孤立情况。函数 将分数映射到 范围内,分数越大越好。

自动评估
使用 MPVBench 进行自动评估。从下表 1 中可以看出,本文的方法获得了最高的 CSCV 分数,证明了在过渡处理和生成模式的整体稳定性方面具有优势。虽然 FreeNoise 排名第二,稳定性相对较强,但其他方法在这一方面显著落后,这与上图 7 中 CLIP 嵌入的 T-SNE 可视化结果一致。在运动平滑性方面,本文的方法在运动质量和一致性方面表现优越。在文本-图像相似度指标方面,尽管 FreeNoise 和 Video-Infinity 获得了更高的分数,但这可以归因于我们方法的 KV-sharing 机制,在该机制下,后续视频片段本质上从前面的语义内容中学习。

如前面图6所示,本文的设计选择允许路面逐渐过渡到雪地条件,同时保留之前场景的特征。尽管可能会导致较低的文本-图像对齐得分,但它确保了序列中的语义连续性。在实际应用中,这种权衡并不会对多提示场景中的视觉质量产生负面影响,如下面我们展示的用户研究结果所示。

人类评估
邀请了28名用户评估五个模型:Gen-L-Video、Video-Infinity、FreeNoise、FreeNoise+DiT 和本文的方法。使用5点Likert量表(1代表低质量,5代表高质量)。参与者根据16个不同场景生成的视频,考虑整体偏好、运动模式、时间一致性和文本对齐情况对每种方法进行评分。正如下表2所示,本文的方法在所有四个标准上显著超越了其他现有方法,展示了在生成具有自然语义过渡的视频方面的卓越能力,能够更好地与人类对视觉连贯性和连续性的偏好相符。

消融研究

进行消融研究,以验证DiTCtrl关键组件的有效性:隐融合策略、KV-sharing机制和掩模引导生成,如下图8所示。第一行显示了直接使用文本-视频模型的结果,导致场景变化突兀,运动模式断裂,无法保持从冲浪到滑雪过程中运动的一致性。第二行表明,未使用隐融合策略的DiTCtrl能够实现基本的视频编辑功能,但场景之间缺乏平滑过渡。没有KV-sharing(第三行)的DiTCtrl表现出不稳定的环境过渡和显著的运动伪影,角色缩放不一致,动作变形。此外,没有掩模引导(第四行)的DiTCtrl提高了运动一致性和过渡效果,但在不同提示和环境之间的对象属性混乱方面存在问题。另一方面,完整的DiTCtrl实现提供了对生成内容的最精确控制,展示了卓越的对象一致性和更平滑的提示过渡,同时保持所需的运动模式。这些结果验证了对MM-DiT注意力机制的分析及其在实现准确语义控制中的作用。

更多应用

单提示长视频生成
本文的方法能够自然地应用于单提示长视频生成。如下图9所示,使用提示“A white SUV drives on a steep dirt road”,本文的方法成功生成了长度超过原始视频12倍的视频,同时保持了一致的运动模式和环境连贯性。这表明,本文的技术不仅适用于多提示视频生成任务,还能有效地扩展到长时间视频的生成,确保了生成内容在时间维度上的连贯性和一致性。

视频编辑 本文展示了如何使用本文的方法实现视频编辑功能(例如,“重新加权”和“单词替换”)。通过这些操作,能够在不破坏视频原有结构和连贯性的情况下,灵活地编辑视频内容。这使得我们的技术不仅仅适用于新视频的生成,还能作为强大的视频编辑工具,在多个语义变化的场景下保持视频的整体一致性与流畅过渡。

结论

本文介绍了DiTCtrl,一种基于MM-DiT架构的多提示视频生成的创新方法,且无需额外的训练。对MM-DiT的注意力机制进行了开创性的分析,揭示了其与UNet-like扩散模型中的交叉/自注意力模块的相似性,这使得在提示之间能够实现mask引导的语义控制。通过引入KV共享机制和隐融合策略,DiTCtrl确保了语义段之间的平滑过渡和一致的对象运动,无需额外的训练。此外,还提出了MPVBench,这是首个针对多提示视频生成的广泛评估框架,旨在推动该领域未来的研究。

局限性与未来工作 尽管本文的方法展示了最先进的性能,但仍然存在两个主要局限性。首先,与图像生成模型相比,当前开源的视频生成模型在概念组合能力上较弱,偶尔会导致不同语义段之间的属性绑定错误。其次,基于DiT架构的计算开销对推理速度提出了挑战。这些局限性为未来研究提供了有前景的方向,特别是在增强语义理解和架构效率方面。

参考文献

[1] DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

尔湾市圣诞节文化交流会成功举办,展示多元文化魅力

洛杉矶——12月21日,圣诞节文化交流会在尔湾成功举办。圣诞节文化交流会旨在促进不同文化之间的交流与理解。通过举办舞蹈表演、演讲和互动游戏等,为参与者提供了一个展示和欣赏多元文化艺术的平台。这些活动不仅增加了社区成员之间的互动,也加深了他们对不同文化传统和艺术形式…

适用于项目经理的跨团队协作实践:Atlassian Jira与Confluence集成

适用于项目经理的跨团队协作实践:Atlassian Jira与Confluence集成 现代项目经理的核心职责是提供可视性、保持团队一致,并确保团队拥有交付出色工作所需的资源。在过去几年中,由于分布式团队的需求不断增加,项目经理这一角色已迅速…

Spring Cloud LoadBalancer (负载均衡)

目录 什么是负载均衡 服务端负载均衡 客户端负载均衡 Spring Cloud LoadBalancer快速上手 启动多个product-service实例 测试负载均衡 负载均衡策略 自定义负载均衡策略 什么是负载均衡 负载均衡(Load Balance,简称 LB) , 是高并发, 高可用系统必不可少的关…

探究步进电机与输入脉冲的关系

深入了解步进电机 前言一、 步进电机原理二、 细分三、脉冲数总结 前言 主要是探究以下内容: 1、步进电机的步进角。 2、什么是细分。 3、脉冲的计算。 最后再扩展以下STM32定时器的计算方法。 一、 步进电机原理 其实语言描述怎么样都不直观,我更建议…

HCIA-Access V2.5_7_1_XG(S)原理_系统概述

近年来,随着全球范围内接入市场的飞快发展以及全业务运营的快速开展,已有的PON技术标准在带宽需求,业务支撑能力以及接入节点设备和配套设备的性能提升等方面都面临新的升级需求,而GPON已经向10G GPON演示,本章将介绍1…

安装了python,环境变量也设置了,但是输入python不报错也没反应是为什么?window的锅!

目录 问题 结论总结 衍生问题 1 第1步:小白python安装,不要埋头一直点下一步!!! 2 第2步:可以选择删了之前的,重新安装python 3 第3步:如果你不想或不能删了重装python&#…

留学生交流互动系统|Java|SSM|VUE| 前后端分离

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、VUE、jquery,html 5⃣️数据库可…

docker redis安装

一.镜像拉取 docker pull redis:5.0新建文件 touch /home/redis/redis.conf touch /home/redis/redis_6379.pid # bind 192.168.1.100 10.0.0.1 # bind 127.0.0.1 ::1 #bind 127.0.0.1protected-mode noport 6379tcp-backlog 511requirepass roottimeout 0tcp-keepali…

计算机网络 (13)信道复用技术

前言 计算机网络中的信道复用技术是一种提高网络资源利用率的关键技术。它允许在一条物理信道上同时传输多个用户的信号,从而提高了信道的传输效率和带宽利用率。 一、信道复用技术的定义 信道复用(Multiplexing)就是在一条传输媒体上同时传输…

2236. 判断根结点是否等于子结点之和

给你一个 二叉树 的根结点 root,该二叉树由恰好 3 个结点组成:根结点、左子结点和右子结点。 如果根结点值等于两个子结点值之和,返回 true ,否则返回 false 。 示例 1: 输入:root [10,4,6] 输出&#xf…

orm03

admin后台管理 什么是admin后台管理 django提供了比较完善的后台数据库的接口,可供开发过程中调用和测试使用 django会搜集所有已注册的模型类,为这些模型类提供数据管理界面,供开发使用 admin配置步骤 创建后台管理账号 该账号为管理后…

UE5材质节点Panner

Panner节点可以让贴图动起来,快捷键是P,Speed的数值大小就是贴图移动的快慢,x和y是方向 这个节点可以用来做,传送带,护盾,河流,岩浆,瀑布等 制作岩浆流动效果 创建材质,…

【论文阅读笔记】Scalable, Detailed and Mask-Free Universal Photometric Stereo

【论文阅读笔记】Scalable, Detailed and Mask-Free Universal Photometric Stereo 前言摘要引言Task 相关工作方法SDM-UniPS预处理尺度不变的空间光特征编码器像素采样变压器的非局部交互 PS-Mix数据集 实验结果训练细节评估和时间: 消融实验定向照明下的评估没有对…

道路倒角 三角网 两侧偏移

public void 多段线和直线两侧缓冲区(){List<Curve> ents1 Z.db.SelectEntities<Curve>();List<Polyline> ents Z.db.CurvesToPolyLines2(ents1);//Z.db.SelectEntities<Polyline>();double offsetDistance 5.0;//p距离double offsetDistance2 1.0…

贪心算法(常见贪心模型)

常见贪心模型 简单排序模型 最小化战斗力差距 题目分析&#xff1a; #include <bits/stdc.h> using namespace std;const int N 1e5 10;int n; int a[N];int main() {// 请在此输入您的代码cin >> n;for (int i 1;i < n;i) cin >> a[i];sort(a1,a1n);…

供应链系统设计-供应链中台系统设计(六)- 商品中心概念篇

概述 我们在供应链系统设计-中台系统设计系列&#xff08;五&#xff09;- 供应链中台实践概述 中描述了什么是供应链中台&#xff0c;供应链中台主要包含了那些组成部门。包括业务中台、通用中台等概念。为了后续方便大家对于中台有更深入的理解&#xff0c;我会逐一针对中台…

Linux(Centos 7.6)目录结构详解

Linux(Centos 7.6)是一个操作系统&#xff0c;其核心设计理念是将一切资源抽象为文件&#xff0c;即一切皆文件。比如系统中的硬件设备硬盘、网络接口等都被视为文件。Windows系统一般是分为C、D、E盘。而Linux(Centos 7.6)是以斜线"/"作为文件系统的开始目录&#x…

transform、animation、transition?

transform、transition 和 animation 都是 CSS 属性&#xff0c;用于创建视觉效果&#xff0c;但它们的工作方式和用途不同&#xff1a; 1. transform (变换元素): 作用: transform 用于改变元素的旋转、缩放、移动、倾斜等属性&#xff0c;但不改变元素的初始状态和最终状态…

大数据技术-Hadoop(三)Mapreduce的介绍与使用

目录 一、概念和定义 二、WordCount案例 1、WordCountMapper 2、WordCountReducer 3、WordCountDriver 三、序列化 1、为什么序列化 2、为什么不用Java的序列化 3、Hadoop序列化特点&#xff1a; 4、自定义bean对象实现序列化接口&#xff08;Writable&#xff09; 4…

Echarts+vue电商平台数据可视化——webSocket改造项目

websocket的基本使用&#xff0c;用于测试前端能否正常获取到后台数据 后台代码编写&#xff1a; const path require("path"); const fileUtils require("../utils/file_utils"); const WebSocket require("ws"); // 创建WebSocket服务端的…