寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

news2024/12/23 18:47:55

论文链接:https://arxiv.org/pdf/2407.21705
项目链接:https://ali-videoai.github.io/tora_video/

亮点直击

  • 本文引入了Tora,这是第一个轨迹导向的DiT用于视频生成。如下图2所示,Tora无缝整合了广泛的视觉和轨迹指令,从而能够熟练地创建可操控运动的视频。

  • 为了与DiT的可扩展性保持一致,本文设计了一种新颖的轨迹提取器和运动引导融合机制,以获取时空运动块,随后将这些块注入DiT块中。本文对几种架构选择进行了消融实验,并为未来基于DiT的运动控制研究提供了实证基线。

  • 实验表明,Tora能够生成具有不同纵横比的720p分辨率视频,最长可达204帧,所有这些都由指定的轨迹引导。此外,它在模拟物理世界中的运动方面表现出色。

最近在 Diffusion Transformer (DiT) 方面的进展展示了其在生成高质量视频内容方面的卓越能力。然而,基于transformer的扩散模型在有效生成具有可控运动的视频方面的潜力仍然是一个探索有限的领域。本文介绍了Tora,这是第一个轨迹导向的DiT框架,它同时整合了文本、视觉和轨迹条件用于视频生成。具体来说,Tora由轨迹提取器 (TE)、时空DiT和运动引导融合器 (MGF) 组成。TE通过3D视频压缩网络将任意轨迹编码为分层时空运动块。MGF将运动块整合到DiT块中,以生成遵循轨迹的一致视频。本文的设计与DiT的可扩展性无缝对接,允许对视频内容的动态进行精确控制,支持多种时长、纵横比和分辨率。大量实验表明,Tora在实现高运动保真度方面表现出色,同时还精细地模拟了物理世界的运动。

方法

Preliminary

潜在视频扩散模型(Latent Video Diffusion Model, LVDM)。LVDM通过集成3D U-Net增强了Stable Diffusion模型,从而提升了视频数据处理的效率。这个3D U-Net设计在每个空间卷积中增加了一个额外的时间卷积,并在每个空间注意力块之后跟随相应的时间注意力块。它通过噪声预测目标函数进行优化:

这里, 表示3D U-Net的噪声预测函数。条件 使用交叉注意力引导到U-Net中进行调整。同时, 表示噪声隐藏状态,像马尔可夫链一样演变,逐步向初始潜在状态 添加高斯噪声:

其中,, 是控制步骤中噪声强度的系数。

Diffusion Transformer(DiT)。DiT是一种开创性的架构创新,协同结合了扩散模型和transformer架构的优势。此集成旨在超越传统基于U-Net的潜在扩散模型(LDM)的局限性,提升其性能、多功能性和可扩展性。在保持与既定LDM框架一致的总体公式的同时,范式转变在于用transformer架构替代U-Net进行去噪函数 的学习,从而标志着生成建模领域的一个关键进展。

Tora

Tora 采用 OpenSora 作为其 DiT 架构的基础模型。为了在不同持续时间内实现精确且用户友好的运动控制,Tora 引入了两个新的运动处理组件:轨迹提取器(Trajectory Extractor, TE)和运动引导融合器(Motion-guidance Fuser, MGF)。这些模块用于将提供的轨迹编码为多层次时空运动补丁,并将这些补丁精细地集成到 DiT 块的堆叠结构中。Tora 的工作流程概述如下图 3 所示。

时空 DiT(ST-DiT) ST-DiT 架构包含两种不同类型的块:空间 DiT 块(S-DiT-B)和时间 DiT 块(T-DiT-B),它们以交替顺序排列。S-DiT-B 包含两个注意力层,每个注意力层依次执行空间自注意(Spatial Self-Attention, SSA)和交叉注意(Cross-Attention),然后是一个逐点前馈层,用于连接相邻的 T-DiT-B 块。值得注意的是,T-DiT-B 仅通过用时间自注意(Temporal Self-Attention, TSA)替换 SSA 来修改此架构,从而保持架构的一致性。在每个块内,输入在归一化后,通过跳跃连接(skip-connections)连接回块的输出。通过利用处理可变长度序列的能力,去噪 ST-DiT 可以处理不同持续时间的视频。

在处理过程中,首先使用视频自动编码器来减少视频的空间和时间维度。具体来说,它将输入视频 编码为视频潜在表示 ,其中 表示视频长度,,,。接下来, 被“补丁化”,生成输入标记序列 。这里,, 表示补丁大小。然后将 转发到 ST-DiT,它对这些压缩表示进行建模。在 SSA 和 TSA 中,标准注意力使用查询(Query, Q)、键(Key, K)和值(Value, V)矩阵进行计算。

在这里, 代表归一化的 ,,, 是可学习的投影矩阵。文本提示首先通过 T5 文本编码器进行embedding。在embedding的提示与来自 SSA 或 TSA 的中间特征之间使用了交叉注意机制。

轨迹提取器。 轨迹已被证明是一种更用户友好的控制生成视频运动的方法。具体来说,给定一个轨迹 ,其中 表示轨迹在第 帧经过的空间位置 。先前的研究主要将水平偏移 和垂直偏移 编码为 的运动条件:

然而,DiT 模型使用视频自动编码器和分块处理过程将视频转换为视频块。在这里,每个块是跨多个帧派生的,因此直接使用帧对帧的偏移是不合适的。为了解决这个问题,本文的 TE 将轨迹转换为运动块,这些运动块与视频块处于相同的潜在空间。特别地,本文首先将轨迹 转换为轨迹图 ,并使用高斯滤波器增强以减轻散射。值得注意的是,第一帧使用完全零的图。随后,轨迹图 被转换为 RGB 颜色空间,通过流可视化技术生成 。本文使用 3D VAE 压缩轨迹图,实现 8 倍的空间和 4 倍的时间压缩,与 OpenSora 框架对齐。本文的 3D VAE 基于 Magvit-v2 架构,空间压缩初始化使用 SDXL的 VAE 以加速收敛。本文仅使用重建损失训练模型,以从 中获得紧凑的运动潜在表示 。

为了匹配视频块的大小,本文在运动引导图(gm)上使用相同的块大小,并通过一系列卷积层对其进行编码,最终得到时空运动块 。其中, 是运动块的维度。每个卷积层的输出通过跳跃连接(skip connection)传递给下一个卷积层的输入,以提取多层次的运动特征:

其中, 是第 个 ST-DiT 块的运动条件。

运动引导融合器。 为了将基于 DiT 的视频生成与轨迹相结合,本文探索了三种将运动块注入每个 ST-DiT 块的融合架构变体。这些设计如下图 4 所示。

  • 额外的通道连接。记 为第 个 ST-DiT 块的结果输出。遵循在基于 GAN 的 LVDM 中广泛使用的连接方法,运动块简单地与前一个隐藏状态 在通道维度上连接。然后添加一个额外的卷积层以保持相同的潜在大小:

  • 自适应归一化层。受 GAN 中自适应归一化层的启发,本文首先通过在 ST-DiT 块中添加两个零初始化的卷积层,将 转换为缩放因子 和偏移量 。随后,通过一个简单的线性投影将 和 整合到 中:

  • Cross-Attention 层。ST-DiT 块已被修改,以在 SSA 或 TSA 之后增加一个 Cross-Attention 层,其中运动块作为键和值与隐藏状态 进行融合:

本文实验了三种类型的融合架构,发现自适应归一化表现出最佳的生成性能和计算效率。在本文的其余部分,MGF 使用自适应归一化层,除非另有说明。

训练策略和数据处理

为了在使用任意轨迹生成视频时实现细粒度控制,以及文本、图像或它们的组合,本文为不同的条件注入引入了几种训练策略。

运动条件训练,受到 DragNUWA 和 MotionCtrl 的启发,本文采用两阶段的训练方法来进行轨迹学习。在第一阶段,本文从训练视频中提取稠密光流作为轨迹,提供更丰富的信息以加速运动学习。在第二阶段,为了使模型从完整的光流适应到更用户友好的轨迹,本文根据运动分割结果和光流得分随机选择 1 到 个对象轨迹样本。从稀疏轨迹中解决分散问题,本文应用高斯滤波进行细化。完成两阶段训练后,Tora 能够使用任意轨迹实现灵活的运动控制。

图像条件训练,本文遵循 OpenSora 使用的mask策略来支持视觉条件。具体来说,本文在训练期间随机解除帧的mask,未mask帧的视频块不受任何噪声影响。这使得本文的 Tora 模型能够无缝地将文本、图像和轨迹整合到一个统一的模型中。

数据处理,对于 Tora 来说,训练数据集中的视频片段必须带有字幕和运动轨迹(光流)的注释。为了满足这一要求,本文采用了结构化的数据处理方法。首先,根据场景检测将原始视频分割成较短的片段。随后,这些片段根据美学评分进行评估。根据本文的标准,通过仅保留光流得分超过 3 的视频来排除静态视频。为了更好地获取对象轨迹,本文使用运动分割和相机检测的结果来移除主要包含相机轨迹的动态场景。此外,一些视频中的剧烈相机或对象运动可能导致显著的光流偏差,干扰轨迹训练。因此,本文以 的概率保留这些视频。对于符合条件的视频,本文使用 PLLaVA 模型生成字幕。为了平衡速度和性能,本文使用 13B 版本。

实验

定量和定性结果

本文将本文的方法与流行的运动引导视频生成方法进行了比较。评估在三种设置下进行:16帧、64帧和128帧,所有帧的分辨率均为,以确保公平比较。提供的轨迹被剪裁以适应不同评估的视频长度。对于大多数基于U-Net的方法,本文采用序列推理,其中上一批生成的最后一帧作为当前批次的视觉条件,以符合其推理设置。如下表1所示,在基于U-Net的方法常用的16帧设置下,MotionCtrl和DragNUWA与提供的轨迹对齐较好,但仍不及本文提出的Tora。当帧数增加时,基于U-Net的方法在某些帧中表现出显著的偏差,错位误差传播并导致后续序列中的变形、运动模糊或对象消失。相比之下,Tora由于整合了transformer的缩放能力,对不同帧数表现出高度的鲁棒性。Tora生成的运动更加平滑,并且更符合物理世界。当在128帧测试设置下进行评估时,Tora的轨迹准确性超过其他方法3到5倍,展示了其卓越的运动控制能力。在下图5中,本文提供了不同分辨率和时长下的轨迹误差分析。与基于U-Net的模型不同,后者随时间推移表现出显著的轨迹误差,Tora的轨迹误差仅随时长增加而逐渐增加。这种误差的逐渐增加与DiT模型在时长延长时观察到的视频质量下降相一致。结果清楚地表明,本文的方法在较长时长内保持了有效的轨迹控制。

下图6展示了本文提出的方法与主流运动控制技术的对比分析。在第一个场景中,涉及两个人的共同运动,所有方法都能够生成相对准确的运动轨迹。然而,本文的方法在视觉质量上表现出色。这一优势主要归功于使用了更长的序列帧,从而实现了更平滑的运动轨迹和更逼真的背景渲染。例如,在本文生成的自行车场景中,人类的腿部表现出真实的踩踏动作,而DragNUWA的输出中腿部几乎水平漂浮,违反了物理现实。此外,DragNUWA和MotionCtrl在视频结尾处都出现了显著的运动模糊。更进一步,尽管没有摄像机运动条件,MotionCtrl在骑行序列中引入了意外的摄像机移动。在另一个案例中,随着提供的轨迹不断上升和下降,DragNUWA显示了灯笼的严重变形。尽管MotionCtrl的轨迹相对准确,但生成的视频未能匹配预期的两个灯笼的描绘。总体而言,本文的方法不仅紧密遵循提供的轨迹,还最大限度地减少了物体变形,从而确保了更高保真度的运动表现。

消融实验

本文进行了若干消融研究以分析设计选择的影响。所有模型均在480p分辨率、16:9宽高比和204帧的条件下进行评估。

轨迹压缩。 为了将轨迹向量整合到与视频片段相同的潜在空间中,本文研究了三种不同的轨迹压缩方法,如下表2所总结的。第一种方法在连续的4帧区间内采样中帧作为关键帧,并采用Patch-Unshuffle进行空间压缩。尽管其简单,但由于在遇到快速运动或遮挡时可能产生潜在的流估计误差,这种方法在运动控制方面表现不佳。此外,所选帧间隔引起的片段间相似性放大,增加了学习难度。第二种方法使用平均池化来汇总连续帧。虽然这捕捉到了一般的运动感,但通过均质化轨迹的方向和幅度,它无意中牺牲了精度,从而稀释了关键的运动细节。为了尽可能保留连续帧之间的轨迹信息,本文进一步使用3D VAE提取连续轨迹区间的全局上下文。轨迹数据被视觉化为RGB图像格式,以利用现有的3D VAE权重。在大量轨迹视频上进行广泛训练的这种设置下,产生了最有利的结果,强调了本文定制的3D VAE方法在轨迹压缩中的有效性。

设计块和MGF的集成位置,本文按照之前描述的方法训练了三种不同的MFG块,结果如下表3所示。值得注意的是,自适应归一化块在FVD和轨迹误差方面都比交叉注意力和额外通道条件方法更低,同时还表现出最高的计算效率。这种优势归因于其在不同条件下无需严格对齐的情况下进行动态特征适应的能力,这是交叉注意力常遇到的限制。此外,通过随时间调节条件信息,它确保了时间一致性,这对于注入运动提示至关重要。相比之下,通道连接可能会导致信息拥塞,使运动信号的效果减弱。在训练过程中,本文观察到将归一化层初始化为恒等函数对于实现最佳性能非常重要。

此外,本文评估了MGF模块在Spatial DiT和Temporal DiT块中的集成位置。本文的研究结果表明,将MGFembeddingTemporal DiT块中显著增强了轨迹运动控制,轨迹误差从下降到。这种方法提高了MGF与时间动态交互的效率,从而显著改善了运动合成的保真度。

训练策略。 本文评估了两阶段训练方法的有效性,结果总结在下表4中。仅使用密集光流进行训练效果不佳,因为它无法准确捕捉提供的稀疏轨迹中的复杂细节。另一方面,仅使用稀疏轨迹进行训练提供的信息有限,使得学习过程更加困难。通过首先使用密集光流进行训练,然后使用稀疏轨迹进行微调,本文的模型展示了对各种类型轨迹数据的更高适应性。这种方法不仅增强了整体性能,还提高了模型处理多样化运动模式的能力。

结论

本文介绍了Tora,这是第一个面向轨迹的扩散Transformer框架,用于视频生成,集成了文本、图像和轨迹条件。Tora有效地将任意轨迹编码为时空运动块,这与DiT的缩放特性相一致,从而实现了更逼真的物理世界运动模拟。通过采用两阶段训练过程,Tora在各种持续时间、纵横比和分辨率下实现了运动可控的视频生成。值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。这一能力突显了Tora在处理多样化运动模式时的多功能性和鲁棒性,同时保持高视觉保真度。本文希望本文的工作为未来的运动引导扩散Transformer方法研究提供一个强有力的基线。

参考文献

[1] Tora: Trajectory-oriented Diffusion Transformer for Video Generation

 更多精彩内容,请关注公众号:AI生成未来

欢迎加群交流AIGC技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1970350.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据挖掘实战-基于Prophet时间序列模型预测阿里巴巴股票价格趋势(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

【系统架构设计师】二十三、通信系统架构设计理论与实践①

目录 一、通信系统网络架构 1.1 局域网网络架构 1.1.1 单核心架构 1.1.2 双核心架构 1.1.3 环型架构 1.1.4 层次型架构 1.2 广域网网络架构 1.2.1 单核心广域网 1.2.2 双核心广域网 1.2.3 环型广域网 1.2.4 半冗余广域网 1.2.5 对等子域广域网 1.2.6 层次子域架构…

文献阅读:基于拓扑结构模型构建ICI收益诊断模型

介绍 Custom scoring based on ecological topology of gut microbiota associated with cancer immunotherapy outcome是来自法国Gustave Roussy Cancer Campus的Laurence Zitvogel实验室最近发表在cell的关于使用肠道微生物拓扑结构预测免疫治疗疗效的文章。 该研究提供基于…

html+css 实现左平移背景按钮

前言:哈喽,大家好,今天给大家分享htmlcss 绚丽效果!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 文…

【Android Studio】gradle文件、配置、版本下载、国内源(gradle版本以及gradle-plugin版本)

文章目录 AS查看gradle-plugin版本及gradle版本(图形)查看gradle-plugin版本及gradle版本(配置文件)配置文件分析解决gradle下载失败、版本错乱等问题。 AS查看gradle-plugin版本及gradle版本(图形) 查看gr…

金航标萨科微总经理宋仕强介绍金航标热售产品

金航标萨科微slkor总经理宋仕强介绍说,金航标kinghelm热售产品型号有,金航标胶壳(线对板/线对线)连接器KH-VH-2P-ZK、KH-VH-5P-ZK、KH-VH-4P-ZK、KH-A2557-2X07Y,金航标kinghelm(www.kinghelm.com.cn)的弹簧片/弹片有K…

“田野八式”与人类学的田野研究方法

作 者:赵旭东 来 源:《民族学刊》 [摘要] 笔者根据自己多年来的田野工作经验,将人类学田野研究方法总结为: 心存异趣、扎实描记、留心古旧、知微知彰、知柔知刚、神游冥想、克己宽容以及文字天下八个方面&#xff0c…

3百题英语四级听力考试练习题ACCESS\EXCEL数据库

其实一直都想搞一搞英语听力题相关的数据,但是一直都没有遇到过或者遇到过但是没办法弄下来,今天有幸遇到一个英语四级听力考试练习题,听力MP3文件包含96个,题目包含300题,具体请查看截图,截图包含了所有字…

笔记小结:《利用Python进行数据分析》之读取数据

目录 读取文本格式的数据 基本操作 指定分隔符 指定标题行 层次化索引 使用正则表达式分隔 跳过某些行 缺失值处理 逐块读取文本文件 设置显示的最大行数 只读取几行 逐块读取文件 将数据写出到文本格式 基本操作 使用其它分隔符 使用其它标记符标记空白字符串 禁…

IoTDB 入门教程 企业篇①——IoTDB企业版(TimechoDB)快速上手

文章目录 一、前文二、试用三、解压四、激活五、启动六、连接七、停止八、IoTDB-Workbench 一、前文 IoTDB入门教程——导读 二、试用 通过天谋科技官网,联系天谋科技的商务。请求免费试用TimechoDB企业版,获得试用软件包 三、解压 iotdb-enterprise…

舞蹈症宝贝的专属锻炼秘籍来啦~✨

嘿宝贝们!👋 是不是有时候觉得身体里的“小舞蹈家”总想出来蹦跶两下,但又怕锻炼不当反而“跳”出问题?别怕,今天就给你种草一套超萌又超有效的舞蹈症患者锻炼大法!🎉 🌟【热身小妖精…

《Milvus Cloud向量数据库指南》——音频数据如何选择合适的 Embedding 模型?

音频数据:PANNs与音频搜索的深度探索 在数字化时代,音频数据作为信息传递的重要载体,其处理与分析技术日益受到关注。与图像搜索领域的“以图搜图”相类似,音频搜索技术也逐步成熟,允许用户基于输入的音频片段快速定位到相似或相关的音频内容。这一技术的实现,离不开强大…

苹果已明确允许 iPhone 和 iPad 上使用 PC 模拟器

苹果公司更新了其应用程序审核指南,允许 PC 模拟器提供 游戏下载,此举可能会改善应用程序商店中模拟器的状况。自苹果公司修订《应用程序审核指南》,允许模拟器进入 App Store 以来已经过去了三个月。虽然已经有很多模拟器被引入商店&#xf…

Python接口自动化测试数据提取分析:Jmespath

1、引言 在处理JSON数据时,我们常常需要提取、筛选或者变换数据。手动编写这些操作的代码不仅繁琐,而且容易出错。Python作为一个功能强大的编程语言,拥有丰富的库和工具来处理这些数据。今天,将介绍一个实用的Python库——JMESP…

SqlLite性能问题

sqlLite性能 最近使用sqlLite做了一些项目工具,对sqlLite的性能大概有了一个比较浅显的了解,在这里分析一下,希望能作为大家做技术选型的参考。 首先是写能力,sqlLite是一个单文件数据库,再加上锁问题,sqlL…

Postman:API开发与测试的强大伴侣

在当今的数字化时代,API(应用程序编程接口)已成为不同软件系统之间通信的桥梁,它们如同数字世界的“翻译官”,使得数据和服务能够在不同的平台和应用程序之间无缝流动。然而,API的开发、测试和维护并非易事…

大数据-62 Kafka 高级特性 主题 kafka-topics相关操作参数 KafkaAdminClient 偏移量管理

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

内网穿透的应用-Windows系统如何ssh连接群晖nas使用docker安装内网穿透软件

文章目录 前言1. 检查安装Container Manager2. 检查开启群晖SSH连接3. Windows SSH 连接群晖4. 下载Cpolar 镜像5. 群晖Docker安装Cpolar 前言 在某些群晖NAS型号版本,无法使用套件安装的时候,我们可以采用Docker的方式进行安装cpolar内网穿透工具&…

你看不上的“垃圾”——别人的赚钱“利器”

首先说一点,你认为是常识性的东西,也许还有4亿中国人不知道。 其次,你认为是遍地都有的、你看不上的、你瞧不起的这些“破烂玩意”,别人也许正拿来赚钱! 不可思议吧,事实就是如此。 我在老家,…