在科技高速发展的今天,AI 已经开始融入人们的生活,就在不久前阿里集团推出了一款可以生成视频的 AI 框架 Tora,这是一款可以面向轨迹的 DiT 框架,它可以结合文本、视觉以及轨迹生成视频。
Tora
之前有可以生成视频的模型也就是扩散模型可以生成不同的视频,这些视频采用的是 U-Net 框架,并且只能合成比较短时长的视频。后面出现了 Sora,Sora 采用了 DiT 框架,可以制作比较长的视频,同时还实现了真实的物理定律,但是有一个问题无法生成可控的动作视频。
而 Tora 的出现就解决了这个问题,Tora 可以和 DiT 框架高度契合,可以生成高运动保真度的视频,同时还可以模拟遵循物理定律的运动。
在 Tora 的官网(https://ali-videoai.github.io/tora_video/)中发布了多个不同的视频,视频向我们展示了其生成各种不同场景下物体的运动轨迹。
我们可以看见当在生成视频的时候会根据你提前规划好的轨迹来移动视频中的物体,就像下面这个小船一样,我们还可以清晰的看见小船滑过水面时的波纹,以及风吹水面时的涟漪。
不只是直线轨迹,Tora 生成的视频还可以按照有一定角度的轨迹进行运动,就像下面这个孔明灯向空中上升,一个是斜线一个按照一定的角度。
不仅如此,在生成视频的时候还可以同一个视频按照不同的轨迹生成不同的运动图像。
Tora 采用了基于轨迹导向的扩散变换器(DiT)技术,由一个轨迹提取器(TE)、一个运动引导融合器(MGF)和一个时空 DiT 组成。TE 使用 3D 视频压缩网络将轨迹编码为分层时空运动补丁,MGF 将运运动贴片传入 DiT 模块,然后生成遵循运动轨迹的视频。
Tora 可以制作长 204 帧,分辨率达 720P 的长视频,可以控制不同的持续时间,宽高比例。在研究中研究者对不同分辨率和时长的轨迹进行了分析,结果显示,Tora 的轨迹误差随时间的推移出现增加。
原文链接:https://www.dians.net/thread-4315.htm