MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

news2026/2/15 19:35:11

在这里插入图片描述
提出一个模型同时考虑到object motion和camra motion，分别对应着OMCM module和CMCM module，因为缺少同时包含text\trajectory\camera pose的数据，所以本文使用的是一个multistep的训练策略

Camera Motion Control Module (CMCM)
a. 训练的数据：Realestate10K，存在两个问题，一个是没有caption标注，所以使用blip2来标注clip的首帧，1/4,1/2,3/4和尾帧，得到的标注拼接到一起，另一个问题是该数据集的场景比较单一，所以在训练的时候只是训练加入的fc层和temporal attention的第二个self attention层；
b. 交互的层：temporal transformer层
c. camera motion使用 $3 * 3$ 的rotation matrix和 $3 * 1$ 的translation matrix，对于每一个长度为L的clip可以得到 $RT\in \mathbb{R}^{L\times 12}$ ，之后扩展到 $H\times W \times L \times 12$ ，得到的结果和temporal transformer的第一个self attention module的输出拼接，得到的结果经过a fully connected layer到原来的C个通道输入到下一层
Object Motion Control Module (OMCM)
a. 训练的数据：使用ParticleSfM来生成webvid数据的运动物体trajectory,每个clip选取其中的32帧，得到dense的trajectory之后，在其中随机的选取N条轨迹，此时轨迹比较稀疏，所以还进行了一个gaussian filter操作，在训练的时候，首先使用dense trajectory，然后使用sparse trajectory，在训练的时候只是训练新添加的模块；
b. 交互的层：卷积层
c. 对于一个物体，有一条轨迹 ${(x_0,y_0),(x_1,y_1),...,(x_{L-1},y_{L-1})\}$ ，转换轨迹为相对位移的表示 ${(0,0),(u_1,v_1),...,(u_{L-1},v_{L-1})\}$ ，使用 $u_i = x_i-x_{i - 1},v_i = y_i-y_{i - 1},i > 1$ 其中没有轨迹的位置使用的是（0，0）表示，转换后的轨迹尺寸 $\mathbb{R}^{L\times H\times W\times 2}$
实验
a. 训练：16frame, 256*256，sparse的轨迹数量设为8，bs=128, adam optimizer,lr= $1\times 10^{-4}$ , $8\times v100$ , 50000iteration(CMCM)+20000(OMCM dense)+20000(OMCM sparse)
b. 训练的checkpoints来自videocraft1
c. 评测：两种motion的控制使用不同的模块，对于camera motion，有8种基础+20种complicated，对于object motion设定了19种不同的trajectory;
d. 指标分为两种，一个包含FID，FVD和CLIP similarity，在1000个webvid clips上面进行计算，另一种指标来评测camera motion和object motion的cotrol能力，通过计算预测出来的camera pose与object trjectory和GT的欧式距离
和sota方法的对比，分别和animatediff的camera control以及videocomposer对比，animatediff使用lora来实现camera control，使用一页图片来展示qualitative的对比效果，还使用一张表格来展示定量的指标对比
消融实验：主要验证CMCM和OMCM integrate的位置、训练策略