ICCV 2023 | 港中文MMLab: 多帧光流估计模型VideoFlow，首次实现亚像素级别误差

news2025/7/12 17:30:05

本文提出了一个多帧光流估计模型 VideoFlow，旨在充分挖掘视频中的时序信息和运动规律，避免当前主流方法只以两帧图片作为输入而面临的信息瓶颈，显著提升了光流估计的性能。

在公开的 Sintel Bechmark 上，VideoFlow 在 Clean 和 Final 两个子集分别取得了 0.991 与 1.649 AEPE，与之前发表的最好结果（1.073 和 1.943）相比，误差下降了 7.6% 和 15.1%，并且是首个在 Clean 子集实现亚像素级别误差的模型。在自动驾驶 KITTI-2015 Benchmark 上，VideoFlow 实现了 3.65% 的 Fl-all error，相比之前发表的最好结果（4.52%）误差降低了 19.2%。模型与训练代码均已开源。

论文标题：

VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow Estimation

论文链接：

https://arxiv.org/abs/2303.08340

代码链接：

https://github.com/XiaoyuShi97/VideoFlow

是基于什么样的思考完成了这篇文章？

光流的目标是估计源图象中每个像素在目标图片的对应位置。在许多下游视频处理任务中，如视频修复、动作识别、视频压缩、视频插帧，光流是表征图片间对应关系和场景内运动信息的基础性方法。

然而，主流的光流估计模型普遍只以相邻的两帧图片作为输入，面临以下两个问题。

两帧模型面临信息瓶颈：由于遮挡、大范围移动、弱纹理等情况存在，只以两帧图片作为输入进行光流预测面临极大的歧义（ambiguity）。
两帧模型与下游任务需求不匹配：大多数下游视频任务需要对视频的所有帧进行光流估计，由于缺乏相应的多帧光流模型，下游任务只能通过多次使用两帧模型获得光流估计。

因此，在本篇文章中，我们聚焦于多帧光流模型设计，充分利用更多帧输入图片带来的信息，大幅提高光流估计的准确性。另一方面，VideoFlow 同时估计双向光流，并且可以处理任意帧数的视频，更好满足下游视频任务的需求。

这项工作做了什么？

VideoFlow 主要由两部分组成。我们首先考虑以相邻三帧图片作为输入时，模型应该如何设计。我们提出了 TRi-frame Optical Flow（TROF）模块，核心在于同时预测从中间帧到前后两帧的光流，因为这两个方向的光流从相同的像素出发，避免之前方法由于单向 warp 光流无法对齐而产生的误差。

当输入帧数大于三帧时，基于三帧模块 TROF，我们额外引入一个运动传递（Motion Propagation）模块（MOP），通过在相邻的三帧模块之间传递运动信息，增大了在时序维度的感受野，进一步提高光流估计的准确性。

2.1 三帧模型

当输入为三帧相邻的图片时，使用共享权重的特征编码器获得对应特征图，然后分别构建中间帧与前后两帧的 cost volume。我们采用类似 RAFT 的结构，迭代优化光流估计。不同之处在于，在每一步迭代时，我们采用最简单的 concat 操作，将输入变为双方向的 cost feature 和当前估计的双向光流值。通过综合双向的相似性信息和运动信息，TROF 模型能利用额外的一帧提高光流估计的准确性。

2.2 多帧模型

当输入多于三帧时，我们以相邻的三帧作为基础单元（stride 为 1），在每个三帧单元中延续之前的 TROF 模型。为了实现不同单元之间信息的传递与融合，我们提出了运动传递（Motion Propagation）模块（MOP）。

具体来说，每个三帧单元额外维护一个运动状态向量 M_t，在每一步迭代更新之前，前后两个三帧单元的运动状态向量（m_fwd 和 m_bwd）会根据光流 warp 到中间的三帧单元，实现相邻单元的信息传递。每个一步结束后，运动状态向量都会更新。由于我们采用迭代更新的方式，随着迭代步数的增加，时序维度的感受野会不断变大，每个三帧单元能获得更多的信息，因而能更加准确地估计光流。

实验结果

我们在 Sintel 和 KITTI-2015 两个数据集上评测 VideoFlow。其中 Sintel 有 Clean 和 Final 两个子集，它们内容相同的，但是 Final 子集中的图象存在运动模糊，因而更加困难。

我们的三帧模型已经超越了之前所以发表的方法。五帧模型进一步提高了准确度。值得注意的是，VideoFlow 是首个在 Sintel Clean 子集实现亚像素级别误差的方法。

具体而言，在 Sintel Bechmark 上，VideoFlow 在 Clean 和 Final 两个子集分别取得了 0.991 与 1.649 AEPE，与之前发表的最好结果（1.073 和 1.943）相比，误差下降了 7.6% 和 15.1%。在自动驾驶 KITTI-2015 Benchmark 上，VideoFlow 实现了 3.65% 的 Fl-all error，相比之前发表的最好结果（4.52%）误差降低了 19.2%。