MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
MOSE 是一个新的视频目标分割数据集,旨在解决复杂环境下的目标跟踪和分割。MOSE 包含 2,149 个视频片段和来自 36 个类别的 5,200 个物体,以及 431,725 个高质量物体分割掩码。MOSE 数据集最显著的特征是包含了拥挤和遮挡的复杂场景。视频中的目标对象通常会被其他对象遮挡,甚至在某些帧中消失。
任务中,作者在 MOSE 数据集上对 18 种现有的 VOS 方法进行了基准测试,并在 4 种不同设置下进行了综合比较。实验结果表明,目前的 VOS 算法无法很好地感知复杂场景中的物体。例如,在半监督 VOS 设置下,现有先进 VOS 方法在 MOSE 上的最高 J&F 仅为 59.4%,远低于其在 DAVIS 上 ~90% 的 J&F 性能。
结果表明,尽管在现有基准上已经取得了优异的性能,但在复杂场景下仍存在尚未解决的挑战,未来需要更多的努力来探索这些挑战。
- 论文链接:https://arxiv.org/abs/2302.01872
- 项目链接(开源):https://henghuiding.github.io/MOSE/