STC-Seg：首个超越PointTrack的弱监督视频MOTS算法

news2025/2/25 6:52:53

弱监督视频多目标实例分割新SOTA（代码已开源）：
Paper: Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration
Code: https://github.com/ylqi/STC-Seg

在这里插入图片描述

众所周知，视频多目标跟踪与分割（Multi-Object Tracking and Segmentation，MOTS）的标注需要给每个视频帧中的每个目标描绘轮廓（Mask-Level Label），工作量十分巨大。我们希望仅仅利用更弱一级的标注——目标检测框（Box-Level Label），作为标注信息来训练视频多目标分割模型。

在图像弱监督多目标分割中，因为边界信息的缺乏，仅仅使用Box-Level的标注很难训练模型预测出较好的轮廓；然而在视频中，视频的时空信息往往包含了大量的轮廓信息，因此我们可以利用时空分析方法，包括视频深度估计方法、光流预测方法，来提取出目标的轮廓特征。

基于上述思路，STC-Seg[1]首先利用自监督的视频深度估计和光流预测方法获得深度（Depth）和光流（Optical Flow），利用它们生成Pseudo-Label来配合Box-Label的标注：
在这里插入图片描述

STC-Seg的损失函数（Loss）包括两项：（1）Boundary Term（2）Box Term。前者负责Pseudo-Label的监督，后者负责Box-Label的监督，像拼图一样将Pseudo-Label里的一块一块拼成一个完整的Mask。方法的系统框架如下：

在这里插入图片描述

其中的目标分割网络（Segmentation Network）可以选取任何多目标分割网络，例如CondInst[2]。

为了平衡Boundary Term导致预测的Mask往外扩的趋势，在Box Term的损失函数中，STC-Seg在Dice Loss的基础上做了改动：

在这里插入图片描述

最终Box Term和Boundary Term相互约束实现平衡：

在这里插入图片描述

在KITTI MOTS的官网榜单上，弱监督的STC-Seg的效果超越了经典的全监督学习的方法PointTrack和TrackR-CNN：

在这里插入图片描述

可以看到轮廓预测地非常丝滑（而 TrackR-CNN 和 MaskTrack R-CNN 都不那么贴合真实物体）：
在这里插入图片描述

References

[1] Yan, Liqi, et al. “Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration.” IEEE Transactions on Circuits and Systems for Video Technology (2022).

[2] Z. Tian, C. Shen, and H. Chen, “Conditional convolutions for instance segmentation,” in ECCV, 2020.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/89518.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！