视频分割新范式:视频感兴趣物体实例分割 VOIS

news2024/11/17 0:39:02

1. 背景

视频中物体分割是视频理解的基础算法,也是对淘宝商品视频分析和加工所依赖的重要能力。传统的视频分割任务一般分为两种类型:一种是VOS(Video Object Segmentation),该任务需要在第一帧给出物体的初始分割标注,并在此基础上对视频后续帧中的标定物体进行跟踪和分割;另一种是VIS(Video Instance Segmentation),这个任务目标是在预定的物体类别范围内,实现物体的检测、分类、跟踪和分割。

VOS需要给定第一帧标注,在实际应用中可行性低,因为视频的第一帧可能不包含需要分割的商品,另外在批量处理场景也难以通过交互给出物体的分割区域;VIS方案需要预先定义物体的类别范围,但对于淘宝平台而言,商品种类和样式繁多,且新品增速快,无法预先确定需要分割的物体类别集合。

为了实现从视频中分割任意物体,我们提出了一个新任务:视频感兴趣物体实例分割(VOIS,Video Object of  Interest Segmentation),给定视频和目标物体图像,从视频中检测、跟踪并分割出目标物体。同时我们设计了一种基于双路Transformer融合图像和视频特征的方案,实现给定任意视频和感兴趣图像对,从视频中跟踪并分割出给定的物体。基于该工作论文已发表在AAAI 2023,欢迎阅读交流。

论 文: Video Object of Interest Segmentation

下 载(点击↓阅读原文)https://arxiv.org/abs/2212.02871

2. 任务介绍&数据集

2.1 VOIS任务介绍

任务定义:给定一个视频和感兴趣物体的图像,从视频中分割出与感兴趣物体相关的实例。

相关物体(实例):是指视频中的物体在样式、类别和颜色等方面都与图片中的物体一致。物体存在一定的形变、角度变化等情况,仍被认为是相关物体。

分割目标:需对所有的相关物体实例实现跟踪和分割,如果存在多个相关物体,需要能够单独区分实例。

dc84d053d7d1c9b74613bee1a3628710.png
从上到下依次为商品图、原视频帧、视频帧的分割结果(不同颜色代表不同实例)

2.2 数据集

数据集构建

对于VOIS任务,目前没有与之匹配的数据集,因此我们重新构建了一个视频图像对组成的视频实例分割数据集。数据集中的视频来源于淘宝直播场景,图片来源于淘宝商品白底图,标注方式为人工标注。数据集中共包含2418个视频片段和商品图像样本对。其中,视频2003个,目标商品图像2418个,共包含3341个目标物体,11.4万个掩码图(视频和图的掩码数量总和)。每个视频长度在5秒~7.2秒之间,同时在数据构建时保证视频中有目标物体出现。由于视频的来源为淘宝直播,我们将数据集命名为LiveVideos,LiveVideos与常用视频分割数据集对比的情况见下表:

4a1f99999341ae3fda39a6f5648595c7.png

另外,这个数据集也可以作为基础数据集支持其他视频分析相关任务使用,比如视频检索(Video Retrieval),视频精彩片段判断(Video Highlight)等。

评价指标

VOIS的目标与VIS任务类似,均需从视频中检测、跟踪并分割目标物体,因此,我们应用VIS任务中使用的平均准确率(AP, Average Precision )和平均召回率(AR,Average Recall)指标来对VOIS任务的效果进行评估。

3. 方案介绍

e6c4ac27e7b78d5cbc845747463d3a47.png
整体方案流程图

为了实现感兴趣物体实例分割,我们提出了一种Encoder-Decoder结构,包括对图片和视频编码、特征解码和目标物体检测、掩码分割几个部分,主要流程如下:

3.1 特征提取

由于VOIS任务需要同时处理一个视频和一个图像,我们使用一个双路Transformer结构来提取视频和图像特征。考虑到效果和时效性,我们采用了Swin Transformer作为特征提取结构,Swin Transformer的特征提取包括4个阶段(Stage),每个阶段对空间维度进行下采样,实现特征提取。

f69fdec1fa2d35bd2ddd0605641f9255.png
Swin Transformer结构和Cross Transformer结构图

3.2 特征融合

为了将图片和视频的特征结合在一起,我们同时将两个特征输入到Cross Transformer模块,生成融合特征。Swin Transformer的特征提取模块包含4个阶段,我们将Cross Transformer模块添加到第3和第4阶段,以融合更高阶的模型特征,Cross Transformer采用常用的Multi-head Cross-Attention结构。

3.3 实例生成

受到DETR的启发,我们使用一个Transformer Decoder从融合特征中生成物体的候选集合。在融合特征进入到Transformer Decoder之前,我们利用Embedding层实现对特征维度的匹配。经Decoder之后,我们从视频中的每一帧中解码出n个物体,n为预定义的超参数。

3.4 物体匹配

在物体匹配过程,我们利用二部图匹配损失(Bipartite Matching Loss)训练匹配模块,将预测实例和标注(Ground Truth)匹配。在进行了二部图匹配之后,候选物体与目标物体之间将具有最优的匹配方案,也就是最短距离。根据匹配结果,即可找到视频中的感兴趣物体的相关实例。

3.5 视频分割

视频分割环节,使用视频序列分割模块为每个候选物体生成分割结果。我们利用匈牙利损失(Hungarian Loss)实现分割模块的训练,匈牙利损失主要包括:分类、包围框回归和分割三个模块,其中分类模块输出代表候选物体的置信度,包围框回归和分割模块的输出分别代表物体的包围框和分割结果。

4. 实验

4.1 Baseline搭建

由于现有的视频分割方案(如VOS和VIS任务的解决方案)跟VOIS设定存在差异,我们在任务定义的时候额外给定了一张输入图片,因此现有的视频分割方法无法直接与之对比。为了实现合理的方案对照,我们在现有视频分割方案的基础上,增加新的图像编码分支,复现不同方案在VOIS数据上的效果。我们基于MaskTrack R-CNN 和 VisTR两个实例分割方案实现对比Baseline。

MaskTrack R-CNN模型

我们额外增加一条ResNet分支作为图像特征提取Backbone,然后使用Cross Transformer融合图像和视频两种特征,使用双路输入的特征提取和特征融合模块替代原始Backbone。

VisTR模型

VisTR采用了ResNet作为特征提取Backbone,我们采取跟改造MaskTrack R-CNN类似的方式提取图像特征,用融合特征替换原始Backbone。由于VisTR包含Transformer特征处理模块,我们将VisTR模型里的Transformer层改为Cross Transformer,作为视频、图像特征的融合,最后将融合特征输出给Decoder模块。

4.2 对比实验

实验数据

在完成Baseline模型的适配后,我们实验对比了MaskTrack R-CNN 、VisTR和我们提出方案的视频分割效果。实验结果可以看出,我们的双路Swin Transformer方案在平均准确率(AP)和平均召回率(AR)指标上均优于两个Baseline。

0cc68b30519fd36bce55b9f74b5dbb79.png
不同方法实验指标对比

不同方案效果对比示例

912d364ad1e1869aa8c2511d6023b045.png
不同方法分割效果对比图

在上图中,左侧给定的是目标物体的图像,右侧的第一列为原始视频帧,右侧第二列为标注结果,右侧的后三列是不同方法的分割结果。在分割结果中,不同颜色代表不同的实例。由于给定的商品(物体)可能包含不同的包装样式,视频中包含很多相似的物品,准确地找出给定物体存在一定难度。从分割结果上可以看出,我们提出的方案在物体识别能力和目标分割准确度上均优于其他方法。

4.3 消融实验

验证目标图像的作用

在VOIS任务定义和模型构建过程时,我们在数据集中提供并在模型中使用了感兴趣的目标图像,我们期望提供的感兴趣图像能够引导模型从视频中找到正确的物体,在此我们验证了给定图像对分割效果的影响。具体来讲,我们在模型中删除图像特征提取分支,只保留视频特征提取分支,与双路输入的模型对比效果。我们发现在去除目标图像分支后,模型的AP和AR1分别下跌了12.1和10.2。由此验证在VOIS任务中,给定图像特征直接影响视频分割的效果,且图像在模型推理过程中可以正确地引导视频分割目标物体。

9595238e8fd0787da72d8112e1837903.png
是否包含图像分支的对比结果

选择最优模型结构

在特征融合时, 我们在Swin Transformer的第3、4层添加了Cross Transformer结构,原因为网络初始层只包含低层模型特征,同时前两层的特征图较大,使得Cross Transformer的计算占用过多显存空间难以计算。因此我们主要关注在第3、4阶段(Stage)验证添加Cross Transformer的效果。只在第3阶段或第4阶段添加Cross Transformer,与两层均添加相比 AP 分别降低1.1和1.3,AR1分别降低0.7和0.3。由此可见,两次特征融合可以更好地匹配视频和图像特征。

476faa3ec5bec2db0a871bf0a5b11489.png
模型结构对比结果

5. 总结和展望

为了突破传统视频分割算法的局限性,我们提出了一种应用场景更加广泛的视频分割范式VOIS:根据提供的视频和目标物体图像,对视频中的目标物体进行实例分割。同时,我们提出了一种有效解决VOIS任务的模型,该模型可以学习到一种通用的、对视频和图像特征进行提取和匹配的能力,从而能够有效处理任意给定的视频和图像对,满足我们面临的商品样式多、新品增速快的海量视频分析场景。然而,目前方案仍有一定的扩展空间,比如:给定的图像中包含多个物体时,如何在视频中对不同的物体实现多类别的实例分割等,未来我们也将持续在相关方向上探索。

6. 关于我们

我们是阿里妈妈创意&内容算法团队,致力于推动广告创意和内容投放产业的AI升级,努力推动创意制作、理解、模型预估和广告投放的全栈智能化。得益于阿里巴巴庞大而真实的营销场景,团队在图像技术、视频技术、文案生成、广告投放等领域持续发力和创新,现已构建出图片与短视频创意自动生成,创意个性化投放,智能文案写作,全自动与交互式抠图等特色产品,论文发表于CVPR、ICCV、AAAI、ACMMM、WWW、EMNLP、CIKM、ICASSP 等领域知名会议。用AI赋能现代营销,驱动产业升级。真诚欢迎CV、NLP和推荐系统相关领域的同学加入!

投递简历邮箱

alimama_chuangyi@service.alibaba.com

7. 参考文献

[1] Liu, Z.; Lin, Y.; Cao, Y.; Hu, H.; Wei, Y.; Zhang, Z.; Lin, S.; and Guo, B. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV.

[2] Liu, Z.; Ning, J.; Cao, Y.; Wei, Y.; Zhang, Z.; Lin, S.; and Hu, H. 2022. Video swin transformer. In CVPR.

[3] Wang, Y.; Xu, Z.; Wang, X.; Shen, C.; Cheng, B.; Shen, H.; and Xia, H. 2021. End-to-end video instance segmentation with transformers. In CVPR.

[4] Ge, W.; Lu, X.; and Shen, J. 2021. Video object segmentation using global and instance embedding learning. In CVPR.

[5] Voigtlaender, P.; Chai, Y.; Schroff, F.; Adam, H.; Leibe, B.; and Chen, L.C. 2019. Feelvos: Fast end-to-end embedding learning for video object segmentation. In CVPR.

[6] Yang, L.; Fan, Y.; and Xu, N. 2019. Video instance segmentation. In ICCV.

END

c3a65818df0d2023c59fd6bd0422457b.gif

也许你还想看

营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

实现"模板自由"?阿里妈妈全自动无模板图文创意生成

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

20d11ff060949ce6b89ce08264aae2e8.gif

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/192701.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系列 目录和文件管理

作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 简介 本章重点 一.检查文本内容 ​编辑 1.cat命令——显示并…

MySQL分表查询之Merge存储引擎实现

概念介绍 MySQL 分表之后怎么进行联合查询?用有表数量限制的 union all,还是汇总到一张表再查询,亦或用Sphinx( 高性能SQL全文检索引擎 )? 在这篇文章里,介绍使用 Merge [mɜːrdʒ] 存储引擎…

浅读人月神话(2)

读书笔记:今日翻书浅读,从《为什么巴比伦塔会失败》开始至《干将莫邪》结束,巴比伦塔的建造对当下项目推进有广泛借鉴意义,今天这几个章节在PMBOK中有一些可以互相对照学习的内容,《为什么巴比伦塔会失败?》…

荔枝派 zero 使用 Jlink 调试

Jlink 所谓硬件版本,就是这个调试器的硬件是第几代,我手上的这个是 V8 所谓固件版本,就是这个调试器主芯片中内置的软件是什么版本,我刷入的是 J-Link ARM V8 compiled Nov 28 2014 13:44:46 所谓 Jlink 工具版本,就…

记录--原生 canvas 如何实现大屏?

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 可视化大屏该如何做?有可能一天完成吗?废话不多说,直接看效果,线上 Demo 地址 lxfu1.github.io/large-scree…。 看完这篇文章(这个项目)&#xff…

在线支付系列【13】微信支付之签名验签流程分析

有道无术,术尚可求,有术无道,止于术。 文章目录前言签名生成签名验证总结前言 在上篇文档中,我们简单实现了对接微信支付的几个接口。了解到wechatpay-apache-httpclient框架自动实现了签名和验签,接下来跟踪下源码&a…

LeetCode-136. 只出现一次的数字

目录题目分析哈希集位运算题目来源 https://leetcode.cn/problems/single-number/ 题目分析 题目有个条件可谓相当重要,即凡重复的元素最多重复一次(原话:给定一个非空整数数组,除了某个元素只出现一次以外,其余每个…

详解Mybatis-Plus中分页插件PaginationInterceptor, MybatisPlusInterceptor在SpringBoot中的使用

文章目录1. 描述1.1 MybatisPlusInterceptor1.2 InnerInterceptor2. 实现2.1 不带条件的分页查询2.2 带条件的分页查询2.3 简述Page类3. 注意事项1. 描述 1.1 MybatisPlusInterceptor 我们在开发的过程中,经常会遇到分页操作,其分为逻辑分页和物理分页…

Gif动态图片如何用静图制作?教你静图合成动图的方法

gif动图如何制作?相信对于gif动图大家都不陌生,在平时的聊天软件中、公众号文章中都可以看到。那么,要如何制作gif动图呢?下面,就给教大家两个在线gif制作(https://www.gif.cn/)的方法&#xff…

综合案例【商品管理系统-Java基础版】(附完整源码)

Java语言的一个超级简易的商品管理系统,适合初学者练手 源码包无法上传至资源(blog已经超级完整啦)如果还是需要完整源码src包可私分享 目录1 项目分析1.1 用户模块(普通用户、管理员用户)1.1.1前端系统(普…

FluentReader为什么称之为高颜值的rss阅读器

Fluent Reader 这是一款 RSS 阅读器。对于很多年轻的网友来说,RSS 这个名词可能有点陌生。简单来说只要某个网站支持 RSS,你订阅了 RSS 后,一旦网站更新了内容,就会推送到你面前。这时候,我们就需要一款像 Fluent Rea…

全屋智能三国志

刚刚过去的春节假期,对我来说,是一个收集现实素材、感应社会变化的好机会。也确实发现了不少新趋势,一个结论是:智能家居正在酝酿新一轮的市场浪潮。以央视春晚作为切口,每年央视春晚的广告投放,都一定程度…

vscode 配置 plantuml

1、首先安装 plantuml 插件 2、安装 java 开发环境 如果是 mac 系统,直接执行 brew install java ,然后按照下图执行下提示中的命令即可 如果是 windows 系统,需要去官网下载 java jdk,安装好之后添加运行路径到 path 中 https://…

基于 ShardingSphere 的分布式数据库负载均衡架构搭建实战

本文主要分为 3 部分,将依次介绍: 基于 ShardingSphere 的分布式数据库「负载均衡架构搭建」要点结合实际的「用户问题案例」,介绍引入「负载均衡」的影响介绍并展示 ShardingSphere 分布式数据库在云上的「一站式解决方案」 文章目录Shardi…

LED背光车载驱动IC 可支持48通道

特性电源电压范围-VDD:3.3V~5.5V-VLED:27V(max)48 个恒流输出通道- 通道恒流输出范围 0~50mA一 通道间电流输出偏差小于3%- 芯片间电流输出偏差小于 3%Low Knee Voltage:0.55V小于20mA0.6V 大于20mA最大支持4扫,内嵌行控制信号通道灰度实现-支持 PWM/PAMPWM驱动 -灰…

云帆文档管理系统版本更新说明:v4.6.0

一、新增及优化功能资料管理新增打包下载管理端增加资料查阅菜单,管理端和用户端用户有同样的查阅权限,方便其快速的查阅企业的资料信息前端下载文档格式添加下载水印,水印显示的是下载的用户和日期采购合同增加智能识别功能资料管理添加关键…

KPI考核系统实战之二:swagger框架

KPI考核系统实战之二:swagger框架一、asp.net core 3.1二、融合swagger1.Nuget安装Swashbuckle.AspNetCore2.Startup.cs 注册Swagger服务,使用swagger中间件一、asp.net core 3.1 使用Visual Studio 2022,搭建asp.net core weiapi开发平台&a…

煤矿皮带运行状态监测预警系统 yolov7

煤矿皮带运行状态监测预警系统通过yolov7网络模型深度学习技术,自动对传输皮带运行状态进行实时监测。当监测到皮带撕裂、跑偏、异物、堆煤等异常情况时,立即抓拍预警及时停止皮带同步回传违规信息到后台。介绍Yolo算法之前,首先先介绍一下滑…

PushKit/Callkit使用经验

前言:如果要求使用这两种库,请在查询资料并自己尝试后,多参考苹果官方的API文档:PushKit:https://developer.apple.com/documentation/pushkit?languageobjcCallKit:https://developer.apple.com/document…

人工智能与模式识别的意义(模式识别与图像处理课程作业)

人工智能与模式识别的意义(模式识别与图像处理课程作业一、 人工智能的意义二、 模式识别的意义2.1、文字识别2.2、语音识别2.3、指纹识别2.4、遥感2.5、医学诊断1、语音识别技术2、生物认证技术3、数字水印技术一、 人工智能的意义 人工智能的发送对于我们社会的各个方面都具有…