eggtart队比赛攻略

news2025/1/23 5:00:34

关联比赛:  “新内容 新交互”全球视频云创新挑战赛--算法挑战赛道

赛题回顾

本次赛题核心为高清视频人像分割,属于无监督视频物体分割任务,要求在未提供任何额外输入的情况下,识别并定位视频中的主要人物,并精确到图像的每个像素。

赛题数据多来自于影视剧、运动、舞蹈、街拍等视频片段,这些多样的场景会带来以下技术难点:

  • 高精度:要求关注人物边缘细节及附属物的分割,包括背包、手持物、复杂的发饰服饰等;
  • 多目标:实例级分割,存在目标间相互遮挡、相似目标及背景人物的干扰;
  • 多尺度:目标尺寸跨度较大,人物形变,小目标识别等。

其中,镜头切换,人物遮挡,人物快速运动及目标人物的中途出现或消失等问题都可能成为算法的瓶颈,部分难例如下图所示:

enter image description here

初赛方案设计

无监督VOS可被拆解成人物分割和人物追踪两部分。在初赛方案中我们使用了用于显著人物分割的SOLOv2算法,用于时序人物分割的STM算法,并创新性地提出了将两者结合的动态融合推理算法。

SOLOv2具有较好的速度和精度的trade-off,能够高效地生成显著人物的初始mask。有了初始mask后,可以将无监督VOS问题转化为半监督VOS,因此可以使用STM算法进行时序上人物的追踪分割。原生的STM算法对于本次比赛的数据存在以下不足:

  1. 随着帧数的增加,可能出现误差累积现象,容易造成目标混淆、跟错等情况;
  2. 当目标在视频中途消失或被遮挡时容易跟丢目标;
  3. 对于小目标跟踪效果较差,或分割精度不够高。

为此,我们引入Motion Guided Attention和ASPP模块,进一步提高STM的运动捕捉能力以及对小目标的分割能力。其中motion-guided模块使用了前一帧的分割mask,旨在使模型更好地学习到目标运动的连续性,减少同帧内相似目标的混淆。使用ASPP模块,提高对小目标的分割效果。

enter image description here

使用Motion-Guided STM能够在一定程度缓解以上问题,但如果只用某一帧的solo mask作为起始mask进行半监督VOS,仍然存在严重的误差累积。为了进一步解决该问题,并尽可能多地捕捉视频中的主要人物,以及更充分地利用SOLOv2和STM的分割结果,我们提出了一种动态融合的无监督推理算法。

动态融合(Dynamic Fusion)模块不涉及参数训练,是基于规则的推理算法,可以简单高效地结合实例分割算法和半监督VOS算法的分割结果,其主要流程如下图所示:

enter image description here

我们发现,使用Dynamic Fusion模块,不但可以在一定程度上解决STM的误差累积现象,还可以对视频中途出现或消失的人物进行持续分割,因此可以应用于较长的视频片段。

复赛方案设计

本次复赛不同于以往的赛题,需要在CPU上进行推理,且200段视频测试时间不得超过10小时,对网络性能提出了很高的要求。这就要求参赛者在保证模型高精度的同时,更多地考虑模型推理加速的优化工作。
为此,我们在初赛方案上进行了以下几点改进:

1、为了进一步提高人物分割精度,且不增加太多额外计算,我们在SOLOv2后面增加了一个轻量的RefineNet模块,优化人物边缘细节及分割mask的完整性。

enter image description here

2、为了提高STM推理效率,先使用SORT(Simple Online and Real-time Tracking)算法提供人物初始跟踪序列,再用STM对初始跟踪序列进行关联和补全。
SORT算法是一种快速多目标跟踪算法,基于卡尔曼滤波与匈牙利算法来进行目标跟踪。对镜头固定,人物位移小的视频能够有较好的跟踪效果。但对于目标遮挡、快速运动、镜头切换等场景,其跟踪效果不佳,主要表现为目标ID的频繁切换。
为此,我们优化了初赛的Dynamic Fusion模块,提出了新的SORT+STM两阶段推理流程,如下图所示:

enter image description here

通过STM mask和SOLOv2 mask的融合,进行SORT序列之间的关联匹配,能够纠正同一个instance序列被SORT算法分成多段及检测丢帧等情况,同时极大地缩短了STM的运行时间。复赛200段测试视频在CPU上的全流程推理时间只需2小时

比赛总结

算法优点

  • 使用single-shot的实例分割算法SOLOv2,推理速度快、精度高;
  • Motion-Guided STM算法学习了运动的连续性,提高了小目标的分割效果;
  • 初赛提出的Dynamic Fusion模块缓解了时序分割的误差累积现象,可应用于较长视频片段,并可以模块化地替换实例分割和半监督VOS使用的模型;
  • 复赛提出的SORT + STM两阶段跟踪算法,在保证模型效果的同时,极大地减少STM的运行时间。

优化方向

  • 引入光流、ReID等模块;
  • 改进STM算法,设计更轻量的Memory机制;
  • 尝试基于Transformer的视频实例分割算法,如VisTR等。

查看更多内容,欢迎访问天池技术圈官方地址:eggtart队比赛攻略_天池技术圈-阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微服务配置中心介绍

在微服务架构中,配置中心是一个非常重要的组件,它负责管理所有服务的配置信息,使得配置管理变得更加集中和动态。配置中心能够极大地提高微服务架构的灵活性和可维护性。 为什么需要配置中心? 在传统的单体应用中,配置…

22:SPI一:简单的使用

SPI简单的使用 1、什么是SPI2、数据通信2.1:5个重要参数2.2:4种传输模式 3、程序模拟SPI通信时序3、片上外设SPI通信时序 1、什么是SPI SPI是一种同步的,全双工,支持总线挂载多设备的通信协议。它特别适用于高效,快速…

【Python报错已解决】 TypeError: Descriptors cannot not be created directly

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

计算机毕业设计 健身房管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

MUNIK谈ASPICE系列专题分享(六)企业为什么要做ASPICE?

前言: 知名的几家主机厂对ASPICE有什么各自的要求?企业应该做哪些应对 1-说到“企业为什么要做ASPICE”这个话题,我们首先需要了解一下ASPICE的历史。 在1993年,国际标准化组织(ISO)和国际电工委员会&am…

C++_类和对象(下篇)—— 内部类、匿名对象、对象拷贝时的编译器优化

目录 四、类和对象(下篇) 5、内部类 6、匿名对象 7、对象拷贝时的编译器优化 四、类和对象(下篇) 5、内部类 如果⼀个类定义在另⼀个类的内部,这个内部类就叫做内部类。内部类是⼀个独立的类,跟定义…

基于SpringBoot+WebSocket实现地图上绘制车辆实时运动轨迹图

实现基于北斗卫星的车辆定位和轨迹图的Maven工程(使用模拟数据),我们将使用以下技术: Spring Boot:作为后端框架,用来提供数据接口。Thymeleaf:作为前端模板引擎,呈现网页。Leaflet…

Agile Modbus STM32裸机移植 从机使用

本教程手把手教你实现Agile Modbus,照抄就能成。 并且会解读函数功能含义。 1. 引言 Agile Modbus 是一个轻量级的 Modbus 协议栈,可以满足用户在任何场景下的需求。 功能 支持 rtu 和 tcp 协议,使用纯 C 语言开发,不涉及任何硬…

安科瑞AIM-D100系列 光伏直流系统直流绝缘监测仪——保障光伏发电运行稳定可靠

应用场景:发电厂家、变电站的直流屏、电动汽车充电装置、UPS供电系统、光伏直流系统、储能系统及其它直流电网等直流系统。 随着工业的发展,很多用电设备和工厂设备采用直流系统供电,直流系统的正极和负极不接地。对于不接地(IT&…

Axure中后台管理信息系统通用原型方案

Axure中后台管理信息系统通用原型方案中的12套模板,旨在帮助开发者与设计师快速搭建出标准且美观的中后台产品原型,提升开发效率和节省协作成本。这些模板覆盖了多样化的中后台管理系统开发需求,具有高度的灵活性和可定制性。 以下是对这些模…

LINUX网络编程:传输层

目录 1.端口号 1.1知名端口号 1.2注意 2.UDP协议 2.1UDP报头的格式 2.2UDP的特点 2.3UDP的缓冲区 1.端口号 端口号的作用标识一个网络中主机的一个进程。 网络之间通信无非就是,发送端和接受端进程之间的通信,所以通过ip地址找到目标主机之后&am…

城市道路街景的绿视率计算 绿化率计算(包括街景的获取)

项目背景 随着城市化进程的加快,城市绿地的重要性日益凸显。合理的绿化不仅能美化城市环境,还能净化空气、调节气候、减轻热岛效应等。因此,对城市道路街景的绿视率和绿化率进行量化分析,对于促进城市可持续发展具有重要意义。 项…

基于stm32的四旋翼无人机控制系统设计系统设计与实现

文章目录 前言资料获取设计介绍功能介绍设计程序 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业…

基于SpringBoot+Vue+MySQL的家乡特色推荐系统

系统展示 用户前台界面 管理员后台界面 系统背景 在当今数字化时代,随着旅游业的蓬勃发展和人们对本土文化探索的热情日益增长,一个基于SpringBoot、Vue.js与MySQL的家乡特色推荐系统应运而生。该系统旨在通过现代互联网技术,深度挖掘并展示各…

六、RS485实验

目录 一、RS485介绍 二、RS485通信电路 1、TP8485接口 2、485通信波形图 三、RS485相关HAL库驱动介绍 一、RS485介绍 串口是一个泛称,UART、RS232、RS422和RS485都遵循类似的通信时序协议,被通称为串口。 图1 通信时序协议 RS485是串行通信标准&am…

DBeaver 连接 mysql 报错:Public Key Retrieval is not allowed

前言 DBeaver 连接 mysql 报错:Public Key Retrieval is not allowed 遇到 "Public Key Retrieval is not allowed" 错误时,通常意味着你正在使用的身份验证方法需要加密连接,但是没有正确地配置客户端或服务器来支持这种加密。 解…

springbootadmin源码编译修改001_node版本管理工具nvm_任意切换node版本_没有成功记录过程---VUE工作笔记0026

由于项目需要对springbootadmin的源码进行编译和修改. 但是springbootadmin的源码编译很麻烦,主要是由于,springbootadmin-server-ui这个项目,因为他是一个前后端分离的 vue项目,而且是使用 https://github.com/coreybutler/nvm-windows/releases/tag/1.1.12 首先去下载,发…

Give azure openai an encyclopedia of information

题意:给 Azure OpenAI 提供一部百科全书式的信息 问题背景: I am currently dabbling in the Azure OpenAI service. I want to take the default model and knowledge base and now add on to it my own unique information. So, for example, for mak…

设备稳定流畅视频体验,乐鑫ESP32-S3芯片方案无线音视频传输通信

在快节奏的现代生活中,家庭安全和便利性成为了人们日益关注的话题。随着物联网技术的发展,智能家居安全系统正逐渐成为守护家庭的新选择。 家居安全如门锁和警报器,这些产品通过先进的传感器、摄像头和智能分析技术,不仅能够实时…

媒体购买指南:是什么以及如何开始

媒体购买是几乎任何企业都非常重要的一个过程,其中包括付费的网络广告、电视广告、音频广告、户外广告等,这些都是许多多渠道营销策略中的重要组成部分。然而,线上和线下广告远非简单之事,尤其是数字广告,随着各种平台…