FreeSOLO: Learning to Segment Objects without Annotations*(论文解析)

news2024/11/19 16:48:22

FreeSOLO: Learning to Segment Objects without Annotations*

    • 摘要
    • 引言

摘要

实例分割是一项基本的计算机视觉任务,旨在识别并分割图像中的每个对象。然而,要学习实例分割通常需要昂贵的注释,例如边界框和分割掩模。在这项工作中,我们提出了一种完全无监督的学习方法,可以学习不受类别限制的实例分割,而无需任何注释。我们介绍了FreeSOLO,这是建立在简单实例分割方法SOLO之上的自监督实例分割框架。我们的方法还提出了一种新颖的面向定位的预训练框架,在其中可以以无监督的方式从复杂场景中发现对象。FreeSOLO在具有挑战性的COCO数据集上实现了9.8%的AP50,甚至超过了使用手动注释的若干分割提案方法。我们首次成功展示了无监督的不受类别限制的实例分割。FreeSOLO的边界框定位明显优于最先进的无监督对象检测/发现方法,在COCO AP方面有约100%的相对改进。此外,FreeSOLO还作为一种强有力的预训练方法展现出卓越性能,当仅使用5%的COCO掩模对实例分割进行微调时,超过了最先进的自监督预训练方法约+9.8%的AP。
在这里插入图片描述
图1.FreeSOLO用于类不可知实例分割任务的定性结果。该模型在没有任何手动注释的情况下进行训练,并且可以在V100 GPU上以16 FPS进行推断。最好在屏幕上观看。

引言

实例分割是一项基础的计算机视觉任务,要求识别图像中的对象并对它们进行像素级的分割。实例分割涵盖了对象检测,因为边界框可以被视为分割掩模的粗略参数表示。因此,相对于对象检测而言,实例分割是一项更加苛刻和具有挑战性的任务,因为它要求进行实例级别和像素级别的预测。最近,已经取得了重要进展,以解决实例分割任务[1–7]。然而,这项任务的密集预测性质需要在训练期间进行丰富且昂贵的注释。因此,提出了弱监督实例分割方法来减轻注释要求[8–13]。最新的方法,如BoxInst [11] 和DiscoBox [13],已经显著缩小了与完全监督方法的差距。然而,它们的竞争结果仍然依赖包含强定位信息的边界框或点注释。

在这项工作中,我们探索了在没有任何注释的情况下学习类别无关的实例分割。这项工作建立在我们最近的SOLO [7]工作基础之上,SOLO是一个简单但强大的实例分割框架,以及自监督的密集特征学习方法DenseCL [14]。SOLO采用了单阶段的设计,包含了一个类别分支和一个掩码分支,用于分别编码对象类别信息和分割建议。我们的主要 直觉是,这种“自上而下遇到自下而上”的设计允许我们以完全自监督的方式统一像素分组、对象定位和特征预训练。

我们提出的框架FreeSOLO包含两个主要部分:Free Mask和自监督SOLO,如图2所示。具体而言,Free Mask包含促进网络关注度的自监督设计元素。它包含一个“查询-键”关注度设计,其中查询和键是从自监督特征构建的。该方法计算每个查询与所有键之间的余弦相似性,从而获得一组基于查询条件的(种子)关注度图作为粗略的掩码。粗略掩码通过其掩码得分进行排名和筛选,然后通过非极大值抑制(NMS)进一步去除冗余掩码。自监督SOLO然后将粗略掩码用作伪标签来训练SOLO模型。由于粗略掩码可能不准确,自监督SOLO包含一个弱监督设计,以更好地适应标签噪声。接下来是一个自训练策略,用于进一步改进掩码质量并提高准确性。我们的网络设计与SOLO几乎相同,只有少量修改,因此推理过程简单快速。
在这里插入图片描述
图2.关于FreeSOLO未标记的图像首先被输入到Free Mask以生成粗糙对象掩膜。分割掩膜以及它们相关联的语义嵌入被用于通过弱监督来训练基于SOLO的实例分割模型。我们使用自训练来改进对象掩模分割。

FreeSOLO为自监督实例分割这一具有挑战性的问题提供了有效的解决方案。通过从预测掩码获得的边界框,FreeSOLO还表现出明显的优势,作为一种无监督的对象发现方法。除了上述角色,我们进一步将FreeSOLO视为实例分割的强自监督前提任务,通过共同学习对象级别和像素级别的表示。与图像分类[15-17]、目标检测[18,19]和语义分割[20,21]的预训练相比,实例分割的预训练仍然是一个未经充分研究的领域。通用实例分割不仅需要在像素级别定位对象,还需要识别它们的语义类别。有趣的是,FreeSOLO的设计使我们能够直接以无监督的方式学习对象级别的语义表示。完成预训练后,除了最后的分类层外,所有已学习的参数可以用于初始化监督实例分割模型,以提高准确性。

我们的贡献可以总结如下:
• 我们提出了Free Mask方法,它利用SOLO的特定设计以无监督的方式有效提取粗糙的对象掩膜和语义嵌入。
• 我们进一步提出了自监督SOLO,它利用来自Free Mask的粗糙掩码和语义嵌入来训练SOLO实例分割模型,并引入了一些新颖的设计元素来克服粗糙掩膜中的标签噪声。
• 借助上述方法,FreeSOLO首次成功地展示了无监督实例分割,提供了一个简单而有效的框架。值得注意的是,它胜过了一些使用手动注释的提案生成方法。FreeSOLO还大幅胜过了无监督对象检测/发现的最先进方法(COCO AP相对提高了+100%)。
• 此外,FreeSOLO作为实例分割表示学习的强自监督前提任务。例如,在带有5%标记掩码的COCO数据集上进行微调时,FreeSOLO的性能优于DenseCL [14](+9.8% AP)。

未完待续。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1088841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用PyQt5创建图片查看器应用程序

使用PyQt5创建图片查看器应用程序 作者:安静到无声 个人主页 在本教程中,我们将使用PyQt5库创建一个简单的图片查看器应用程序。这个应用程序可以显示一系列图片,并允许用户通过按钮切换、跳转到不同的图片。 1. 准备工作 首先&#xff0…

小黑子—MyBatis:第四章

MyBatis入门4.0 十 小黑子进行MyBatis参数处理10.1 单个简单类型参数10.1.1 单个参数Long类型10.1.2 单个参数Date类型 10.2 Map参数10.3 实体类参数(POJO参数)10.4 多参数10.5 Param注解(命名参数)10.6 Param注解源码分析 十一 小…

CVE-2017-15715 apache换行解析文件上传漏洞

影响范围 httpd 2.4.0~2.4.29 复现环境 vulhub/httpd/CVE-2017-15715 docker-compose 漏洞原理 在apache2的配置文件: /etc/apache2/conf-available/docker-php.conf 中,php的文件匹配以正则形式表达 ".php$"的正则匹配模式意味着以.ph…

金蝶EAS、EAS Cloud远程代码执行漏洞

【漏洞概述】 金蝶 EAS 及 EAS Cloud 是金蝶软件公司推出的一套企业级应用软件套件,旨在帮助企业实现全面的管理和业务流程优化。 【漏洞介绍】 金蝶 EAS 及 EAS Cloud 存在远程代码执行漏洞 【影响版本】 金蝶 EAS 8.0,8.1,8.2&#xf…

风电光伏混合储能功率小波包分解、平抑前后波动性分析、容量配置、频谱分析、并网功率波动分析(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

流计算概述(林子雨慕课课程)

文章目录 11. 流计算概述11.1 流计算概述11.1.1 数据的处理模型11.1.2 流计算概念与典型框架 11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.4.1 Storm 简介11.4.2 Storm设计思想11.4.3 Storm框架设计 11.5 Spark Spark Streaming Samza以及三种流计算框架比…

Python如何17行代码画一个爱心

🌈write in front🌈 🧸大家好,我是Aileen🧸.希望你看完之后,能对你有所帮助,不足请指正!共同学习交流. 🆔本文由Aileen_0v0🧸 原创 CSDN首发🐒 如…

xtrabackup全备 增备

版本针对mysql8.0版本 官方下载地址 https://www.percona.com/downloads 自行选择下载方式 yum安装方式 1、下载上传服务器 安装软件 [rootmaster mysql]# ll percona-xtrabackup-80-8.0.33-28.1.el7.x86_64.rpm -rw-r--r--. 1 root root 44541856 Oct 10 13:25 percona-x…

android 判断是否打开了蓝牙网络共享

最近做项目遇到需要判断手机是否打开了蓝牙网络共享的开关 //调用isBluetoothPanTetheringOn(context) {if (it) {Log.i("TAG","已打开")} else {Log.i("TAG","未打开")context.gotoBleShareSettings()} }/*** 是否打开蓝牙网络共享**…

idea中取消class文件显示所有方法的显示

一 idea中class文件取消显示方法 1.1 取消显示方法 1.显示如下 2.操作如下 3.显示如下

2023年中国固废处理行业研究报告

第一章 行业概况 1.1 定义 固体废物处理是一个日益重要的领域,随着中国城市化进程的加速和工业产值的持续增长,固体废物的产生量也在不断上升。根据《固体废物污染环境防治法》的定义,固体废物包括了人类在生产、生活和其他活动中产生的固态…

基于单目的光流法测速

目录 1.简介 2.代码实现 1.简介 基于单目的光流法是一种常见的计算机视觉技术,用于估计图像序列中物体的运动速度。它通过分析连续帧之间的像素变化来推断物体在图像中的移动情况。 背景: 光流法是计算机视觉领域中最早的运动估计方法之一&#xff0c…

BUUCTF 金三 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 只有一个附件,下载下来有一张GIF图片。 解题思路: 本题一共有2种解法(本人找到的) 方法一: 1、打开这张GIF图片,观察到不正常闪动,似…

《YOLO医学影像检测》专栏介绍 CSDN独家改进实战

💡💡💡YOLO医学影像检测:http://t.csdnimg.cn/N4zBP ✨✨✨实战医学影像检测项目,通过创新点验证涨点可行性; ✨✨✨入门医学影像检测到创新,不断打怪进阶; 1.血细胞检测介绍 数据…

数据结构 - 2(顺序表10000字详解)

一:List 1.1 什么是List 在集合框架中,List是一个接口,继承自Collection。 Collection也是一个接口,该接口中规范了后序容器中常用的一些方法,具体如下所示: Iterable也是一个接口,Iterabl…

security+JWT

securityJWT 添加依赖准备工作sqlUserInfoUserMapperUserService、UserServiceImpl 创建JwtUtils工具类,做token的生成和校验进入Security创建AccountDetailsServiceImpl,并且实现UserDetailsService编写登录操作 创建拦截器JWTAuthenticationFilter继承…

mac电影特效合成软件nuke15 完美激活版下载

Nuke 15是一款由英国The Foundry公司开发的专业的合成软件,被广泛用于电影、电视和广告制作中的后期合成和特效制作。 Mac软件下载:nuke15 完美激活版下载 Win软件下载:NUKE 13 中文激活版 Nuke 15拥有强大的功能和灵活性,可以帮助…

TartanVO: A Generalizable Learning-based VO 服务器复现(rtx3090 py3)

源码地址 代码地址:https://github.com/castacks/tartanvo/tree/python3 配环境 git clone https://github.com/castacks/tartanvo.git -b python3创建conda环境: conda create -n tartanvo python3.8安装pytorch conda install pytorch1.10.1 torc…

路由router

什么是路由? 一个路由就是一组映射关系(key - value)key 为路径,value 可能是 function 或 component 2、安装\引入\基础使用 只有vue-router3,才能应用于vue2;vue-router4可以应用于vue3中 这里我们安装vue-router3…

elementUI el-table+树形结构子节点选中后没有打勾?(element版本问题 已解决)

问题 1.不勾选父级CB111,直接去勾选子级(ST2001…),子级选中后没有打勾显示 排查 一直以为是这个树形结构和表格不兼容产生的问题,到后来看官方demo都是可以勾选的,最后排查到了版本问题, 项…