CVPR2023高质量论文 | Consistent-Teacher:半监督目标检测超强SOTA

news2024/12/23 6:12:53

关注并星标

从此不迷路

计算机视觉研究院

97834409f12a8ceb6ad8f064489d8b86.gif

448c4ee5e8cc8fb18f4e67f197baf419.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

91b33467011b5673498f34162373b861.png

论文地址:https://arxiv.org/abs/2209.01589

计算机视觉研究院专栏

作者:Edison_G

《Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection》是一篇关于半监督目标检测的论文。该论文提出了一种新的方法,称为“Consistent-Teacher”,用于减少伪目标(pseudo-targets),这些伪目标是由于标签的不一致性而引入到训练中的错误对象。

一、总概述

在本研究中,研究者深入研究了半监督目标检测(SSOD)中伪目标的不一致性。核心观察结果是,振荡的伪目标破坏了精确的半监督检测器的训练。它不仅给学生的训练注入了噪声,而且导致了分类任务的严重过拟合。因此,研究者提出了一个系统的解决方案,称为一致教师,以减少不一致。首先,自适应锚分配(ASA)取代了基于静态IoU的策略,使学生网络能够抵抗噪声伪边界盒;然后,通过设计三维特征对齐模块(FAM-3D)来校准子任务预测。它允许每个分类特征在任意尺度和位置自适应地查询回归任务的最优特征向量。最后,高斯混合模型(GMM)动态地修正了伪框的得分阈值,从而稳定了基本事实的数量

94a607b9947473c03cdc31d82d9783c3.png

二、动机

在这项研究中,研究者指出,半监督检测器的性能仍然在很大程度上受到伪目标不一致性的阻碍。不一致意味着伪框可能非常不准确,并且在训练的不同阶段变化很大。因此,不一致的振荡边界盒(bbox)会使SSOD预测产生累积误差。与半监督分类不同,SSOD有一个额外的步骤,即为每个RoI/锚点分配一组伪框作为密集监督。常见的两级和单级SSOD网络采用静态的锚分配标准,例如IoU分数或中心度。据观察,静态作业对教师预测的边界框中的噪声很敏感,因为假边界框中一个小的扰动可能会极大地影响作业结果。因此,它导致未标记图像上的严重过拟合。

为了验证这一现象,在MS-COCO 10%数据的基础上,用基于IoU的标准分配来训练单级探测器。如下图所示,教师输出的微小变化导致伪框边界中的强噪声,导致在基于IoU的静态分配下,错误目标与附近对象相关联。这是因为一些未激活的主播在学生网络中被错误地分配为阳性。因此,网络会过拟合,因为它会为相邻对象生成不一致的标签。在未标记图像的分类损失曲线中也观察到过拟合。

不一致是指伪框可能高度不准确,并且在不同的训练阶段差异很大。

61428313cb10a9d5a9cde564d8a5cc28.jpeg

Motivation: Inconsisteny For SSOD

(左)比较“Mean-Teacher ”和“Consistent-Teacher”的训练损失。在Mean-Teacher中,不一致的伪目标导致分类分支上的过拟合,而回归损失变得难以收敛。相反,新提出的方法为学生设定了一致的优化目标,有效地平衡了这两项任务并防止了过度拟合。

(右)伪标签和分配动态的快照。绿色和红色的框指的是北极熊的真值和伪值。红点是为伪标签指定的定位框。热图表示教师预测的密集置信度分数(越亮越大)。附近的木板最终在基线中被错误地归类为北极熊,而提出的自适应分配防止了过度拟合。

三、实验及结果

研究者的工作解决了SSOD的不一致问题。以下是训练过程中不同时间步长的一些样本检测结果:

Red: False Positive; Blue: True Postive; Green: Ground-truth

5241ab724f17754b5a3479dc29d8187a.gif

Mean-Teacher

4437eea936dc519f4076454f3b77ac10.gif

Consistent-Teacher

aee30b9072b240c6e08c9dafd5313f8d.gif

Mean-Teacher

924ffe6d8df02ef1cfb4c6c767abef01.gif

Consistent-Teacher

593e59a003383b3f89bb97d3a3f7284a.png

© THE END 

转载请联系本公众号获得授权

038df8f3143881d5875ce81dc5802aa6.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

81dbe8606df49103ef17682c1d5b88dc.png

往期推荐

  • 工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载)

  • 用于精确目标检测的多网格冗余边界框标注

  • 目标检测创新:一种基于区域的半监督方法,部分标签即可(附原论文下载)

  • LCCL网络:相互指导博弈来提升目标检测精度(附源代码)

  • 纯干货:Box Size置信度偏差会损害目标检测器(附源代码)

  • RestoreDet:低分辨率图像中目标检测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/592098.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】sizeof和strlen的区别【详解】

目录 一.sizeof和strlen的主要区别 二.sizeof和strlen分别讲解(含例题和详解) 1.sizeof 在计算字符型数组时(例题讲解) 计算整型数组(例题讲解) 2.strlen 例子一(讲解)&#…

运维监控Grafana部署

运维监控Grafana部署 简介 安装 部署形式 Grafana支持两种部署形式 自行部署, 可以部署在操作系统之上. 自行提供服务器, 域名等.Grafana官方托管. 无需安装, 在线注册即可得到一个专属于自己的Grafana, 但是要花钱的. 是一种SaaS服务 我们课程选择方式1 安装 Grafana支…

0531最后的挣扎结束于传说中的段错误

部署训练后的缺陷检测模型 Linux Ubuntu18.04双机尝试 报错,Linux内核或是编译器版本不匹配,多次尝试更改18.04的gcc,g,gcc-arm-linux,garm-linux的代码,尝试在Makefile文件里更改编译器路径、添加LInux内…

智慧工厂主题 Meetup 线下报名+福利开启!IoTDB X EMQ 构建数据平台赋能智能制造...

随着全球制造业的竞争日益激烈,智慧工厂成为当今制造业的重要趋势之一。智慧工厂采用了先进的物联网、大数据等科技手段,以期通过智能化、数字化管理和生产,实现高度自动化和高效生产。因此,如何通过计算分析挖掘生产数据价值&…

【Android定制】修改BUILD_AGO_GMS = no 和 BUILD_GMS=no属性

文章目录 概要名词解释细节小结 概要 在安卓底层源码中,有这样的两个属性,这两个第一眼看上去都像是带不带谷歌,BUILD_AGO_GMS no和BUILD_GMSno有什么区别?? 如果带了谷歌,那么这个设备就差不多是国外定…

SQL数据库的整体结构、索引、MVCC、锁、日志、查询优化,三大范式等

关系型数据库和非关系型数据库 SQL:关系型数据库指的是使用关系模型(二维表格模型)来组织数据的数据库。(mysql,sqlserver,sqllite,oracle) 关系数据库的优点: 容易理解,符合正常思维方式;都是用表格形式,格…

大数据:Hadoop HDFS,基础架构,去中心化,中心化模式,HDFS基础架构,虚拟机和云服务器部署HDFS

大数据:Hadoop HDFS,基础架构,去中心化,中心化模式,HDFS基础架构,虚拟机和云服务器部署HDFS 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算…

美颜SDK的市场需求与技术策略:商业化落地的关键因素

随着人们对于美的追求不断加强,美颜技术也在不断进步,其中美颜SDK的出现极大地方便了开发者,使得美颜技术能够更加便捷地应用于各种应用中。那么,美颜SDK市场需求和技术策略是什么?商业化落地的关键因素又是什么呢&…

【C++】C++11 线程库

文章目录 一、thread 线程库二、mutex 锁三、atomic 原子性操作四、RAII 管理锁资源五、condition_variable 条件变量 一、thread 线程库 在 C11 之前,由于 C 没有对各平台的线程接口进行封装,所以当涉及到多线程编程时,编写出来的代码都是和…

ChatGPT赋能Scrum实践

对于Scrum实践者来说,以ChatGPT为代表的的大语言模型是很有效的工具,但要用好这个工具需要一些技巧,本文介绍了60个适用于Scrum实践的提示,可以帮助ChatGPT有效输出适用于Scrum实践的内容。原文: 60 ChatGPT Prompts Plus Prompt …

chatgpt赋能python:Python中的SEO

Python 中的 SEO 搜索引擎优化(SEO)是指通过改进网站的结构和内容,使其在搜索引擎中的排名更高,从而吸引更多的访问者。Python是一种流行的编程语言,其在SEO中也占有重要的地位。 Python 中的关键词密度 搜索引擎通常会关注网页中的关键词…

.Net Core——用代码写代码?

想要用代码写代码,肯定是绕不开反射的。反射的概念相比都不陌生,只是应用多少就因人而异,今天分享一个代码生成器的思路,仅供参考,不要过分依赖哦。 思路分析 众所周知,利用反射可以在程序运行时获取到任…

【赏】java:编写一个SortedList接口

下面是SortedList接口的示例代码:import java.util.List;public interface SortedList<T extends Comparable<T>> extends List<T> {List<T> sort(List<T> list);int binarySearch(T value); }下面是对于SortedList接口的一个实现示例:import …

如何系统地学习IT技术

从基础技术到高级应用&#xff0c;IT技术发展迅速&#xff0c;我们需要建立系统性的学习方法&#xff0c;才能跟上它的速度。接下来&#xff0c;我将分享我的个人经验&#xff0c;介绍如何系统地学习IT技术&#xff0c;以及如何在快速学习过程中确保自己的技术水平越来越高。 …

加湿助眠仪语音IC芯片 白噪音语音方案 WTN6040F-8S

近年来&#xff0c;随着人们健康意识的不断增强&#xff0c;助眠仪逐渐成为了一种备受欢迎的家居健康设备。随着科技的不断升级&#xff0c;助眠仪也在不断地进行改进&#xff0c;以满足用户需求。其中&#xff0c;一种值得注意的改进就是助眠仪音乐播报芯片的应用。加湿助眠仪…

c++ 11标准模板(STL) std::map(九)

定义于头文件<map> template< class Key, class T, class Compare std::less<Key>, class Allocator std::allocator<std::pair<const Key, T> > > class map;(1)namespace pmr { template <class Key, class T, clas…

国产系统:麒麟之人大金仓数据库部署

一、基本信息和资源 1.1 查看服务器信息 [root7PGxjKPL4 ~]# cat /etc/*release Kylin Linux Advanced Server release V10 (Sword) DISTRIB_IDKylin DISTRIB_RELEASEV10 DISTRIB_CODENAMEjuniper DISTRIB_DESCRIPTION"Kylin V10" DISTRIB_KYLIN_RELEASEV10 DISTRI…

Springboot异步执行

异步执行 1.基于Async注解的方式在异步的方法上加 Async注解&#xff0c;调用接口后基于Async注解的方式优缺点: 2.使用 CompletableFuture 实现异步任务在实现类中创建CompletableFuture 类型的方法优缺点: 3.使用 TaskExecutor 实现异步任务优缺点: 1.基于Async注解的方式 As…

电子企业使用MES管理系统有没有弊端

随着制造业的不断现代化和数字化&#xff0c;越来越多的电子企业开始使用MES生产管理系统。电子企业MES系统是一种用于监控和管理制造业生产过程的软件&#xff0c;能够帮助企业提高生产效率、降低成本、提高质量和灵活性。然而&#xff0c;电子企业使用MES管理系统也存在一些弊…

Autohotkey按键映射

文章目录 功能前缀鼠标按键键盘按键虚拟键码和扫描码实操 功能前缀 尽管在初步使用中已经对常见热键做了说明&#xff0c;但为了本文的完整性&#xff0c;这里还是重新表述一下 #!^<^>!winAltCtrlShiftAlt Gr 其中&#xff0c;<, >为修饰符&#xff0c;用于区分…