Paper Reading: MixTeacher:半监督目标检测中利用混合尺度教师挖掘有前景的标签

news2024/10/6 12:32:51

在这里插入图片描述

目录

  • 简介
  • 目标/动机
  • 工作重点
  • 方法
    • 训练
  • 实验
  • 总结

简介

题目:《MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection》, CVPR 2023

日期:2023.3.16

单位:腾讯,上海交通大学,浙江大学,荣旗工业科技公司

论文地址:http://arxiv.org/abs/2303.09061

GitHub:https://github.com/lliuz/MixTeacher

  • 作者

在这里插入图片描述

一作的研究领域方向不是很固定,有关于模型架构研究、重识别、图像生成、目标检测、图像分割、无监督、自监督、半监督都有涉及,我看了一下其为一二作的文章,主要是自监督无监督还有最近的半监督,而且有很多是关于标签或是伪标签的优化方法

  • 其他作者

  • 通讯作者

  • 摘要

对象实例之间的比例变化仍然是对象检测任务中的一个关键挑战。尽管现代检测模型取得了显著进展,但这一挑战在半监督案件中尤为明显。虽然现有的半监督对象检测方法依赖于严格的条件来从网络预测中过滤出高质量的伪标签,但我们观察到,具有极端尺度的对象往往置信度较低,导致对这些对象缺乏积极的监督。在本文中,我们提出了一种新的框架,通过引入混合规模教师来改进伪标签生成和规模不变学习,来解决规模变化问题。此外,我们建议使用跨尺度预测的分数提升来挖掘伪标签,这得益于混合尺度特征的更好预测。我们在各种半监督设置下对MS COCO和PASCAL VOC基准进行的大量实验表明,我们的方法实现了最先进的性能

目标/动机

固有问题:目标检测中不同目标实例之间存在较大的尺度变化,半监督目标检测中尤为明显

现有解决方案:现有的半监督物体检测方法依赖于严格的条件来筛选网络预测中的高质量伪标签

现有方法的不足:尺度极端的物体往往具有较低的置信度,导致这些物体缺乏正向监督

新提出的解决方案:

  1. 引入混合尺度教师来解决尺度变化问题
  2. 引入一个新的指标来挖掘潜在的高质量伪标签

为了保证高精度,大多数现有的半监督对象检测方法采用严格条件(如score>0.9)来过滤得到高置信度的伪标签。产生的问题:对于那些极端尺度的目标,很多低置信度的对象被错误地分配为背景。

表格是关于图像输入尺度对不同大小目标的检测性能的影响:常规尺度1x的输入在整体指标上具有明显优势;缩小尺度0.5x的图像对于大目标具有优势

在这里插入图片描述

输入规则1×尺度和0.5×下采样尺度图像的检测结果。我们绘制了COCO val2017中(a)所有对象和(b)大型对象在不同得分阈值下的精确度和召回率,这些对象具有相同的模型但不同的输入量表。(c)中给出了两个未标记图像的例子。1x输入在总体度量方面具有明显的优势,但下采样图像更适合大型对象。

现有工作已经证明,结合未标记图像的额外下采样视图,并在标签级别(SED)或特征级别(PseCo)上使用一致性约束对网络进行正则化,可以显著提高半监督对象检测的性能

img

**现有的解决方案:**引入一个额外的缩小尺度(0.5x)视图,以获得模型预测结果的尺度不变性。

  1. SED提出从常规尺度到缩小尺度对目标的分类进行预测蒸馏,约束两个尺度上所有proposals的定位的一致性。

  2. PseCo采用从常规尺度生成的相同伪标签作为两个尺度上的标签。

    这些方法主要关注跨尺度预测的一致性,间接改善了模型的性能。

**存在的问题:**高度依赖在常规尺度下教师网络中生成的伪标签,这些方法仍然存在由不恰当尺度引起的错误负样本问题。

在这里插入图片描述

多尺度学习在半监督对象检测方法中的比较。先前的方法[10,17]仅侧重于鼓励对具有不同尺度的输入图像进行一致的预测。所提出的MixTeacher明确引入了混合尺度特征金字塔,以自适应融合来自适当尺度的特征,从而能够检测不同大小的对象。混合尺度特征生成更准确的伪标签,并有助于挖掘有前景的标签,作为一个插件,可以在训练后丢弃。

工作重点

本文提出了一种半监督目标检测框架MixTeacher,该框架利用混合尺度特征金字塔生成高质量的伪标签。

本文提出了一种挖掘伪标签的方法,该方法利用预测的改进作为挖掘有潜力的伪标签的指标。

在各种半监督设置下,本文的方法在MS COCO和PASCAL VOC基准中获得了最先进的性能。

方法

注意:以下大量图片来源于知乎博主的PR,PR地址:https://zhuanlan.zhihu.com/p/649988041

在这里插入图片描述

在这里插入图片描述

在训练过程中,该模型首先使用特征提取模块f(θf)分别为规则尺度1x和下采样尺度0.5x构建两个特征金字塔。接下来,通过特征融合模块g(θg)建立一个额外的混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头h(θh)将教师模型混合尺度生成的伪盒作为监督。此外,使用PLM策略挖掘具有低置信度分数的有前景的标签。教师中的权~θ由学生中的权重θ的EMA更新。在测试中,使用了具有原始架构和常规输入规模的模型。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

请注意,混合尺度金字塔中的第一级是从常规视图直接复制而来,而降采样视图中不存在相应级别

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

训练

在训练过程中,该模型首先分别构建了规则尺度下的特征金字塔和基于特征提取模块的下采样尺度下的特征金字塔。然后,利用特征融合模块,构建混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头,以混合尺度的教师模型生成的pseudo boxes作为监督。
在这里插入图片描述

实验

  • 与SOTA比较
    在这里插入图片描述

指标为在val2017集上的AP50:95。在\textit{部分标记}设置下,结果是五折交叉验证的平均值,±后面的数字表示标准差。在Additional设置下,箭头前面的数字表示有监督基线。†:使用带标签/不带标签的批次大小8/32,*表示32/32,其余结果使用批次大小8/8。 粗体表示最佳结果,而下划线表示次佳结果。

在这里插入图片描述

在COCO数据集上使用FCOS进行的实验结果。在这个设置中不使用PLM。

在这里插入图片描述

关于 VOC Additional 设置的实验结果。

在这里插入图片描述

关于 VOC Mixture 设置的实验结果。

  • 消融实验

在这里插入图片描述

各组成部分的分析。MST 表示从混合尺度特征金字塔生成伪标签,PLM 表示潜在标签挖掘策略

在这里插入图片描述

与其他多视图方法的比较。

SCR表示SED中的尺度一致性正则化。MSIL表示PseCo中的多视图尺度不变学习。MST ‡表示随机丢弃大尺度路径和混合尺度的学生网络损失中的一个,以保持与其他多尺度方法相当的训练时间

在这里插入图片描述

特征融合方法的比较。

“CONV-ADD”表示采用两个3x3卷积层对于常规尺度和下采样尺度的特征进行对齐,然后进行逐元素相加,“CAT-CONV”表示按通道连接后再进行卷积以减少通道数。

在这里插入图片描述

使用不同特征尺度进行测试的模型性能

FPS:检测器每秒能处理图片的张数

在这里插入图片描述

所提出的MixTeacher的不同超参数的比较。

  • 可视化

在这里插入图片描述

MixTeacher中组件的定性可视化。(a) 从规则比例和混合比例特征棱锥体生成的伪标签的比较。(b) 不同得分阈值下伪标签的比较以及我们有希望的标签挖掘结果。绿色方框表示真阳性。红色方框突出显示假阳性,橙色方框表示假阴性。此外,挖掘的标签会用一个青色框高亮显示。

总结

  • conclusion

在这项工作中,我们深入研究了半监督对象检测中的尺度变化问题,并通过引入混合尺度教师来改进伪标签的生成和尺度不变学习,提出了一种新的框架。此外,得益于混合尺度特征的更好预测,我们建议挖掘伪标签,以提高跨尺度预测的分数。在各种半监督设置下对MS COCO和Pascal VOC基准进行的大量实验表明,我们的方法实现了最先进的性能。虽然我们已经展示了MixTeacher的优越性,但该方法是建立在一个旧的时尚检测器上的,具有最简单的FPN和原始的标签分配策略。SSOD中的规模变化问题是否可以用更先进的FPN架构或标签分配方法来解决尚不清楚,这是一项有趣的未来工作


  • 补充材料

在这里插入图片描述

不同设置的培训设置摘要。

在这里插入图片描述

不同特征金字塔中图层的EigenCAM可视化。γ=0.18使P×6与P−5更相似。

在这里插入图片描述

不同数据集和不同设置的训练设置摘要。我们遵循Soft Teacher[40]、STAC[35]和FixMatch[34]的实践,采用不同的超参数进行标记数据扩充和未标记强弱扩充。

在这里插入图片描述

COCO部分标记设置下模型收敛速度的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 将MixTeacher与PseCo[17]在1%的标签比例下进行比较。(c) 在10%的标记比率下,将MixTeacher与MixTexer RD进行比较,该比率在每次迭代中从常规尺度和混合尺度中随机丢弃未标记图像的路径。在图例中,括号中的数字表示最终mAP。根据教师模式评估绩效。

在这里插入图片描述

训练过程中伪标签质量的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 比较MixTeacher在不同条件下的伪标签。IoU与gt重叠大于0.5的伪标签被视为正样本

在这里插入图片描述

在COCO基准上与最先进的方法进行比较。报道了val2017集合上的AP50:95。在“部分标记”设置下,结果是所有五次折叠的平均值,±后面的数字表示标准偏差。在附加设置下,箭头前面的数字表示监督的基线。还报告了在每次迭代中使用的未标记图像的视图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1595454.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Upload-labs(Pass-14 - Pass-16)

Pass-14 (图片马,判断文件类型) 图片的格式在防护中通常是不会使用后缀进行判断的依据,文件头是文件开头的一段二进制码,不同类型的图片也就会有不同的二进制头。   JPEG (jpg),文件头:FF D…

【数据挖掘】实验6:初级绘图

实验6:初级绘图 一:实验目的与要求 1:了解R语言中各种图形元素的添加方法,并能够灵活应用这些元素。 2:了解R语言中的各种图形函数,掌握常见图形的绘制方法。 二:实验内容 【直方图】 Eg.1&…

【数据结构】4.List的介绍

目录 1.什么是List 2.常见接口介绍 3.List的使用 1.什么是List 在集合框架中,List是一个接口,继承自Collection。 Collection也是一个接口,该接口中规范了后序容器中常用的一些方法,具体如下: Iterable也是一个接口…

C语言100道练习题打卡(1)

1 有1&#xff0c;2&#xff0c;3&#xff0c;4四个数字&#xff0c;能组成多少个互不相同且不重复的三位数&#xff0c;都是多少 #include<stdio.h> //有1&#xff0c;2&#xff0c;3&#xff0c;4四个数字&#xff0c;能组成多少个互不相同且不重复的三位数&#xff…

JCR1区局部强化优化器(PRO),原理详解,MATLAB代码免费获取

局部强化优化器&#xff08;Partial Reinforcement Optimizer, PRO&#xff09;代表了进化计算领域的一项创新突破&#xff0c;它是一种全新设计的进化优化算法。该算法的开发灵感来源于心理学中的进化学习和训练理念&#xff0c;特指为一个被称为局部强化效应&#xff08;Part…

特征匹配方法总结梳理

特征匹配在视觉定位、同时定位和映射(SLAM)、图像拼接等方面都有应用 Proj:202404 CMC-R(R.W.--Reference) 南京 河海大学 资助丰富Fundamental Research Funds of China for the Central Universities, Grant/Award Number: B230205048; Jiangsu Higher Education Reform …

day10 | 栈与队列 part-2 (Go) | 20 有效的括号、1047 删除字符串中的所有相邻重复项、150 逆波兰表达式求值

今日任务 20 有效的括号 (题目: . - 力扣&#xff08;LeetCode&#xff09;)1047 删除字符串中的所有相邻重复项 (题目: . - 力扣&#xff08;LeetCode&#xff09;)150 逆波兰表达式求值 (题目: . - 力扣&#xff08;LeetCode&#xff09;) 20 有效的括号 题目: . - 力扣&…

【QT入门】Qt自定义控件与样式设计之鼠标相对、绝对位置、窗口位置、控件位置

往期回顾 【QT入门】 Qt自定义控件与样式设计之QSlider用法及qss-CSDN博客 【QT入门】Qt自定义控件与样式设计之qss的加载方式-CSDN博客 【QT入门】Qt自定义控件与样式设计之控件提升与自定义控件-CSDN博客 【QT入门】Qt自定义控件与样式设计之鼠标相对、绝对位置、窗口位置、控…

YOLOV5 + 双目相机实现三维测距(新版本)

文章目录 YOLOV5 双目相机实现三维测距&#xff08;新版本&#xff09;1. 项目流程2. 测距原理3. 操作步骤和代码解析4. 实时检测5. 训练6. 源码下载 YOLOV5 双目相机实现三维测距&#xff08;新版本&#xff09; 本文主要是对此篇文章做一些改进&#xff0c;以及解释读者在…

MySQL 实例employee表综合查询

目录 表关系图&#xff1a; 例题&#xff1a; 1.查出至少有一个员工的部门。显示部门编号、部门名称、部门位置、部门人数。 2.列出所有员工的姓名及其直接上级的姓名。 3.列出受雇日期早于直接上级的所有员工的编号、姓名、部门名称。 4.列出部门名称和这些部门的员工信…

【进阶六】Python实现SDVRPTW常见求解算法——离散粒子群算法(DPSO)

基于python语言&#xff0c;采用经典离散粒子群算法&#xff08;DPSO&#xff09;对 带硬时间窗的需求拆分车辆路径规划问题&#xff08;SDVRPTW&#xff09; 进行求解。 目录 往期优质资源1. 适用场景2. 代码调整2.1 需求拆分2.2 需求拆分后的服务时长取值问题 3. 求解结果4. …

AI大模型探索之路-提升篇2:一文掌握AI大模型的核心-注意力机制

目录 前言 一、注意力机制简介 二、注意力机制的工作原理 三、注意力机制的变体 1、自注意力&#xff08;Self-Attention&#xff09; 2、双向注意力&#xff08;Bidirectional Attention&#xff09; 3、多头注意力&#xff08;Multi-Head Attention&#xff09; ​4、…

缺失msvcr110.dll要怎么处理?快捷的修复msvcr110.dll方法

当你在使用电脑进行工作或娱乐时&#xff0c;可能会突然遇到一个错误提示&#xff1a;“程序无法启动&#xff0c;因为电脑中缺失msvcr110.dll”。这样的情况不仅会打断你的活动&#xff0c;还可能带来一定程度的不便。面对这个在Windows操作系统中相对常见的问题&#xff0c;其…

执行npm命令一直出现sill idealTree buildDeps怎么办?

一、问题 今天在运行npm时候一直出项sill idealTree buildDeps问题 二、 解决 1、网上查了一下&#xff0c;有网友说先删除用户界面下的npmrc文件&#xff08;注意一定是用户C:\Users\{账户}\下的.npmrc文件下不是nodejs里面&#xff09;&#xff0c;进入到对应目录下&#x…

汇编语言知识点整理(应付考试专用,想学习找其他的)

1 基础知识 1.1 信息在计算机内部的表示和存储 1.1.1 信息存储的基本概念 信息在计算机内部是以二进制数据的形式在存储器中存取的。介绍两个基本概念&#xff1a; 位&#xff08;Bit&#xff09; 计算机中最小的数据单位&#xff0c;一位有0、1两状态。Bit是计算机中最小…

【opencv】示例-stiching.cpp 图像拼接

#include "opencv2/imgcodecs.hpp" // 导入opencv图像编码功能库 #include "opencv2/highgui.hpp" // 导入opencv高层用户界面功能库 #include "opencv2/stitching.hpp" // 导入opencv图像拼接功能库#include <iostream> // 导入输入输出…

聚观早报 | 哪吒L上市定档;iPhone 16最新高清渲染图

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 4月10日消息 哪吒L上市定档 iPhone 16最新渲染图 华为太空表与问界M9联动 蔚来万里长城加电风景线正式贯通 Red…

传统图机器学习的特征工程-节点

传统图机器学习&#xff08;人工特征工程机器学习&#xff09; 结点&#xff0c;连接&#xff0c;子图都可以有特征 特征分类&#xff1a; 属性特征&#xff1a;本身存在的特征 连接特征&#xff1a;在图中和其他结点连接的特征 传统的机器学习模型&#xff1a; 特征工程&a…

车联网大数据与人工智能一体化:开启智慧出行新时代

随着物联网技术的快速发展&#xff0c;车联网已经成为了汽车行业的重要趋势之一。而在车联网的发展过程中&#xff0c;大数据和人工智能的应用也日益成为关键因素。本文将探讨如何将大数据与人工智能一体化应用于车联网&#xff0c;以实现智慧出行的目标。 尤其是近来国内的华为…

二叉树层序遍历(返回一个不定长二维数组)

力扣_二叉树的层序遍历 题目中要求我们返回一个二维数组 List是一个接口&#xff0c;List<List<Integer>>就代表&#xff1a; 在List这个类型的数组中&#xff0c;存储着类型为List<Integer>类型的元素&#xff0c;而List<Integer>又是一个存储着Int…