Semi-Supervised Object Detection: A Survey on Progress from CNN to Transformer
摘要
半监督学习的惊人进步促使研究人员探索其在计算机视觉领域内目标检测任务中的潜力。半监督对象检测 (SSOD) 利用小型标记数据集和较大的未标记数据集的组合。这种方法有效地减少了对大型标记数据集的依赖,而这些数据集通常既昂贵又耗时。最初,SSOD 模型在有效利用未标记数据和管理为未标记数据生成的伪标签中的噪声方面遇到了挑战。但是,最近的许多改进已经解决了这些问题,从而大大提高了 SSOD 性能。本文全面回顾了 SSOD 方法的 27 项前沿发展,从卷积神经网络 (CNN) 到 Transformers。我们深入研究了半监督学习的核心组成部分及其与对象检测框架的集成,包括数据增强技术、伪标记策略、一致性正则化和对抗性训练方法。此外,我们还对各种 SSOD 模型进行了比较分析,评估了它们的性能和架构差异。我们的目标是激发对克服现有挑战和探索对象检测半监督学习新方向的进一步研究兴趣。
关键词 - Transformer、Object detection、DETR、Computer Vision、Deep Neural Networks
1、引言
深度学习 [42], [43], [44], [45] 已成为一个活跃的研究领域,在模式识别 [46]、[47]、数据挖掘 [48]、[49]、统计学习 [50]、[51]、计算机视觉 [52]、[53] 和自然语言处理 [54]、[54]、[55] 等各个领域都有大量应用。通过有效利用大量高质量的标记数据,特别是在监督学习环境中,它取得了重大成就。然而,这些监督学习方法 [56]、[57]、[58] 依赖于标记数据进行训练,这既昂贵又耗时。半监督目标检测 (SSOD) [59] 通过合并标记和未标记数据来弥合这一差距 [60]。它显示了计算机视觉领域的重大进步 [52],[53],特别是对于获取大量标记数据 [59] 具有挑战性或成本高昂的行业。SSOD 用于各个领域,包括自动驾驶汽车 [61]、[62] 以及医学成像 [63]、[64]。在农业 [65] [66] 和制造业 [67] 等行业中,有大量数据但标签非常耗时,SSOD 有助于提高工作效率。
半监督方法[68]、[69]通过采用未标记和标记的数据[70],[71]来提高模型性能并减少标记需求。此外,以前的对象描述[72]、[73]方法主要涉及手动特征工程[74]、[75]和简单模型的使用。这些方法在准确识别不同形状和尺寸的物体方面面临困难[76]。后来,卷积神经网络 (CNN) [77] [78] 的引入通过直接从原始数据中提取分层特征 [79] 彻底改变了对象检测,实现了端到端学习 [80] 并大大提高了准确性和有效性。近年来,在深度学习架构 [81]、[82]、优化技术 [83] 和数据集增强策略 [84]、[85]、[86]、[87] 的进步的推动下,半监督目标检测取得了显着的进步。研究人员已经开发了各种为对象检测量身定制的半监督学习 (SSL) 方法,每种方法都有不同的优势和局限性 [88]、[89]、[90]。这些方法主要分为伪标记[91]、[92]、[93]和一致性正则化[94],这两种方法在训练过程中都有效地利用了标记和未标记的数据。此外,SSL 方法与最先进的对象检测架构(如 FCOS [95]、Faster R-CNN [96] 和 YOLO [97] 的集成显着增强了半监督对象检测系统的性能和可扩展性。这种组合不仅可以提高检测准确性,还可以帮助模型很好地处理新的和看不见的数据集。
随着 DEtection TRansformer (DETR) [98]、[99]、[100] 的问世,目标检测取得了显着进展。变压器最初是为自然语言处理[54]、[54]、[55]开发的,擅长捕获远程精度[101]和上下文信息[102]、[103],使其成为对象检测中复杂空间排列[104]、[105]的理想选择。与 CNN [78]、[79]、[80] 不同,CNN 依赖于局部卷积,需要非极大抑制 (NMS)[106] 来过滤掉冗余检测,DETR 使用自注意力机制 [107]、[108] 并且不需要 NMS。该文认为对象检测任务是一个直接的预测问题,消除了 NMS[106] 和锚生成[109] 等传统过程。尽管有其优点,但 DETR 也有局限性,例如训练过程中收敛缓慢以及小目标检测的挑战。为了解决这些问题,DETR 的改进通过改进触发机制和优化技术来提高性能和效率。继 DETR 的成功之后,研究人员现在正在采用基于 DETR 的网络进行半监督目标检测方法 [1], [2], [3]。这将 DETR 的优势与半监督学习相结合,使用未标记的数据[88]、[94],减少了对大型标记数据集的需求。
由于基于Transformer 的半监督目标检测 (SSOD) [60]、[111] 方法的快速发展,跟上最新的进步变得越来越具有挑战性。因此,从基于 CNN 到基于 Transformer 的 SSOD 方法的持续发展的回顾是必不可少的,并将极大地使该领域的研究人员受益。本文全面概述了半监督对象检测 (SSOD) 中从基于 CNN 到基于 Transformer 的方法的转变。如图1所示,该调查将SSOD方法分为基于CNN(一阶段和两阶段)[4]、[6]、[7]、[8]、[10]、[24]、[27]、[45]和基于Transformer的AP方法[1]、[2]、[3],突出了伪标记和基于一致性的标记等技术。它还提供了有关数据增强策略的详细信息[85],[86],[87],[112],[113],[114],[115],包括强、弱和混合技术。
图 2 描绘了为半导体监督目标检测量身定制的师生架构。利用预训练的教师模型为未标记的数据生成伪标签。然后,这些伪标签与标记数据一起用于联合训练学生模型。通过整合伪标记数据,学生模型从更广泛和多样化的数据集中学习,增强了其准确检测对象的能力。此外,数据增强方法适用于标记和伪标记数据集。这种协作学习方法有效地利用了标记和未标记的数据来提高对象检测系统的整体性能。
本文的其余部分组织如下:第 2 节回顾了以前对 SSOD 的调查。第 3 节讨论了该领域的相关工作。第 8 节探讨了 SSOD 在各种视觉任务中的作用。第 4 节是本文的核心,全面概述了 SSOD 方法。第 5 节研究了 SSOD 中使用的不同损失函数。第 6 节对 SSOD 方法进行了比较分析。第 7 节讨论了未解决的挑战和未来的方向。最后,第 9 节对本文进行了总结
2、以前的相关综述
表 1 概述了以前关于对象检测的调查,突出了半监督学习的关键研究。它涵盖了从理论进步 [28]、[33] 到各个领域的实际应用 [35] 的一系列主题。这些调查调查了不同的方法及其有效性,包括在推文情感分析 [30] 和医学环境中的具体应用 [29]。最近的工作探索了机器学习框架中的改进 [32],解决了小数据和标签嘈杂或不完整的工业应用所带来的挑战 [35]。值得注意的是,一些调查侧重于使用半监督 [34]、[116]、自我监督 [29]、[37] 和无监督方法 [36] 进行深度可视化学习和图像分类,为了解其有效性和挑战提供了有价值的见解。总的来说,这些调查提供了对半监督目标检测领域的进步、挑战和实际实施的详细理解。虽然之前的调查侧重于基于 CNN 的 SSOD 方法,但基于 Transformer 的半监督目标检测的兴起需要彻底评估以了解其有效性和趋势。
3、相关工作
半监督目标检测 (SSOD) [60]、[88]、[111]、[117]、[118] 在利用标记数据和为未标记数据生成标签以提高模型性能的多种方法方面取得了显着进展。本节概述了 SSOD 中的主要贡献和方法
3.1 早期的半监督方法
用于对象检测的半监督学习的早期方法旨在将自我训练技术[119]、[120]从图像分类[121]、[122]适应对象检测。STAC [6] (一致性自我训练),它采用两个阶段的过程:首先,它从未被掩盖的图像中生成高置信度的伪标签 [123];然后,它使用带有强增强的标记和伪标记数据来训练模型 [86],[112] 以确保一致性 [124],[125]。另一个例子是 Unbiased Teacher [10],它使用一个教师-学生框架,其中教师模型为学生模型生成伪标签。然后,使用这些伪标签 [91]、[92]、[93] 以及标记数据对学生模型进行训练,而教师模型则使用学生权重的指数移动平均值进行更新,以提高稳定性和稳健性。
3.2 师生框架
最近的进展引入了复杂的师生框架 [126]、[127]、[128],其中包括增强 SSOD 的额外机制。在这些框架中,教师模型从未标记的数据中生成伪标签 [91]、[92]、[93],然后用于训练学生模型,从而迭代提高学生的表现。例如,Consistent-Teacher 框架 [22] 试图通过自适应锚点分配 [129]、[130]、特征对齐 [131] 来最大限度地减少不一致的伪目标。同样,密集教师指导框架 [24] 通过利用教师模型的密集预测来提高伪标签 [91]、[92]、[93] 的质量。
3.3 一致性正则化
SSOD 中的一致性正则化 [124]、[125]、[132] 可确保模型在同一图像的不同增强视图中生成一致的预测,从而提高稳健性和泛化性。Mean Teacher [133] 框架,利用师生范式,已被适用于半监督对象检测 (SSOD)。诸如 Interactive Self Training with Mean Teachers [14] 等技术通过迭代细化伪标签 [91]、[92]、[93] 和增强学生模型的性能来建立在这种方法的基础上。此外,采用一致性正则化 [124]、[125]、[132],其中模型被训练以在不同配置下生成一致的预测,已被证明可以有效地提高 SSOD 性能。
3.4 伪标签方法
伪标签 [91], [92], [93],它涉及模型为未标记的数据生成标签,是 SSOD 的另一个基本特征。像 Rethinking Pseudo [19] Labels 这样的技术通过解决标签噪声和置信度阈值等挑战,对传统的伪标签 [92]、[93] 进行了改进。此外,标签匹配 [17] 和密集的伪标签进一步优化了这一过程,确保生成的标签更加精确和可靠。
3.5 自训练
半监督中的自我训练 [119]、[120] 涉及迭代地为未标记的数据生成伪标签 [91]、[92]、[93],并将它们与标记数据一起集成到训练过程中,有助于在迭代中改进模型。对自我训练框架的增强 [119]、[120],例如纳入主动学习策略,其中模型主动选择信息量最大的样本进行标记,已经显示出前景。主动教师框架 [20] 是一个例子,其中教师模型指导选择可能改善学生模型学习的样本。
3.6 基于 Transformer 的方法
基于 transformer 的方法 [1], [2], [3] 利用 transformer 架构 [134], [135], [136],这些架构以其捕获远程依赖关系的能力而闻名,通过有效地建模视觉数据中的空间关系和上下文信息来提高检测性能。随着基于变压器的构造的兴起[134]、[135]、[136],研究人员已经开始将这些模型集成到SSOD中。例如,Semi-DETR [1] 将检测变压器 (DETR) [98]、[99]、[100] 模型调整为半监督设置,展示了变压器在提高 SSOD 任务检测性能方面的潜力。
4、半监督策略
4.1 OneTeacher
以先进的 Yolov5 模型 [187]、[188] 为重点,One Teacher [27] 提出了一种新颖的师生学习策略,专门针对一个阶段的半监督目标检测 (SSOD) 设计,如图 3 所示。通过解决单阶段 SSOD 的基本问题,例如低效的伪标签 [91]、[92]、[93] 和多任务优化中的冲突 [189],One Teacher 旨在缩小这一差距。OneTeacher 使用多视图伪标签细化 (MPR) [190] 和去耦合半监督优化 (DSO) 等创新技术优化教师学生对第一阶段 SSOD 的学习。
4.2 DSL
密集学习 (DSL) [23] 算法提出了一种无锚点 SSOD 的方法。如图 4 所示,是为像 FCOS [192] 这样的单级无锚探测器设计的,而目前的 5 种方法主要集中在两级基于锚的探测器上,后者在实际应用中更实用。DSL 通过引入创新技术来解决关键挑战,例如用于精确伪标签分配的自适应过滤 (AF) [19]、[193]、用于增强标签稳定性的聚合教师 (AT) [194] 和用于改进模型泛化的不确定性一致性正则化 [165]。
4.3 Dense Teacher
密集教师 [24] 框架通过用称为密集伪标签 (DPL) [196]、[197] 的密集预测替换稀疏伪框,为半监督目标检测 (SSOD) 引入了一种创新方法,如图 5 所示 。
后处理程序,如NMS[106],对于这种统一的伪标签[91]、[92]、[199]结构来说不是必需的。此外,提出了一种区域划分策略来抑制噪声并增强对关键区域的关注,进一步提高检测精度。总体而言,Dense Teacher 代表了 SSOD 的重大进步,其流线型管道和密集伪标签的有效利用 [196],[197]。
4.4 Unbiased Teacher v2
Unbiased Teacher v2 [26] 引入了一种创新方法,将 SSOD 技术 [6]、[7]、[15]、[141] 的范围扩展到无锚检测器,同时将 Lis ten2Student 机制引入无监督回归损失 [6],[8] 如图 6 所示。主要贡献包括将 SSOD 的适用性扩展到基于锚点和无锚点的检测器 [200], 开发一种机制来解决回归伪标签中的误导性实例 [91]、[92]、[199],并减少了半监督域中无锚点检测器和基于锚点的检测器 [200] 之间的性能差异。
4.5 S4OD
S4OD [25] 是一种为单级探测器量身定制的半监督方法,解决了与两级 SSOD [6]、[7]、[141] 相比,这些探测器固有的极端类别平衡 [147] 的挑战。如图 7 所示,S4OD 引入了动态自适应阈值 (DSAT) 策略 [201]。S4OD 动态确定伪标签选择 [91]、[92]、[93],在分类分支中平衡标签的质量和数量。此外,NMS-UNC 模块通过非极大值抑制 [106] 计算框不确定性来评估回归标签质量,从而增强回归目标。
4.6 Consistent-Teacher
半监督对象检测 (SSOD) 中不一致的伪标签 [91]、[92]、[93] 构成了一致性教师 [22] 解决的挑战。这些伪标签将噪声引入学生的训练过程,这会导致严重的过拟合 [150] 问题,并影响精确检测器的构建。
如图 8 所示,Consistent-Teacher 引入了 3D 特征对齐模块 (FAM-3D) [131]、高斯混合模型 (GMM) 和自适应锚点分配 (ASA) [129]、[130] 作为最小化这个问题的策略。这些组件增强了伪框的质量,动态修改阈值,并稳定了伪框与锚点的匹配。
4.7 Rethinking Pse
如图 9 所示,重新思考 Pse [19] 引入了确定性感知伪标签 [91]、[92]、[93],它们是专门为对象检测而设计的。这些标签准确地评估了分类和定位的质量[174],为生成伪标签提供了一种更精细的方法[91]、[92]、[93]、。通过根据这些确定性测量动态调整阈值和重新加权损失功能[175],这减轻了阶级不平衡带来的挑战[145]、[146]、[147]、[151]、[152]。
4.8 CSD
CSD [5](基于一致性的目标检测半监督学习方法),它利用一致性约束 [176] 来最大限度地利用可访问的未标记数据并提高检测性能,如图 10 所示。这种方法超越了对象分类,包括定位 [174],确保了全面的模型训练 [174]。此外,这引入了背景消除 (BE) 以减少背景噪声对检测精度的不利影响。
4.9 STAC
STAC [6] 是一个半监督 [60], [111] 框架,旨在增强使用未标记数据的视觉对象识别检测模型,如图 11 所示。所提出的架构中采用的基线检测器是 Faster R-CNN [96]。它遵循一个两步程序,其中第一阶段使用经过训练的检测器从未标记的图像中生成高置信度的伪标签 [123]。为了确保一致性和稳健性,该模型在第二阶段使用标记和伪标记数据以及重要的数据增强进行进一步训练[86],[112]。STAC 结合了增强驱动的一致性正则化 [132] 和自我训练 [124]、[125],将最先进的 SSL 从图像分类 [116] [34] 扩展到对象检测。
4.10 Humble Teacher
Humble Teacher [7] 提出了一种半监督方法,利用师生双模型框架进行临时对象检测器,如图 12 所示。该方法通过指数移动平均(EMA)[137]将动态更新合并到教师模型中,采用软伪标签和多区域建议作为学生的训练目标,并利用检测特异性数据集成来生成更可靠的伪标签。与 STAC [6] 等现有方法不同,该方法依赖于对稀疏选择的伪样本进行硬标记,该方法在多个提案上利用软标签,允许学生从教师那里提取更丰富的信息 [138]。
4.11 Instant-Teaching
即时教学 [8] 在每次训练迭代中利用即时伪标记 [91]、[92]、[93] 和扩展的弱强数据增强 [87]、[115]、7 [139] [140] 来克服典型监督对象检测框架中手动注释的局限性。该系统实现了 Instant-Teaching,一种共同整流的方法 [15],以提高伪注释质量并减少确认偏差 [137],如图 13 所示。
4.12 ISMT
一种被称为平均教师互动自我训练(ISMT)[161]的半监督目标检测技术引入了一种方法,以纠正在各种训练迭代中对同一图像中检测结果不一致的监督,如图14所示。通过利用非极大抑制 [106] 来组合来自不同 ent 迭代的检测结果,并采用多个检测头来提供互补信息,这种方法提高了伪标记的稳定性和质量。此外,均值教师模型的结合 [133] 防止了过度拟合 [150],并有助于检测头之间的知识传递。
4.13 Combating Noise
Combating Noise [12] 中概述的提案介绍了一种通过测量区域不确定性来减轻噪声伪标签的负面影响来抵御噪声的方法 [153],[154]。使用这种方法,可以仔细地全面检查噪声伪标签的影响,并最终开发出测量区域不确定性的度量。通过将该指标纳入学习框架[157],可以制定一个不确定性感知的软目标,以防止由噪声伪标记[154]引起的性能下降,如图15所示。此外,它还通过允许多峰概率分布和消除类之间的竞争来减轻过拟合 [150]。
4.14 Soft Teacher
与早期的多阶段方法相比,Soft Teacher [141] 引入了一种用于半监督对象检测的端到端解决方案。这个新框架提高了目标检测训练效率,在训练过程中逐步增强了伪标签 [91]、[92]、[93] 属性 [6]、[142]。如图 16 所示,该框架提出了两种简单而有效的方法:一种用于选择稳健伪框进行盒回归学习的盒抖动方法 [143],以及一种涉及分类损失的软教师机制,由教师网络的分类分数来平衡。
4.15 Unbiased Teacher
无偏见教师 [10] 框架解决了伪标签 [91], [92], [93] 中的偏见问题,由于班级不平衡 [145], [146], [147] 而在 SSOD 中普遍存在,如图 17 所示。通过合作评级来训练学习缓慢的学生和教师,Unbiased Teacher 利用指数移动平均 (EMA) [148] 和差分数据增强 [113]、[114]、[149] 来提高伪标签质量并减轻过拟合 [150]。
该方法解决了 SSOD 中的关键挑战,包括类不平衡和过拟合,从而显著提高了对象检测的性能。
4.16 DTG-SSOD
使用“密集到密集”方法,半监督对象检测密集教师指导 (DTG-SSOD) [18] 直接利用密集教师预测来指导学生培训。如图 18 所示,该方法通过逆 NMS 聚类 (INC) 和秩匹配 (RM) [18] 等技术得到促进,允许学生模型在非极大值抑制 (NMS) [173] 期间模拟教师的救世主,从而在不依赖稀疏伪标签的情况下获得密集监督。INC 对候选人框进行聚类,类似于教师的 NMS 流程,而 RM 使教师和学生之间聚类候选人的分数排名保持一致。
4.17 MUM
引入 MUM[13],一种数据增强方法 [113]、[114]、[149],以应对由于对边界框定位的潜在不利影响而在 SSOD 中有效利用强数据增强策略的挑战 [115]。
如图 19 所示,MUM 有助于从混合图像瓦片中混合和重建特征瓦片,利用插值正则化 (IR) [158] 生成有意义的弱强对 [159],[160]。与传统的 SSL 方法不同,MUM 允许保留对准确对象定位至关重要的空间信息。
4.18 Active Teacher
迭代扩展了师生结构,主动教师 [20] 方法用于半监督对象设计 (SSOD),如图 20 所示。Active Teacher 广告通过主动 sam pling 策略逐渐增加 [85]、[86]、[87] 标签集,考虑了难度、信息和未标记示例的多样性等因素,解决了 SSOD 中数据初始化的挑战。Active Teacher 通过最大化有限标签信息的效用和提高伪标签的准确性,显著提高了 SSOD 的性能 [91]、[92]、[93]。
4.19 PseCo
半监督目标检测 (SSOD) 中的两个基本策略,即伪标记和一致性训练 (PseCo) [4],突出了这些方法在有效使用未标记数据进行学习方面的缺点。
具体来说,虽然现有的伪标记 [91]、[92]、[93] 方法只关注分类分数,而忽视了伪框定位的精度,[174]、[177] 和 com monly 采用的一致性训练方法忽略了对尺度不变性至关重要的特征级一致性。为了解决这些限制,提出了噪声伪框学习 (NPL) [153]、[154] 来实现稳健的伪标签生成,并引入了多视图尺度不变学习 (MSL) [178] 来确保标签一致性和特征级一致性,如图 21 所示。
4.20 CrossRectify
CrossRectify [15] 是一个检测框架,旨在通过同时训练两个具有不同初始参数的检测器来提高伪标签 [91]、[92]、[93] 的准确性,如图 22 中的 9 所示。通过利用检测器之间的差异,CrossRectify 实现了交叉整流机制 [15] 来识别和改进伪标签,从而解决自标记 [162] 技术固有的限制。在 2D [100] 和 3D [163] 检测数据集中进行的广泛实验验证了 CrossRectify 在超越现有半监督目标检测方法方面的有效性。
4.21 Label Match
标签不匹配是通过标签匹配 [17] 架构从分布级和实例级的角度解决的,如图 23 所示。再分布平均教师 [133] 采用自适应标签分布感知 [167] 置信标准来创建无偏伪标签 [168] 来解决分布水平的不兼容性 [10]、[141]、[169]。通过将学生建议纳入教师的指导中,提案自我分配技术解决了实例级不匹配词干明 [170]、[171] 和标签分配不确定性。此外,利用可靠的伪标签挖掘技术 nique [172] 通过将模棱两可的伪标签转换为可靠的伪标签来提高效率。
4.22 ACRST
如图 24 所示,自适应类再平衡自我训练或 ACRST [11]引入了一个名为 CropBank 的新内存模块,以解决 SSOD 中类不平衡 [145] [146] 的主要问题。在 SSOD 中,类不平衡 [151]、[152],特别是前景-背景和前景-前景不平衡——带来了严重的困难,影响了伪标签的质量 [91]、[92]、[93] 和结果模型的性能。通过合并 Crop Bank 中的前台示例,ACRST 可以动态地重新平衡训练数据,从而减少类不平衡的影响。
此外,为了解决SSOD中噪声伪标签[153]、[154]的问题,建议使用两级过滤技术[155][156]来产生准确的伪标签。
4.23 SED
一种称为规模等效蒸馏 (SED) [16] 的创新方法引入了一个既简单又高效的端到端知识蒸馏框架 [164]。SED 通过强制执行尺度一致性正则化 [165] 来减少来自错误负数据的噪声,提高局部化精度,并处理高对象大小差异,如图 25 所示。此外,重新加权技术 [166] 通过隐式地识别未标记数据中的潜在前景区域,有效地最大限度地减少了类的不平衡 [145]、[146]、[151]、[152]。
4.24 SCMT
自我纠正均值教师 (SCMT) [21] 的目标是通过动态修改盒子 candi 椰枣的损失权重来减少伪标签 [91]、[92]、[93] 中存在的噪声的负面影响。如图 26 所示,SCMT 利用来自定位精度 [174] 和分类分数的置信度分数,在训练过程中有效地优先考虑更可靠的箱形候选者。这种新颖的方法优于现有方法 [6]、4.27 稀疏半 DETR 10 [7]、[179],证明了它有可能提高目标检测模型在实际环境中的性能。
4.25 Omni-DETR
为了提高检测精度,同时降低标注成本,Omni-DETR [3] 框架如图 27 所示,它包含了各种弱标注 [184],包括图片标签、项目计数和点。通过整合基于端到端变压器的检测架构 [185]、[186] 和基于学生-教师的半监督对象检测 [6]、[10] 的最新发展,Omni-DETR 能够使用未标记和标记不良的数据来生成精确的伪标签 [91]、[92]、[93]。
4.26 Semi-DETR
Semi-DETR [1] 采用 Stage-wise Hybrid Matching 策略 egy [180] 将一对一 [2] 和一对多 [181] 分配策略相结合,提高训练效率并提供高质量的伪标签。[91], [92], [93].如图 28 所示,Cross-view Query Consistency 方法 [182] 消除了对确定性查询对应的需求,促进了语义特征不变性的学习。此外,基于成本的伪标签挖掘 [172] 模块动态识别可靠的伪框以进行一致性学习。
4.27 Sparse Semi-DETR
稀疏半监督 DETR [2],一种基于变压器的端到端半监督目标检测系统。此解决方案特别处理与对象查询质量相关的问题并解决这些问题。不准确的伪标签 [3] 和冗余预测会减慢训练效率,并且模型性能会变得更差,尤其是对于微小或模糊的对象。为了提高对象查询质量并大大提高对微小和部分遮挡对象的检测能力,Sparse Semi DETR 包括一个查询优化模块 [183],如图 29 所示。强大的伪标签过滤模块通过仅过滤高质量的伪标签 [8]、[9] 来进一步提高检测准确性和一致性。
5、损失函数
5.1 Smooth L1 Loss
平滑 L1 损失 [17], [202], [203] 通常用于对象检测任务,为模型错误提供温和的惩罚,使其在具有噪声或稀疏数据的场景中有效。它降低了对异常值的敏感性,有助于更稳定的训练和提高模型性能[204]。
5.2 Focal Loss
焦点损失 [205]、[206] 通过根据不同示例的分类 [63]、[64] 难度动态调整不同示例的重要性来解决类别不平衡 [145]、[146]、[147]、[151]。这种损失函数通常被集成到专注于杠杆老化未标记数据以提高模型稳健性的策略中。
5.3 Distillation Loss
蒸馏损失促进了从基于标记数据的教师模型到利用未标记样本的学生模型的知识转移[7],[208]。它经常被纳入半监督框架 [60]、[68]、[111] 以增强较小学生模型的泛化能力。
5.4 KL Divergence
KL散度损失[7]、[12]、[209]、[210]用于半监督场景[60]、[68]、[111]以对齐对标记和未标记数据的预测,使概率分布之间的差异最小。它通常用于旨在利用未标记数据来提高模型一致性和性能的策略。
5.5 Quality Focal Loss
质量焦点损失 [24]、[211] 根据考试的难度级别为考试 ples 分配不同的权重,优先考虑从具有挑战性的实例中学习。这种损失函数通常用于专注于最大限度地利用标记和未标记洞察的策略中。
5.6 Consistency Regularization Loss
一致性正则化损失 [5]、[16] 确保了相同输入数据的不同视图之间预测的一致性,增强了 SSOD 中的模型稳健性和泛化性。它消除不一致,促使模型学习不变特征 [178],从而提高不同数据集的性能。
5.7 Jensen-Shannon Divergence
Jensen-Shannon 散度 [212]、[213] 通过将预测分布与真实标签对齐来正则化集成,从而提高预测一致性。
5.8 Pseudo-Labeling Loss
伪标签损失 [214] 是一种通过根据模型预测标记未标记数据并惩罚预期和实际标签之间的差异来促进半监督方法 [60]、[68]、[111] 的技术。它利用未标记的数据,通过鼓励对没有标签的样本进行自信的预测来提高模型性能。
5.9 Cross-Entropy Loss
标签的估计概率分布和实际分布之间的差异是通过交叉熵损失 [6]、[10]、[215] 来衡量的。通过鼓励模型减小真实值和预测概率之间的差距,这种损失可以提高分类准确性。
6、数据集和对比
6.1 数据集
Microsoft创建了MS-COCO(Microsoft Common Objects in COntext)数据集[216],其中包括用几个标记任务标记的各种图像,例如分割和关键点识别。MS COCO拥有91个类别的约328,000张照片和250万个分类对象实例,是可用的最广泛和大规模的数据集之一。半监督对象检测技术可以通过将 COCO 中的标记示例与未标记数据相结合来提高模型性能和泛化,从而消除了费力的手动注释工作。PASCAL VOC(Visual Object Classes)数据集[217]源自PASCAL视觉对象类挑战,包括用边界框和对象标签标记的各种照片集合,涵盖许多类别,如家居用品、汽车和动物。从 2005 年到 2012 年,每个年度版本都包含大约 11,000 张用于训练和验证的图像,以及另外 10,000 张用于测试的图像。PASCAL VOC 为 20 个类别的 27000 多个对象实例提供注释,是评估对象检测算法的综合基准。
6.2 比较
对象检测方法的性能已在 COCO 和 PASCAL 等基准数据集上进行了广泛评估。这些评估显示了一阶段和两阶段检测方法以及端到端方法在提高各种训练时期检测准确性方面的进展和有效性。
表 2 提供了各种方法在 COCO 数据集上的性能比较 [216]。一阶段方法,包括 One Teacher [27]、DSL [220]、Dense Teacher [24],随着训练时期的增加,心理改善呈增加。两个阶段方法,例如 Rethinking pse [19]、STAC [6] 和 Fighting ing Noise [12],在各个时期的性能指标表现出一致的增强。值得注意的是,基于 DETR 的模型,如 Omni DETR [3] 和 Semi-DETR [1] 展示了显著的性能提升,突出了半监督目标检测策略的有效性,如图 30 所示。
表 3 显示了 PASCAL 数据集上不同阶段各种目标检测方法的性能指标 [217]。在第一阶段,S4OD [25]、Dense Teacher [24]、DSL [220] 等方法在 AP50、AP50.95 和 AP75 分数方面表现出有竞争力的表现。Soft Teacher [141]、Combating Noise [12] 和 Instant-Teaching [8] 等两阶段方法在不同 met rics 中的表现差异很大。最后,端到端方法,如 Semi-DETR [1] 和Sparse Semi-DETR[2] 展示了显着的性能,表明了 SSOD 方法的有效性,如 31 所示。
7、开放挑战与未来方向
半监督对象检测 (SSOD) 已经显示出显著的进步,从传统的卷积神经网络 (CNN) 过渡到先进的基于 Transformer 的模型。半监督对象检测(SSOD)的面积为多种方法绘制了利用未标记数据并增强检测性能的建议。这些方法有一定的优点和缺点。表4提供了它们的优点和缺点的详细摘要。尽管对半监督对象检测方法进行了彻底的检查,但该调查的广泛关注可能会导致忽略一些特定的方法或该领域的最新进展。调查的范围可能会限制每种半监督方法的分析深度,可能会牺牲对其潜在原则、优势和局限性的详细见解。
鉴于用于对象检测任务的半监督算法范围多种多样,对每种方法的更深入研究可以提供更丰富的理解它们的有效性和跨不同领域的适用性。虽然这些方法代表了 SSOD 的一些最直观的方法,但它们仍然存在许多障碍。展望未来,未来改进存在一些潜在的可能性。
域适应和迁移学习:增强半监督对象检测模型的泛化性需要探索域适应以及迁移学习技术。将合成或标记数据集上训练的模型适应具有有限标记数据的真实世界域对于实际部署至关重要。
混合方法和模型压缩:研究将半监督对象检测与迁移学习、自我监督学习或模型压缩相结合的混合方法可以提高对象检测系统的效率和有效性。新颖的混合架构和训练策略可以导致资源高效且可扩展的解决方案。
8、应用
8.1 图像分类
半监督学习显著推进了图像分类 [63]、[64],尤其是在标记数据有限的领域 [221]。在医学成像中 [222]、[223],它能够从 X 射线和 MRI 中对标记样本进行精确的疾病分类。遥感[224]、[225]通过改善土地覆盖和环境变化分类从卫星图像中受益,有助于城市规划和灾害管理。对于自主车辆 [226]、[227]、半监督学习 14 增强了物体和行人的分类,促进了更安全的导航。一致性正则化 [165] 和伪标记 [91]、[92]、[93] 等技术对于改进这些模型、提高其稳健性和准确性至关重要。
8.2 文档分析
半监督对象检测越来越多地应用于文档分析 [228]、[229] 以有效地识别和分类文档中的元素,例如文本块、表格和图像。[230], [231], [232], [233], [234].这种方法在需要处理大量文档的法律、金融和学术领域特别有价值[235]、[236]、[237]。通过利用标记和未标记的数据,半监督方法[238]、[239]、[240]提高了检测关键信息(如子句、日期、金额和参考文献)的准确性和效率。[241], [242], [243].一致性正则化 [165] 和自我训练 [244] 等技术增强了模型的稳健性,使文档分析更加自动化和可靠,尽管标记数据有限。
8.3 3D目标检测
半监督目标检测通过利用标记和未标记的数据来提高准确性和稳健性,从而显着增强了 3D 检测 [245]、[246] 应用。在自主驾驶 [61], [62] 中,它允许车辆使用 LI DAR [247]、[248] 和摄像头数据 [249] [250] 更好地识别和分类行人和障碍物等物体,从而提高安全性和导航性。在机器人技术 [251], [252] 中,它有助于精确的物体操作和避障。此外,在增强现实和虚拟现实中[253],它通过将数字元素与现实世界准确集成来实现更加身临其境的体验。这些进步使半监督目标检测成为各种 3D 检测任务的关键技术。
8.4 网络流量分类
半监督对象检测也有效地应用于网络流量分类 [254]、[255]、[256],它有助于识别和分类具有有限标记数据的各种类型的网络流量 [257]。通过利用标记和未标记的流量数据,这些模型可以更准确地检测网络活动中的模式、异常和潜在安全威胁。这种方法增强了管理和保护网络的能力,改进了对恶意活动 [258] 的检测,例如在桁架 [259] 和数据泄露中,同时确保高效的网络性能。因此,半监督学习在维护稳健和安全的网络基础设施方面起着至关重要的作用。
8.5 语音识别
在语音识别 [260], [261], [262], [263] 中,SSOD 有助于识别和分类音频数据中的语音模式和语音元素,即使标记样本有限。通过利用标记和未标记的语音数据,这些模型可以更好地从背景噪声中辨别语音信号,并准确地将口语转录成文本。这种方法提高了语音识别系统的性能和效率[264]、[265],在各种应用中实现更准确和可靠的转录[266]、[267],如虚拟助手、听写软件和语音控制设备。此外,SSOD 技术有助于提高语音识别系统的可扩展性和适应性,使它们能够以更高的准确性处理不同的语言上下文和声学环境。
8.6 药物发现与生物信息学
在药物发现[268]、[269]和生物信息学[270]、[271]中,半监督目标检测(SSOD)优化了分子结构[272]、[273]和生物实体[274]、[275]的识别和分类。通过利用标记和未标记数据,SSOD 加快了潜在候选药物的筛选过程,并有助于靶点验证。这一方法提高了分子分析的效率,能够更深入地了解疾病机制,并促进精准医学策略的开发,以改善患者的预后。
9 总结
半监督目标检测 (SSOD) 已经采用了许多方法来利用未标记的数据来增强性能检测,从传统的卷积神经网络作品 (CNN) 发展到基于 Transformer 的现代模型。我们分析了这些策略在 COCO 和 VOC 等基准数据集上的性能,突出了检测准确性和效率的显著提高。这篇综述全面概述了 SSOD 方法,突出了它们的优势,同时解决了常见的挑战。向基于 Transformer 的模型的过渡代表了 SSOD 功能的重大飞跃,为处理复杂的检测场景提供了新的见解和方法。该调查旨在激发 SSOD 的持续研究和创新,鼓励研究人员制定和完善策略,以进一步促进计算机视觉及其应用的发展。