【youcans论文精读】弱监督深度检测网络(Weakly Supervised Deep Detection Networks)

news2025/4/8 7:21:45

欢迎关注『youcans论文精读』系列
本专栏内容和资源同步到 GitHub/youcans


【youcans论文精读】弱监督深度检测网络 WSDDN

    • 0. 弱监督检测的开山之作
      • 0.1 论文简介
      • 0.2 WSDNN 的步骤
      • 0.3 摘要
    • 1. 引言
    • 2. 相关工作
    • 3. 方法
      • 3.1 预训练网络
      • 3.2 弱监督深度检测网络
      • 3.3 WSDDN训练
      • 3.4 空间正则化器
    • 4. 实验
      • 4.1 基准数据集
      • 4.2 实验设置
      • 4.3 检测结果
      • 4.4 分类结果
    • 5. 结论
    • 6. 参考文献


弱监督目标检测(Weakly Supervised Object Detection, WSOD),是指使用少量或不精确的标注数据进行有效的目标检测。

传统的目标检测方法,即强监督学习,依赖于大量精确标注的数据,这在实际应用中往往是昂贵且耗时的。弱监督学习处理的是带有噪声或不精确标注的数据。弱监督学习的目标是在标注信息不完整或不精确的情况下,训练出性能良好的模型。

弱监督目标检测的挑战:

  • 不精确的标注:WSOD通常使用图像级别的标注,即只知道图像中是否包含特定类别的目标,而不知道目标的具体位置。
  • 类别不平衡:在实际应用中,数据集中的正样本(含目标的图像)和负样本(不含目标的图像)可能存在显著的不平衡。
  • 泛化能力:WSOD模型需要能够泛化到新的、未见过的数据上,即使这些数据的标注信息同样不精确。

0. 弱监督检测的开山之作

0.1 论文简介

弱监督检测任务(WSD,Weakly Supervised Detection ) 是指仅使用图像的类别标签来实现目标检测任务。

2016年,牛津大学 H. Bilen 等发表论文 “Weakly Supervised Deep Detection Networks(弱监督深度检测网络)”,是 弱监督检测领域 的开山之作。

H. Bilen and A. Vedaldi, “Weakly Supervised Deep Detection Networks,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, pp. 2846-2854, doi: 10.1109/CVPR.2016.311.
【论文下载】:ieeexplore, arxiv
【GitHub地址】:Github-wsddn,Github-hbilen

在这里插入图片描述


0.2 WSDNN 的步骤

论文提出一种弱监督的深度检测架构WSDDN,只利用图像级别的标注,就可以实现区域选择和分类任务。

WSDDN 分为三步:

  1. 获取在 ImageNet 1K 上预训练的 CNN;
  2. 构建WSDDN模型;
  3. 在目标数据集上仅使用图像级标注训练/fine-tune WSDDN,达到当时的 state-of-the-art。

0.3 摘要

弱监督目标检测学习是图像理解领域的一个重要问题,但目前仍未得到令人满意的解决方案。
本文通过利用基于大规模图像分类任务预训练的深度卷积神经网络,提出了一种弱监督深度检测架构。该架构通过改造现有网络使其在图像区域层面运作,能够同步执行区域选择与分类任务。
虽然以图像分类器形式进行训练,但该架构在 PASCAL VOC 数据集上隐含学习到的目标检测器性能优于其他弱监督检测系统。这个简洁优雅的端到端架构在图像分类任务中也超越了标准数据增强和微调技术的表现。


1. 引言

近年来,卷积神经网络(CNN)[20]已成为图像识别领域最先进的深度学习框架。其成功的关键在于能够从海量标注数据中学习真实物体的复杂外观特征。CNN最引人注目的特性之一,是其学习到的通用视觉特征可迁移至多种任务。特别是基于ImageNet ILSVRC等数据集预训练的CNN,已在跨领域识别[8]、目标检测[12]、语义分割[13]、人体姿态估计[31]等任务中展现出卓越性能。

本文探索如何将CNN的强大能力应用于弱监督检测(WSD)——即仅利用图像级标签学习目标检测器的任务。
弱监督学习能力的重要性体现在两方面:
首先,图像理解需要学习日益增长的复杂视觉概念(如ImageNet中数十万物体类别);
其次,CNN训练依赖大量数据。

因此,通过轻量级监督学习复杂概念,可显著降低图像分割、描述生成或目标检测等任务的标注成本。

我们的研究基于以下假设:
既然预训练CNN能出色迁移至众多任务,其必然蕴含数据的本质表征。
例如,有证据表明[36],图像分类CNN会隐式学习物体及其部件的代理特征。值得注意的是,这些概念的获取完全未依赖图像中目标位置的显式标注。这意味着,图像分类CNN可能已隐式包含目标检测所需的大部分信息。

我们并非首个用CNN解决WSD的研究。Wang等[34]的方法使用预训练CNN提取区域特征,将物体类别建模为视觉主题。虽然该方法当前代表弱监督检测的最高水平,但其包含CNN之外的多个组件且需大量调参。

本文提出一种基于预训练CNN的端到端弱监督目标检测方法——弱监督深度检测网络(WSDDN)(图1)。


在这里插入图片描述
图1. 弱监督深度检测网络。
我们的方法始于在大规模数据集(如ImageNet)上预训练的图像分类CNN,通过改造使其能够高效处理图像区域,并分支出识别流与检测流双路架构。最终形成的网络仅需图像级标注即可在目标数据集上微调,实现当前最优的弱监督目标检测性能。


该方法(第3节)以AlexNet等预训练网络为基础,通过空间金字塔池化层[14,11]高效提取图像区域描述符 ϕ ( x ; R ) \phi(x;R) ϕ(x;R)。网络随后分叉为双流架构:识别流为每个区域生成类别分数φ_c(x;R),检测流则计算区域概率分布φ_d(x;R)以定位最显著结构。最终通过聚合区域分数实现图像级分类,从而注入弱监督信号。

与传统多示例学习(MIL)[7]相比,我们的方法存在本质差异:MIL使用同一外观模型交替进行区域选择与模型更新,而WSDDN通过独立的检测分支进行区域选择,避免了MIL易陷入局部最优的缺陷。
多示例学习(MIL),是一种监督学习的子领域。在 MIL 中,训练数据被组织成"袋子",每个"袋子"包含多个实例(样本)。训练的目标是确定整个"袋子"的标签(例如,正类或负类),而不是确定单个实例的标签。

我们的双流架构与Lin等[21]的"双线性"网络存在微弱关联。虽然两者都受人类视觉腹侧流(识别)与背侧流(定位)启发,但关键区别在于:Lin的方案中双流完全对称,而我们的检测分支通过显式区域比较打破对称性。此外,Lin的研究未涉及WSD或检测性能评估。

经上述改造后,网络仅需图像级标签、区域提议和反向传播即可在目标数据集上微调。第4节实验表明,在PASCAL VOC数据集上,该架构以纯CNN机制实现了当前最优的弱监督检测性能[34],其训练测试效率与全监督Fast R-CNN[11]相当。作为副产品,该方法还产生了优于标准微调技术的图像分类器。第5节将总结这些发现。


2. 相关工作

现有弱监督检测(WSD)方法大多采用多示例学习(MIL)框架。该框架将图像视为区域包:若图像标记为正样本,则假定至少一个区域紧密包含目标物体;若为负样本,则所有区域均不包含目标。学习过程交替进行两个步骤:(1) 基于当前外观模型从正样本包中选择可能包含目标的区域,(2) 根据选定区域更新物体外观模型。

MIL策略导致非凸优化问题,求解过程易陷入局部最优,解的质量高度依赖初始化。相关研究主要聚焦两类改进:一是初始化策略优化[18,5,30,4],二是优化问题正则化[29,1]。Kumar等[18]提出自步学习策略,逐步将困难样本加入初始小规模训练集;Deselaers等[5]基于物体性评分初始化目标位置;Cinbis等[4]采用训练数据多重划分避免局部最优;Song等[29]将Nesterov平滑技术[22]应用于隐变量SVM[10],提升对劣质初始化的鲁棒性;Bilen等[1]提出平滑版MIL,通过软标签替代硬性选择最高分区域,并基于对称性和互斥原则对异常目标位置施加正则约束。

**另一类WSD研究[29,30,34]着眼于图像部件相似性挖掘。**Song等[29]提出基于判别性图模型的算法,选择与正样本图像中最近邻窗口相连的窗口子集;文献[30]进一步扩展该方法以发现多组共现部件配置;Wang等[34]采用潜在语义分析(pLSA)对正样本窗口进行迭代聚类,根据分类性能选择最具判别力的类别簇;Bilen等[2]提出联合学习框架,通过判别性凸聚类算法同步优化分类模型并保持选定区域相似性。

**近期研究[23,24]探索了无需位置标注的弱监督定位方法以提升CNN分类性能。**Oquab等[23]利用预训练CNN生成PASCAL VOC图像的中层表示;后续工作[24]改造CNN架构,在预测标签时实现目标的粗粒度定位。Jaderberg等[15]提出包含图像预变换子网络的CNN架构,该"变换网络"通过端到端训练将物体对齐至标准参考系(可视为检测代理)。

我们的架构包含一种机制预选可能包含对象的图像区域,也以端到端的方式进行训练;虽然这看起来可能非常不同,但这种机制也可以被视为学习转换(将检测到的区域映射到规范参考系的转换)。然而,在我们和他们的网络中,区域预选过程的性质是非常不同的。


3. 方法

本节介绍我们提出的弱监督深度检测网络(WSDDN)方法。
整体思路包含三个步骤:

  • 首先,获取在大规模图像分类任务上预训练的CNN(第3.1节);
  • 其次,通过对该CNN进行架构修改构建WSDDN(第3.2节);
  • 最后,在目标数据集上仅使用图像级标注再次训练/微调WSDDN(第3.3节)。

本节剩余部分将详细讨论这三个步骤。


3.1 预训练网络

我们的方法基于在ImageNet ILSVRC 2012数据集[26]上预训练的CNN构建,该预训练过程仅使用图像级监督(即不包含边界框标注)。所用CNN架构的具体细节将在第4节说明。


3.2 弱监督深度检测网络

在这里插入图片描述

给定预训练CNN,我们通过引入三个修改将其转化为WSDDN(另见第3节)。
(1)首先,我们将最后一个卷积块(通常称为relu5和pool5)中紧接ReLU层后的最后一个池化层替换为空间金字塔池化(SPP)层[19,14]。这将产生一个以图像x和区域(边界框)R作为输入,并输出特征向量或表示 ϕ ( x ; R ) \phi(x; R) ϕ(x;R) 的函数。重要的是,该函数可分解为:
在这里插入图片描述
其中 ϕ r e l u 5 ( x ) \phi_{relu5}(x) ϕrelu5(x) 仅需对整个图像计算一次,而 ϕ S P P ( ⋅ ; R ) \phi_{SPP}(·; R) ϕSPP(⋅;R) 对任意给定区域 R 都能快速计算。实际应用中,空间金字塔池化(SPP)被配置为与网络的首个全连接层(即 fc6)兼容。需要注意的是,如文献[11]所述,SPP以网络层的形式实现,从而支持端到端的系统训练(同时保证效率)。

(2)给定输入图像 x,候选目标区域的列表 R = ( R 1 , . . . , R n ) R = (R_1, ..., R_n) R=(R1,...,Rn) 通过区域提议机制(RPM)获得。本实验采用两种方法进行测试:选择性搜索窗口(SSW)[32]和边缘框(EB)[37]。
参照文献[11]的方法,我们将 SPP 层修改为可接受整个区域列表 R 作为输入,而非单一区域;具体而言, ϕ ( x ; R ) \phi(x; R) ϕ(x;R) 被定义为沿第四维度拼接的 ϕ ( x ; R 1 ) , . . . , ϕ ( x ; R n ) \phi(x; R1), ..., \phi(x; Rn) ϕ(x;R1),...,ϕ(x;Rn) (因为每个独立的 ϕ ( x ; R ) \phi(x; R) ϕ(x;R)都是三维张量)。

(3)在网络架构上,区域级特征会继续由两个全连接层 ϕ f c 6 \phi_{fc6} ϕfc6 ϕ f c 7 \phi_{fc7} ϕfc7 进行处理,每个全连接层包含线性映射和 ReLU 激活。从最后一个全连接层的输出开始,我们分支出两个数据流,具体描述如下:

  • 分类数据流。
    第一个数据流通过对各个区域进行分类处理,将其映射为 C维类别分数向量(假设系统被训练用于检测C个不同类别)。这是通过计算线性映射 ϕ f c 8 c \phi_{fc8c} ϕfc8c 实现的,最终生成数据矩阵 x c ∈ R C × ∣ R ∣ x^c \in R^{C×|R|} xcRC×R,其中包含每个区域的类别预测分数。随后,该矩阵通过 softmax 运算符进行处理,其定义如下:
    在这里插入图片描述

  • 检测数据流。
    第二个数据流执行检测任务,通过对不同区域进行相互比较评分。该过程基于类别特异性实现,通过第二个线性映射 ϕ f c 8 d \phi_{fc8d} ϕfc8d 计算,同样生成得分矩阵 x d ∈ R C × ∣ R ∣ x^d \in R^{C×|R|} xdRC×R。随后该矩阵通过另一个 softmax 运算符处理,其定义如下:
    在这里插入图片描述


尽管两个数据流结构高度相似,但分类流中的 σ c l a s s \sigma_{class} σclass 非线性变换与检测流中的 σ d e t \sigma_{det} σdet 非线性变换是关键区别,这使得它们分别执行分类和检测功能。具体而言:在分类流中,softmax 运算符独立地对每个区域的类别分数进行比较;而在检测流中,softmax 运算符则独立地对每个类别下的不同区域分数进行比较。因此,第一分支预测区域所属类别,第二分支筛选可能包含有效图像片段的区域。

  • 区域分数融合与检测。
    通过两个评分矩阵的逐元素(Hadamard)乘积 x R = σ c l a s s ( x c ) ⊙ σ d e t ( x d ) x^R = \sigma_{class}(x^c) ⊙ \sigma_{det}(x^d) xR=σclass(xc)σdet(xd) 获得每个区域的最终分数。随后,这些分数被用于根据目标中心可能性对图像区域进行排序(每个类别独立处理),并通过标准非极大值抑制(迭代移除与已选区域交并比 IoU 超过40%的区域)来获取图像中各类别的最终检测结果。

这种双流分数融合方式与文献[21]的双线性网络相似,但存在三个关键差异:首先,不同的 softmax 运算符显式打破了双流的对称性;其次,我们计算的是逐元素乘积 σ c l a s s ( x r c ) ⊙ σ d e t ( x r d ) \sigma_{class}(x^c_r)⊙ \sigma_{det}(x^d_r) σclass(xrc)σdet(xrd) 而非外积 σ c l a s s ( x r c ) ⊗ σ d e t ( x r d ) \sigma_{class}(x^c_r)⊗ \sigma_{det}(x^d_r) σclass(xrc)σdet(xrd)(参数数量呈平方级减少);第三,分数计算针对特定图像区域 r 而非固定网格位置。这些差异使得我们可以明确解释 σ d e t ( x d ) \sigma_{det}(x^d) σdet(xd) 为区域排序项, σ c l a s s ( x c ) \sigma_{class}(x^c) σclass(xc) 为类别排序项,而文献[21]中双流的功能界定则较为模糊。

  • 图像级分类分数。

至此,WSDDN已计算出区域级分数 x R x^R xR 。通过对区域分数求和,可将其转化为图像级类别预测分数:

在这里插入图片描述

需要注意的是, y c y_c yc 是经过 softmax 归一化分数在 ∣ R ∣ |R| R 个区域上的逐元素乘积之和,因此其取值范围为 (0,1)。在此阶段不执行 softmax 运算,因为图像可能包含多个物体类别(而单个区域应仅包含一个类别)。
在这里插入图片描述


3.3 WSDDN训练

前文已阐述WSDDN架构,本节说明模型训练方法。训练数据为图像集合 x i ( i = 1 , . . . , n ) x_i (i=1,...,n) xi(i=1,...,n) 及其图像级标签 y i ∈ { − 1 , 1 } C y_i \in \{-1,1\}^C yi{1,1}C。定义 ϕ y ( x ∣ w ) \phi^y(x|w) ϕy(xw) 为完整架构,将图像 x 映射为类别分数向量 y ∈ R C y \in R^C yRC,其中参数 w 包含卷积层和全连接层所有滤波器系数与偏置项。

采用带动量的随机梯度下降法优化能量函数:

在这里插入图片描述

该式优化 C 个二元对数损失项之和(每个类别对应一项)。由于 ϕ k y ( x i ∣ w ) ∈ ( 0 , 1 ) \phi^y_k(x_i|w) \in (0,1) ϕky(xiw)(0,1),可视为图像 x i x_i xi 中存在类别 k 的概率 p ( y k i = 1 ) p(y_{ki}=1) p(yki=1)。当真实标签为正值时,二元对数损失为 l o g ( p ( y k i = 1 ) ) log(p(y_{ki}=1)) log(p(yki=1));负值时则为 l o g ( 1 − p ( y k i = 1 ) ) log(1-p(y_{ki}=1)) log(1p(yki=1))


3.4 空间正则化器

WSDDN 针对图像级类别标签优化,无法保证空间平滑性(即高分区域相邻重叠区域也应获得高分)。全监督检测中,Fast-RCNN[11]将与真实框 IoU≥50% 的区域提案作为正样本,并学习回归至对应真实边界框。由于本方法无法获取真实框,我们采用软正则化策略:在训练期间惩罚 fc7 层特征图中最高分区域与IoU≥60% 区域(即 KaTeX parse error: Unknown accent ' ̅' at position 8: r \in |R̲̲̅|)的差异:

其中 N k + N^+_k Nk+为类别 k 的正样本图像数, ∗ = a r g m a x r ϕ k r i y *=argmax_r \phi^y_{kri} =argmaxrϕkriy 表示类别 k 在图像 i 中的最高分区域。将此正则项加入公式(3) 的成本函数。


4. 实验

本节我们将对WSDDN及其各组件在弱监督目标检测和图像分类任务上进行全面实验验证。


4.1 基准数据集

我们在 PASCAL VOC 2007 和 2010 数据集[9]上评估方法性能,这两个数据集是弱监督目标检测领域最广泛使用的基准。VOC 2007 数据集包含2501张训练图像、2510张验证图像和5011张测试图像,涵盖20个物体类别的边界框标注;VOC 2010 数据集则包含4998张训练图像、5105张验证图像和9637张测试图像,类别数量相同。实验采用官方推荐的训练/验证集划分方案,所有结果均在测试集上报告。我们同时评估了方法在PASCAL VOC目标检测和图像分类两个任务上的表现。

  • 针对检测任务,我们采用两种性能指标:遵循标准PASCAL VOC协议,以检测框与真实框的交并比(IoU)达到50%时的平均精度(AP)作为主要指标;同时报告弱监督检测常用指标CorLoc[6],该指标表示在包含目标类别的图像中,置信度最高的检测框与任一真实实例IoU≥50%的图像占比。需注意的是,AP在PASCAL测试集上计算,而CorLoc则在训练集与验证集的联合集上评估。

  • 对于分类任务,我们采用标准PASCAL VOC协议报告AP值。


4.2 实验设置

我们参照文献[11]的方法,采用三种预训练CNN模型进行全面评估:

  • VGG-CNN-F[3](记为S-小型网络):结构与AlexNet[17]类似,但减少了卷积滤波器数量;
  • VGG-CNN-M-1024(记为M-中型网络):深度与S相同,但第一卷积层步长更小;
  • VGG-VD16[28](记为L-大型网络):深层架构。

这些模型在ImageNet ILSVRC 2012[26]上预训练(未使用边界框信息),单中心裁剪的top-5准确率分别为18.8%、16.1%和9.9%。

根据第3.1节所述,我们对网络进行以下改造:

  • 将最后池化层pool5替换为与首全连接层兼容的SPP层[14];
  • 在分类分支旁添加并行检测分支(含全连接层+softmax层);
  • 通过逐元素乘积融合双流分数后跨区域求和,输入二元对数损失层。
    (注:该层同时评估20个类别,但每个类别作为独立二分类问题处理,以适配PASCAL VOC的多标签特性)

WSDDN模型在PASCAL VOC训练集和验证集上进行全层微调训练,这是一种被广泛采用的提升CNN在目标领域性能的技术[3]。在本研究中,微调发挥着学习分类流和检测流的关键功能,使得网络能够仅通过弱图像级监督就有效地学习目标检测。分20个epoch训练,前10个 epoch学习率 1 0 − 5 10^-5 105,后10个epoch 降为 1 0 − 6 10^-6 106。每个 minibatch 包含单张图像的所有区域提案。

为了生成与我们的网络配合使用的候选区域,我们评估了两种区域提议方法:使用快速配置的选择性搜索窗口(SSW)[32]和边缘框(EB)[37]。除了区域提议外,EB还基于完全包围的轮廓数量为每个区域提供物体性评分。我们通过WSDDN中的缩放层将特征图 ϕ S P P \phi_{SPP} ϕSPP 与其评分按比例相乘来利用这一额外信息,并将此配置标记为 B o x S c Box Sc BoxSc。由于我们使用SPP层来聚合每个区域的描述符,图像不需要像原始预训练模型那样调整为特定尺寸。相反,我们保持图像的原始长宽比不变,并按照[14]的方法将它们缩放到五种不同尺寸(将其宽度或高度的最大值分别设置为{480, 576, 688, 864, 1200})。在训练期间,我们对图像应用随机水平翻转并随机选择一个尺寸作为抖动或数据增强的形式。在测试时,我们对10张图像(即5种尺寸及其翻转版本)的输出取平均。我们使用公开可用的CNN工具箱MatConvNet[33]进行实验,并共享我们的代码、模型和数据【1】(https://github.com/hbilen/WSDDN)。

当对图像进行评估时,WSDDN会为每个目标类别 c 和图像 x 生成:

  • 每个类别c的区域级分数 x r R = S c ( x ; r ) x^R_r = S_c(x; r) xrR=Sc(x;r)
  • 图像级聚合分数 y c = S c ( x ) y_c = S_c(x) yc=Sc(x)
    应用40% IoU阈值的非极大值抑制后,综合计算检测AP与CorLoc指标。

(实现基于MatConvNet工具箱[33],代码与模型已开源)


4.3 检测结果

基准方法。
我们首先设计了一个单流分类-检测网络作为WSDDN的对比基线。该架构部分设计与WSDDN相似——我们将VGG-CNN-F模型的 pool5 层替换为SPP层。但不同之处在于,我们没有分支出双数据流,而是直接在最后一个全连接层( ϕ f c 8 c \phi_{fc8c} ϕfc8c)后添加了以下损失层:

在这里插入图片描述

其中 l o g ∑ r = 1 ∣ R ∣ e x p ( x c r R ) log∑^{|R|}_{r=1} exp(x^R_{cr}) logr=1Rexp(xcrR)项是 m a x r x c r R max_r x^R_{cr} maxrxcrR运算符的软近似,实验表明其性能优于直接使用最高分区域。该现象在文献[1]中也有报道。需要注意的是,此非线性变换必不可少,否则基于区域的分数聚合将会累加大量无信息区域的分数。该损失函数仍是C个二元铰链损失之和(每个类别对应一个)。该基线方法在PASCAL VOC测试集上获得21.6%的mAP检测分数,远低于当前最优水平(文献[34]中的31.6%)。

预训练CNN架构评估。
我们采用S、M、L三种模型评估方法性能,并通过简单平均分数的方式报告模型集成结果。表1显示,单独使用S和M模型的WSDDN已达到当前最优方法[34]的水平,而模型集成在VOC 2007数据集上超越了此前最佳成绩。与全监督检测方法(如[11])不同,WSDDN的检测性能并未随网络宽度或深度增加而提升。相反,L模型表现显著逊于S和M模型(见表1),这源于L模型更倾向于聚焦物体局部而非整体实例——由于其更小的卷积步长、更高分辨率和更深层架构,仍能将局部特征与物体类别关联。

物体提议方法比较。
我们进一步比较两种主流物体提议方法SSW[32]和EB[37]的检测性能。虽然两种区域提议质量相当,但利用EB的边界框分数(表1中记为Box Sc)使S/M模型提升2%mAP,L模型提升达5%。

空间正则化效果。
我们标注了引入额外空间正则项的训练设置(表1中记为Sp. Reg.)。最终,该正则化使S/M/L模型分别获得1、2、4个mAP点的提升。这些改进表明,较大网络能从高置信度区域的空间不变性约束中获得更大收益。

与现有技术的比较。

在完成设计决策评估后,我们采用最佳配置(表1最后一行),分别在表2和表3(VOC 2007数据集)以及表5和表6(VOC 2010数据集)中将WSDDN与弱监督检测领域的先进方法进行对比。结果表明,我们的方法在使用单一模型时已显著优于现有方案,而模型集成进一步提升了性能。多数前人研究[29,30,1,35,2]将Caffe参考CNN模型[16](相当于本文的S模型)作为黑盒特征提取器处理SSW提议。Cinbis等[4]除CNN特征外,还结合了Fisher向量[25]及Zitnick与Dollar的EB物体性度量[37]。与这些工作不同,WSDDN仅通过对原始CNN架构进行简单修改,并基于目标数据通过反向传播微调实现。

进一步分析实验结果可见,虽然我们的方法在大多数类别上显著领先,但在椅子、人物和盆栽植物类别表现稍逊。图3展示了典型失败与成功案例。值得注意的是,当前系统最主要的失败模式是将物体局部(如人脸)误检为整体目标。这源于"人脸"等局部特征通常具有更强的判别性且外观变化较小。需说明,这种失败模式的根本原因在于我们与多数研究者相同,将物体定义为对给定类别最具预测性的图像区域——这些区域可能不包含完整物体。解决该问题需要在模型中引入额外线索以学习"整体物体"概念。

我们的模型输出也可作为现有弱监督检测方法的输入(这些方法将CNN作为黑盒特征提取器)。该方向的探索将留待未来工作。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


4.4 分类结果

尽管WSDDN主要针对弱监督目标检测设计,但其最终通过图像分类任务进行训练。因此,评估其分类性能也具有重要意义。我们在PASCAL VOC 2007基准测试中,将WSDDN与CNN常用的标准微调技术进行对比(结果见表6)。文献[3,14,23]已对这些技术进行过深入研究:Chatfield等[3]特别分析了包括扩展数据增强在内的多种微调变体,实验采用VGG-F、VGG-M和VGG-S三种架构——其中VGG-F速度最快,另两个网络较慢但更精确。如4.2节所述,我们分别用预训练的VGG-F和VGG-M-1024初始化WSDDN S/M,因此它们应视为合理基线。实验表明,WSDDN S/M相较对应基线分别提升8分和7分。

我们还对比了采用4级空间金字塔池化{6×6,3×3,2×2,1×1}的SPP-net[14](基于Overfeat-7[27]的全监督检测框架)。虽然未进行微调,但其空间池化层在PASCAL VOC 2007分类任务中达到82.4%的最佳性能。最后,WSDDN L与高性能VGG-VD16[28]对比——后者同样通过多位置多尺度的全连接层激活聚合来利用粗粒度局部信息。值得注意的是,WSDDN L以0.4个百分点的优势超越这一强劲基线。
在这里插入图片描述


5. 结论

本文提出了WSDDN——通过对预训练图像分类CNN进行简单改造,使其能够执行弱监督检测任务。该方法仅需通过反向传播、区域提议和图像级标签在目标数据集上微调,即可显著超越现有弱监督检测方法的性能。由于基于SPP层实现,其在训练和测试阶段均保持高效。实验还表明,在图像分类任务中,WSDDN对预训练CNN的性能提升优于传统微调技术。

我们指出,将物体局部误检为整体是该方法的典型失败模式,这影响了特定类别的检测性能。经分析,该问题源于当前物体识别的主要判定标准(即选择高区分度的图像区域)。目前,我们正在探索能够促进完整物体检测的互补线索。


6. 参考文献

[1] H. Bilen, M. Pedersoli, and T. Tuytelaars. Weakly supervised object detection with posterior regularization. In Proc.
BMVC., 2014.
[2] H. Bilen, M. Pedersoli, and T. Tuytelaars. Weakly supervised object detection with convex clustering. In Proc. CVPR,
2015.
[3] K. Chatfield, K. Simonyan, A. Vedaldi, and A. Zisserman. Return of the devil in the details: Delving deep into convolutional nets. In Proc. BMVC., 2014.
[4] R. G. Cinbis, J. Verbeek, and C. Schmid. Weakly supervised object localization with multi-fold multiple instance learning. arXiv preprint arXiv:1503.00949, 2015.
[5] T. Deselaers, B. Alexe, and V. Ferrari. Localizing objectswhile learning their appearance. In Proc. ECCV, pages 452–466, 2010.
[6] T. Deselaers, B. Alexe, and V. Ferrari. Weakly supervised localization and learning with generic knowledge. IJCV, 100(3):275–293, 2012.
[7] T. G. Dietterich, R. H. Lathrop, and T. Lozano-Perez. Solving the multiple instance problem with axis-parallel rectangles. Artificial Intelligence, 89(1-2):31–71, 1997.
[8] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. Decaf: A deep convolutional
activation feature for generic visual recognition. CoRR, abs/1310.1531, 2013.
[9] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) challenge. IJCV, 88(2):303–338, 2010.
[10] P. F. Felzenszwalb, R. B. Grishick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part
based models. IEEE PAMI, 2010.
[11] R. Girshick. Fast r-cnn. In Proc. ICCV, 2015.
[12] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In Proc. CVPR, 2014.
[13] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul-taneous detection and segmentation. In Proc. ECCV, pages
297–312, 2014.
[14] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In
Proc. ECCV, pages 346–361, 2014.
[15] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. 2015.
[16] Y. Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013.
[17] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In
NIPS, pages 1106–1114, 2012.
[18] M. P. Kumar, B. Packer, and D. Koller. Self-paced learning for latent variable models. In NIPS, pages 1189–1197, 2010.
[19] S. Lazebnik, C. Schmid, and J. Ponce. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural
Scene Categories. In Proc. CVPR, 2006.
[20] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation
applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989.
[21] T. J. Lin, A. RoyChowdhury, and S. Maji. Bilinear cnn models for fine-grained visual recognition. In Proc. ICCV, 2015.
[22] Y. Nesterov. Smooth minimization of non-smooth functions. Mathematical programming, 103(1):127–152, 2005.
[23] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks. In Proc. CVPR, 2014.
[24] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Is object localization for free?–weakly-supervised learning with convolutional neural networks. In CVPR, pages 685–694, 2015.
[25] F. Perronnin, J. Sanchez, and T. Mensink. Improving the Fisher kernel for large-scale image classification. In Proc.
ECCV, 2010.
[26] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, S. Huang, A. Karpathy, A. Khosla, M. Bernstein,
A. Berg, and F. Li. Imagenet large scale visual recognition challenge. IJCV, 2015.
[27] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization
and detection using convolutional networks. arXiv preprint arXiv:1312.6229, 2013.
[28] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In International
Conference on Learning Representations, 2015.
[29] H. O. Song, R. Girshick, S. Jegelka, J. Mairal, Z. Harchaoui, and T. Darrell. On learning to localize objects with minimal supervision. In Proc. ICML, pages 1611–1619, 2014.
[30] H. O. Song, Y. J. Lee, S. Jegelka, and T. Darrell. Weaklysupervised discovery of visual pattern configurations. In
NIPS, pages 1637–1645, 2014.
[31] A. Toshev and C. Szegedy. DeepPose: Human pose estimation via deep neural networks. arXiv preprint arXiv:1312.4659, 2013.
[32] K. van de Sande, J. Uijlings, T. Gevers, and A. Smeulders. Segmentation as selective search for object recognition. In Proc. ICCV, 2011.
[33] A. Vedaldi and K. Lenc. Matconvnet – convolutional neural networks for matlab. In Proceeding of the ACM Int. Conf. on
Multimedia, 2015.
[34] C. Wang, W. Ren, K. H., and T. Tan. Weakly supervised object localization with latent category learning. In Proc.ECCV, volume 8694, pages 431–445, 2014.
[35] J. Wang, Y. Song, T. Leung, C. Rosenberg, J. Wang, J. Philbin, B. Chen, and Y. Wu. Learning fine-grained image similarity with deep ranking. In Proc. CVPR, 2014.
[36] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Object detectors emerge in deep scene CNNs. In ICLR, 2015.
[37] C. L. Zitnick and P. Dollar. Edge boxes: Locating object proposals from edges. In Proc. ECCV, pages 391–405, 2014.


【本节完】


版权声明:
欢迎关注『youcans论文精读』系列
转发请注明原文链接:
【youcans论文精读】弱监督深度检测网络(Weakly Supervised Deep Detection Networks)
Copyright 2025 youcans, XIDIAN
Crated:2025-04


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2328195.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【服务日志链路追踪】

MDCInheritableThreadLocal和spring cloud sleuth 在微服务架构中,日志链路追踪(Logback Distributed Tracing) 是一个关键需求,主要用于跟踪请求在不同服务间的调用链路,便于排查问题。常见的实现方案有两种&#x…

【行测】判断推理:图形推理

> 作者:დ旧言~ > 座右铭:读不在三更五鼓,功只怕一曝十寒。 > 目标:掌握 图形推理 基本题型,并能运用到例题中。 > 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安! …

3D模型给可视化大屏带来了哪些创新,都涉及到哪些技术栈。

一、3D 模型给可视化大屏带来的创新 更直观的视觉体验 传统的可视化大屏主要以二维图表和图形的形式展示数据,虽然能够传达一定的信息,但对于复杂的场景和数据关系,往往难以直观地呈现。而 3D 模型可以将数据以三维立体的形式展示出来&#…

Unity HDRP管线用ShaderGraph还原Lit,方便做拓展;

里面唯一的重点就是判断有无这张复合图,我用的是颜色判断: float Tex TexCol.r*TexCol.g*TexCol.b*TexCol.a; if(Tex 1) { IsOrNot 1; } else { IsOrNot 0; } 其他的正常解码就行,对了法线贴图孔位记得设置成normal,不然的话…

绝缘升级 安全无忧 金能电力环保绝缘胶垫打造电力安全防护新标杆

在电力安全领域,一块看似普通的胶垫,却是守护工作人员生命安全的“第一道防线”。近年来,随着电网设备升级和环保要求趋严,传统绝缘胶垫有异味、易老化、绝缘性能不足等问题逐渐暴露。为此,金能电力凭借技术创新推出新…

Linux命令-iotop

iotop 命令 iotop 是一个用于实时监控磁盘 I/O 活动的工具,可以显示哪些进程正在使用磁盘资源。 参数 描述 –version 显示程序版本号并退出 -h, --help 显示此帮助消息并退出 -o, --only 仅显示实际进行 I/O 操作的进程或线程 -b, --batch 非交互模式,适…

QTableWidget 中insertRow(0)(头插)和 insertRow(rowCount())(尾插)的性能差异

一、目的 在 Qt 的 QTableWidget 中,insertRow(0) (头插)和 insertRow(rowCount())(尾插)在性能上存在显著差异。 二、QAbstractItemModel:: insertRows 原文解释 QAbstractItemModel Class | Qt Core 5.15.18 AI 解…

【万字总结】前端全方位性能优化指南(完结篇)——自适应优化系统、遗传算法调参、Service Worker智能降级方案

前言 自适应进化宣言 当监控网络精准定位病灶,真正的挑战浮出水面:系统能否像生物般自主进化? 五维感知——通过设备传感器实时捕获环境指纹(如地铁隧道弱光环境自动切换省电渲染) 基因调参——150个性能参数在遗传算…

不绕弯地解决文件编码问题,锟斤拷烫烫烫

安装python对应库 pip install chardet 检测文件编码 import chardet# 检测文件编码 file_path rC:\Users\AA\Desktop\log.log # 这里放文件和文件绝对路径 with open(file_path, rb) as f:raw_data f.read(100000) # 读取前10000个字节result chardet.detect(raw_data)e…

高密度任务下的挑战与破局:数字样机助力火箭发射提效提质

2025年4月1日12时,在酒泉卫星发射中心,长征二号丁运载火箭顺利升空,成功将一颗卫星互联网技术试验卫星送入预定轨道,发射任务圆满完成。这是长征二号丁火箭的第97次发射,也是长征系列火箭的第567次发射。 执行本次任务…

QT Quick(C++)跨平台应用程序项目实战教程 6 — 弹出框

目录 1. Popup组件介绍 2. 使用 上一章内容完成了音乐播放器程序的基本界面框架设计。本小节完成一个简单的功能。单击该播放器顶部菜单栏的“关于”按钮,弹出该程序的相关版本信息。我们将使用Qt Quick的Popup组件来实现。 1. Popup组件介绍 Qt 中的 Popup 组件…

KisFlow-Golang流式实时计算案例(四)-KisFlow在消息队列MQ中的应用

Golang框架实战-KisFlow流式计算框架专栏 Golang框架实战-KisFlow流式计算框架(1)-概述 Golang框架实战-KisFlow流式计算框架(2)-项目构建/基础模块-(上) Golang框架实战-KisFlow流式计算框架(3)-项目构建/基础模块-(下) Golang框架实战-KisFlow流式计算框架(4)-数据流 Golang框…

leetcode:1582. 二进制矩阵中的特殊位置(python3解法)

难度:简单 给定一个 m x n 的二进制矩阵 mat,返回矩阵 mat 中特殊位置的数量。 如果位置 (i, j) 满足 mat[i][j] 1 并且行 i 与列 j 中的所有其他元素都是 0(行和列的下标从 0 开始计数),那么它被称为 特殊 位置。 示…

Cline – OpenRouter 排名第一的CLI 和 编辑器 的 AI 助手

Cline – OpenRouter 排名第一的CLI 和 编辑器 的 AI 助手,Cline 官网:https://github.com/cline/cline Star 37.8k ps,OpenRouter的网址是:OpenRouter ,这个排名第一,据我观察,是DeepSeek v3…

Mock.js虚拟接口

Vue3中使用Mock.js虚拟接口数据 一、创建项目 pnpm创建vite的项目,通过 PNPM来简化依赖管理。若还没有安装 PNPM,可以通过 npm来安装: 安装 PNPM npm install -g pnpm//使用国内镜像加速pnpm add -g pnpmlatestpnpm config set registry http://regis…

LoRa模块通信距离优化:如何实现低功耗覆盖30公里无线传输要求

在物联网(IoT)快速发展的今天,LoRa(Long Range)技术作为一种基于扩频调制的远距离无线通信技术,因其远距离通信、低功耗和强抗干扰能力等优势,在农业监测、城市智能管理、环境监测等多个领域得到…

OpenCV 从入门到精通(day_05)

1. 模板匹配 1.1 什么是模板匹配 模板匹配就是用模板图(通常是一个小图)在目标图像(通常是一个比模板图大的图片)中不断的滑动比较,通过某种比较方法来判断是否匹配成功。 1.2 匹配方法 rescv2.matchTemplate(image, …

OpenRouter开源的AI大模型路由工具,统一API调用

简介 ‌OpenRouter是一个开源的路由工具‌,它可以绕过限制调用GPT、Claude等国外模型。以下是对它的详细介绍: 一、主要功能 OpenRouter专注于将用户请求智能路由到不同的AI模型,并提供统一的访问接口。它就像一个“路由器”,能…

zabbix监控网站(nginx、redis、mysql)

目录 前提准备: zabbix-server主机配置: 1. 安装数据库 nginx主机配置: 1. 安装nginx redis主机配置: 1. 安装redis mysql主机配置: 1. 安装数据库 zabbix-server: 1. 安装zabbix 2. 编辑配置文…

蓝桥杯冲刺

例题1&#xff1a;握手问题 方法1&#xff1a;数学推理(简单粗暴&#xff09; 方法2&#xff1a;用代码实现方法1 #include<iostream> using namespace std; int main() {int result 0;for (int i 1; i < 49; i){for (int j i 1; j < 50; j){//第i个人与第j个…