【youcans论文精读】弱监督深度检测网络（Weakly Supervised Deep Detection Networks）

欢迎关注『youcans论文精读』系列
本专栏内容和资源同步到 GitHub/youcans

【youcans论文精读】弱监督深度检测网络 WSDDN

- 0. 弱监督检测的开山之作
- - 0.1 论文简介
  - 0.2 WSDNN 的步骤
  - 0.3 摘要
- 1. 引言
- 2. 相关工作
- 3. 方法
- - 3.1 预训练网络
  - 3.2 弱监督深度检测网络
  - 3.3 WSDDN训练
  - 3.4 空间正则化器
- 4. 实验
- - 4.1 基准数据集
  - 4.2 实验设置
  - 4.3 检测结果
  - 4.4 分类结果
- 5. 结论
- 6. 参考文献

弱监督目标检测（Weakly Supervised Object Detection, WSOD），是指使用少量或不精确的标注数据进行有效的目标检测。

传统的目标检测方法，即强监督学习，依赖于大量精确标注的数据，这在实际应用中往往是昂贵且耗时的。弱监督学习处理的是带有噪声或不精确标注的数据。弱监督学习的目标是在标注信息不完整或不精确的情况下，训练出性能良好的模型。

弱监督目标检测的挑战：

不精确的标注：WSOD通常使用图像级别的标注，即只知道图像中是否包含特定类别的目标，而不知道目标的具体位置。
类别不平衡：在实际应用中，数据集中的正样本（含目标的图像）和负样本（不含目标的图像）可能存在显著的不平衡。
泛化能力：WSOD模型需要能够泛化到新的、未见过的数据上，即使这些数据的标注信息同样不精确。

0. 弱监督检测的开山之作

0.1 论文简介

弱监督检测任务(WSD，Weakly Supervised Detection ) 是指仅使用图像的类别标签来实现目标检测任务。

2016年，牛津大学 H. Bilen 等发表论文 “Weakly Supervised Deep Detection Networks（弱监督深度检测网络）”，是弱监督检测领域的开山之作。

H. Bilen and A. Vedaldi, “Weakly Supervised Deep Detection Networks,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, pp. 2846-2854, doi: 10.1109/CVPR.2016.311.
【论文下载】：ieeexplore, arxiv
【GitHub地址】：Github-wsddn，Github-hbilen

在这里插入图片描述

0.2 WSDNN 的步骤

论文提出一种弱监督的深度检测架构WSDDN，只利用图像级别的标注，就可以实现区域选择和分类任务。

WSDDN 分为三步：

获取在 ImageNet 1K 上预训练的 CNN；
构建WSDDN模型；
在目标数据集上仅使用图像级标注训练/fine-tune WSDDN，达到当时的 state-of-the-art。

0.3 摘要

弱监督目标检测学习是图像理解领域的一个重要问题，但目前仍未得到令人满意的解决方案。
本文通过利用基于大规模图像分类任务预训练的深度卷积神经网络，提出了一种弱监督深度检测架构。该架构通过改造现有网络使其在图像区域层面运作，能够同步执行区域选择与分类任务。
虽然以图像分类器形式进行训练，但该架构在 PASCAL VOC 数据集上隐含学习到的目标检测器性能优于其他弱监督检测系统。这个简洁优雅的端到端架构在图像分类任务中也超越了标准数据增强和微调技术的表现。

1. 引言

近年来，卷积神经网络（CNN）[20]已成为图像识别领域最先进的深度学习框架。其成功的关键在于能够从海量标注数据中学习真实物体的复杂外观特征。CNN最引人注目的特性之一，是其学习到的通用视觉特征可迁移至多种任务。特别是基于ImageNet ILSVRC等数据集预训练的CNN，已在跨领域识别[8]、目标检测[12]、语义分割[13]、人体姿态估计[31]等任务中展现出卓越性能。

本文探索如何将CNN的强大能力应用于弱监督检测（WSD）——即仅利用图像级标签学习目标检测器的任务。
弱监督学习能力的重要性体现在两方面：
首先，图像理解需要学习日益增长的复杂视觉概念（如ImageNet中数十万物体类别）；
其次，CNN训练依赖大量数据。
因此，通过轻量级监督学习复杂概念，可显著降低图像分割、描述生成或目标检测等任务的标注成本。

我们的研究基于以下假设：
既然预训练CNN能出色迁移至众多任务，其必然蕴含数据的本质表征。
例如，有证据表明[36]，图像分类CNN会隐式学习物体及其部件的代理特征。值得注意的是，这些概念的获取完全未依赖图像中目标位置的显式标注。这意味着，图像分类CNN可能已隐式包含目标检测所需的大部分信息。

我们并非首个用CNN解决WSD的研究。Wang等[34]的方法使用预训练CNN提取区域特征，将物体类别建模为视觉主题。虽然该方法当前代表弱监督检测的最高水平，但其包含CNN之外的多个组件且需大量调参。

本文提出一种基于预训练CNN的端到端弱监督目标检测方法——弱监督深度检测网络（WSDDN）（图1）。

在这里插入图片描述
图1. 弱监督深度检测网络。
我们的方法始于在大规模数据集（如ImageNet）上预训练的图像分类CNN，通过改造使其能够高效处理图像区域，并分支出识别流与检测流双路架构。最终形成的网络仅需图像级标注即可在目标数据集上微调，实现当前最优的弱监督目标检测性能。

该方法（第3节）以AlexNet等预训练网络为基础，通过空间金字塔池化层[14,11]高效提取图像区域描述符 $\phi(x;R)$ 。网络随后分叉为双流架构：识别流为每个区域生成类别分数φ_c(x;R)，检测流则计算区域概率分布φ_d(x;R)以定位最显著结构。最终通过聚合区域分数实现图像级分类，从而注入弱监督信号。

与传统多示例学习（MIL）[7]相比，我们的方法存在本质差异：MIL使用同一外观模型交替进行区域选择与模型更新，而WSDDN通过独立的检测分支进行区域选择，避免了MIL易陷入局部最优的缺陷。
多示例学习（MIL），是一种监督学习的子领域。在 MIL 中，训练数据被组织成"袋子"，每个"袋子"包含多个实例（样本）。训练的目标是确定整个"袋子"的标签（例如，正类或负类），而不是确定单个实例的标签。

我们的双流架构与Lin等[21]的"双线性"网络存在微弱关联。虽然两者都受人类视觉腹侧流（识别）与背侧流（定位）启发，但关键区别在于：Lin的方案中双流完全对称，而我们的检测分支通过显式区域比较打破对称性。此外，Lin的研究未涉及WSD或检测性能评估。

经上述改造后，网络仅需图像级标签、区域提议和反向传播即可在目标数据集上微调。第4节实验表明，在PASCAL VOC数据集上，该架构以纯CNN机制实现了当前最优的弱监督检测性能[34]，其训练测试效率与全监督Fast R-CNN[11]相当。作为副产品，该方法还产生了优于标准微调技术的图像分类器。第5节将总结这些发现。

2. 相关工作

现有弱监督检测（WSD）方法大多采用多示例学习（MIL）框架。该框架将图像视为区域包：若图像标记为正样本，则假定至少一个区域紧密包含目标物体；若为负样本，则所有区域均不包含目标。学习过程交替进行两个步骤：(1) 基于当前外观模型从正样本包中选择可能包含目标的区域，(2) 根据选定区域更新物体外观模型。

MIL策略导致非凸优化问题，求解过程易陷入局部最优，解的质量高度依赖初始化。相关研究主要聚焦两类改进：一是初始化策略优化[18,5,30,4]，二是优化问题正则化[29,1]。Kumar等[18]提出自步学习策略，逐步将困难样本加入初始小规模训练集；Deselaers等[5]基于物体性评分初始化目标位置；Cinbis等[4]采用训练数据多重划分避免局部最优；Song等[29]将Nesterov平滑技术[22]应用于隐变量SVM[10]，提升对劣质初始化的鲁棒性；Bilen等[1]提出平滑版MIL，通过软标签替代硬性选择最高分区域，并基于对称性和互斥原则对异常目标位置施加正则约束。

**另一类WSD研究[29,30,34]着眼于图像部件相似性挖掘。**Song等[29]提出基于判别性图模型的算法，选择与正样本图像中最近邻窗口相连的窗口子集；文献[30]进一步扩展该方法以发现多组共现部件配置；Wang等[34]采用潜在语义分析（pLSA）对正样本窗口进行迭代聚类，根据分类性能选择最具判别力的类别簇；Bilen等[2]提出联合学习框架，通过判别性凸聚类算法同步优化分类模型并保持选定区域相似性。

**近期研究[23,24]探索了无需位置标注的弱监督定位方法以提升CNN分类性能。**Oquab等[23]利用预训练CNN生成PASCAL VOC图像的中层表示；后续工作[24]改造CNN架构，在预测标签时实现目标的粗粒度定位。Jaderberg等[15]提出包含图像预变换子网络的CNN架构，该"变换网络"通过端到端训练将物体对齐至标准参考系（可视为检测代理）。

我们的架构包含一种机制预选可能包含对象的图像区域，也以端到端的方式进行训练；虽然这看起来可能非常不同，但这种机制也可以被视为学习转换（将检测到的区域映射到规范参考系的转换）。然而，在我们和他们的网络中，区域预选过程的性质是非常不同的。

3. 方法

本节介绍我们提出的弱监督深度检测网络（WSDDN）方法。
整体思路包含三个步骤：

首先，获取在大规模图像分类任务上预训练的CNN（第3.1节）；
其次，通过对该CNN进行架构修改构建WSDDN（第3.2节）；
最后，在目标数据集上仅使用图像级标注再次训练/微调WSDDN（第3.3节）。

本节剩余部分将详细讨论这三个步骤。

3.1 预训练网络

我们的方法基于在ImageNet ILSVRC 2012数据集[26]上预训练的CNN构建，该预训练过程仅使用图像级监督（即不包含边界框标注）。所用CNN架构的具体细节将在第4节说明。

3.2 弱监督深度检测网络

在这里插入图片描述

给定预训练CNN，我们通过引入三个修改将其转化为WSDDN（另见第3节）。
（1）首先，我们将最后一个卷积块（通常称为relu5和pool5）中紧接ReLU层后的最后一个池化层替换为空间金字塔池化（SPP）层[19,14]。这将产生一个以图像x和区域（边界框）R作为输入，并输出特征向量或表示 $\phi(x; R)$ 的函数。重要的是，该函数可分解为：
在这里插入图片描述
其中 $\phi_{relu5}(x)$ 仅需对整个图像计算一次，而 $\phi_{SPP}(·; R)$ 对任意给定区域 R 都能快速计算。实际应用中，空间金字塔池化（SPP）被配置为与网络的首个全连接层（即 fc6）兼容。需要注意的是，如文献[11]所述，SPP以网络层的形式实现，从而支持端到端的系统训练(同时保证效率)。

（2）给定输入图像 x，候选目标区域的列表 $R = (R_1, ..., R_n)$ 通过区域提议机制（RPM）获得。本实验采用两种方法进行测试：选择性搜索窗口(SSW)[32]和边缘框(EB)[37]。
参照文献[11]的方法，我们将 SPP 层修改为可接受整个区域列表 R 作为输入，而非单一区域；具体而言， $\phi(x; R)$ 被定义为沿第四维度拼接的 $\phi(x; R1), ..., \phi(x; Rn)$ (因为每个独立的 $\phi(x; R)$ 都是三维张量)。

（3）在网络架构上，区域级特征会继续由两个全连接层 $\phi_{fc6}$ 和 $\phi_{fc7}$ 进行处理，每个全连接层包含线性映射和 ReLU 激活。从最后一个全连接层的输出开始，我们分支出两个数据流，具体描述如下：

分类数据流。
第一个数据流通过对各个区域进行分类处理，将其映射为 C维类别分数向量（假设系统被训练用于检测C个不同类别）。这是通过计算线性映射 $\phi_{fc8c}$ 实现的，最终生成数据矩阵 $x^c \in R^{C×|R|}$ ，其中包含每个区域的类别预测分数。随后，该矩阵通过 softmax 运算符进行处理，其定义如下：
检测数据流。
第二个数据流执行检测任务，通过对不同区域进行相互比较评分。该过程基于类别特异性实现，通过第二个线性映射 $\phi_{fc8d}$ 计算，同样生成得分矩阵 $x^d \in R^{C×|R|}$ 。随后该矩阵通过另一个 softmax 运算符处理，其定义如下：

尽管两个数据流结构高度相似，但分类流中的 $\sigma_{class}$ 非线性变换与检测流中的 $\sigma_{det}$ 非线性变换是关键区别，这使得它们分别执行分类和检测功能。具体而言：在分类流中，softmax 运算符独立地对每个区域的类别分数进行比较；而在检测流中，softmax 运算符则独立地对每个类别下的不同区域分数进行比较。因此，第一分支预测区域所属类别，第二分支筛选可能包含有效图像片段的区域。

区域分数融合与检测。
通过两个评分矩阵的逐元素（Hadamard）乘积 $x^R = \sigma_{class}(x^c) ⊙ \sigma_{det}(x^d)$ 获得每个区域的最终分数。随后，这些分数被用于根据目标中心可能性对图像区域进行排序（每个类别独立处理），并通过标准非极大值抑制（迭代移除与已选区域交并比 IoU 超过40%的区域）来获取图像中各类别的最终检测结果。

这种双流分数融合方式与文献[21]的双线性网络相似，但存在三个关键差异：首先，不同的 softmax 运算符显式打破了双流的对称性；其次，我们计算的是逐元素乘积 $\sigma_{class}(x^c_r)⊙ \sigma_{det}(x^d_r)$ 而非外积 $\sigma_{class}(x^c_r)⊗ \sigma_{det}(x^d_r)$ （参数数量呈平方级减少）；第三，分数计算针对特定图像区域 r 而非固定网格位置。这些差异使得我们可以明确解释 $\sigma_{det}(x^d)$ 为区域排序项， $\sigma_{class}(x^c)$ 为类别排序项，而文献[21]中双流的功能界定则较为模糊。

图像级分类分数。

至此，WSDDN已计算出区域级分数 $x^R$ 。通过对区域分数求和，可将其转化为图像级类别预测分数：

在这里插入图片描述

需要注意的是， $y_c$ 是经过 softmax 归一化分数在 $∣ R ∣$ 个区域上的逐元素乘积之和，因此其取值范围为 (0,1)。在此阶段不执行 softmax 运算，因为图像可能包含多个物体类别（而单个区域应仅包含一个类别）。
在这里插入图片描述

3.3 WSDDN训练

前文已阐述WSDDN架构，本节说明模型训练方法。训练数据为图像集合 $x_i (i=1,...,n)$ 及其图像级标签 $y_i \in \{-1,1\}^C$ 。定义 $\phi^y(x|w)$ 为完整架构，将图像 x 映射为类别分数向量 $\in R^C$ ，其中参数 w 包含卷积层和全连接层所有滤波器系数与偏置项。

采用带动量的随机梯度下降法优化能量函数：

在这里插入图片描述

该式优化 C 个二元对数损失项之和（每个类别对应一项）。由于 $\phi^y_k(x_i|w) \in (0,1)$ ，可视为图像 $x_i$ 中存在类别 k 的概率 $p(y_{ki}=1)$ 。当真实标签为正值时，二元对数损失为 $log(p(y_{ki}=1))$ ；负值时则为 $log(1-p(y_{ki}=1))$ 。

3.4 空间正则化器

WSDDN 针对图像级类别标签优化，无法保证空间平滑性（即高分区域相邻重叠区域也应获得高分）。全监督检测中，Fast-RCNN[11]将与真实框 IoU≥50% 的区域提案作为正样本，并学习回归至对应真实边界框。由于本方法无法获取真实框，我们采用软正则化策略：在训练期间惩罚 fc7 层特征图中最高分区域与IoU≥60% 区域（即 $KaTeX parse error: Unknown accent ' ̅' at position 8: r \in |R̲̲̅|$ ）的差异：

其中 $N^+_k$ 为类别 k 的正样本图像数， $*=argmax_r \phi^y_{kri}$ 表示类别 k 在图像 i 中的最高分区域。将此正则项加入公式(3) 的成本函数。

4. 实验

本节我们将对WSDDN及其各组件在弱监督目标检测和图像分类任务上进行全面实验验证。

4.1 基准数据集

我们在 PASCAL VOC 2007 和 2010 数据集[9]上评估方法性能，这两个数据集是弱监督目标检测领域最广泛使用的基准。VOC 2007 数据集包含2501张训练图像、2510张验证图像和5011张测试图像，涵盖20个物体类别的边界框标注；VOC 2010 数据集则包含4998张训练图像、5105张验证图像和9637张测试图像，类别数量相同。实验采用官方推荐的训练/验证集划分方案，所有结果均在测试集上报告。我们同时评估了方法在PASCAL VOC目标检测和图像分类两个任务上的表现。

针对检测任务，我们采用两种性能指标：遵循标准PASCAL VOC协议，以检测框与真实框的交并比(IoU)达到50%时的平均精度(AP)作为主要指标；同时报告弱监督检测常用指标CorLoc[6]，该指标表示在包含目标类别的图像中，置信度最高的检测框与任一真实实例IoU≥50%的图像占比。需注意的是，AP在PASCAL测试集上计算，而CorLoc则在训练集与验证集的联合集上评估。
对于分类任务，我们采用标准PASCAL VOC协议报告AP值。

4.2 实验设置

我们参照文献[11]的方法，采用三种预训练CNN模型进行全面评估：

VGG-CNN-F[3]（记为S-小型网络）：结构与AlexNet[17]类似，但减少了卷积滤波器数量；
VGG-CNN-M-1024（记为M-中型网络）：深度与S相同，但第一卷积层步长更小；
VGG-VD16[28]（记为L-大型网络）：深层架构。

这些模型在ImageNet ILSVRC 2012[26]上预训练（未使用边界框信息），单中心裁剪的top-5准确率分别为18.8%、16.1%和9.9%。

根据第3.1节所述，我们对网络进行以下改造：

将最后池化层pool5替换为与首全连接层兼容的SPP层[14]；
在分类分支旁添加并行检测分支（含全连接层+softmax层）；
通过逐元素乘积融合双流分数后跨区域求和，输入二元对数损失层。
（注：该层同时评估20个类别，但每个类别作为独立二分类问题处理，以适配PASCAL VOC的多标签特性）

WSDDN模型在PASCAL VOC训练集和验证集上进行全层微调训练，这是一种被广泛采用的提升CNN在目标领域性能的技术[3]。在本研究中，微调发挥着学习分类流和检测流的关键功能，使得网络能够仅通过弱图像级监督就有效地学习目标检测。分20个epoch训练，前10个 epoch学习率 $10^-5$ ，后10个epoch 降为 $10^-6$ 。每个 minibatch 包含单张图像的所有区域提案。

为了生成与我们的网络配合使用的候选区域，我们评估了两种区域提议方法：使用快速配置的选择性搜索窗口（SSW）[32]和边缘框（EB）[37]。除了区域提议外，EB还基于完全包围的轮廓数量为每个区域提供物体性评分。我们通过WSDDN中的缩放层将特征图 $\phi_{SPP}$ 与其评分按比例相乘来利用这一额外信息，并将此配置标记为 $B o x S c$ 。由于我们使用SPP层来聚合每个区域的描述符，图像不需要像原始预训练模型那样调整为特定尺寸。相反，我们保持图像的原始长宽比不变，并按照[14]的方法将它们缩放到五种不同尺寸（将其宽度或高度的最大值分别设置为{480, 576, 688, 864, 1200}）。在训练期间，我们对图像应用随机水平翻转并随机选择一个尺寸作为抖动或数据增强的形式。在测试时，我们对10张图像（即5种尺寸及其翻转版本）的输出取平均。我们使用公开可用的CNN工具箱MatConvNet[33]进行实验，并共享我们的代码、模型和数据【1】(https://github.com/hbilen/WSDDN)。

当对图像进行评估时，WSDDN会为每个目标类别 c 和图像 x 生成：

每个类别c的区域级分数 $x^R_r = S_c(x; r)$
图像级聚合分数 $y_c = S_c(x)$ 。
应用40% IoU阈值的非极大值抑制后，综合计算检测AP与CorLoc指标。

（实现基于MatConvNet工具箱[33]，代码与模型已开源）

4.3 检测结果

基准方法。
我们首先设计了一个单流分类-检测网络作为WSDDN的对比基线。该架构部分设计与WSDDN相似——我们将VGG-CNN-F模型的 pool5 层替换为SPP层。但不同之处在于，我们没有分支出双数据流，而是直接在最后一个全连接层( $\phi_{fc8c}$ )后添加了以下损失层：

在这里插入图片描述

其中 $log∑^{|R|}_{r=1} exp(x^R_{cr})$ 项是 $max_r x^R_{cr}$ 运算符的软近似，实验表明其性能优于直接使用最高分区域。该现象在文献[1]中也有报道。需要注意的是，此非线性变换必不可少，否则基于区域的分数聚合将会累加大量无信息区域的分数。该损失函数仍是C个二元铰链损失之和（每个类别对应一个）。该基线方法在PASCAL VOC测试集上获得21.6%的mAP检测分数，远低于当前最优水平（文献[34]中的31.6%）。

预训练CNN架构评估。
我们采用S、M、L三种模型评估方法性能，并通过简单平均分数的方式报告模型集成结果。表1显示，单独使用S和M模型的WSDDN已达到当前最优方法[34]的水平，而模型集成在VOC 2007数据集上超越了此前最佳成绩。与全监督检测方法（如[11]）不同，WSDDN的检测性能并未随网络宽度或深度增加而提升。相反，L模型表现显著逊于S和M模型（见表1），这源于L模型更倾向于聚焦物体局部而非整体实例——由于其更小的卷积步长、更高分辨率和更深层架构，仍能将局部特征与物体类别关联。

物体提议方法比较。
我们进一步比较两种主流物体提议方法SSW[32]和EB[37]的检测性能。虽然两种区域提议质量相当，但利用EB的边界框分数（表1中记为Box Sc）使S/M模型提升2%mAP，L模型提升达5%。

空间正则化效果。
我们标注了引入额外空间正则项的训练设置（表1中记为Sp. Reg.）。最终，该正则化使S/M/L模型分别获得1、2、4个mAP点的提升。这些改进表明，较大网络能从高置信度区域的空间不变性约束中获得更大收益。

与现有技术的比较。

在完成设计决策评估后，我们采用最佳配置（表1最后一行），分别在表2和表3（VOC 2007数据集）以及表5和表6（VOC 2010数据集）中将WSDDN与弱监督检测领域的先进方法进行对比。结果表明，我们的方法在使用单一模型时已显著优于现有方案，而模型集成进一步提升了性能。多数前人研究[29,30,1,35,2]将Caffe参考CNN模型[16]（相当于本文的S模型）作为黑盒特征提取器处理SSW提议。Cinbis等[4]除CNN特征外，还结合了Fisher向量[25]及Zitnick与Dollar的EB物体性度量[37]。与这些工作不同，WSDDN仅通过对原始CNN架构进行简单修改，并基于目标数据通过反向传播微调实现。

进一步分析实验结果可见，虽然我们的方法在大多数类别上显著领先，但在椅子、人物和盆栽植物类别表现稍逊。图3展示了典型失败与成功案例。值得注意的是，当前系统最主要的失败模式是将物体局部（如人脸）误检为整体目标。这源于"人脸"等局部特征通常具有更强的判别性且外观变化较小。需说明，这种失败模式的根本原因在于我们与多数研究者相同，将物体定义为对给定类别最具预测性的图像区域——这些区域可能不包含完整物体。解决该问题需要在模型中引入额外线索以学习"整体物体"概念。

我们的模型输出也可作为现有弱监督检测方法的输入（这些方法将CNN作为黑盒特征提取器）。该方向的探索将留待未来工作。

在这里插入图片描述

4.4 分类结果

尽管WSDDN主要针对弱监督目标检测设计，但其最终通过图像分类任务进行训练。因此，评估其分类性能也具有重要意义。我们在PASCAL VOC 2007基准测试中，将WSDDN与CNN常用的标准微调技术进行对比（结果见表6）。文献[3,14,23]已对这些技术进行过深入研究：Chatfield等[3]特别分析了包括扩展数据增强在内的多种微调变体，实验采用VGG-F、VGG-M和VGG-S三种架构——其中VGG-F速度最快，另两个网络较慢但更精确。如4.2节所述，我们分别用预训练的VGG-F和VGG-M-1024初始化WSDDN S/M，因此它们应视为合理基线。实验表明，WSDDN S/M相较对应基线分别提升8分和7分。

我们还对比了采用4级空间金字塔池化{6×6,3×3,2×2,1×1}的SPP-net[14]（基于Overfeat-7[27]的全监督检测框架）。虽然未进行微调，但其空间池化层在PASCAL VOC 2007分类任务中达到82.4%的最佳性能。最后，WSDDN L与高性能VGG-VD16[28]对比——后者同样通过多位置多尺度的全连接层激活聚合来利用粗粒度局部信息。值得注意的是，WSDDN L以0.4个百分点的优势超越这一强劲基线。
在这里插入图片描述

5. 结论

本文提出了WSDDN——通过对预训练图像分类CNN进行简单改造，使其能够执行弱监督检测任务。该方法仅需通过反向传播、区域提议和图像级标签在目标数据集上微调，即可显著超越现有弱监督检测方法的性能。由于基于SPP层实现，其在训练和测试阶段均保持高效。实验还表明，在图像分类任务中，WSDDN对预训练CNN的性能提升优于传统微调技术。

我们指出，将物体局部误检为整体是该方法的典型失败模式，这影响了特定类别的检测性能。经分析，该问题源于当前物体识别的主要判定标准（即选择高区分度的图像区域）。目前，我们正在探索能够促进完整物体检测的互补线索。

6. 参考文献

[1] H. Bilen, M. Pedersoli, and T. Tuytelaars. Weakly supervised object detection with posterior regularization. In Proc.
BMVC., 2014.
[2] H. Bilen, M. Pedersoli, and T. Tuytelaars. Weakly supervised object detection with convex clustering. In Proc. CVPR,
2015.
[3] K. Chatfield, K. Simonyan, A. Vedaldi, and A. Zisserman. Return of the devil in the details: Delving deep into convolutional nets. In Proc. BMVC., 2014.
[4] R. G. Cinbis, J. Verbeek, and C. Schmid. Weakly supervised object localization with multi-fold multiple instance learning. arXiv preprint arXiv:1503.00949, 2015.
[5] T. Deselaers, B. Alexe, and V. Ferrari. Localizing objectswhile learning their appearance. In Proc. ECCV, pages 452–466, 2010.
[6] T. Deselaers, B. Alexe, and V. Ferrari. Weakly supervised localization and learning with generic knowledge. IJCV, 100(3):275–293, 2012.
[7] T. G. Dietterich, R. H. Lathrop, and T. Lozano-Perez. Solving the multiple instance problem with axis-parallel rectangles. Artificial Intelligence, 89(1-2):31–71, 1997.
[8] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. Decaf: A deep convolutional
activation feature for generic visual recognition. CoRR, abs/1310.1531, 2013.
[9] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) challenge. IJCV, 88(2):303–338, 2010.
[10] P. F. Felzenszwalb, R. B. Grishick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part
based models. IEEE PAMI, 2010.
[11] R. Girshick. Fast r-cnn. In Proc. ICCV, 2015.
[12] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In Proc. CVPR, 2014.
[13] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul-taneous detection and segmentation. In Proc. ECCV, pages
297–312, 2014.
[14] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In
Proc. ECCV, pages 346–361, 2014.
[15] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. 2015.
[16] Y. Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013.
[17] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In
NIPS, pages 1106–1114, 2012.
[18] M. P. Kumar, B. Packer, and D. Koller. Self-paced learning for latent variable models. In NIPS, pages 1189–1197, 2010.
[19] S. Lazebnik, C. Schmid, and J. Ponce. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural
Scene Categories. In Proc. CVPR, 2006.
[20] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation
applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989.
[21] T. J. Lin, A. RoyChowdhury, and S. Maji. Bilinear cnn models for fine-grained visual recognition. In Proc. ICCV, 2015.
[22] Y. Nesterov. Smooth minimization of non-smooth functions. Mathematical programming, 103(1):127–152, 2005.
[23] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks. In Proc. CVPR, 2014.
[24] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Is object localization for free?–weakly-supervised learning with convolutional neural networks. In CVPR, pages 685–694, 2015.
[25] F. Perronnin, J. Sanchez, and T. Mensink. Improving the Fisher kernel for large-scale image classification. In Proc.
ECCV, 2010.
[26] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, S. Huang, A. Karpathy, A. Khosla, M. Bernstein,
A. Berg, and F. Li. Imagenet large scale visual recognition challenge. IJCV, 2015.
[27] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization
and detection using convolutional networks. arXiv preprint arXiv:1312.6229, 2013.
[28] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In International
Conference on Learning Representations, 2015.
[29] H. O. Song, R. Girshick, S. Jegelka, J. Mairal, Z. Harchaoui, and T. Darrell. On learning to localize objects with minimal supervision. In Proc. ICML, pages 1611–1619, 2014.
[30] H. O. Song, Y. J. Lee, S. Jegelka, and T. Darrell. Weaklysupervised discovery of visual pattern configurations. In
NIPS, pages 1637–1645, 2014.
[31] A. Toshev and C. Szegedy. DeepPose: Human pose estimation via deep neural networks. arXiv preprint arXiv:1312.4659, 2013.
[32] K. van de Sande, J. Uijlings, T. Gevers, and A. Smeulders. Segmentation as selective search for object recognition. In Proc. ICCV, 2011.
[33] A. Vedaldi and K. Lenc. Matconvnet – convolutional neural networks for matlab. In Proceeding of the ACM Int. Conf. on
Multimedia, 2015.
[34] C. Wang, W. Ren, K. H., and T. Tan. Weakly supervised object localization with latent category learning. In Proc.ECCV, volume 8694, pages 431–445, 2014.
[35] J. Wang, Y. Song, T. Leung, C. Rosenberg, J. Wang, J. Philbin, B. Chen, and Y. Wu. Learning fine-grained image similarity with deep ranking. In Proc. CVPR, 2014.
[36] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Object detectors emerge in deep scene CNNs. In ICLR, 2015.
[37] C. L. Zitnick and P. Dollar. Edge boxes: Locating object proposals from edges. In Proc. ECCV, pages 391–405, 2014.

【本节完】

版权声明：
欢迎关注『youcans论文精读』系列
转发请注明原文链接：
【youcans论文精读】弱监督深度检测网络（Weakly Supervised Deep Detection Networks）
Copyright 2025 youcans, XIDIAN
Crated：2025-04