（论文阅读26/100）Weakly-supervised learning with convolutional neural networks

news2025/4/13 14:45:26

26.文献阅读笔记
简介	题目	Weakly-supervised learning with convolutional neural networks
	作者	Maxime Oquab，Leon Bottou，Ivan Laptev，Josef Sivic，CVPR，2015
	原文链接	http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Oquab_Is_Object_Localization_2015_CVPR_paper.pdf
	关键词	CNN,multi-classification
	研究问题	通过bounding boxes标注的图像分类具有一定的问题：通过边界框一致地标注物体的位置和尺度，对部分遮挡和裁剪的物体效果不佳；对物体部分的标注很困难。所以直接对图像内的物体种类进行标注然后训练（弱监督学习）。
	研究方法	a weakly supervised convolutional neural network (CNN) for object classification that relies only on image-level labels；用于物体分类的弱监督卷积神经网络( CNN )仅依赖于图像级别的标签，而不依赖于object bounding boxes。只标注图片包含的对象列表，而不标注对象的位置。在Alexnet的基础上. 前五个卷积层是在Imagenet上进行训练的，后面的几层是在Pascal数据集上进行训练的. First, we treat the last fully connected network layers as convolutions to cope with the uncertainty in object localization. 首先，将最后一个全连接网络层看作卷积层，以应对目标定位中的不确定性。可以处理几乎任意大小的图像作为输入。 Second, we introduce a max-pooling layer that hypothesizes the possible location of the object in the image. 其次，在输出端添加单个全局最大池化层显式搜索图像中得分最高的对象位置。 Third, we modify the cost function to learn from image-level supervision. 修改了代价函数以借鉴图像级监督。将任务视为每个类单独的二分类问题。因此，损失函数是K个二元Logistic回归损失之和。 k ∈ {1 · · · K} F:分类结果 Y：标签值每一个类别分数fk (x)可以解释为一个后验概率，表示图像x中k类的存在解决多尺度问题：对所有训练图像进行缩放，使其最大边长为500像素，并将其补零至500 × 500像素。然后，每个训练小批量的16幅图像通过在0.7到1.4之间均匀采样的比例因子进行缩放。这使得网络可以看到图像中不同尺度的物体。定位的衡量标准，作者是将max-pooling的输出映射到原图，然后将结果与bounding-box标注的结果进行比较，容忍度为18个像素，即将bounding-box向外扩18个像素，如果结果在此之内，则认为定位正确。
	研究结论	可以从包含多个物体的杂乱场景中学习。修改后的CNN架构在仅训练输出图像级标签的同时，对训练图像中的物体或其独特部分进行了定位。弱监督网络可以预测场景中物体的大致位置(在x , y位置的形式)，但不能预测物体的范围(包围盒)。在测试时间内只搜索六个不同的尺度就足以达到良好的分类性能。在比例尺上增加更宽或更细的搜索并没有带来额外的好处。
	创新不足	判断定位的标准是作者定义的，不是通用的
	额外知识	none