GoogleNetv1:Going deeper with convolutions更深的卷积神经网络

news2025/1/17 18:02:44

文章目录

  • GoogleNetv1全文翻译
  • 论文结构
    • 摘要
    • 1 引言
    • 2 相关工作
    • 3 动机和高层考虑
      • 稀疏矩阵
    • 4 结构细节
      • 引入1x1卷积核可以减少通道数
    • 5 GoogleNet
    • 6 训练方法
    • 7 ILSVRC 2014 分类挑战赛设置和结果
    • 8 ILSVRC 2014检测挑战赛设置和结果
    • 9 总结
  • 论文研究背景、成果及意义
  • 论文图表

在这里插入图片描述
在这里插入图片描述

GoogleNetv1全文翻译

在这里插入图片描述

论文结构

在这里插入图片描述

摘要

在这里插入图片描述

我们提出了一种代号为 Inception 的深度卷积神经网络架构,它负责在 2014 年 ImageNet 大规模视觉识别挑战赛(ILSVRC14)中为分类和检测设定新的技术水平。 该架构的主要特点是提高了网络内部计算资源的利用率。 这是通过精心设计的设计实现的,该设计允许增加网络的深度和宽度,同时保持计算预算不变。 为了优化质量,架构决策基于 Hebbian 原理和多尺度处理的直觉。 我们提交的 ILSVRC14 中使用的一种特殊形式称为 GoogLeNet,这是一种 22 层深度网络,其质量是在分类和检测的背景下进行评估的。
在这里插入图片描述

1 引言

在这里插入图片描述
在过去三年中,主要由于深度学习(更具体地说是卷积网络)[10]的进步,图像识别和目标检测的质量取得了巨大的进步。 一个令人鼓舞的消息是,大部分进展不仅是更强大的硬件、更大的数据集和更大的模型的结果,而主要是新想法、算法和改进的网络架构的结果。 例如,ILSVRC 2014 竞赛中的顶级参赛作品除了用于检测目的的同一竞赛的分类数据集外,没有使用任何新的数据源。 我们向 ILSVRC 2014 提交的 GoogLeNet 实际上使用的参数比两年前 Krizhevsky 等人 [9] 的获胜架构少了 12 倍,同时明显更加准确。 目标检测的最大收益并非来自单独使用深层网络或更大的模型,而是来自深层架构和经典计算机的协同作用视觉,如 Girshick 等人的 R-CNN 算法 [6]。

另一个值得注意的因素是,随着移动和嵌入式计算的持续发展,我们算法的效率(尤其是其功耗和内存使用)变得越来越重要。 值得注意的是,本文提出的深层架构设计的考虑因素包括了这个因素,而不是纯粹关注准确率数字。 对于大多数实验,模型的设计目的是在推理时保持 15 亿次乘加的计算预算,因此它们最终不会成为纯粹的学术好奇心,而是可以应用于现实世界,甚至以合理的成本处理大型数据集。
在这里插入图片描述
在本文中,我们将重点研究一种用于计算机视觉的高效深度神经网络架构,代号为 Inception,其名称源自 Lin 等人[12]的论文Network in network,并结合著名的“we need to go deeper” 互联网模因[1]。 在我们的例子中,“深度”这个词有两种不同的含义:首先,我们以“Inception模块”的形式引入了新的组织级别,还有更直接的增加网络的含义深度。 一般来说,人们可以将 Inception 模型视为 [12] 的逻辑巅峰,同时从 Arora 等人的理论工作中获得灵感和指导 [2]。 该架构的优点在 ILSVRC 2014 分类和检测挑战中得到了实验验证,其性能显着优于当前最先进的。

2 相关工作

在这里插入图片描述
从 LeNet-5 [10] 开始,卷积神经网络 (CNN) 通常具有标准结构 - 堆叠卷积层(可选地后跟对比度归一化和最大池化),后面跟着一个或多个全连接层即FC层。 这种基本设计的变体在图像分类文献中很普遍,并且在 MNIST、CIFAR 以及最引人注目的 ImageNet 分类挑战中取得了迄今为止最好的结果 [9, 21]。 对于 Imagenet 等较大的数据集,最近的趋势是增加层数 [12] 和层大小 [21, 14],同时使用 dropout [7] 来解决过拟合问题。

尽管担心最大池化层会导致准确的空间信息丢失,但与[9]相同的卷积网络架构也已成功应用于定位[9,14]、物体检测[6,14,18,5]和人类姿态估计[19]。 受到灵长类视觉皮层神经科学模型的启发,Serre 等人。 [15]使用一系列不同大小的固定Gabor滤波器来处理多个尺度,类似于Inception模型。 然而,与[15]的固定2层深度模型相反,Inception模型中的所有过滤器都是学习的。 此外,Inception 层重复多次,导致 GoogLeNet 的深度模型达到 22 层模型。

Network-in-Network 是 Lin 等人提出的一种方法 [12]为了增加神经网络的表征能力。 当应用于卷积层时,该方法可以被视为附加的 1×1 卷积层,后面通常是修正的线性激活 [9]。 这使其能够轻松集成到当前的 CNN 管道中。 我们在我们的架构中大量使用这种方法。 然而,在我们的设置中,1 × 1 卷积有双重目的:最关键的是,它们主要用作降维模块以消除计算瓶颈,否则会限制我们网络的大小。 这不仅可以增加网络的深度,还可以增加网络的宽度,而不会造成明显的性能损失。

当前目标检测的主要方法是 Girshick 等人提出的卷积神经网络区域 (R-CNN) [6]。R-CNN 将整体检测问题分解为两个子问题:首先以与类别无关的方式利用颜色和超像素一致性等低级线索来提出潜在的对象建议,然后使用 CNN 分类器来识别这些位置的对象类别。 这种两阶段方法利用了低级线索的边界框分割的准确性,以及最先进的 CNN 的强大分类能力。 我们在检测提交中采用了类似的流程,但在两个阶段都探索了增强功能,例如用于更高对象边界框召回的多框 [5] 预测,以及用于更好地对边界框建议进行分类的集成方法。

3 动机和高层考虑

在这里插入图片描述
提高深度神经网络性能的最直接方法是增加其规模。 这包括增加网络的深度(层数)和宽度(每层的单元数量)。 这是训练更高质量模型的一种简单且安全的方法,特别是考虑到大量标记训练数据的可用性。 然而,这个简单的解决方案有两个主要缺点。

较大的尺寸通常意味着较大的参数数量,这使得扩大的网络更容易过度拟合,特别是在训练集中标记示例的数量有限的情况下。这可能成为一个主要瓶颈,因为创建高质量训练集可能很棘手且成本高昂,特别是如果需要专业的人类评估者来区分像 ImageNet 中的细粒度视觉类别(即使在 1000 类 ILSVRC 子集中) 如图1所示在这里插入图片描述
在这里插入图片描述
统一增加网络规模的另一个缺点是计算资源的使用急剧增加。 例如,在深度视觉网络中,如果链接两个卷积层,则其滤波器数量的任何均匀增加都会导致计算量呈二次方增加。 如果增加的容量使用效率低下(例如,如果大多数权重最终接近于零),则会浪费大量计算。 由于在实践中计算预算始终是有限的,因此即使主要目标是提高结果质量,计算资源的有效分配也优于不加选择地增加大小。

解决这两个问题的根本方法是最终从完全连接的架构转向稀疏连接的架构,甚至在卷积内部也是如此。 除了模仿生物系统之外,由于 Arora 等人的开创性工作,这还将具有更坚实的理论基础的优势。 [2]。 他们的主要结果表明,如果数据集的概率分布可以用一个大型的、非常稀疏的深度神经网络来表示,那么通过分析最后一层激活的相关统计并对具有高度相关输出的神经元进行聚类,可以逐层构建最优网络拓扑。 尽管严格的数学证明需要非常强大的条件,但这一说法与众所周知的赫布原理(神经元一起放电、连接在一起)产生共鸣,这一事实表明,即使在不太严格的条件下,基本思想也适用于实践。

不利的一面是,当今的计算基础设施在非均匀稀疏数据结构的数值计算方面效率非常低。 即使算术运算的数量减少 100 倍,查找和缓存未命中的开销仍然占主导地位,以至于切换到稀疏矩阵不会有回报。 通过使用稳定改进、高度调整的数值库,可以利用底层 CPU 或 GPU 硬件的微小细节,实现极快的密集矩阵乘法,从而进一步拉大差距 [16, 9]。 此外,非均匀稀疏模型需要更复杂的工程和计算基础设施。 当前大多数面向视觉的机器学习系统仅通过使用卷积来利用空间域中的稀疏性。 然而,卷积被实现为与较早层中的补丁的密集连接的集合。 ConvNets传统上在特征维度上使用随机和稀疏的连接表,从[11]开始为了打破对称性和提高学习能力,趋势又回到了[9]的全连接,以便更好地优化并行计算。 结构的均匀性、大量的滤波器和更大的批量大小允许利用高效的密集计算。

这就提出了一个问题:是否有希望进行下一个中间步骤:一种利用额外稀疏性的架构,即使是在滤波器级别,正如理论所建议的,但通过利用密集矩阵上的计算来利用我们当前的硬件。 关于稀疏矩阵计算的大量文献(例如[3])表明,将稀疏矩阵聚类成相对密集的子矩阵往往可以为稀疏矩阵乘法提供最先进的实用性能。 认为在不久的将来类似的方法将被用于自动构建非均匀深度学习架构似乎并不牵强。
在这里插入图片描述
Inception 架构最初是作为第一作者的一个案例研究,用于评估复杂网络拓扑构建算法的假设输出,该算法试图逼近 [2] 所暗示的视觉网络,并通过密集、易于获得的结构覆盖假设结果。 尽管这是一项高度推测性的工作,但仅在对拓扑的精确选择进行两次迭代之后,我们就已经可以看到相对于基于[12]的参考架构的适度收益。 经过进一步调整学习率、超参数和改进训练后方法论中,我们确定所得到的 Inception 架构在定位和对象检测的背景下特别有用,作为 [6] 和 [5] 的基础网络。 有趣的是,虽然大多数最初的架构选择都经过了彻底的质疑和测试,但结果证明它们至少是局部最优的。

但必须谨慎:尽管所提出的架构在计算机视觉领域取得了成功,但其质量是否可以归因于其构建的指导原则仍然值得怀疑。 确保需要更彻底的分析和验证:例如,基于下述原理的自动化工具是否会为视觉网络找到类似但更好的拓扑。 最令人信服的证据是,自动化系统是否可以创建网络拓扑,从而使用相同的算法但具有非常不同的全局架构在其他领域获得类似的收益。 至少,Inception 架构的初步成功为未来在这个方向上的激动人心的工作提供了坚定的动力

稀疏矩阵

在这里插入图片描述
在这里插入图片描述

4 结构细节

在这里插入图片描述
在这里插入图片描述
Inception 架构的主要思想是基于找出如何用容易获得的密集组件来近似和覆盖卷积视觉网络中的最佳局部稀疏结构。 请注意,假设平移不变性意味着我们的网络将由卷积构建块构建。 我们所需要的只是找到最佳的局部构造并在空间上重复它。 阿罗拉等人 [2]提出了一种逐层构造,其中应该分析最后一层的相关统计数据并将它们聚类成具有高相关性的单元组。 这些簇形成下一层的单元,并连接到上一层的单元。 我们假设前一层的每个单元对应于输入图像的某个区域,并且这些单元被分组到滤波器组中。 在较低层(靠近输入的层)中,相关单元将集中在局部区域。 这意味着,我们最终会得到很多集中在单个区域中的簇,并且它们可以被下一层中的 1×1 卷积层覆盖,如 [12] 中所建议的。 然而,我们也可以预期,将会有越来越少的、在空间上更分散的簇可以被较大块上的卷积所覆盖,并且在越来越大的区域上,patches的数量将会减少。 为了避免补丁对齐问题,当前的 Inception 架构仅限于滤波器大小 1×1、3×3 和 5×5,但这一决定更多是基于便利性而非必要性。 这也意味着建议的架构是所有这些层的组合,其输出滤波器组连接成单个输出向量,形成下一阶段的输入。 此外,由于池化操作对于当前最先进的卷积网络的成功至关重要,因此建议在每个此类阶段添加替代并行池化路径也应该具有额外的有益效果(见图 2(a))
在这里插入图片描述
由于这些“Inception 模块”彼此堆叠,它们的输出相关统计数据必然会有所不同:随着更高抽象的特征被更高层捕获,它们的空间集中度预计会降低,这表明随着我们移动到更高层,3×3 和 5×5 卷积的比率应该增加

上述模块的一个大问题(至少在这种简单的形式中)是,即使是少量的 5×5 卷积,在具有大量滤波器的卷积层之上也可能非常昂贵。 一旦将池化单元添加到混合中,这个问题就会变得更加明显:它们的输出过滤器的数量等于前一阶段过滤器的数量。 池化层的输出与卷积层的输出的合并将导致阶段之间的输出数量不可避免地增加。 即使这种架构可能覆盖最佳稀疏结构,但它的效率非常低,导致几个阶段内的计算崩溃。
在这里插入图片描述
在这里插入图片描述

引入1x1卷积核可以减少通道数

在这里插入图片描述
在这里插入图片描述
这引出了所提出的架构的第二个想法:在计算需求会增加太多的地方明智地应用降维和投影。 这是基于嵌入的成功:即使是低维嵌入也可能包含有关相对较大的图像块的大量信息。 然而,嵌入以密集、压缩的形式表示信息,并且压缩信息更难建模。 我们希望在大多数地方保持我们的表示稀疏(根据[2]的条件要求),并且仅在信号必须聚合时才压缩信号。 也就是说,1×1 卷积用于在昂贵的 3×3 和 5×5 卷积之前计算降维。 除了用作降维之外,它们还包括使用校正线性激活,这使得它们具有双重用途。 最终结果如图2(b)所示。
在这里插入图片描述
一般来说,Inception 网络是由上述类型的模块相互堆叠组成的网络,偶尔有步幅为 2 的最大池层,以使网格的分辨率减半。 出于技术原因(训练期间的内存效率),仅在较高层开始使用 Inception 模块,同时保持较低层采用传统的卷积方式似乎是有益的。 这并不是绝对必要的,只是反映了我们当前实施中的一些基础设施效率低下。

这种架构的主要优点之一是它允许显着增加每个阶段的单元数量,而不会导致计算复杂性不受控制地激增。 降维的普遍使用允许将最后一级的大量输入滤波器屏蔽到下一层,首先降低它们的维度,然后再用大块大小对它们进行卷积这种设计的另一个实际有用的方面是,它符合直觉,即视觉信息应该在不同尺度上进行处理,然后进行聚合,以便下一阶段可以同时从不同尺度中提取特征。

计算资源的改进使用允许增加每个阶段的宽度以及阶段的数量,而不会陷入计算困难。 利用inception架构的另一种方法是创建其性能稍差但计算成本更低的版本。 我们发现,所有包含的旋钮和控制杆都可以实现计算资源的受控平衡,从而使网络比具有非 Inception 架构的类似性能网络快 2 − 3 倍,但这需要仔细的手动设计 。

5 GoogleNet

在这里插入图片描述
我们选择 GoogLeNet 作为 ILSVRC14 比赛中的队名。 这个名字是对 Yann LeCuns 开创性的 LeNet 5 网络 [10] 的致敬。 我们还使用 GoogLeNet 来指代我们在竞赛提交中使用的 Inception 架构的特定化身。 我们还使用了更深、更宽的 Inception 网络,其质量稍差,但将其添加到集成中似乎略微改善了结果。 我们省略了该网络的细节,因为我们的实验表明,确切的架构参数的影响相对较小。 出于演示目的,表 1 中描述了最成功的特定实例(名为 GoogLeNet)。 我们的集成中 7 个模型中有 6 个使用了完全相同的拓扑(使用不同的采样方法进行训练)。
在这里插入图片描述
在这里插入图片描述
所有卷积,包括 Inception 模块内的卷积,都使用修正线性激活我们网络中感受野的大小为 224×224,采用均值减法的 RGB 颜色通道。 “#3×3 reduce”和“#5×5 reduce”代表3×3和5×5卷积之前使用的减少层中1×1过滤器的数量。 在 pool proj 列中内置最大池化之后,可以看到投影层中 1×1 滤波器的数量。 所有这些reduction/projection层也使用修正线性激活

该网络的设计考虑到了计算效率和实用性,因此推理可以在单个设备上运行,甚至包括计算资源有限的设备,尤其是内存占用较低的设备。 当仅计算带参数的层时,网络深度为 22 层(如果我们还计算池化,则网络深度为 27 层)。 用于构建网络的层(独立构建块)总数约为 100。然而,这个数字取决于所使用的机器学习基础设施系统。 分类器之前使用平均池是基于[12],尽管我们的实现不同之处在于我们使用了额外的线性层。 这使得我们可以轻松地针对其他标签集调整和微调我们的网络,但这主要是为了方便,我们预计它不会产生重大影响。 研究发现,从全连接层到平均池化的转变将 top-1 准确率提高了约 0.6%,但是即使在删除全连接层之后,dropout 的使用仍然至关重要。

考虑到网络的深度相对较大,以有效的方式将梯度传播回所有层的能力是一个问题。 一个有趣的见解是,相对较浅的网络在这项任务上的强劲表现表明,网络中间层产生的特征应该非常具有辨别力通过添加连接到这些中间层的辅助分类器,我们希望鼓励分类器较低阶段的区分,增加传播回来的梯度信号,并提供额外的正则化。 这些分类器采用较小的卷积网络的形式,置于 Inception (4a) 和 (4d) 模块的输出之上。 在训练期间,它们的损失以折扣权重添加到网络的总损失中(辅助分类器的损失按 0.3 加权)。 在推理时,这些辅助网络将被丢弃。
在这里插入图片描述
侧面额外网络的具体结构,包括辅助分类器,如下:

  • 平均池化层的过滤器大小为 5×5,步长为 3,导致 (4a) 阶段的输出为 4×4×512,(4d) 阶段的输出为 4×4×528。
  • 具有 128 个滤波器的 1×1 卷积,用于降维和修正线性激活。
  • 具有 1024 个单元和修正线性激活的全连接层。
  • dropout输出比例为 70% 的dropout层。
  • 以 softmax 损失作为分类器的线性层(预测与主分类器相同的 1000 个类,但在推理时删除)

图 3 描绘了所得网络的示意图。
在这里插入图片描述
在这里插入图片描述
Figure 3: GoogLeNet network with all the bells and whistles

在这里插入图片描述
在这里插入图片描述

6 训练方法

在这里插入图片描述
我们的网络使用 DistBelief [4] 分布式机器学习系统进行训练,使用适量的模型和数据并行性。 尽管我们仅使用基于 CPU 的实现,但粗略估计表明,GoogLeNet 网络可以在一周内使用少量高端 GPU 进行训练以达到收敛,主要限制是内存使用。 我们的训练使用动量为 0.9 的异步随机梯度下降[17],固定学习率计划(每 8 个周期将学习率降低 4%)。 Polyak 平均 [13] 用于创建推理时使用的最终模型。
在这里插入图片描述

在比赛前的几个月里,我们的图像采样方法发生了很大的变化,并且已经融合的模型接受了其他选项的训练,有时还结合了改变的超参数,如 dropout 和学习率,因此很难给出明确的指导训练这些网络的最有效的单一方法。 更复杂的是,受[8]的启发,一些模型主要针对较小的相关crops进行训练,其他模型则针对较大的crops进行训练。 尽管如此,赛后验证效果非常好的一个方案是对图像的各种大小的块进行采样,其大小均匀分布在图像区域的 8% 到 100% 之间,其长宽比在 3/4 到 3/4 之间随机选择。 此外,我们发现 Andrew Howard [8] 的光度扭曲在某种程度上有助于对抗过度拟合。 此外,我们开始使用随机插值方法(双线性、面积、最近邻和三次,等概率)来调整大小,相对较晚,并与其他超参数变化相结合,因此我们无法确定最终结果是否受到其使用的积极影响。
在这里插入图片描述

7 ILSVRC 2014 分类挑战赛设置和结果

在这里插入图片描述
ILSVRC 2014 分类挑战涉及将图像分类为 Imagenet 层次结构中 1000 个叶节点类别之一的任务。 大约有 120 万张图像用于训练,50,000 张图像用于验证,100,000 张图像用于测试。 每张图像都与一个真实类别相关联,并且根据最高得分的分类器预测来衡量性能。 通常会报告两个数字:top-1 准确率(将真实情况与第一个预测类别进行比较)和 top-5 错误率(将真实情况与前 5 个预测类别进行比较:如果ground truth位于前 5 名之列,无论其排名如何,图像被视为正确分类)。该挑战使用前 5 个错误率进行排名。

我们参加了挑战,没有使用外部数据进行训练。 除了本文提到的训练技术之外,我们在测试过程中还采用了一组技术来获得更高的性能,我们将在下面详细说明。

  • 我们独立训练了同一 GoogLeNet 模型的 7 个版本(包括一个更宽的版本),并用它们进行了集成预测。 这些模型使用相同的初始化(即使具有相同的初始权重,主要是由于oversight)和学习率策略进行训练,它们仅在采样方法和看到输入图像的随机顺序上有所不同。在这里插入图片描述
  • 在测试过程中,我们采用了比 Krizhevsky 等人更激进的裁剪方法 [9]。 具体来说,我们将图像大小调整为 4 个比例,其中较短的尺寸(高度或宽度)分别为 256、288、320 和 352,取这些调整大小图像的左、中、右正方形(在竖向图像的情况下,我们取顶部、中心和底部的方块)。 然后,对于每个正方形,我们采用 4 个角和中心 224×224 裁剪以及调整大小为 224×224 的正方形及其镜像版本。 这导致每张图像有 4×3×6×2 = 144 种裁剪。 Andrew Howard [8] 在前一年的文章中使用了类似的方法,我们根据经验验证了该方法的性能比提议的方案稍差。 我们注意到,在实际应用中,这种激进的cropping可能没有必要,因为在存在合理数量的crops后,更多crops的好处就变得微乎其微(正如我们稍后将展示的那样)。在这里插入图片描述
  • Softmax 概率对多种crops和所有单独的分类器进行平均以获得最终预测。 在我们的实验中,我们分析了验证数据的替代方法,例如crops上的最大池化和分类器上的平均,但它们导致性能比简单平均差
    在这里插入图片描述
    在本文的其余部分中,我们分析了影响最终提交的整体性能的多个因素。

我们最终提交的挑战赛在验证和测试数据上均获得了 6.67% 的 top-5 错误率,在其他参赛者中排名第一。 与 2012 年的 SuperVision 方法相比,相对减少了 56.5%,与上一年的最佳方法 (Clarifai) 相比,相对减少了约 40%,这两种方法都使用外部数据来训练分类器。 下表显示了一些表现最佳的方法的统计数据。

我们还通过改变下表中预测图像时使用的模型数量和裁剪数量来分析和报告多个测试选择的性能。 当我们使用一种模型时,我们选择验证数据上 top-1 错误率最低的模型。 所有数字都在验证数据集上报告,以免与测试数据统计数据过度拟合。
在这里插入图片描述
在这里插入图片描述

8 ILSVRC 2014检测挑战赛设置和结果

在这里插入图片描述
ILSVRC 检测任务是在 200 个可能的类别中的图像中的对象周围生成边界框。 如果检测到的对象与真实类别匹配并且其边界框重叠至少 50%(使用 Jaccard 索引),则视为正确。 无关的检测被视为误报false positive并受到处罚。 与分类任务相反,每个图像可能包含许多对象或不包含对象,并且它们的尺度可能从大到小不等。 使用平均精度 (mAP) 报告结果。
在这里插入图片描述
在这里插入图片描述
GoogLeNet 所采用的检测方法与 [6] 中的 R-CNN 类似,但使用 Inception 模型作为区域分类器进行了增强。 此外,通过将选择性搜索 [20] 方法与多框 [5] 预测相结合,改进了区域提议步骤,以实现更高的对象边界框召回率。 为了减少误报false positive数量,超像素大小增加了 2 倍。 这使得来自选择性搜索算法的提案减半。 我们添加了来自 multi-box [5] 结果的 200 个区域提案,总共占 [6] 使用的提案的约 60%,同时将覆盖范围从 92% 增加到 93%。 通过增加覆盖率来减少提议数量的总体效果是单个模型案例的平均精度提高了 1%。 最后,我们在对每个区域进行分类时使用 6 个 ConvNet 的集合这将结果准确率从 40% 提高到 43.9%。 请注意,与 R-CNN 相反,由于时间不够,我们没有使用边界框回归。

在这里插入图片描述

9 总结

在这里插入图片描述
我们的结果似乎提供了坚实的证据,表明通过现成的密集构建块来近似预期的最佳稀疏结构是改进计算机视觉神经网络的可行方法。 与较浅且较不宽的网络相比,该方法的主要优点是在计算要求适度增加的情况下获得显着的质量增益。 另请注意,尽管我们既不利用上下文也不执行边界框回归,我们的检测工作仍然具有竞争力,这一事实进一步证明了 Inception 架构的优势。 尽管预计可以通过相似深度和宽度的更昂贵的网络来实现相似质量的结果,但我们的方法提供了确凿的证据,表明转向稀疏架构总体上是可行且有用的想法。 这表明未来有望在 [2] 的基础上以自动化方式创建更稀疏和更精细的结构。
在这里插入图片描述

论文研究背景、成果及意义

在这里插入图片描述
在这里插入图片描述
1*1卷积可以大大减少网络参数,压缩特征图厚度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

论文图表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

之后我会持续更新,如果喜欢我的文章,请记得一键三连哦,点赞关注收藏,你的每一个赞每一份关注每一次收藏都将是我前进路上的无限动力 !!!↖(▔▽▔)↗感谢支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1348421.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【小沐学Python】Python实现免费天气预报获取(OpenWeatherMap)

文章目录 1、简介1.1 工具简介1.2 费用1.3 注册1.4 申请key 2、接口说明2.1 One Call 3.02.2 Current Weather and Forecasts collection2.2.1 API 调用2.2.2 API 参数 2.3 Historical Weather collection2.4 Weather Maps collection2.5 Other weather APIs 3、接口测试3.1 例…

无监督学习(下)

1.高斯混合模型(GMM) (1)简单概念 高斯混合模型是一种概率模型,它假定实例是由多个参数未知的高斯分布的混合生成的。从单个高斯分布生成的所有实例都形成一个集群,通常看起来像一个椭圆。每个集群都可以由不同的椭圆形状,大小,密…

【C# 技术】 C# 常用排序方式——自定义数据排序

C# 常用排序方式——自定义数据排序 前言 在最近的项目中经常会对C#中的数据进行排序,对于基本数据类型,其排序方式比较简单,只需要调用内置算法即可实现,但对于自定义数据类型以及自定义排序规则的情况实现起来就比较麻烦&…

美团到店终端从标准化到数字化的演进之路

总第580篇 | 2023年第032篇 本文整理自美团技术沙龙第76期《大前端研发协同效能提升与实践》。前端团队在产研多角色协同形式上存在不同阶段,而大前端多技术栈在各阶段都有其独特的实践,同时又有类似的演进路线。本文从到店终端团队移动端和前端技术栈持…

最详细GIT学习笔记

1. Git简介 1.1. Git介绍 Git(读音为/gɪt/) 是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 1.2. 主流的版本控制器 Git(分布式…

金融帝国实验室(Capitalism Lab)官方正版游戏『2024新年特卖优惠』

「金融帝国实验室」(Capitalism Lab)Enlight 官方正版游戏「2024新年特卖」 ■优惠时限:2024.01.01~01.31 ■游戏开发商:Enlight Software Ltd. 请您认准以下官方正版游戏购买链接:支持“支付宝&am…

【数据结构-单链表】(C语言版本)

今天分享的是数据结构有关单链表的操作和实践(图解法,图变化更利于理解) 记录宗旨📝: 眼(脑)过千遍,不如手过一遍。 我们都知道单链表是一种常见的链表数据结构,由一系列…

【Delphi】IOS上架踩坑记 - 2024年第一天

目录 一、前言: 二、IOS程序上架网址 三、踩坑记 1. 关于版本中的 CFBundleIdentifier 参数(Transporter 提示) 2. IOS APP 程序图标要求(Transporter 提示) 3. 关于版本中的 CFBundleShortVersionString 参数&a…

小波理论与应用:理解小波

1 简介 来自源的信号通常处于时域。例如正弦信号、生物医学信号等。任何时域信号都可以使用数学变换进行处理或变换到频域(谱域)。傅里叶变换是一种流行或著名的变换,它将时域信号转换为频域信号,而不失一般性。 在绘制时域信号…

智能客服系统要素分析:提升客户满意度与工作效率的关键要素

智能客服系统是企业建立完善服务框架的重要工具。市面上存在着形态各异的各种客服系统,如何选择一款最适合自己企业的产品是很多采购人员想知道的问题。事实上,不同的智能客服系统之间的主要功能并未存在太大的区别,它们往往会在一些亮点功能…

m系列mac配置Tomcat

配置上走了些弯路 翻了不少博客各有各的说法,此说明是本人亲自尝试,电脑是m芯片mbp如果不是mac系统,勿跟风尝试 一、下载和安装Tomcat 1.下载 首先,打开Tomcat官网:https://tomcat.apache.org,选择Downlo…

oracle 9i10g编程艺术-读书笔记1

根据书中提供的下载代码链接地址,从github上找到源代码下载地址。 https://github.com/apress下载好代码后,开始一段新的旅行。 设置 SQL*Plus 的 AUTOTRACE 设置 SQL*Plus 的 AUTOTRACE AUTOTRACE 是 SQL*Plus 中一个工具,可以显示所执行…

计算机网络物理层 习题答案及解析

2-1 下列选项中,不属于物理层接口规范定义范畴的是( D )。 A. 引脚功能 B. 接口形状 C. 信号电平 D. 传输媒体 【答案】D 【解析】 2-2 某网络在物理层规定,信号的电平范围为- 15V~15V , 电线长…

tp5+workman(GatewayWorker) 安装及使用

一、安装thinkphp5 1、宝塔删除php禁用函数putenv、pcntl_signal_dispatch、pcntl_wai、pcntl_signal、pcntl_alarm、pcntl_fork,执行安装命令。 composer create-project topthink/think5.0.* tp5 --prefer-dist 2、配置好站点之后,浏览器打开访问成…

VSCode使用Remote SSH远程连接Windows 7

结论 VSCode Server不能启动,无法建立连接。 原因 .vscode-server 目录中的 node.exe 无法运行。 原因是Node.js仅在Windows 8.1、Windows Server 2012 R2或更高版本上受支持。 由于vscode基于node.js v14,不支持Windows 7操作系统。 另&#xff…

为即将到来的量子攻击做好准备的 4 个步骤

当谈到网络和技术领域时,一场风暴正在酝酿——这场风暴有可能摧毁我们数字安全的根本结构。这场风暴被称为 Q-Day,是即将到来的量子计算时代的简写,届时量子计算机的功能将使最复杂的加密算法变得过时。 这场量子革命正以惊人的速度到来&am…

LVM和磁盘配额

一:LVM概述: LVM 是 Logical Volume Manager 的简称,译为中文就是逻辑卷管理。 能够在保持现有数据不变的情况下,动态调整磁盘容量,从而提高磁盘管理的灵活性 /boot 分区用于存放引导文件,不能基于LVM创建…

Docker之镜像上传和下载

目录 1.镜像上传 1) 先上百度搜索阿里云 点击以下图片网站 2) 进行登录/注册 3) 使用支付宝...登录 4) 登录后会跳转到首页->点击控制台 5) 点击左上角的三横杠 6) 搜索容器镜像关键词->点击箭头所指 ​ 编辑 7) 进入之后点击实例列表 8) 点击个人实例进入我们的一个…

异步处理方案

目录 1.通过promise的链式调用将异步方法变为同步执行 2.使用async及await 3.回调函数方式 4.三种方式对比 5.async及await使用的注意点 1.通过promise的链式调用将异步方法变为同步执行 function get1(){return new Promise((resolve,reject) >{console.log(执行get1接…

【Java 数组解析:探索数组的奇妙世界】

数组的引入 我们先通过一段简单的代码引入数组的概念。 import java.util.Scanner; public class TestArray01{public static void main(String[] args){//功能:键盘录入十个学生的成绩,求和,求平均数://定义一个求和的变量&…