用于超大图像的训练策略：Patch Gradient Descent

news2026/2/11 20:48:19

前言本文旨在计算和内存限制的情况下，解决在大规模图像上训练现有CNN 架构的问题。提出PatchGD，它基于这样的假设：与其一次对整个图像执行基于梯度的更新，不如一次只对图像的一小部分执行模型更新，确保其中的大部分是在迭代过程中覆盖。
当在大规模图像上训练模型时，PatchGD 广泛享有更好的内存和计算效率。尤其是在计算内存有限的情况下，该方法在处理大图像时比标准梯度下降法更稳定和高效。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

论文：https://arxiv.org/pdf/2301.13817.pdf

论文出发点

现有的使用 CNN 的深度学习模型主要在相对较低的分辨率范围（小于 300 × 300 像素）上进行训练和测试。这部分是因为广泛使用的图像基准数据集。在高分辨率图像上使用这些模型会导致相关激活大小的二次增长，而这反过来又会导致训练计算量和内存占用量的大幅增加。此外，当可用的 GPU 内存有限时，CNN 无法处理如此大的图像。

解决使用 CNN 处理超大图像问题的工作非常有限。其中最常见的方法是通过降尺度来降低图像的分辨率。然而，这会导致与小尺度特征相关的信息大量丢失，并且会对与图像相关的语义上下文产生不利影响。另一种策略是将图像划分为重叠或不重叠的图块，然后按顺序处理这些图块。然而，这种方法并不能保证块之间的语义链接将被保留，并且它会阻碍学习过程。存在几种类似的策略来尝试学习大图像中包含的信息，但是，它们无法捕获全局上下文限制了它们的使用。

这篇论文提出一种可扩展的训练策略，旨在构建具有非常大的图像、非常低的内存计算或两者结合的神经网络。

创新思路

本文认为“大图像”不应该根据它们所包含的像素数量来简单解释，而是如果相应的计算内存预算很小，则图像应该被认为太大而无法使用 CNN 进行训练。

因此提出PatchGD ，一次只使用图像的一部分执行模型更新，同时还确保它在多个步骤的过程中看到几乎完整的上下文。

方法

General description

PatchGD 的核心是构建或填充 Z 块。无论输入的哪些部分用于执行模型更新，Z 都会根据从前几个更新步骤中为图像的不同部分获取的信息构建完整图像的编码。

Z 块的使用如图a 所示。首先将输入图像分成 m×n 块，每个块使用 θ1 作为独立图像处理。模型的输出与各patch对应的位置相结合，并将它们作为批次传递给模型进行处理，用于填充 Z 的各个部分。

为了构建端到端 CNN 模型，添加了一个包含卷积层和全连接层的小型子网络，该子网络处理 Z 中包含的信息，并将其转换为分类任务所需的概率向量。模型训练和推理的pipeline如下图 b 所示。在训练期间，更新模型组件 θ1 和 θ2。基于从输入图像中采样的一小部分patch，使用 θ1 的最新状态计算相应的编码，输出用于更新已填充 Z 中的相应条目。然后使用部分更新的 Z 进一步计算损失函数值，并通过反向传播更新模型参数。