本改进已集成到 YOLOv8-Magic 框架。
通过尽可能将卷积核的上下文扩展为全局,现代卷积神经网络(ConvNets)在计算机视觉任务中展现出了巨大的潜力。然而,最近在深度神经网络(DNN)中进行的多阶博弈论交互研究揭示了现代卷积神经网络的表示瓶颈,即随着卷积核大小的增加,复杂的交互并未得到有效编码。为了解决这一挑战,我们提出了一个新的现代卷积网络家族,称为 MogaNet,旨在纯卷积网络模型中进行判别性视觉表示学习,并在复杂度和性能之间实现良好的平衡。MogaNet 将概念上简单但有效的卷积操作与门控聚合封装在一个紧凑的模块中,能够高效地收集并自适应地上下文化判别性特征。MogaNet 展现了出色的扩展性、参数效率以及在多个视觉基准任务中与当前最先进的视觉Transformer(ViTs)和卷积网络相比的竞争力&#x