多尺度神经网络新一代创新！精度与速度完美平衡，实现多领域应用落地

news2025/7/3 11:06:03

多尺度神经网络的设计通常基于对频率原则的理解，目的是为了解决高频成分学习慢的问题。这些网络通过特殊设计，比如给高频成分加更多的权重或者将高频成分平移到低频，来提高学习效率。

为了满足在不同层次上理解和处理数据的需求，多尺度神经网络包含了各种网络结构，常见的多尺度神经网络类型有：多尺度图神经网络、多尺度卷积神经网络、多尺度注意力神经网络、多尺度特征融合网络等。其关键优势在于它们能够整合来自不同尺度的信息，从而提高模型的性能和泛化能力。

为帮助各位理解并掌握，我整理了这些网络结构今年最新的技术成果以及应用实例。

论文以及开源代码需要的同学看文末

多尺度特征融合网络

scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution

方法：本文的研究背景是超高清视频超分辨率重建（STVSR）模型的复杂性问题。为了解决这个问题，研究者提出了一种高效的一阶STVSR模型，并介绍了一种创新的SAFE（Scale-Adaptive Flow Estimation）块来改进运动估计和模型效率。研究者通过对比实验证明了该方法在处理大运动和复杂纹理区域时的优势，并指出了一些可能影响感知的缺陷。

创新点：

设计了模型中的动态推理路径来处理不同的场景，以解决多样的运动幅度和物体尺寸对光流估计的挑战。
通过一个玩具实验澄清了尺度不一致问题，并证明了为每个视频剪辑选择自适应推理尺度的有效性。
使用SAFE块进行中间光流估计，采用迭代的试错方式，通过双向网络将特征从两个方向投影到时刻t的特征上。
引入了一种创新的SAFE块，以可训练的块级尺度选择方式迭代地估计运动。

Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors

方法：论文主要研究目标是提出一种名为Iterative Multi-scale Feature Aggregation (IMFA)的技术，用于在基于Transformer的目标检测器中高效使用多尺度特征。研究的动机来自两个关键观察：高分辨率特征的计算通常存在冗余，因为背景通常占据了图像空间的大部分，因此只有少部分高分辨率特征对目标检测有用；与ConvNet不同，Transformer的注意机制不需要网格状特征图，这使得只从可能包含感兴趣对象的特定区域聚合多尺度特征成为可能。

创新点：

迭代多尺度特征聚合（IMFA）：提出了一种简洁有效的技术，可以作为Transformer-based目标检测器中多尺度特征高效使用的通用范例。
对基于Transformer的检测方法的重新审视：由于作者的方法是在最近提出的基于Transformer的目标检测器的基础上开发的，作者首先简要回顾了基于Transformer的目标检测器的检测流程，以DETR为例。
从代表性关键点中采样自适应尺度特征：IMFA直接从由骨干网络生成的特征金字塔（在实验中是ResNet的C2-C5）中采样多尺度特征。然而，即使是稀疏采样的有希望的区域仍然包含大量高分辨率特征尺度的特征标记。
多尺度特征的迭代聚合：为了利用采样的多尺度特征进行精细的目标检测，将采样特征和编码图像特征输入到后续的编码器层中，使用注意力机制进行聚合。

多尺度卷积/注意力神经网络

A Deep Convolutional Neural Network With Multiscale Feature Dynamic Fusion for InSAR Phase Filtering

方法：本文提出了一种基于深度卷积神经网络的干涉相位滤波方法，并证实其具有比目前广泛使用的相位滤波方法更好的滤波性能和更高的计算效率。首先使用钻石-方算法模拟干涉相位，并将其转化为复数域，以提供模型训练所需的数据集，并将实部和虚部作为网络的输入和输出，以避免将相位边缘判断为噪声。然后，在模型中嵌入SE-block，构建具有多尺度特征动态融合的卷积神经网络模型，使网络在预测干净干涉相位时能够同时考虑多尺度语义的深层和浅层特征，以增强噪声抑制和保证细节保留。最后，使用主观评价和客观评价来评估所提出方法的性能。

创新点：

多尺度特征动态融合：与传统的前馈神经网络（FNN）不同，该方法采用了一种多尺度特征动态融合策略，考虑了干涉相位的深层和浅层特征，同时在相位滤波过程中兼顾了图像细节保留和噪声抑制。通过主动融合不同尺度或不同类型的特征，提高了网络的性能和效率。
更好的滤波性能和泛化能力：通过主观和客观评估，使用模拟数据的实验结果证明了该方法在噪声抑制和细节保留方面优于常用方法，并且滤波性能对噪声水平的依赖性较小。使用真实数据的实验结果证实了该方法具有更好的泛化能力，能够满足实际应用的精度要求。

Multiscale Convolutional Neural Network Based on Channel Space Attention for Gearbox Compound Fault Diagnosis

方法：本文提出了一种基于通道-空间注意力的多尺度卷积神经网络（CSAM-MSCNN）用于齿轮箱复合故障诊断。该网络结构包括原始信号输入、基于通道-空间注意力的多尺度特征提取和故障诊断三个部分。通过通道-空间注意力机制，从多尺度结构中提取的大量故障特征信息被加权映射，以增强关键特征并削弱冗余特征，解决了多尺度特征融合引起的特征冗余问题，提高了故障诊断的效率。

创新点：

基于通道-空间注意力的多尺度特征提取
- 通过引入通道注意力模块（CSAM），实现了对多尺度特征的融合和提取。
- CSAM优化了通道注意力模块的瓶颈结构，避免了副作用，并降低了模型复杂度。
- 通过CSAM对融合特征进行加权，增强了关键故障信息，抑制了无用信息，解决了多尺度特征融合带来的特征冗余问题，提高了故障诊断的效率。
复合故障的多标签分类
- 提出了一种结合多标签分类和CSAM-MSCNN的复合故障诊断方法，能够将复合故障分解为多个单一故障。
- 传统分类器只能输出一个标签，无法将复合故障分类为两个或更多的单一故障，而CSAM-MSCNN可以实现这一目标。

多尺度图神经网络

Predicting COVID‑19 positivity and hospitalization with multi‑scale graph neural networks

方法：论文采用了类似于之前研究的实验方案，通过训练模型来预测每个部门未来一段时间内的病例数和住院患者数。研究考虑了不同的时间分辨率，通过设置不同的预测天数来评估模型在短期、中期和长期预测中的有效性。研究使用了多个模型进行预测，并通过定量结果来评估它们的性能。

创新点：

引入额外信息：作者提出的模型可以轻松扩展以适应额外的信息。例如，可以将封锁措施和天气条件等信息作为节点属性加入模型。COVID-19的传播在很大程度上取决于这些特征，因此我们期望这些特征能够提高模型的预测性能。
引入疫苗数据集：作者指出，疫苗接种数据是研究COVID-19传播的另一个重要因素。疫苗接种可以阻止传播并预防严重住院。
引入Facebook移动数据集：为了研究COVID-19等病毒的传播，我们需要追踪人口流动，这是最重要的因素之一。作者使用了Facebook提供的移动数据集，这些数据集可以提供关于人类流动模式变化的准实时信息，从而帮助改进干预措施。