深度学习中有哪些从数学模型或相关理论出发, 且真正行之有效的文章?

news2025/7/2 12:48:40

自深度学习兴起后，深层网路对图像进行特征学习，将低层次的基础特征聚合成更高级的语义特征，取得突出的识别效果，在图像识别、分割及目标检测三大领域得到了众多应用。深度学习算法基本上是由多个网络层搭建，每个网络层可获得图像的一种特征表示，再将特征进行线性、非线性组合，随着网络层的深度增加，特征由基本浅层特征（比如角度、像素位置等）逐步转化为具有高层语义的高级特征，最终形成低维度且具有高识别度的特征表达。鉴于这类算法中特征提取器的参数主要是根据训练样本不断训练、反馈式地调整，因此该类型的算法有个共同的缺点就是需要大量的训练样本及其对应的标签，而且目前对网络的特性和具体配置（包括网络需要多少层，为什么要使用多层，需要多少个内部和输出神经元，又如何优化滤波器和非线性操作）尚没有统一的结论。而且，为了对抗掉图像平移、旋转、形变等存在的一些基本变化，所研究的网络提取到的特征应该具备平移、旋转不变性、形稳定性等基本特性。此外，网络的设计理念也应该具备一定的理论依据。

2012 年，法国工程学院院士Mallat 教授（我崇拜的学者，还有Meyer教授，阿贝尔奖获得者，还有Daubechies教授，有幸和她见过一次）深受深度学习结构框架思想的启发，提出了基于小波变换的小波散射变换，并以此构造了小波散射卷积网络。小波散射卷积网络的结构类似于CNN，不同的是其滤波器是预先确定好的小波滤波器，小波滤波器的参数不需要通过训练样本学习得到，其网络是非反馈式的。信号通过计算半离散小波变换，再通过非线性取模操作，得到的信号特征表达具有平移不变性、形变稳定性等优良特性，正好满足机器学习中对特征提取器的基本要求。此外，这些基本性质在数学上得到了严格的理论证明，弥补了CNN缺乏理论支撑的不足。经过大量试验，小波散射网络在手写体识别、纹理和音频分类任务中取得了突出的分类效果，尤其在小样本的情况下，相较于CNN获得了更小的分类错误率，因此小波散射卷积网络具有一定的优势以及研究意义。

此外，再简单介绍一下小波散射网络的发展历程。自 21 世纪起，小波理论的奠基人之一 Mallat 等便开始对卷积神经网络的数学分析与研究。2012 年，Mallat以CNN结构为基础，提出小波散射变换，并以此为基础构造出了小波散射卷积网络。小波散射变换将原始信号通过预先设定好的小波滤波器和取模的非线性操作，得到的结果作为对该信号所提取的特征，经过理论验证，小波散射卷积网络具有平移、旋转不变性、形变稳定性等基本特性，CNN相比，小波散射网络由于采用了固定的小波核，无需反馈过程，因此摆脱了对训练样本的依赖性。自 2012年后，小波散射网络在国外就受到各界的广泛关注并且开始逐步在各个领域加以应用，其应用范围涉及信号处理领域的时频分析、计算机视觉方面的各种识别问题，例如纹理识别等，甚至拓展到生命科学领域，如生物神经信号的分析、检测与预测等方面。2013年，Mallat 将小波散射网络应用到语音时频分析领域，将提取出的语音信号特征直接用来分类，实现了在音频信号分类方面的应用。同年 8 月，Mallat 又将小波散射卷积网络拓展到二维信号分析中，将小波散射卷积网络作为特征提取器，提取出的特征直接用 SVM (高斯核) 和 PCA 进行分类，取得了手写数字和纹理辨别方面的最新分类结果，特别是在具有标签的样本数较小的情况下，与CNN相比，该网络获得了更低的分类错误率。2016 年，Mallat 对小波散射网络进行综述，系统地介绍该网络的核心思想、应用领域及发展现状。同年 6 月，瑞士应用数学家 Wiatowski 从理论上验证了几种具有不同的下采样率和非线性操作的散射网络，进一步阐述了Mallat 的小波散射卷积网络研究成果对应用数学领域的思想启发。2018年，Wiatowski 对小波散射变换做了进一步的深入研究，主要考察其基本的数学性质，对此进行了严密的数学推导和理论证明，进一步证明小波散射变换在特征提取方面的优越性，并将其理论进行了推广，得到泛化后的小波散射框架即一般化的散射卷积网络的框架与结构。2019 年，Li将 Mallat的研究成果进一步拓展，将时频 Gabor 变换与小波散射卷积网络的网络框架相结合，提出了时频散射变换，并构造出了时频散射卷积网络，在高光谱识别等方面也取得了不错的成果。综上所述，小波散射卷积网络凭借其理论较为完备，所需具有标签的样本少等优势，在艺术鉴赏、天文学、量子化学、生物医学、雷达目标识别与探测等方面的应用遍地开花，而且取得了突出的应用效果，引起了国内外研究学者的广泛关注。

给几个例子，代码见评论区链接

基于小波散射算法的空气压缩机异常噪声诊断

注意：运行环境为MATLAB R2021b。本算法用于确定压缩机中的健康状况和7种异常状况下的噪声，所有音频数据均以16 kHz 的频率采集。