一、说明
在本文回顾了基于深度学习的模糊图像分类(SFA)。在本文中:Simplified-Fast-AlexNet (SFA)旨在对图像是否因散焦模糊、高斯模糊、雾霾模糊或运动模糊而模糊进行分类。
二、大纲
- 图像模糊建模简要概述
- 简化快速 AlexNet (SFA):网络架构
- 数据集
- 实验结果
三、图像模糊建模概述
- 图像模糊问题可以看作是从高质量图像到低质量模糊图像的图像退化过程:
- 其中F表示退化图像,f是无损图像,h 表示模糊核,又名点扩散函数(PSF),*表示卷积算子,n表示附加噪声,这里,n是高斯白噪声。
3.1. 高斯模糊
- 在许多实际应用中,例如遥感和卫星成像,高斯核函数被视为大气湍流的核函数:
- 其中,σ为核半径,R为支撑区域,通常满足3σ标准。
3.2. 运动模糊
- 运动模糊是另一种需要考虑的模糊,它是由目标和相机之间的相对线性运动引起的:
- 其中M表示运动长度(以像素为单位),ω表示运动方向与x轴之间的角度。
3.3. 散焦模糊
- 散焦模糊是日常生活中最常见的,可以通过柱面函数来建模:
- 其中r表示 模糊半径,与散焦程度成正比。
3.4. 雾霾模糊
- 雾霾模糊是由自然雾的干扰造成的。在本文中,雾霾模糊没有通过任何PSF来模拟,因为现实生活中存在大量样本并且易于收集用于实验应用。
四、简化快速AlexNet(SFA):网络架构
简化快速 AlexNet (SFA):网络架构
- 有5个卷积层和1个全连接层。
- AlexNet每个卷积层的输出数按0.5的比例进行比例压缩。这样做的原因是,与 2012 年 ImageNet 分类竞赛中数千个图像类别相比,四种模糊类型分类是一个相对简单的任务。
- 另一方面,由于80%以上的参数存储在FC中,因此从AlexNet的原始模型中删除了前两个FC,以提高速度和实时性。
- 在第 1、2 和 5 层使用批量标准化,而不是原始的局部响应标准化。
- 输入:输入图像的大小为227×227×3。
- 第一层:Conv_1:48 个大小为 11×11 的核,步长为 4 像素,pad 为 0;MaxPool_1:大小为 3×3 的内核,2 个像素的步长和 0 的填充。获得 48×27×27 的特征图作为输出。
- 第二层:Conv_2 使用大小为 5×5 的内核、1 像素的步长和 2 像素的垫;MaxPool_2:大小为 3×3 的内核,步长为 1 像素,填充为 0。
- 第三层:Conv_3:尺寸为 5×5 的内核,1 像素的步长和 2 像素的填充。
- 第 4 层:Conv_4 为:尺寸为 3×3 的内核,2 像素的步长和 0 的填充。
- 第5层:Conv_5:尺寸为3×3的内核,1像素的步长和1的垫;MaxPool_5:内核大小为 3×3,步长为 2 像素,pad 为 0。
- 第 6 层:全连接层和 ReLU。
- 因此,SFA不同隐藏层的数据流如下: 227×227×3 > 27×27×48 > 13×13×128 > 13×13×192 > 13×13×192 > 6×6× 128 > 1×1×4。
- 使用咖啡。
五、数据集
5.1. 训练数据集
- 使用200,000 个 128×128×3 全局模糊块进行训练。
- 简而言之,这些补丁是从牛津建筑数据集和加州理工学院 101 数据集应用的合成高斯模糊、运动模糊和散焦模糊中裁剪出来的,以及从在线网站收集的真实雾霾模糊图像中裁剪出来的。
5.2. 测试数据集1
- 选择 Berkeley 数据集 200 张图像和 Pascal VOC 2007 数据集作为测试数据集。
- 总共获得了22,240 个全局模糊测试样本块,其中 5560 个雾霾模糊图像块与训练样本具有相同的来源。
5.3. 测试数据集2
- 构建了由10,080 个自然全局模糊图像块组成的数据集。这些样本都是从与训练数据集中的雾霾模糊样本相同的网站收集的。
六、实验结果
6.1. 损耗曲线和精度曲线
AlexNet和SFA的损失曲线和准确率曲线
- 尽管AlexNet和SFA这两个模型的细节有所不同,但损失和准确率都达到了相似的值,这表明两个模型在分类准确率标准方面的性能相当。
6.2. 与AlexNet的比较
与AlexNet的比较
- P_N:模型参数编号。
- L_N:模型深度。
- F_T:单幅图像的前向传播时间。
- B_T:单幅图像的误差后向传播时间。
- CLF_T:识别单张图像的时间。
- Tr_T:模型训练时间。
- 错误:测试数据集1的分类错误率。
AlexNet的P_N大约是SFA的1000倍。
SFA的CLF_T比AlexNet经济0.5s ,这表明SFA更适合实际应用。
SFA的总训练时间不到一天,而AlexNet则需要大约两天。
SFA的分类错误率仅比AlexNet大0.0105 。
6.3. SOTA比较
- 两步法[4]、单层神经网络[8]和DNN[9]的分类精度来自原始文章。(这很奇怪,因为数据集不同。但可以理解的是,可能无法重新实现。)
- Accuracy1 是在测试数据集 1 上进行测试,Accuracy2 是在测试数据集 2 上进行测试。
- 基于学习特征的方法的预测精度(>90%)通常优于手工制作特征的方法(<90%)。
- SFA在模拟测试数据集上的分类准确率为96.99%,略低于AlexNet的97.74%,但仍然优于DNN模型的95.2%。
- 此外,SFA在自然模糊数据集上的最佳性能为93.75%,略低于94.10%,但SFA的速度和实时性明显优于AlexNet。
七、参考
[2017 ISA] [SFA]
基于深度学习的模糊图像分类 曾锡豪