前言

This week I studied an article which proposed an accurate method for predicting air pollutants, aiming to ensure the efficiency of air pollution control. The ARIMA-WOA-LSTM model was presented, which uses ARIMA to extract the linear part of air pollutant data and outputs the non-linear part, while WOA-LSTM model is used to predict the non-linear part. The whale optimization algorithm is utilized to find the optimal hyperparameters of LSTM, including the number of neurons and modeling of learning rate and batch length. In addition, I have some new hypotheses about kriging interpolation.

本周我学习了一篇文章。在这篇文章中，作者提出了一种准确预测空气污染物的方法，目的是确保空气污染管理的效率。提出的ARIMA-WOA-LSTM模型使用ARIMA提取空气污染数据的线性部分并输出非线性部分，而WOA-LSTM模型用于预测非线性部分，其中鲸鱼算法用于寻找LSTM的完美超参数，搜索的目标包括神经元的数量，对学习率和批量长度进行建模。除此之外，我对于克里金插值有一些新的猜想。

文献阅读：基于ARIMA-WOA-LSTM模型的空气污染物预测

--Jun Luo, Yaping Gong,
Air pollutant prediction based on ARIMA-WOA-LSTM model,
Atmospheric Pollution Research,
2023,
101761,
ISSN 1309-1042,
https://doi.org/10.1016/j.apr.2023.101761.

背景

空气污染问题一直困扰着人们的生活，没有对各种污染物浓度的预测和评估，就无法实现空气污染的管理。

为了应对普遍存在的空气污染问题，有必要建立高效可行的预测模型。关于空气质量预测的研究非常丰富，不同的学者提供了不同的预测方法，这些方法都有助于提高空气质量预测的准确性。LSTM模型是时间序列预测中最常用的深度学习模型之一。

空气污染数据的复杂性和不可预测性受到多种因素的影响，使得使用模型实现准确的预测变得困难。为了克服这一挑战，分解空气污染数据可能是简化预测模型并提高其有效性的有用方法。对于数据处理，具有自适应噪声的完整EEMD（CEEMDAN）和经验模态分解（EMD）是常用的数据处理方法。模态分解模型的主要原理是将空气污染数据分解为几个复杂度不同的IMF元素，以降低模型预测的难度，最后重新组合模型预测的IMF元素，得到最终的预测值。除了模态分解，通过Prophet分解方法将数据划分为趋势、周期和误差项，并使用Prophet预测其中的趋势和周期项，并使用LSTM模型预测误差项。

ARIMA-WOA-LSTM模型

ARIMA 统计模型在线性时间序列数据预测方面具有出色的性能，而 LSTM 在非线性时间序列数据预测方面具有更显着的性能优势。对于空气污染物数据，它由线性分量和非线性分量组成，表示为：

ARIMA- LSTM

思路

在本文中，我们提出了一种准确预测空气污染物的方法，目的是确保空气污染管理的效率。提出的ARIMA-WOA-LSTM模型使用ARIMA提取空气污染数据的线性部分并输出非线性部分，而WOA-LSTM模型用于预测非线性部分，其中鲸鱼算法用于寻找LSTM的完美超参数，搜索的目标包括神经元的数量，对学习率和批量长度进行建模。

主要贡献

提出了一种预测稳定性更好的空气质量预测模型。
基于鲸鱼算法优化LSTM模型超参数.
ARIMA-WOA-LSTM模型在预测精度和预测稳定性方面具有较好的性能。

积分移动平均自回归（ARIMA）

ARIMA由三个主要组成部分组成，分别是自回归模型、移动平均模型和微分项。等式（7）是ARIMA的公式，包括三个主要参数，分别是p、d和q.p和q分别对应于三个分量中的自回归和移动平均项。使用 ARIMA 模型的流程如图 1 所示。对于ARIMA模型，需要判断数据是否平滑，如果数据不平滑，则需要对数据进行不同阶数的差分才能使数据平滑，差分的阶数为d。p和q的选择通常由相关函数决定，但使用相关函数来确定参数，人为的主观因素可能很容易影响参数的选择。通常，BIC（贝叶斯信息准则）或AIC（赤池信息准则）用于确定p和q的值。公式（8）是计算BIC的公式。

鲸鱼优化算法

WOA由提出，旨在解决传统优化算法在处理复杂问题方面的局限性。WOA主要包括：包围猎物，泡网攻击方法，搜索猎物三步。

在包围猎物阶段，WOA算法将一个人设置为最佳解决方案，其他个体根据最优解更新其位置。此行为由公式（9）和公式（10）表示。

搜索超参数

在为 LSTM 搜索最佳超参数时，首先将超参数空间定义为一个总体，每个个体都是一组超参数组合。然后使用鲸鱼优化算法初始化超参数空间，评估每个超参数组合的适应度，并更新种群。具体步骤如下：

1.定义 LSTM 模型的超参数空间，在本文中是学习率、批量大小、神经元数量。
2.使用鲸鱼优化算法初始化一组随机的超参数组合。
3.LSTM 模型使用总体中超参数的可能组合进行训练，并计算这组超参数的适应度。在本文中，我们使用RMSE作为适应度函数。
4.使用鲸鱼优化算法更新种群，选择具有最佳适应度的超参数组合，同时生成新的超参数组合。
5.重复步骤 3 和 4，直到适应达到收敛，或者直到达到代码限制的最大迭代次数。
6.输出具有最优自适应的超参数组合作为LSTM模型的最佳超参数组合。

CEEMDAN

结论

高效稳定地预测空气中不同污染物具有重要的现实意义，可以有效提高大气污染问题管理的效率。因此，本文基于ARIMA-WOA-LSTM模型实现了对空气中每种污染物的准确稳定预测，利用ARIMA提取数据的线性部分进行预测并输出非线性部分，然后利用WOA-LSTM模型预测数据的非线性部分，其中采用鲸鱼算法搜索隐藏层中神经元数共3个参数的LSTM部分，学习率和批量长度。与其他<>种模型相比，ARIMA-WOA-LSTM模型在污染物预测精度、模型预测精度和预测稳定性<>个方面表现最好，与其他模型相比性能提升巨大;此外，从评价指标来看，组合模型在污染物预测准确率、模型预测准确率、预测稳定性三个方面比单一模型具有巨大优势，随着ARIMA-WOA-LSTM模型在大气污染物预测方面的表现较好，为提前安排大气污染治理方案提供了更有效的参考。空气污染预报的准确性仍有提升空间。如图<>所示，污染物表现出明显的季节性特征，因此在模型中包括季节性特征可能是有益的。