第30周：文献阅读

摘要

Abstract

文献阅读

问题引入

方法论

堆叠集成模型

深度学习模型

创新点

堆叠模型

敏感性和不确定性分析

优化模型

实验研究

数据集

水质指数WQI的计算

模型的构建与训练

模型性能评估

敏感性和不确定性分析

结论

摘要

本文聚焦于利用深度学习算法预测湖水水质指数（WQI）并进行敏感性 - 不确定性分析。结构上，先阐述研究背景与目的，介绍了水质评估的重要性及传统方法的局限，引出深度学习模型的应用；接着详细说明研究区域、样本采集、WQI估算、模型构建及评估等方法；随后展示各模型预测结果、变量重要性及敏感性和不确定性分析结果；最后讨论研究成果的意义并得出结论。特点在于将多种机器学习和深度学习模型结合成堆叠集成框架，且首次运用基于深度神经网络（DNN）的敏感性和不确定性分析。优势是能处理复杂非线性关系，在有限数据下仍表现良好。研究以印度Loktak湖为对象，旨在为该地区水污染管理提供支持。结果表明，堆叠模型预测精度最高，CNN和DNN模型表现也较好。未来可应用物联网电化学传感器开发水质监测预警系统，或构建基于微生物传感器与物联网平台的低成本监测框架。

Abstract

This article focuses on the use of deep learning algorithms to predict the lake water quality index (WQI) and perform sensitivity -uncertain analysis. Structurally, first elaborate the research background and purpose, introduce the importance of water quality assessment and the limitations of traditional methods, and lead to the application of deep learning models; then explain in detail methods of research areas, sample collection, WQI estimation, model construction and evaluation; subsequent subsequent then Display the results of the prediction results, the importance of variables and sensitivity and uncertainty analysis results; finally discuss the significance of the research results and draw conclusions. It is characterized by combining a variety of machine learning and deep learning models into stacking integrated frameworks, and for the first time, the sensitivity and uncertain analysis based on deep neural network (DNN) are used. The advantage is that it can handle complex and non -linear relationships, and it still performs well under limited data. Study based on Lake Loktak, India, it aims to provide support for water pollution management in the region. The results show that the stack model has the highest accuracy, and the CNN and DNN models perform better. In the future, IoT electrochemical sensors can be used to develop water quality monitoring and early warning systems, or build low -cost monitoring frameworks based on microbial sensors and IoT platforms.

文献阅读

论文题目：

Predicting lake water quality index with sensitivity-uncertainty analysis

using deep learning algorithms

论文地址：

https://doi.org/10.1016/j.jclepro.2023.136885

问题引入

研究背景

随着人口增长和无序发展，湖泊等自然水体正面临污染、侵占、富营养化和过度开发等问题，主要污染源为未经处理的生活或工业废水。水污染不仅影响生态系统，还对人类、植物和动物健康产生负面影响。因此，水质量评估对于水资源工程和环境管理系统至关重要。然而，传统的水质量指数（WQI）方法存在地点特异性不确定性和复杂、耗时的计算过程，限制了其应用。

上面的图表中可以看出，这些参数的最大值与世卫组织饮用水标准很远，表明地表水被污染物污染。进一步体现出水质评估的重要性。

研究动机

为了克服传统WQI方法的局限性，研究人员开始将WQI与人工智能（AI）结合，以分析和预测水质量。AI在处理复杂非线性结构、大规模数据集以及实时生成WQI值方面具有显著优势。尽管机器学习模型在水质量分析中得到了广泛应用，但它们也存在对训练和测试数据高度依赖以及预测精度较低的弱点。为了解决这些限制，深度学习模型被提出用于水质量建模，它们能够适应高度不可预测和非线性的预测，并且在处理有限数据时表现出色。然而，目前的研究中尚未充分探索利用深度学习进行敏感性和不确定性分析，以指导清洁生产技术的实施。

研究目标

本研究旨在开发一种基于深度学习的堆叠集成模型（stacking ensemble model），结合梯度提升机（GBM）、广义线性模型（GLM）和神经网络（NN），以提高湖泊水质量指数（WQI）的预测精度。同时，研究首次引入深度神经网络（DNN）进行敏感性和不确定性分析，以确定影响WQI的关键水质参数，并为清洁生产技术的实施提供科学依据，从而为可持续的水污染管理提供支持。

方法论

堆叠集成模型

梯度提升机

基于梯度提升的集成模型，通过优化和提升算法组合多个决策树。

梯度提升机（Gradient Boosting Machine，GBM）是一种强大的机器学习算法，属于集成学习方法中的提升方法（Boosting）。它通过逐步构建多个弱学习器（通常是决策树），并将这些弱学习器组合成一个强学习器，以提高模型的预测性能。

GBM的核心思想是通过优化损失函数，逐步减小预测误差，从而提升模型的准确性。

广义线性模型

扩展的线性回归模型，适用于处理线性和非线性数据集。

广义线性模型（Generalized Linear Model，GLM）是一种扩展了传统线性回归模型的统计模型，能够处理各种类型的数据分布，包括连续、二元、计数等。GLM通过引入链接函数（link function）和指数族分布（exponential family distribution），使得模型能够适应不同类型的响应变量。

神经网络

多层前馈深度学习架构，能够处理大规模非线性数据集。

神经网络（Neural Network，NN）是一种模拟人脑神经元结构和功能的计算模型，广泛应用于机器学习和人工智能领域。神经网络通过学习数据中的模式和关系，能够进行分类、回归、聚类等任务。

元学习器（Meta-Learner）

使用GLM将基础模型的预测结果进行整合。

元学习器（Meta-Learner）是集成学习中的一个关键组件，特别是在堆叠集成模型（Stacking Ensemble Model）中。元学习器的作用是将多个基础学习器的预测结果进行整合，以生成最终的预测结果。通过这种方式，元学习器能够利用多个模型的优势，提高整体的预测性能。

深度学习模型

深度神经网络（DNN）

是神经网络的一种扩展形式，通过增加网络的层数（即深度）来提高模型的表达能力和拟合复杂数据的能力。

卷积神经网络（CNN）

一维CNN模型，适用于处理一维数据，通过卷积层和池化层提取特征。

创新点

堆叠模型

提出了一种基于深度学习和机器学习的堆叠集成模型（stacking ensemble model），将梯度提升机（GBM）、广义线性模型（GLM）和神经网络（NN）结合在一起，用于预测湖泊水质指数（WQI）。这种集成方法不仅提高了预测的准确性，还通过元学习器（GLM）整合了多个模型的优势。这种方法在处理复杂的非线性关系和有限数据时表现出色，能够提供更准确的水质预测结果。

敏感性和不确定性分析

首次在水污染研究中应用深度神经网络（DNN）进行敏感性和不确定性分析。通过DNN模型，研究了输入参数（如pH、浊度、电导率等）对WQI的敏感性和不确定性。这种分析方法能够识别出对水质影响最大的关键参数（如pH和浊度），并评估参数不确定性对预测结果的影响。这为水质管理和污染控制提供了科学依据。

优化模型

通过随机网格搜索技术对DNN和卷积神经网络（CNN）进行超参数优化，使其在有限数据条件下表现出色。特别是CNN模型，通过一维卷积层和池化层提取特征，能够有效处理一维数据。优化后的DNN和CNN模型在预测WQI时表现出色，尤其是在数据量有限的情况下，能够提供可靠的预测结果。

实验研究

数据集

研究区域为印度曼尼普尔邦的洛克塔克湖，这是印度最大的淡水湖，以其独特的漂浮岛屿（phumdis）而闻名。在季风后季节，研究者从湖中的30个不同地点采集了水样，样本采集深度为20-30厘米，以分析水质参数。

水质指数WQI的计算

参数选择：选择九个关键的物理化学参数（pH、温度、EC、TDS、浊度、DO、BOD、COD和硝酸盐）来计算WQI 。相关权重如下图所示：

Loktak湖的污染状况，可以用WQI值的热力图表现如下：

上图展示不同地点（Sites）在两个水质状态（Status）下的水质指数（WQI）值。

结论分析：

1、该热图有效地展示了不同地点的水质状况，通过颜色的深浅可以直观地看出水质的优劣。

2、需要对显示为红色的地点进行重点关注和治理，以改善水质。

3、通过比较不同状态下的WQI值，可以评估水质改善措施的效果，并为未来的水资源管理和保护提供数据支持。

Loktak湖中9个参数之间的相关系性：

上面热图中颜色和数字表示相关性的强度和方向。浅黄到深红代表正相关性越来越强，浅绿到深绿代表负相关性越来越强，颜色越浅，其相关性越弱。

结论分析：

1、该热图有效地展示了不同水质参数之间的相关性，帮助识别哪些参数之间存在显著的线性关系。

2、通过分析这些相关性，可以更好地理解水质参数之间的相互作用，为水质管理和污染控制提供科学依据。

3、例如，如果目标是改善水质（降低WQI），可能需要特别关注与WQI强相关的参数，如pH和COD，并采取措施来管理和控制这些参数。

为了评估模型的预测准确性，将WQI预测值和WQI真实值进行比较来对比不同模型准确性。

下图两张散点图展示了WQI预测值和WQI真实值的相关性：

图 a 展示了不同模型预测的WQI值与训练集上实际WQI值的对比；图 b 展示了每个模型预测的WQI值与测试集上的实际WQI值的对比。

结果分析：

1、从图中可以看出，大多数模型的预测值与实际值相当接近，尤其是在图 a 中，显示了模型在训练数据上的良好拟合。

2、在图 b 中，可以观察模型在测试集上的表现，评估模型是否过拟合。

3、远离对角线的点可能是异常值或模型未能很好捕捉的样本。这些点可能需要进一步分析，以改进模型性能。

模型的构建与训练

梯度提升机GBM

广义线性模型GLM

代码实践

1、单个深度学习模型——DNN

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 构建DNN模型
model_dnn = Sequential([
    Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(32, activation='relu'),
    Dense(1)
])

# 编译模型
model_dnn.compile(optimizer='adam', loss='mse')

# 训练模型
model_dnn.fit(X_train, y_train, epochs=100, batch_size=32, validation_split=0.1)

2、堆叠集成模型

from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor

# 定义基础模型
estimators = [
    ('svr', SVR()),
    ('rf', RandomForestRegressor())
]

# 构建堆叠模型
stacking_model = StackingRegressor(
    estimators=estimators,
    final_estimator=LinearRegression()
)

# 训练堆叠模型
stacking_model.fit(X_train, y_train)

模型性能评估

堆叠模型中不同的模型对不同参数的重要性是重要因素，所以不同模型的参数重要性评估如下：

GBM比较分析：

1、pH值显示出最高的重要性，表明在GBM模型中，pH值对预测水质指数（WQI）的影响最大。

2、**TDS（总溶解固体）和EC（电导率）**也显示出一定的重要性，但远低于pH值

GLM比较分析：

1、pH值在GLM模型中也是最重要的参数。

2、**浊度（Turbidity）和硝酸盐（Nitrate）**的重要性次之，表明它们对模型预测也有显著影响

Deep Le比较分析：

1、pH值依然是最重要的参数。

2、**浊度（Turbidity）和温度（Temperature）**的重要性紧随其后，显示这些参数对模型预测也有较大影响。

为了调整DNN模型，不断的改变其参数来比较MSE的误差大小：

上述图表展示了多个DNN模型在训练过程中的MAE随迭代次数的变化情况。

结果分析：

1、大部分DNN模型在较少的迭代次数内就达到了较低的MAE值，说明这些模型能够较快地收敛。

2、从MAE值来看，多数模型在训练集上的表现较好，MAE值较低，说明预测误差小。

3、不同的DNN模型其MAE下降速度和最终达到的稳定值有所不同，这可能与模型结构（如层数、神经元数量）、超参数设置（如学习率、优化器）等有关。

4、一些模型在较少迭代次数内就达到了较低的MAE值，这可能意味着训练效率较高。同样也存在着欠拟合的风险。

为了比较不同层次DNN模型以及CNN模型在训练中的不同表现，测得了三种不同深度学习模型的损失值和MAE：

结果分析：

1、这些图表明所有模型在训练过程中都表现出良好的学习能力，损失和MAE都显著下降，显示出模型预测性能的提升。

2、训练集和验证集上的性能接近，表明模型没有明显的过拟合问题，具有较好的泛化能力。

上面的对比实验可以看出，不同迭代次数的DNN在模型预测方面有不同的表现。而且DNN和CNN模型在训练过程中都具有较好的学习能力。我们进一步讨不同的CNN模型对于预测效果的影响。

下图不同CNN模型中不同水质参数的重要性：

很明显能够看出左右两个结果图中影响最大的水质参数是不一样的。

结果分析：

1、不同的CNN模型可能会识别出不同的重要参数。这可能是由于模型结构、训练数据或超参数设置的差异。

2、通过比较不同模型中变量的重要性，可以帮助研究人员理解不同算法对数据的敏感性，并优化模型结构和参数以提高预测性能。

3、参数重要性的排序为水质管理和污染控制提供了指导。

敏感性和不确定性分析

结果分析：

1、图1中TDS 位于左侧较低位置，说明其平均敏感性和标准差都较低；而 pH、Turbidity 等位于右侧，平均敏感性较高。标准差反映了敏感性的波动程度，如某些变量标准差较大，说明其敏感性在不同情况下波动较大。

2、从图2中可看出，pH 和 Turbidity 对应的柱子高度最高，表明这两个变量的敏感性平方均值较大，对结果的影响相对更为显著；而 EC、TDS 等对应的柱子高度较低，影响相对较小。

3、图3中可以看出，不同颜色的曲线分别代表不同的水质变量，曲线的形状和位置反映了各变量敏感性的分布情况。

代码实践：

import numpy as np

def sensitivity_analysis(model, X, feature_index):
    original_predictions = model.predict(X)
    perturbed_X = X.copy()
    # 对指定特征进行微小扰动
    perturbed_X[:, feature_index] += 0.01  
    perturbed_predictions = model.predict(perturbed_X)
    sensitivity = np.mean(np.abs(perturbed_predictions - original_predictions))
    return sensitivity

# 以DNN模型为例进行敏感性分析
for i in range(X_train.shape[1]):
    sens = sensitivity_analysis(model_dnn, X_train, i)
    print(f"Feature {i} sensitivity: {sens}")

结论

本研究构建堆叠集成模型预测 Loktak 湖水质指数（WQI），并运用 DNN 进行敏感性 - 不确定性分析。研究结构涵盖从理论基础到实验过程，再到结果讨论与结论。其特点在于多模型融合和创新的分析方法。优势是能有效处理有限数据和复杂关系。研究聚焦于 Loktak 湖，是因其面临水污染问题。结果显示，堆叠模型在预测 WQI 上表现最佳，CNN 和 DNN 模型也表现良好。未来可借助物联网电化学传感器开发水质监测预警系统，或搭建低成本的实时监测框架，以推动可持续水污染管理12