第30周:文献阅读

news2025/1/29 8:35:52

目录

摘要

Abstract

文献阅读

问题引入

方法论

堆叠集成模型

深度学习模型 

创新点

堆叠模型 

敏感性和不确定性分析

优化模型

实验研究

数据集

水质指数WQI的计算

模型的构建与训练

模型性能评估

敏感性和不确定性分析

结论


摘要

本文聚焦于利用深度学习算法预测湖水水质指数(WQI)并进行敏感性 - 不确定性分析。结构上,先阐述研究背景与目的,介绍了水质评估的重要性及传统方法的局限,引出深度学习模型的应用;接着详细说明研究区域、样本采集、WQI估算、模型构建及评估等方法;随后展示各模型预测结果、变量重要性及敏感性和不确定性分析结果;最后讨论研究成果的意义并得出结论。特点在于将多种机器学习和深度学习模型结合成堆叠集成框架,且首次运用基于深度神经网络(DNN)的敏感性和不确定性分析。优势是能处理复杂非线性关系,在有限数据下仍表现良好。研究以印度Loktak湖为对象,旨在为该地区水污染管理提供支持。结果表明,堆叠模型预测精度最高,CNN和DNN模型表现也较好。未来可应用物联网电化学传感器开发水质监测预警系统,或构建基于微生物传感器与物联网平台的低成本监测框架。  

Abstract

This article focuses on the use of deep learning algorithms to predict the lake water quality index (WQI) and perform sensitivity -uncertain analysis. Structurally, first elaborate the research background and purpose, introduce the importance of water quality assessment and the limitations of traditional methods, and lead to the application of deep learning models; then explain in detail methods of research areas, sample collection, WQI estimation, model construction and evaluation; subsequent subsequent then Display the results of the prediction results, the importance of variables and sensitivity and uncertainty analysis results; finally discuss the significance of the research results and draw conclusions. It is characterized by combining a variety of machine learning and deep learning models into stacking integrated frameworks, and for the first time, the sensitivity and uncertain analysis based on deep neural network (DNN) are used. The advantage is that it can handle complex and non -linear relationships, and it still performs well under limited data. Study based on Lake Loktak, India, it aims to provide support for water pollution management in the region. The results show that the stack model has the highest accuracy, and the CNN and DNN models perform better. In the future, IoT electrochemical sensors can be used to develop water quality monitoring and early warning systems, or build low -cost monitoring frameworks based on microbial sensors and IoT platforms. 

文献阅读

论文题目:

Predicting lake water quality index with sensitivity-uncertainty analysis
using deep learning algorithms
论文地址:
https://doi.org/10.1016/j.jclepro.2023.136885

问题引入

研究背景

随着人口增长和无序发展,湖泊等自然水体正面临污染、侵占、富营养化和过度开发等问题,主要污染源为未经处理的生活或工业废水。水污染不仅影响生态系统,还对人类、植物和动物健康产生负面影响。因此,水质量评估对于水资源工程和环境管理系统至关重要。然而,传统的水质量指数(WQI)方法存在地点特异性不确定性和复杂、耗时的计算过程,限制了其应用。

上面的图表中可以看出,这些参数的最大值与世卫组织饮用水标准很远,表明地表水被污染物污染。进一步体现出水质评估的重要性。

研究动机

为了克服传统WQI方法的局限性,研究人员开始将WQI与人工智能(AI)结合,以分析和预测水质量。AI在处理复杂非线性结构、大规模数据集以及实时生成WQI值方面具有显著优势。尽管机器学习模型在水质量分析中得到了广泛应用,但它们也存在对训练和测试数据高度依赖以及预测精度较低的弱点。为了解决这些限制,深度学习模型被提出用于水质量建模,它们能够适应高度不可预测和非线性的预测,并且在处理有限数据时表现出色。然而,目前的研究中尚未充分探索利用深度学习进行敏感性和不确定性分析,以指导清洁生产技术的实施。

研究目标 

本研究旨在开发一种基于深度学习的堆叠集成模型(stacking ensemble model),结合梯度提升机(GBM)、广义线性模型(GLM)和神经网络(NN),以提高湖泊水质量指数(WQI)的预测精度。同时,研究首次引入深度神经网络(DNN)进行敏感性和不确定性分析,以确定影响WQI的关键水质参数,并为清洁生产技术的实施提供科学依据,从而为可持续的水污染管理提供支持。

方法论

堆叠集成模型

梯度提升机

基于梯度提升的集成模型,通过优化和提升算法组合多个决策树。

梯度提升机(Gradient Boosting Machine,GBM)是一种强大的机器学习算法,属于集成学习方法中的提升方法(Boosting)。它通过逐步构建多个弱学习器(通常是决策树),并将这些弱学习器组合成一个强学习器,以提高模型的预测性能。

GBM的核心思想是通过优化损失函数,逐步减小预测误差,从而提升模型的准确性。 

广义线性模型

扩展的线性回归模型,适用于处理线性和非线性数据集。

广义线性模型(Generalized Linear Model,GLM)是一种扩展了传统线性回归模型的统计模型,能够处理各种类型的数据分布,包括连续、二元、计数等。GLM通过引入链接函数(link function)和指数族分布(exponential family distribution),使得模型能够适应不同类型的响应变量。

神经网络

多层前馈深度学习架构,能够处理大规模非线性数据集。

神经网络(Neural Network,NN)是一种模拟人脑神经元结构和功能的计算模型,广泛应用于机器学习和人工智能领域。神经网络通过学习数据中的模式和关系,能够进行分类、回归、聚类等任务。

元学习器(Meta-Learner)

使用GLM将基础模型的预测结果进行整合。

元学习器(Meta-Learner)是集成学习中的一个关键组件,特别是在堆叠集成模型(Stacking Ensemble Model)中。元学习器的作用是将多个基础学习器的预测结果进行整合,以生成最终的预测结果。通过这种方式,元学习器能够利用多个模型的优势,提高整体的预测性能。

深度学习模型 

深度神经网络(DNN)

是神经网络的一种扩展形式,通过增加网络的层数(即深度)来提高模型的表达能力和拟合复杂数据的能力。

卷积神经网络(CNN)

一维CNN模型,适用于处理一维数据,通过卷积层和池化层提取特征。

创新点

堆叠模型 

提出了一种基于深度学习和机器学习的堆叠集成模型(stacking ensemble model),将梯度提升机(GBM)、广义线性模型(GLM)和神经网络(NN)结合在一起,用于预测湖泊水质指数(WQI)。这种集成方法不仅提高了预测的准确性,还通过元学习器(GLM)整合了多个模型的优势。这种方法在处理复杂的非线性关系和有限数据时表现出色,能够提供更准确的水质预测结果。

敏感性和不确定性分析

首次在水污染研究中应用深度神经网络(DNN)进行敏感性和不确定性分析。通过DNN模型,研究了输入参数(如pH、浊度、电导率等)对WQI的敏感性和不确定性。这种分析方法能够识别出对水质影响最大的关键参数(如pH和浊度),并评估参数不确定性对预测结果的影响。这为水质管理和污染控制提供了科学依据。

优化模型

通过随机网格搜索技术对DNN和卷积神经网络(CNN)进行超参数优化,使其在有限数据条件下表现出色。特别是CNN模型,通过一维卷积层和池化层提取特征,能够有效处理一维数据。优化后的DNN和CNN模型在预测WQI时表现出色,尤其是在数据量有限的情况下,能够提供可靠的预测结果。

实验研究

数据集

研究区域为印度曼尼普尔邦的洛克塔克湖,这是印度最大的淡水湖,以其独特的漂浮岛屿(phumdis)而闻名。在季风后季节,研究者从湖中的30个不同地点采集了水样,样本采集深度为20-30厘米,以分析水质参数。 

水质指数WQI的计算

参数选择:选择九个关键的物理化学参数(pH、温度、EC、TDS、浊度、DO、BOD、COD和硝酸盐)来计算WQI 。相关权重如下图所示:

  Loktak湖的污染状况,可以用WQI值的热力图表现如下:

 

上图展示不同地点(Sites)两个水质状态(Status)下的水质指数(WQI)值。 

结论分析:

1、该热图有效地展示了不同地点的水质状况,通过颜色的深浅可以直观地看出水质的优劣。

2、需要对显示为红色的地点进行重点关注和治理,以改善水质。

3、通过比较不同状态下的WQI值,可以评估水质改善措施的效果,并为未来的水资源管理和保护提供数据支持。

  Loktak湖中9个参数之间的相关系性:

上面热图中颜色和数字表示相关性的强度和方向。浅黄到深红代表正相关性越来越强,浅绿到深绿代表负相关性越来越强,颜色越浅,其相关性越弱。

结论分析:

1、该热图有效地展示了不同水质参数之间的相关性,帮助识别哪些参数之间存在显著的线性关系

2、通过分析这些相关性,可以更好地理解水质参数之间的相互作用,为水质管理和污染控制提供科学依据。

3、例如,如果目标是改善水质(降低WQI),可能需要特别关注与WQI强相关的参数,如pH和COD,并采取措施来管理和控制这些参数。

为了评估模型的预测准确性,将WQI预测值和WQI真实值进行比较来对比不同模型准确性。 

下图两张散点图展示了WQI预测值和WQI真实值的相关性: 

图 a 展示了不同模型预测的WQI值与训练集上实际WQI值的对比;图 b 展示了每个模型预测的WQI值与测试集上的实际WQI值的对比。

结果分析: 

1、从图中可以看出,大多数模型的预测值与实际值相当接近,尤其是在图 a 中,显示了模型在训练数据上的良好拟合。

2、在图 b 中,可以观察模型在测试集上的表现,评估模型是否过拟合。

3、远离对角线的点可能是异常值或模型未能很好捕捉的样本。这些点可能需要进一步分析,以改进模型性能。

模型的构建与训练

 梯度提升机GBM

 广义线性模型GLM

代码实践 

1、单个深度学习模型——DNN

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 构建DNN模型
model_dnn = Sequential([
    Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(32, activation='relu'),
    Dense(1)
])

# 编译模型
model_dnn.compile(optimizer='adam', loss='mse')

# 训练模型
model_dnn.fit(X_train, y_train, epochs=100, batch_size=32, validation_split=0.1)

2、堆叠集成模型

from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor

# 定义基础模型
estimators = [
    ('svr', SVR()),
    ('rf', RandomForestRegressor())
]

# 构建堆叠模型
stacking_model = StackingRegressor(
    estimators=estimators,
    final_estimator=LinearRegression()
)

# 训练堆叠模型
stacking_model.fit(X_train, y_train)

模型性能评估

堆叠模型中不同的模型对不同参数的重要性是重要因素,所以不同模型的参数重要性评估如下:

 

GBM比较分析: 

1、pH值显示出最高的重要性,表明在GBM模型中,pH值对预测水质指数(WQI)的影响最大。

2、**TDS(总溶解固体)EC(电导率)**也显示出一定的重要性,但远低于pH值

GLM比较分析:

1、pH值在GLM模型中也是最重要的参数。

2、**浊度(Turbidity)硝酸盐(Nitrate)**的重要性次之,表明它们对模型预测也有显著影响

Deep Le比较分析:

1、pH值依然是最重要的参数。

2、**浊度(Turbidity)温度(Temperature)**的重要性紧随其后,显示这些参数对模型预测也有较大影响。

为了调整DNN模型,不断的改变其参数来比较MSE的误差大小:

 

上述图表展示了多个DNN模型在训练过程中的MAE随迭代次数的变化情况。 

结果分析: 

1、大部分DNN模型在较少的迭代次数内就达到了较低的MAE值,说明这些模型能够较快地收敛

2、从MAE值来看,多数模型在训练集上的表现较好,MAE值较低,说明预测误差小

3、不同的DNN模型其MAE下降速度和最终达到的稳定值有所不同,这可能与模型结构(如层数、神经元数量)、超参数设置(如学习率、优化器)等有关。

4、一些模型在较少迭代次数内就达到了较低的MAE值,这可能意味着训练效率较高。同样也存在着欠拟合的风险

为了比较不同层次DNN模型以及CNN模型在训练中的不同表现,测得了三种不同深度学习模型的损失值和MAE: 

 

结果分析: 

1、这些图表明所有模型在训练过程中都表现出良好的学习能力,损失和MAE都显著下降,显示出模型预测性能的提升。

2、训练集和验证集上的性能接近,表明模型没有明显的过拟合问题,具有较好的泛化能力

上面的对比实验可以看出,不同迭代次数的DNN在模型预测方面有不同的表现。而且DNN和CNN模型在训练过程中都具有较好的学习能力。我们进一步讨不同的CNN模型对于预测效果的影响。

下图不同CNN模型中不同水质参数的重要性:

 很明显能够看出左右两个结果图中影响最大的水质参数是不一样的。

结果分析:

1、不同的CNN模型可能会识别出不同的重要参数。这可能是由于模型结构、训练数据或超参数设置的差异。

2、通过比较不同模型中变量的重要性,可以帮助研究人员理解不同算法对数据的敏感性,并优化模型结构和参数以提高预测性能。

3、参数重要性的排序为水质管理和污染控制提供了指导。

敏感性和不确定性分析

 结果分析:

1、图1中TDS 位于左侧较低位置,说明其平均敏感性和标准差都较低;而 pH、Turbidity 等位于右侧,平均敏感性较高。标准差反映了敏感性的波动程度,如某些变量标准差较大,说明其敏感性在不同情况下波动较大。

2、从图2中可看出,pH 和 Turbidity 对应的柱子高度最高,表明这两个变量的敏感性平方均值较大,对结果的影响相对更为显著;而 EC、TDS 等对应的柱子高度较低,影响相对较小。

3、图3中可以看出,不同颜色的曲线分别代表不同的水质变量,曲线的形状和位置反映了各变量敏感性的分布情况。

代码实践:

import numpy as np

def sensitivity_analysis(model, X, feature_index):
    original_predictions = model.predict(X)
    perturbed_X = X.copy()
    # 对指定特征进行微小扰动
    perturbed_X[:, feature_index] += 0.01  
    perturbed_predictions = model.predict(perturbed_X)
    sensitivity = np.mean(np.abs(perturbed_predictions - original_predictions))
    return sensitivity

# 以DNN模型为例进行敏感性分析
for i in range(X_train.shape[1]):
    sens = sensitivity_analysis(model_dnn, X_train, i)
    print(f"Feature {i} sensitivity: {sens}")

 

结论

本研究构建堆叠集成模型预测 Loktak 湖水质指数(WQI),并运用 DNN 进行敏感性 - 不确定性分析。研究结构涵盖从理论基础到实验过程,再到结果讨论与结论。其特点在于多模型融合和创新的分析方法。优势是能有效处理有限数据和复杂关系。研究聚焦于 Loktak 湖,是因其面临水污染问题。结果显示,堆叠模型在预测 WQI 上表现最佳,CNN 和 DNN 模型也表现良好。未来可借助物联网电化学传感器开发水质监测预警系统,或搭建低成本的实时监测框架,以推动可持续水污染管理12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2284169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

The just sharing principle: advice for advice givers

原文 A while ago I wrote about how Only you know what’s best for your application. That’s because only you fully understand the context within which you are making technical decisions. Any advice need to filtered through that context in order to determi…

【PVE】PVE部署磁盘阵列

什么是磁盘阵列? 磁盘阵列是一种存储技术,通过将多个物理磁盘组合成一个逻辑存储单元,提供数据冗余和/或性能提升。它的核心目的是提高数据的可靠性、可用性和访问速度。磁盘阵列可以由专用硬件或软件实现。 PVE部署磁盘阵列并加入虚拟机 …

FlinkSql使用中rank/dense_rank函数报错空指针

问题描述 在flink1.16(甚至以前的版本)中,使用rank()或者dense_rank()进行排序时,某些场景会导致报错空指针NPE(NullPointerError) 报错内容如下 该报错没有行号/错误位置,无法排查 现状 目前已经确认为bug,根据github上的PR日…

Ubuntu介绍、与centos的区别、基于VMware安装Ubuntu Server 22.04、配置远程连接、安装jdk+Tomcat

目录 ?编辑 一、Ubuntu22.04介绍 二、Ubuntu与Centos的区别 三、基于VMware安装Ubuntu Server 22.04 下载 VMware安装 1.创建新的虚拟机 2.选择类型配置 3.虚拟机硬件兼容性 4.安装客户机操作系统 5.选择客户机操作系统 6.命名虚拟机 7.处理器配置 8.虚拟机内存…

一个基于Python+Appium的手机自动化项目~~

本项目通过PythonAppium实现了抖音手机店铺的自动化询价,可以直接输出excel,并带有详细的LOG输出。 1.excel输出效果: 2. LOG效果: 具体文件内容见GitCode: 项目首页 - douyingoods:一个基于Pythonappium的手机自动化项目,实现了…

ubuntu 更新24LTS中断导致“系统出错且无法恢复,请联系系统管理员”

22LTS to 24LTS 更新过程中手jian把更新程序controlC导致的。 解决 目前企图完成更新来恢复,重启后有软件包冲突,sudo apt upgrade报冲突。无法进行。 将原来source.list重新 sudo dpkg --configure -a sudo apt install -f 这些都不管用。还是显示gno…

(2025,DeepSeek-R1-Zero,DeepSeek-R1,两阶段强化学习,两阶段监督微调,蒸馏,冷启动数据)通过强化学习激励 LLM 的推理能力

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 目录 0. 摘要 1. 简介 1.1 贡献 1.2 评测结果总结 2. 方法 2.1 概述 2.2 DeepSeek-R1-Zero:基础模型上的强化学习 2.2.1. 强化学习算法 2.2.2. 奖励建模 2.2.3. 训练…

k8s支持自定义field-selector spec.hostNetwork过滤

好久没写博客啦,年前写一个博客就算混过去啦😂 写一个小功能,对于 Pod,在没有 label 的情况下,支持 --field-selector spec.hostNetwork 查询 Pod 是否为 hostNetwork 类型,只为了熟悉 APIServer 是如何构…

图漾相机搭配VisionPro使用简易教程

1.下载并安装VisionPro软件 请自行下载VisonPro软件。 VisionPro 9.0/9.5/9.6版本经测试,可正常打开图漾相机,建议使用图漾测试过的版本。 2.下载PercipioCameraForVisionPro软件包 使用浏览器下载:https://gitee.com/percipioxyz/camport3…

【MFC】C++所有控件随窗口大小全自动等比例缩放源码(控件内字体、列宽等未调整) 20250124

MFC界面全自动等比例缩放 1.在初始化里 枚举每个控件记录所有控件rect 2.在OnSize里,根据当前窗口和之前保存的窗口的宽高求比例x、y 3.枚举每个控件,根据比例x、y调整控件上下左右,并移动到新rect struct ControlInfo {CWnd* pControl;CRect original…

【2024年华为OD机试】 (C卷,200分)- 机器人走迷宫(JavaScriptJava PythonC/C++)

一、问题描述 题目描述 房间由X * Y的方格组成,每个方格用坐标(x, y)描述。机器人从(0, 0)出发,只能向东或向北前进,出口在(X-1, Y-1)。房间中有一些墙壁,机器人不能经过。有些方格是陷阱(B),…

DAY01 面向对象回顾、继承、抽象类

学习目标 能够写出类的继承格式public class 子类 extends 父类{}public class Cat extends Animal{} 能够说出继承的特点子类继承父类,就会自动拥有父类非私有的成员 能够说出子类调用父类的成员特点1.子类有使用子类自己的2.子类没有使用,继承自父类的3.子类父类都没有编译报…

leetcode刷题记录(八十一)——236. 二叉树的最近公共祖先

(一)问题描述 236. 二叉树的最近公共祖先 - 力扣(LeetCode)236. 二叉树的最近公共祖先 - 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。百度百科 [https://baike.baidu.com/item/%E6%9C%80%E8%BF%91%E5%85%AC%E5%85%B…

PyTorch入门 - 为什么选择PyTorch?

PyTorch入门 - 为什么选择PyTorch? Entry to PyTorch - Why PyTorch? by JacksonML $ pip install pytorch安装完毕后,可以使用以下命令,导入第三方库。 $ import pytorch

STM32新建不同工程的方式

新建工程的方式 1. 安装开发工具 MDK5 / keil52. CMSIS 标准3. 新建工程3.1 寄存器版工程3.2 标准库版工程3.3 HAL/LL库版工程3.4 HAL库、LL库、标准库和寄存器对比3.5 库开发和寄存器的关系 4. STM32CubeMX工具的作用 1. 安装开发工具 MDK5 / keil5 MDK5 由两个部分组成&#…

Linux相关概念和易错知识点(26)(命名管道、共享内存)

目录 1.命名管道 (1)匿名管道 -> 命名管道 ①匿名管道 ②命名管道 (2)命名管道的使用 ①创建和删除命名管道文件 ②命名管道文件的特性 ③命名管道和匿名管道的区别 (3)用命名管道实现进程间通信…

K8S 启动探测、就绪探测、存活探测

先来思考一个问题: 在 Deployment 执行滚动更新 web 应用的时候,总会出现一段时间,Pod 对外提供网络访问,但是页面访问却发生404,这个问题要如何解决呢?学完今天的内容,相信你会有自己的答案。 …

2024年度总结——理想的风,吹进现实

2024年悄然过去,留下了太多美好的回忆,不得不感慨一声时间过得真快啊!旧年风雪尽,新岁星河明。写下这篇博客,记录我独一无二的2024年。这一年,理想的风终于吹进现实! 如果用一句话总结这一年&am…

Python从0到100(八十五):神经网络-使用迁移学习完成猫狗分类

前言: 零基础学Python:Python从0到100最新最全教程。 想做这件事情很久了,这次我更新了自己所写过的所有博客,汇集成了Python从0到100,共一百节课,帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、 计算机视觉、机器学习、神经网络以及人工智能…

hadoop==docker desktop搭建hadoop

hdfs map readuce yarn https://medium.com/guillermovc/setting-up-hadoop-with-docker-and-using-mapreduce-framework-c1cd125d4f7b 清理资源 docker-compose down docker system prune -f