【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联

news2025/4/24 21:57:31

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联

    • 一、项目背景与目标
    • 二、数据集介绍
    • 三、完整代码实现
      • 1. 环境准备与数据加载
      • 2. 数据预处理
      • 3. 探索性分析(EDA)
        • 3.1 化学物质含量与水质安全性的关联
        • 3.2 安全与不安全水样的特性
        • 3.3 识别潜在的危险化学物质
      • 4. 分析结论与洞见
        • 关键发现
        • 业务建议
    • 五、优化方向与思考
      • 数据深化
      • 模型构建
    • 六、完整代码

一、项目背景与目标

  水质安全是一个全球性问题,影响着数十亿人的健康。通过分析水质数据中的化学物质含量,我们可以识别潜在的危险因素,为水质管理和政策制定提供科学依据。

二、数据集介绍

  本数据集包含7999条模拟水质记录,涵盖多种化学物质的浓度测量值,以及一个指示水样是否安全的分类变量。化学物质包括铝、氨、砷、钡、镉等,每种物质都有对应的安全阈值。

三、完整代码实现

1. 环境准备与数据加载

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 配置可视化样式
plt.style.use('ggplot')
%matplotlib inline

# 加载数据
df = pd.read_csv('/path/to/water_quality.csv')

2. 数据预处理

# 查看数据基本信息
print(df.info())
print(df.describe())

# 检查缺失值
print(df.isnull().sum())

# 数据重命名,方便后续处理
df = df.rename(columns={
    'aluminium': 'Al',
    'ammonia': 'NH3',
    'arsenic': 'As',
    'barium': 'Ba',
    'cadmium': 'Cd',
    'chloramine': 'ClNH2',
    'chromium': 'Cr',
    'copper': 'Cu',
    'flouride': 'F',
    'bacteria': 'Bacteria',
    'viruses': 'Viruses',
    'lead': 'Pb',
    'nitrates': 'NO3',
    'nitrites': 'NO2',
    'mercury': 'Hg',
    'perchlorate': 'ClO4',
    'radium': 'Ra',
    'selenium': 'Se',
    'silver': 'Ag',
    'uranium': 'U'
})

3. 探索性分析(EDA)

3.1 化学物质含量与水质安全性的关联
# 计算相关系数矩阵(皮尔逊相关系数)
corr_matrix = df.corr()

# 绘制热力图
plt.figure(figsize=(15, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('化学物质含量与水质安全性的相关性热力图')
plt.show()

# 绘制关键化学物质与安全性的散点图
key_substances = ['Al', 'NH3', 'As', 'Ba', 'Cd', 'ClNH2', 'Cr', 'Cu', 'F', 'Bacteria', 'Viruses', 'Pb', 'NO3', 'NO2', 'Hg', 'ClO4', 'Ra', 'Se', 'Ag', 'U']

for substance in key_substances:
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis')
    plt.title(f'{substance} 含量与水质安全性关系')
    plt.xlabel(f'{substance} 浓度')
    plt.ylabel('是否安全')
    plt.grid(True)
    plt.show()

3.2 安全与不安全水样的特性
# 绘制关键化学物质在安全与不安全水样中的分布
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1D

for idx, substance in enumerate(key_substances):
    # 在指定的子图上绘制散点图
    sns.boxplot(x='is_safe', y=substance, data=df, ax=axes[idx])
    #sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis', ax=axes[idx])
    axes[idx].set_title(f'{substance} 在安全与不安全水样中的分布')
    axes[idx].set_xlabel(f'{substance} 浓度')
    axes[idx].set_ylabel('是否安全')
    axes[idx].grid(True)

plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()

3.3 识别潜在的危险化学物质
# 绘制箱线图识别各化学物质中的异常值
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1D

# 绘制箱线图识别各化学物质中的异常值
for idx, substance in enumerate(key_substances):
    # plt.figure(figsize=(10, 6))
    sns.boxplot(x=df[substance],ax=axes[idx])
    axes[idx].set_title(f'{substance} 含量的异常值分析')
    axes[idx].set_xlabel(f'{substance} 浓度')
    axes[idx].set_ylabel('是否安全')
    axes[idx].grid(True)

plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()

4. 分析结论与洞见

关键发现
  1. 砷 (As)铅 (Pb)镉 (Cd) 与水质安全性呈现显著负相关,浓度越高,水质越可能不安全。
  2. 细菌 (Bacteria)病毒 (Viruses) 的存在显著降低了水质安全性。
  3. 硝酸盐 (NO3)亚硝酸盐 (NO2) 的浓度升高与水质不安全存在关联。
业务建议
  1. 加强砷、铅和镉的监测:重点关注这些化学物质的排放源和处理过程。
  2. 改善微生物污染控制:加强对水体中细菌和病毒的处理,确保微生物指标达标。
  3. 综合水质管理:结合多种化学和生物指标,制定全面的水质安全标准。

五、优化方向与思考

数据深化

  1. 整合时空数据:结合水质数据的时空信息,分析污染源的扩散路径。
  2. 引入外部数据:如气象数据、工业活动数据等,探索更广泛的水质影响因素。

模型构建

  1. 构建预测模型:使用机器学习算法预测水质安全趋势。
  2. 开发预警系统:实时监控关键指标,及时发出水质安全预警。

  通过数据可视化,我们能够清晰地看到化学物质含量与水质安全性的关系,为水质管理和政策制定提供有力支持。希望本文能为相关领域的研究和实践提供有价值的参考。

六、完整代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 配置可视化样式
plt.style.use('ggplot')
%matplotlib inline

# 加载数据
df = pd.read_csv('/path/to/water_quality.csv')

# 查看数据基本信息
print(df.info())
print(df.describe())

# 检查缺失值
print(df.isnull().sum())


# 数据重命名,方便后续处理
df = df.rename(columns={
    'aluminium': 'Al',
    'ammonia': 'NH3',
    'arsenic': 'As',
    'barium': 'Ba',
    'cadmium': 'Cd',
    'chloramine': 'ClNH2',
    'chromium': 'Cr',
    'copper': 'Cu',
    'flouride': 'F',
    'bacteria': 'Bacteria',
    'viruses': 'Viruses',
    'lead': 'Pb',
    'nitrates': 'NO3',
    'nitrites': 'NO2',
    'mercury': 'Hg',
    'perchlorate': 'ClO4',
    'radium': 'Ra',
    'selenium': 'Se',
    'silver': 'Ag',
    'uranium': 'U'
})


# 计算相关系数矩阵(皮尔逊相关系数)
corr_matrix = df.corr()

# 绘制热力图
plt.figure(figsize=(15, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('化学物质含量与水质安全性的相关性热力图')
plt.show()


# 绘制关键化学物质与安全性的散点图
key_substances = ['Al', 'NH3', 'As', 'Ba', 'Cd', 'ClNH2', 'Cr', 'Cu', 'F', 'Bacteria', 'Viruses', 'Pb', 'NO3', 'NO2', 'Hg', 'ClO4', 'Ra', 'Se', 'Ag', 'U']

for substance in key_substances:
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis')
    plt.title(f'{substance} 含量与水质安全性关系')
    plt.xlabel(f'{substance} 浓度')
    plt.ylabel('是否安全')
    plt.grid(True)
    plt.show()


# 绘制关键化学物质在安全与不安全水样中的分布
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1D

for idx, substance in enumerate(key_substances):
    # 在指定的子图上绘制散点图
    sns.boxplot(x='is_safe', y=substance, data=df, ax=axes[idx])
    #sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis', ax=axes[idx])
    axes[idx].set_title(f'{substance} 在安全与不安全水样中的分布')
    axes[idx].set_xlabel(f'{substance} 浓度')
    axes[idx].set_ylabel('是否安全')
    axes[idx].grid(True)

plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()


# 绘制箱线图识别各化学物质中的异常值
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1D

# 绘制箱线图识别各化学物质中的异常值
for idx, substance in enumerate(key_substances):
    # plt.figure(figsize=(10, 6))
    sns.boxplot(x=df[substance],ax=axes[idx])
    axes[idx].set_title(f'{substance} 含量的异常值分析')
    axes[idx].set_xlabel(f'{substance} 浓度')
    axes[idx].set_ylabel('是否安全')
    axes[idx].grid(True)

plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2341967.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【prometheus+Grafana篇】从零开始:Linux 7.6 上二进制安装 Prometheus、Grafana 和 Node Exporter

💫《博主主页》:奈斯DB-CSDN博客 🔥《擅长领域》:擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控;并对SQLserver、NoSQL(MongoDB)有了解 💖如果觉得文章对你有所帮…

STM32(M4)入门:GPIO与位带操作(价值 3w + 的嵌入式开发指南)

一:GPIO 1.1 了解时钟树(必懂的硬件基础) 在 STM32 开发中,时钟系统是一切外设工作的 “心脏”。理解时钟树的工作原理,是正确配置 GPIO、UART 等外设的核心前提。 1.1.1 为什么必须开启外设时钟? 1. 计…

Linux419 三次握手四次挥手抓包 wireshark

还是Notfound 没连接 可能我在/home 准备配置静态IP vim ctrlr 撤销 u撤销 配置成功 准备关闭防火墙 准备配置 YUM源 df -h 未看到sr0文件 准备排查 准备挂载 还是没连接 计划重启 有了 不重启了 挂载准备 修改配置文件准备 准备清理缓存 ok 重新修改配…

CSS-跟随图片变化的背景色

CSS-跟随图片变化的背景色 获取图片的主要颜色并用于背景渐变需要安装依赖 colorthief获取图片的主要颜色. 并丢给背景注意 getPalette并不是个异步方法 import styles from ./styles.less; import React, { useState } from react; import Colortheif from colorthief;cons…

解决Docker 配置 daemon.json文件后无法生效

vim /etc/docker/daemon.json 在daemon中配置一下dns {"registry-mirrors": ["https://docker.m.daocloud.io","https://hub-mirror.c.163.com","https://dockerproxy.com","https://docker.mirrors.ustc.edu.cn","ht…

虚幻基础:ue碰撞

文章目录 碰撞:碰撞体 运动后 产生碰撞的行为——碰撞响应由引擎负责,并向各自发送事件忽略重叠阻挡 碰撞响应关系有忽略必是忽略有重叠必是重叠有阻挡不一定阻挡(双方都为阻挡) 碰撞启用:纯查询:开启移动检…

数据治理体系的“三驾马车”:质量、安全与价值挖掘

1. 执行摘要 数据治理已从合规驱动的后台职能,演变为驱动业务成果的战略核心。本文将深入探讨现代数据治理体系的三大核心驱动力——数据质量、数据安全与价值挖掘——它们共同构成了企业在数字时代取得成功的基石。数据质量是信任的基石,确保决策所依据…

leetcode 二分查找应用

34. Find First and Last Position of Element in Sorted Array 代码&#xff1a; class Solution { public:vector<int> searchRange(vector<int>& nums, int target) {int low lowwer_bound(nums,target);int high upper_bound(nums,target);if(low high…

Ngrok 内网穿透实现Django+Vue部署

目录 Ngrok 配置 注册/登录 Ngrok账号 官网ngrok | API Gateway, Kubernetes Networking Secure Tunnels 直接cmd运行 使用随机生成网址&#xff1a;ngrok http 端口号 使用固定域名生成网址&#xff1a;ngrok http --domain你的固定域名 端口号 Django 配置 1.Youre a…

利用OLED打印调试信息: 控制PC13指示灯点灯的实验

Do口暗的时候才是高电平,因为光敏电阻传感器的高电平是依靠LM393电压比较器上引脚进入高阻态再加上上拉电阻上拉产生的高电平DO口什么时候会输出高阻态?电压比较器的正极输入电压大于负极输入电压,而正极输入电压是光敏电阻分得的电压,光敏电阻的阻值越大,已分得的电压就越大,…

Appium安装 -- app笔记

调试环境&#xff1a;JDK&#xff08;java&#xff09; SDK&#xff08;android&#xff09; Node.js 雷神模拟器&#xff08;或 真机&#xff09; Appium&#xff08;Appium Server【内外件&#xff08;dos内件、界面化工具&#xff09;】、Appium Inspector&#xff09; p…

【OpenGL】OpenGL学习笔记-1:VS2019配置OpenGL开发环境

在Visual Studio 2019中可以通过手动配置库文件或NuGet包管理器快速安装的方法配置OpenGL环境&#xff0c;详细步骤如下&#xff1a; 一、打开VS2019&#xff0c;创建新的控制台项目 二、方法一&#xff1a;手动配置GLEW/GLFW/GLAD库 GLFW是窗口管理和输入事件的基础设施&…

集结号海螺捕鱼游戏源码解析(第二篇):水浒传捕鱼模块逻辑与服务器帧同步详解

本篇将全面解构“水浒传”子游戏的服务端核心逻辑、帧同步机制、鱼群刷新规则、客户端命中表现与服务器计算之间的协同方式&#xff0c;聚焦于 C 与 Unity3D 跨端同步的真实实现过程。 一、水浒传捕鱼模块资源结构 该模块包含三部分核心目录&#xff1a; 子游戏/game_shuihuz…

【音视频】FFmpeg内存模型

FFmpeg内存模型 从现有的Packet拷贝一个新Packet的时候&#xff0c;有两种情况&#xff1a; 两个Packet的buf引用的是同一数据缓存空间&#xff0c;这时候要注意数据缓存空间的释放问题&#xff1b;两个Packet的buf引用不同的数据缓存空间&#xff0c;每个Packet都有数据缓存…

小白自学python第一天

学习python的第一天 一、常用的值类型&#xff08;先来粗略认识一下~&#xff09; 类型说明数字&#xff08;number&#xff09;包含整型&#xff08;int&#xff09;、浮点型&#xff08;float&#xff09;、复数&#xff08;complex&#xff09;、布尔&#xff08;boolean&…

手动实现LinkedList

前言 大家好&#xff0c;我是Maybe。最近在学习数据结构中的链表&#xff0c;自己手动实现了一个LinkedList。我想与大家分享一下。 思维导图 代码部分 package Constant;public class constant {public static final String INDEX_IS_WRONG"输入的下标不合法"; }p…

maven的安装与配置、IDEA集成maven

一、maven的安装与配置环境变量 maven的下载与安装&#xff0c;配置环境变量与验证【附安装包3.6.1&#xff0c;3.8.8&#xff0c;3.9.9】-CSDN博客 参考资料&#xff1a;黑马程序员 二、IDEA集成 2.1 当前工程设置 1. 打开 Maven 设置路径&#xff1a;在 IDEA 中&#xf…

Axure中继器表格:实现复杂交互设计的利器

在产品原型设计领域&#xff0c;Axure凭借其强大的元件库和交互功能&#xff0c;成为设计师们手中的得力工具。其中&#xff0c;中继器元件在表格设计方面展现出了独特的优势&#xff0c;结合动态面板等元件&#xff0c;能够打造出功能丰富、交互体验良好的表格原型。本文将深入…

前端 JavaScript 处理流式响应的坑

给使用 JavaScript 的同学提个醒&#xff01; 浏览器端处理流式响应&#xff0c;想要完美体验 请使用 Fetch API。 Axios 无法使用stream来直接处理真正的流式响应&#xff08;但 Node.js 中可以使用 stream&#xff09;&#xff0c;这与浏览器底层 HTTP 请求实现的限制有关。 …

AI Agent认知框架(ReAct、函数调用、计划与执行、自问自答、批判修正、思维链、思维树详解和对比,最后表格整理总结

以下是主流AI Agent认知框架的详细说明、对比及表格总结&#xff1a; 1. 各认知框架详解 (1) ReAct (Reasoning Action) 定义&#xff1a;结合推理&#xff08;Reasoning&#xff09;和行动&#xff08;Action&#xff09;的循环过程。核心机制&#xff1a; 模型先推理&…