毕业设计-基于大数据的PM2.5浓度预测的研究-python

news2025/2/22 13:23:59

目录

前言

课题背景和意义

实现技术思路

实现效果图样例


前言


    📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯基于大数据的PM2.5浓度预测的研究

课题背景和意义

随着中国经济的快速发展,以 PM2.5 为主要污染物的雾霾天气频频发生,环境保护是 一项紧迫的任务。如今我国已经逐步建立了环境监测系统,但是环境监测站产生的大量数 据并没有得到充分的利用,在空气质量状况尚未得到根本改善的情况下,利用历史数据对 PM2.5 浓度进行预测,帮助公众合理的规避污染也帮助政府提供充裕的管理时间是非常有 意义的事。

实现技术思路

预测方法

自从上个世纪 70 年代以来,产生了各式各样的空气质量预测的技术和工具,张兵兵 (2017)指出可以根据他们使用方法的复杂性分为以下三类: 简单的经验主义:一个典型的例子就是持久性方法,该方法是所有的实时空气质量预 第一章 绪论 2 测的方法中最快的方法,但是无法处理骤变的情况,准确性不高。 统计方法:基于天气和空气质量变量在统计上相关的事实,它根据外部条件使用不同 的函数来预测污染物的浓度。常用方法包括分类、回归树、回归方法、人工神经网络、模 糊逻辑和决策树等。 基于物理的方法:空气质量确定模型,也称为化学转移模型,通过质量守恒定理和化 学物质以及物理状态的状态转变,清楚地表明气象过程、物理过程和化学的形成积累处理。 目前,两种主流的关于大气环境预测方法分别为基于物理的方法和统计方法。基于物 理的方法的预测需要高质量的输入因子,不仅需要收集历史污染物浓度,气象数据,还要 考虑大气的初始状态,边界条件等。该模型的预测时间范围在一周内,相比之下技术成熟, 物理基础稳固但输入因素不易获得。而统计方法预测模型则是基于数据,这里的数据是指 历史污染物浓度和气象数据。相比之下统计预测模型更简单、经济且更加容易实现,适用 范围也更加的广泛。因此本文研究的是关于 PM2.5 浓度预测的统计预测模型。

(1)获取数据,并对获取的数据进行清洗整理等预处理操作。 (2)研究 PM2.5 预测模型,从传统的多元线性回归模型出发不断进行优化,直至得 出一个精度较高,适用性较强的预测模型。 (3)针对严重污染天气的探究。当 PM2.5 的浓度均值大于 250 3 g/m 时,称为严重污 染,对应我国空气质量等级的第六级,此时的空气中的污染物会对人体产生毒害。利用朴 素贝叶斯理论进行数据分类研究,并且对非平衡数据集进行进一步讨论,实践证明该方法 在 PM2.5 预测尤其是严重污染天气的识别中具有一定的应用价值。 本文研究的流程图如下所示:

多元线性回归模型

 朴素贝叶斯算法

朴素贝叶斯算法是常用的分类方法,算法基石是贝叶斯定理和特征条件独立假设,本 文通过朴素贝叶斯算法进行严重污染的异常天气的预判。对于训练数据集,学习不同天气 的先验概率,然后在特征条件独立假设前提下,学习联合概率分布,然后基于此模型,对 于给定的输入数据 x ,利用贝叶斯定理求出后验概率最大的输出 y 即分类结果。

贝叶斯定理

对于两个随机变量 X 和 Y,分别定义在输入空间(所有可能的输入集合)和输出空间 (所有可能的输出集合)。在 X 取值为 x 的条件下 Y 为 y 的概率称为条件概率记为 P( y | x) , 即 P( y | x) = P(Y = y | X = x) ,当 X 取值 x 且 Y 取值为 y 的联合概率记为 P(x, y) ,即 P(x, y) = P(X = x,Y = y) 。基本的求解公式如下: , P( , ) P( | ) P( ). P( ) P( , ) P( | ) x y x y y x x y y x = =  设 X 代表输入数据,Y 表示输出结果, P( y) 表示 Y = y 的先验概率, P(x) 表示 X = x 的先验概率, P( y | x) 表示基于输入数据 X 的输出结果 Y 的后验概率。由上可得贝叶斯公 式:

数据预处理

现实世界中的大部分数据都是“脏数据”,这种数据如果直接进行分析或者挖掘,将 无法得到有可信度的结果,所以数据预处理技术应运而生。数据预处理包括很多种方法: 数据清理、数据集成、数据变换、数据归约等。这些工作在数据分析、挖掘之前进行,会 大大提高模型的质量,同时减少消耗时间。 数据预处理在进行任何数据科学研究中都是非常关键的一步,实践证明,对数据进行 预处理,不仅可以节省成本使训练数据和学习模型的时间大大减少,最终得到的模型也会 有比较高的精确度。总之,对于数据建立模型的过程中,不仅要注重模型优化和参数优化, 数据的预处理也是不能忽视的一步。

数据清洗

本文的原始数据来自 UCI 网站共享,但已经 DC 竞赛平台预处理为更适合回归的数据 集。为了使数据更加适应本文所采用的模型,为了更好的拟合效果。仍需要考虑数据读取 和其他故障所引起的数据不完整、数据读取故障、数据重复、数据特征缺失等各种状况, 因此需要对数据进行进一步数据清洗,数据清洗包括一致性检查,无效值和缺失值的处理, 异常值和数据类型的处理。 (1)一致性检验 一致性检验是基于合理的值范围和每个变量之间的关系,检查数据之间的关系并找出 正常范围或矛盾值。例如原数据中的气压(hpa)和风速(m/s)不应出现负值。 (2)缺失值处理 由于数据采集或者数据读取中出现错误,数据中可能存在一些缺失值,对于缺失值的 处理一般的处理方式有以下几种: 1)直接删除:适合数据量很大,且出现没有规律,删除以后对整体的影响并不大。 2)估算:用对应群体的样本均值、中位数或者众数进行替代,这种方法简单易行。 3)随机插补法:从总体中随机抽取某个样本替代缺失值,本文采用这种处理方式。

数据变换

数据读入之后,查看数据类型发现日期数据 date 的数据类型并不是常规的日期数据类 型,使用常见的数据科学包 pandas 包中的 pd.to_datetime()函数更改成日期的时间数据类型。 同时,根据日期数据拆分成年、月、日,单独成列且一一对应,以便更好的进行数据研究, 至此,本文的数据预处理完成。

数据描述

数据集包含北京市从 2010 年 1 月 2 日 0 时至 2014 年 12 月 31 日 23 时的 35746 条数 据,数据显示这段时间的 PM2.5 浓度的最大值为 994,最小为 0;温度(TEMP)的最高值为 41,最小值为-19;露点(DEWP)值最高 28,最低-40;压强(PRES)最大值为 1046,最小值 为 992;累计风速(Iws)最大为 565.49,最小为 0.45;而累计降雪(Is)和累计降雨(Ir)最大 值分别是 27 和 36,最小值为 0。为了研究 PM2.5 的时间序列规律,针对不同的月份、日 期、小时,画出 PM2.5 均值变化特征如下:

实现效果图样例

我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。

毕设帮助,疑难解答,欢迎打扰!

最后

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/71663.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Excel 函数大全之TRANSPOSE function

TRANSPOSE function 有时您需要切换或旋转单元格。您可以通过复制、粘贴和使用转置选项来完成此操作。但是这样做会产生重复的数据。如果您不想这样,您可以使用 TRANSPOSE 函数键入公式。例如,在下图中,公式=TRANSPOSE(A1:B4)将单元格 A1 到 B4 水平排列。 注意: 如果您有…

Docker基本命令

目录一、Docker基本命令二、Docker镜像常用命令三、Docker 容器常用命令一、Docker基本命令 启动Docker systemctl start docker 停止Docker systemctl stop docker 重启Docker systemctl restart docker 开机启动Docker systemctl enable docker 查看Docker概要信息 dock…

通过动态图形感受数学之美

这两天正在使用PTC Mathcad 软件,它可以通过公式绘制出对应的曲线,通过曲线更容易的去理解公式中各种参数的含义。 下面先看几个例子 可以看到这个软件的函数和绘图功能是非常好用的,唯一的缺点就是:当参数范围比较宽的时候&#…

python+django企业员工人事档案管理系统arlys

系统主要分为两种角色,每个角色的功能如下所示: 管理员功能模块: 1.员工资料管理:查看员工列表,添加职工,修改信息(搜索员工使用模糊查询) 2.部门管理:查看部门列表&am…

vue.js:全局组件和局部组件

全局组件和局部组件 全局组件的定义的代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><meta name"author" content"xiaonaihu" /><meta name"generator" content"HBuilder X" …

知识图谱-KGE-语义匹配-双线性模型-2016:HolE

【paper】 Holographic Embeddings of Knowledge Graphs【简介】 本文是麻省理工的研究人员发表在 AAAI 2016 上的文章&#xff0c;提出了 HolE(Holographic Embedding)&#xff0c;是一个基于向量循环关联操作的组合向量空间模型。 组合表示 不同论文里对同一类方法的表述不…

第十四届蓝桥杯集训——JavaC组第五篇——四则运算/(求余/取模)

第十四届蓝桥杯集训——JavaC组第五篇——四则运算/(求余/取模) 目录 第十四届蓝桥杯集训——JavaC组第五篇——四则运算/(求余/取模) 四则运算 基础运算&#xff1a; 符号优先级 计算示例&#xff1a; 异常处理 取模运算% 基础概念 奇偶数 四则运算 大家都知道&…

基于Java+Springboot+Vue+elememt甜品屋蛋糕商城系统设计和实现

博主介绍&#xff1a;✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取联系&#x1f345;精彩专栏推荐订阅收藏&#x1f447;&…

2023年网络安全预测

©网络研究院 就在一年前&#xff0c;对 2022 年的预测将勒索软件的扩散以及混合环境中远程工作的新方式所产生的漏洞视为对企业的致命威胁。在冠状病毒引起的动荡之后&#xff0c;更多组织正在协商将其网络基础设施迁移到云端的挑战。 另一个始终如一的主题是长期缺乏由…

node版本控制工具(nvm)

1.传统的node控制版本,需要去官网手动下载并安装;使用nvm可以快速的切换node版本,提高摸鱼时间哦~ 2.下载nvm(地址) 3.再d盘soft(这是我专门存放软件的文件夹,大家可以直接在d盘下建nvm哈)文件夹下新建nvm文件夹,将下载的压缩文件解压到该文件夹下 解压后nvm文件夹下就只有nvm…

[附源码]Python计算机毕业设计Django疫情网课管理系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

简化基于Scala的Web API开发

虽然说使用 Scala 语言的语法来写 SpringBoot 微服务已经可以让 Scala 开发者们兴奋不已了&#xff0c;但说实话&#xff0c;这并没有很大程度上发挥二者各自的最大威力。 单向上来讲&#xff0c;从 SpringBoot 微框架出发&#xff0c;Java、Scala 等 Java 虚拟机上的语言都会…

[附源码]JAVA毕业设计体育用品购物系统(系统+LW)

[附源码]JAVA毕业设计体育用品购物系统&#xff08;系统LW&#xff09; 项目运行 环境项配置&#xff1a; Jdk1.8 Tomcat8.5 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术…

神经网络流程图用什么画,神经网络识别流程图解

1、如何通过人工神经网络实现图像识别 人工神经网络&#xff08;Artificial Neural Networks&#xff09;&#xff08;简称ANN&#xff09;系统从20 世纪40 年代末诞生至今仅短短半个多世纪&#xff0c;但由于他具有信息的分布存储、并行处理以及自学习能力等优点&#xff0c;…

【2】AHB协议学习

目录 1、ahb2.0协议:1.1、基本传输1.2 传输类型1.3 突发操作1.4 控制信号1.41 传输方向1.4.2 传输大小1、ahb2.0协议: AHB是为提出高性能可综合设计的要求而产生的AMBA总线。 它是一种支持多总线主机和提高带宽操作的高性能总线。 1.1、基本传输 AHB传输包含两个截然不同的…

远程桌面-系统管理员不允许使用保存的凭据登录远程计算机

当你使用本机 Microsoft RDP 客户端(mstsc.exe)连接到远程 Windows 主机时,可以保存登录凭据,以避免每次都输入这些凭据。你只需要在 RDP 连接窗口中勾选“记住我”选项。在这种情况下,Windows 会将你的远程桌面密码保存到 Windows 凭据管理器。 此外,还有一件更重要的事…

VMware之安装配置CentOS7

安装步骤&#xff1a; 1、打开VMware虚拟机 创建新的虚拟机 2、根据你安装的虚拟机版本选择相应的 Workstation 什么是ISO镜像文件&#xff1f; 1、iso文件只是一个只读文件 2、.iso是电脑上光盘镜像&#xff08;CD Mirror&#xff09;的存储格式之一&#xff0c;因为其是根据I…

【Python游戏】震惊,csdn小编居然用Python实现一个天天酷跑小游戏 | 附源码

前言 halo&#xff0c;包子们上午好 很多小伙伴还记得我们曾经的timi 天天酷跑 嘛 今天小编直接用Python给大家整一个天天酷跑小游戏 真的超级得劲哟 废话不多说&#xff0c;直接上才艺 相关文件 关注小编&#xff0c;私信小编领取哟&#xff01; 当然别忘了一件三连哟~~ 公…

HTML大学班级活动网页设计 、大学校园HTML实例网页代码 、本实例适合于初学HTML的同学

&#x1f389;精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

Qt 官方示例学习:dragdroprobot

参考链接 Qt开发技术&#xff1a;图形视图框架&#xff08;二&#xff09;场景QGraphicsScene、QGraphicsItem与QGraphicsView详解QGraphicsScene的功能 程序运行效果 要点 模块拆分 界面方面可以分为两个大体&#xff0c;色盘与机器人&#xff1b; 主体界面 使用 QGraph…