作品介绍
1 作品背景及研究对象
1.1 背景及必要性介绍
2022年春节期间,山东及多地的部分省市明确了禁放烟花爆竹的规定,直接表明了当今大气污染变化的严峻形势,燃放烟花爆竹会严重影响空气环境质量,加剧雾霾天气,产生噪音污染,且极易引发火灾和安全事故,造成人身伤亡和财产损失。不仅如此,我国也早已出台了《中华人民共和国大气污染防治法》等有关的法律法规,在国际上也是对全球性的大气污染采取了多项举措,全球环境问题是国际社会必须优先考虑的课题之一。大气污染也紧密地与我们的日常生产生活相关联,重大案例及报道也层出不穷的出现在人们眼前,可见对大气污染的重视程度不容小觑,合理及现代化的分析及解决办法也就显得尤为重要。
1.2 研究对象
空气质量指数(AQI),综合表示空气污染程度或空气质量等级的无量纲的相对数值,是一种反映和评价空气质量的数量尺度方法,就是将常规监测的几种空气污染物浓度简化成为单一的概念性指数数值形式,并分级表征空气污染程度和空气质量状况,主要分为下图所示的六级。
图1 空气质量指数(AQI)
2 设计思想
1.由于数据源的CSV表采集了大量的大气情况数据,造成了数据的冗余以及缺失等问题,需要对数据进行整理修复,对表格的字段进行处理。还要将经纬度转换为点,进行投影。
2.有经纬度的空气质量监测站点根据位置创建时空立方体,对其进行时间序列聚类,局部异常值分析Anselin Local Moran's I和新兴时空热点分析Getis-Ord Gi* 统计并在3D下显示,使用z得分,p值还要bin值等参数挖掘时空数据。
3.对全国全天的空气质量指数AQI求算平均中心并连接成线,在整体上展示大气的移动。用标准差椭圆的角度根据折线图显示不同时间的方向分布,在结论上与平均中心互补,更好的确定污染物的移动趋势。最后有不同省份的矢量与AQI点进行空间连接,汇总统计不同地区的污染情况。
4.3D经验贝叶斯克里金法EBK3D预测24小时各个地区的AQI,对测站点分布不均的地区进行补充,之后还要对插值预测模型的精度进行评估,由插值结果生成多维栅格,对其进行分区统计以及以表格显示的分区统计等操作。
5.使用空间自相关 (Global Moran's I)探究一定空间关系和距离下AQI存在的空间自相关性,增量空间自相关测量一系列距离的空间自相关,使用z得分峰值反映促进空间过程聚类最明显的距离,平均最近邻探究测站点的分布情况。
图2 基本流程示意图
3 主要功能
该部分以2019年4月28日为例进行介绍
1.全国全天范围内AQI数据分布探索
在对原数据整理完善后,探索数据的基本分布情况是后续操作的基石,用图表可以直接检验数据分布,做出平稳假设,在一定程度上反映出变异值的共性,查找出数据的离群值,图3反映出了AQI值大体符合正态分布的趋势,只有小部分的误差。图4的数据时钟图对全天24小时所有测站得到的AQI求取均值,可以看出所有地区平均在这一天的晚上18至24时污染最严重,0至9时污染最轻。
图3 AQI对数变换后和正态分布的比较
图4 一天范围内AQI均值的变化情况
2.时空数据挖掘
时间序列聚类标识时空立方体中最为相似的位置,对AQI值根据位置划分为不同的聚类,每个聚类的成员具有的时间序列特征均相似,即在相同的时间范围内AQI值相近,据此可探索出同一时间段内哪几个地区地污染情况是相似的。
图5 时间序列聚类分布图
图6在每个聚类的每个时间步长处显示了AQI的平均值,图7显示每个聚类的中心点时间序列,两图对总体的平均值以及按聚类细分的代表性时间序列进行了可视化,分别类似于使用平均值和中值来汇总AQI值。
图6 每个聚类的平均时间序列
图7 时间序列聚类 Medoids 算法
以3D形式可视化存储在 netCDF 立方体中的变量,图8图10和图11分别是对AQI值,新兴时空热点以及局部异常值创建的动画效果,相对于传统的图片,增加了变化的时间维度,更为生动地展示出全天的污染变化情况。
由图8可以看出,在2019年4月28日这天,在东北,华北,长三角,西南以及西北的一些地区有明显的大气污染,很长时间都在轻度污染以上。该时空立方体还附带了个图9.在3D时间序列图表中进行可视化,其含义与图4大致相同。
图8 AQI值全天变化
图9 在 3D 时间序列图表中进行可视化
图10是由时空热点分析Getis-Ord Gi* 统计生成的时空立方体,展示了每个立方的统计显著性特征和在AQI值聚类中的趋势,包含新增的热点和冷点、连续的热点和冷点、加强的热点和冷点等等,根据z得分,p值等参数赋予-3到3之间的bin值,对应90%,95%,99%的置信度以及不显著。
图10 时空冷热点全天变化
图11是根据聚类和异常值结果Anselin Local Moran's I 统计建立的时空立方体,为每个统计显著性立方分配的结果类型,对高-高聚类,高-低离散,低-高离散,低-低聚类进行不同时间的可视化,显示了AQI在时空邻域上存在统计差异的位置,但在这一天并没有发现显著的异常值结果。
该立方体还附带了图12.Moran I 散点图,对其统计发现线性趋势为y = 0.06272 + 0.71351 x,R²=0.7398036396
图11 局部异常值时空挖掘
图12 Moran I 散点图
3.度量地理分布模式
在时空整体上研究平均中心和方向分布,与在不同时间上的时空挖掘进行互补,图13和图14所示含义大致相同,污染物的移动方式近似于二次曲线,4月28号这一天在时空整体上向东北方向移动,关键在3点时回退了一点,4点后向东北方向前进,13到16点再次回退,之后改变方向,说明在时空整体上向东北是因为东北方向污染加重,回退是因为西南方向污染加重,同时在8到10点,16到17点还存在东南方向污染加重。
图13 全国范围内AQI中心移动变化示意图
图14 全国AQI方向分布角度变化
图15包含3个维度,X轴的省份,Y轴的时间还有用颜色深浅表示AQI值,统计了各省份的污染情况。
图15 用于不同地区和时间的AQI 总和
4.地统计插值预测
因为空气质量监测站以黑河腾冲线为界东多西少,使用3D经验贝叶斯克里金法EBK3D插值预测24小时各个地区的AQI,由插值结果生成多维栅格,对测站点分布不均的地区进行补充。
图16 全国范围内全天AQI插值预测动画
插值预测模型总会存在误差,对模型精度的评估是非常重要的一项工作,如图17所示,预测与实际的差值越接近0值越精确。
图17 插值模型精度评估
5.地理要素的全局模式
如图18使用的是空间自相关 (Global Moran's I),使用z得分评估模式的类型及其统计显著性,,对于AQI的z得分远大于1.65,有明显的集聚模式。图19平均最邻近度量了测站点彼此之间的空间邻近性,测站点在全局上最邻近比率0.000007远小于1,z得分远小于 -2.58,属于高度聚集。图20增量空间自相关评估不同的距离阈值下的全局空间模式,测量了一系列距离的空间自相关,虽然从0到1000米的范围内z得分大于2.58,存在多个折点,但没有明显的峰值来反映促进空间过程聚类最明显的距离。
图18 AQI的空间自相关
图19 平均最近邻
图20 增量空间自相关
4 作品特点
多时效:可根据实际情况处理任意时间段的数据,例如某时,某天,甚至是某几个月或年,分析思路以及方法大致相同。
可视化:对传统的表格数值型数据进行处理,用图示或者动画的方式进行展现,对业内及业外人士具有较高的方便性。
多维大数据:由二维拓展到时空大数据,综合运用多项分析方法,使得结果更为合理全面,对数据挖掘的更为细致。
流程化:基于模型的构建实现对繁琐工作的整理,使得对重复以及琐碎的分析步骤归为一类,处理方便快捷,同时还有自定义参数的设置,方便用户的不同需求。
多角度:在不同角度看待同一问题,使得结果更为合理准确,增加了对空间分析功能的可拓展性,适合不同的应用场景。
5 设计前景展望
本作品主要在于对时空大数据和未来有着很大的发展潜力的多维分析方法以及与GIS领域经典的二维分析多方面相结合的综合考量,面向未来的AI技术,可以结合深度学习实现更加准确的评估预测,综合考虑地域差异以及多方变量的影响,还可以在对数据深入了解后通过提供更为精确的模型参数实现更加准确的评估,希望今后可以结合更为先进的技术及产品进行数据补充,进一步完善时空信息,实现对大气污染的更为精细化的建模,为环境保护、资源节约利用等研究提供更精确的分析。相信在未来可以对新兴时空大数据的挖掘及处理做得更为彻底。