科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气

news2025/2/27 8:39:42

By 超神经

内容一览:近期,来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

关键词:恶劣天气   机器学习   随机森林   

作者 | 缓缓

编辑 | 三羊

天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulation and climate change) 显示,近年来恶劣天气对全球造成的损失不断加剧,仅 2019 年,相关灾害事件造成的全球经济损失就高达 1460 亿美元,保险损失高达 600 亿美元。并且,报告还称,随着恶劣天气灾害破坏性日益加重,未来相关损失会进一步加剧。因此,准确预测恶劣天气显得尤为迫切。

近期,美国科罗拉多州立大学的 Aaron J. Hill、Russ S. Schumacher 与国家海洋和大气管理局 (NOAA) 风暴预测中心 (SPC) 的 Israel Jirak 联合开发了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期(4-8天)范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

4b550a0a903a6027ba122a0414d7a107.png

目前该成果已发布在《Weather and Forecasting》

论文地址:

https://arxiv.org/abs/2208.02383

 CSU-MLP 概述

美国恶劣天气预报一般是由上文提到的 SPC 使用数值天气预报 (numerical weather prediction,简称 NWP) 模型进行预报,该模型能够提前 1-2 天预警特定恶劣天气及发生的地点,但在提前 3-8 天时只能预警发生的地点,无法预测是哪种恶劣天气。

近十年来,一种高分辨率的数值天气预报模型 CAMs (convection-allowing models) 应运而生,小于 4 天(短期)时间范围内的预报变得更加精准,但对于中长期时间范围来说,预测效果却没有较大改观。这种背景下,机器学习逐步在气象学领域得到应用。

本项研究 CSU-MLP (Colorado State University Machine Learning Probabilities) 中,模型训练的气象数据来自全球几何预报系统 (Global Ensemble Forecast System version 12,简称为 GEFSv12) 再预报数据集 (以下简称 GEFS/R),该数据集包含了美国本土 20 年的详细历史天气数据。研究人员从中选取了 9 年(2003 年-2012 年)的数据作为本次中期预报研究训练集,选取了 2 年 (2020 年-2022 年) 作为测试集。

 随机森林算法 

本研究基于一个叫随机森林 (Random Forest,简称 RF) 的机器学习算法。所谓随机森林是一种基于集成学习(Ensemble Learning)的分类和回归算法。具体到本研究中,就是通过恶劣天气特征输入,遍历整个决策树从而得出恶劣天气的预测结果。

因此,在随机森林算法中,恶劣天气的特征输入的尤为重要,在本研究试验中,研究人员从上述提到的训练集中提取了 12 个与恶劣天气有关联的特征变量用作训练,具体特征变量如下表所示。

7005e40615c31c294f38ba3179b363bc.png

用于模型训练和预测的 12 个特征变量

不过,在 GEFS/R 数据集中,这些特征变量分辨率并不一致,为此研究人员进行了插值处理,将其统一到了 0.5 度网格间距 (dergee grid spacing)。

 特征工程 

本研究中除了采用随机森林进行中期恶劣天气预测分析能力,还简要探究了特征工程。所谓特征工程指一种处理数据的技术,用于从观测事件周围收集特征,并将其转换为机器学习算法可以使用的形式。具体到本试验中,研究人员主要提出了两种方法进行简化特征,包括空间平均 (spatially averaging the features) 和时滞方法 (time-lagging) 等。

空间平均是指在研究人员提出将每个预测空间点上所有特征变量的值取平均数,这样可以减少噪声数据的干扰从而提高模型性能。具体过程如下图所示。

5bbecfdacbc1cd39b959afc3f287c807.png

特征变量组合处理方式

时滞方法是指在预测或建模过程中,将过去一段时间的观测数据延迟应用于当前时间点的预测或建模中。

它基于假设,过去的观测数据可以提供有关当前状态和未来趋势的有用信息。本次试验中,研究人员使用了时滞方法来扩充 GEFS/R 数据集的规模,但这个过程并不会对模型产生额外的计算量。

 试验结果

研究人员使用 GEFSv12 的 1.5 年实时天气预报测试 CSU-MLP 预测结果,并与 SPC 生成的人工预报进行对比。相关试验结果显示,在中期预报范围内,基于随机森林的预报系统的准确性及预报地域范围都要优于 SPC,如下图所示。但是,随着时间范围的增大,二者的预报能力都会有所下降。

16e74105ee0c774cc04e65444b33e403.png

2022年3月27日,CSU-MLP与SPC中期预报对比

a 图是 CSU-MLP 的 4 天预报,b 图为 SPC 的 4 天预报。其中,被阴影覆盖的部分指的是恶劣天气的预测概率,圆形图标指的是 SPC 的龙卷风(红色)、冰雹(绿色)和风暴(蓝色)的局部预报,图片的左下角和右下角分别为评估天气预报准确性的预测技能得分 BSS 和评估局部天气预报代表性的观测覆盖率。

对此,研究人员总结,整个预测系统的技巧性和精确性都有了很大的提升,主要是因为基于随机森林的预测系统在连续概率以及低概率轮廓(表示恶劣天气的估计中,概率较低的区域所形成的轮廓)两方面预测能力很强

此外,研究人员还通过试验不同地区、不同因素(热力学和动力学)对于预报的影响,探究了特征变量对恶劣天气预报很重要。结果如下图所示。

82e28000088ad3e731350a9a8a7d9ba4.png

不同特征变量对天气预报很重要

虽然上述不同因素、不同地区对预报的具体影响还有待于深入研究,但从中研究人员作出了初步判断:这些不同的特征变量会被模型进一步学习并用来进行恶劣天气预报。这也说明,基于随机森林的预测系统经过进一步的训练完善,是具有一定可信性和实用性的。

当然,在本试验过程中,研究人员也提出了基于随机森林的预测系统仍有很多需要完善的部分。比如,CSU-MLP 还需要再加入 SPC 人工预报的预测数据,进一步提升机器学习预报结果的可信性。

 AI 智能气象新阶段或将到来

人类一直致力于理解并预测世界,其中较为成功的例子之一便是天气预报。古时候,人们大多依据生活经验来进行预报,如「朝霞不出门,晚霞行千里」等,到现代,科学家们开始使用传感器和气象卫星收集海量数据来进行更精准的预报。

值得关注的是,在气象学发展的现阶段,AI 的加入大大增强了天气预报的准确性。据外媒报道,近几年瑞士的气象研究人员通过引入 AI,成功预测到闪电的时间和地点,该模型目前预测准确性达到 80%。

同时早在 2015 年,IBM 公司就斥资 20 亿美元收购天气频道 (WeatherChannel) 母公司 Weather Co. 数码和数据资产,而该公司之所以花费如此大手笔,也正是计划将 Weather Co. 的天气数据和预测信息同旗下 AI 服务 Watson 相结合。可见,IBM 等巨头已经十分看好 AI 在气象学上的潜力,并已开始着手布局。

不难预测,虽然影响天气变化的客观因素成千上万,天气精准预报的难度依然较大,但随着 AI 和气象学融合的进一步加深,一个由 AI 定义的智能气象新时代或将加速来到。

P.S.:

本篇论文 code 及数据集后续会发布在 HyperAI超神经官网 Hyper.ai,感兴趣的伙伴们可以持续关注~

—— 完 ——

1f36bf6a982bd3969a61963eac9c4855.jpeg

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)

18b988ba0684d00a820ac78b01f2a683.png

c5b27af62b67e677b7ac109dedc5cd13.png

84b8235ab9cbbe92cf4be01d6018911a.png

44421e6a166ec1803671a998238d2bb0.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/520553.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

收藏!16款ChatGPT工具

一、ChatGPT for google 一个浏览器插件,可搭配现有的搜索引擎来使用。 最大化搜索效率,对搜索体验的提升相当离谱: 安装完插件后,在搜索引擎搜索任何问题,都能获取两份答案。 左边是谷歌抓取的全网资源&#xff0c…

PoseiSwap:合规、隐私与支持更广泛的资产

Nautilus Chain 代表了公链赛道发展的一个新的范式形态,作为目前行业内首个 Layer3 链,是目前行业内第一个并行化且运行速度最快的EVM Rollup 方案。作为首个模块化链,存储、计算、共识等都在不同的模块中,意味着其能够获得更高的…

QML渐变(Gradients)

目录 一 QML介绍 二 QML的使用场合 三 实例演示 一 QML介绍 QML是Qt Quick的缩写,它是一种新型的、面向对象的、跨平台的脚本语言,可以用来描述用户界面或应用程序的交互逻辑。QML可以在Qt应用程序中使用,也可以在其他JavaScript应用程序中…

IM即时通讯系统[SpringBoot+Netty]——梳理(一)

文章目录 一、为什么要自研一套即时通讯系统1、实现一个即时通讯系统有哪些方式1.1、使用开源产品做二次开发或直接使用1.2、使用付费的云服务商1.3、自研 2、如何自研一套即时通讯系统2.1、早期即时通讯系统是如何实现2.2、一套即时通讯系统的基本组成2.3、当下的即时通讯系统…

Prometheus监控指标查询性能调优

01 背景 在《SRE: Google运维解密》一书中作者指出,监控系统需要能够有效的支持白盒监控和黑盒监控。黑盒监控只在某个问题目前正在发生,并且造成了某个现象时才会发出紧急警报。“白盒监控则大量依赖对系统内部信息的检测,如系统日志、抓取提…

ArcGIS创建渔网Create Fishnet工具生成指定大小格网

本文介绍在ArcMap软件中,通过“Create Fishnet”工具创建渔网,从而获得指定大小的矢量格网数据的方法。 首先,我们在创建渔网前,需要指定渔网覆盖的范围。这里我们就以四川省为例,在这一范围内创建渔网;其中…

prometheus实战之四:alertmanager的部署和配置

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 本文是《prometheus实战》系列的第四篇,在《prometheus实战之三:告警规则》中曾经提到过,整个告警功能分为规则和…

基于AT89C51单片机的并入串出乘法口诀的设计与仿真

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/87779146?spm1001.2014.3001.5503 源码获取 并入串出乘法口诀的设计与仿真系统设计 目录 第一章 概述 3 1.1课题研究及意义 3 1.2课题设计内容 4 第二章系统设计…

FE_Vue学习笔记 路由基本使用

1 路由的简介- router 路由【route】就是一组key-value的对应关系。 多个路由,需要经过路由器【router】的管理。 SPA (single page web application)应用 - 单页面web应用【一个index.html】 1)单页Web应用(single page web a…

Linux快照太有趣了!

1.首先介绍一下什么是Linux快照 VMware 的菜单栏中有虚拟机快照这个选项,形象来说快照就相当于一个备份文件,记录的是虚拟机运行到某一节点时的状态,在虚拟机的使用过程中如果发生了意外,比如系统崩溃或系统异常,此时…

python字典(一)——defaultdict的学习

一、前言 本页主要用来记录python字典的一些知识 二、Python中的defaultdict的详解 2.1defaultdict返回的默认值 defaultdict顾名思义默认字典,这个字典属于普通字典的一个子集,是对普通字典的改进 dcit的使用: 当访问字典里面不存在的key时会…

leetcode:相对名次(详解)

前言:内容包括-题目,代码实现,大致思路,代码解读 目录 题目: 代码实现: 大致思路: 代码解读: part 1:开辟返回数组 part 2:score数组的每个元素及其下标…

视觉大模型DINOv2:自我监督学习的新领域

如果你对自监督学习感兴趣,可能听说过Facebook人工智能的DINO(无标签知识蒸馏)。我们在以前的文章中也介绍过它。DINOv2不仅是一个新版本而且带来了新的改进,并为判别性自监督学习设定了更高的标准。当然公司的名字也从Facebook变为了Meta。 本文将介绍…

成功打破 GPT-4 上限,新版 Claude 横空出世!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 前 OpenAI 团队成员在离职后,创办了 Anthropic 公司。今年 3 月份的时候,该公司推出一款名为 Claude 的应用,试图与 ChatGPT 一争高下。 一个多月过去了…

分享Python采集77个css3代码,总有一款适合您

分享Python采集77个css3代码,总有一款适合您 Python采集的77个css3代码下载链接:https://pan.baidu.com/s/13EiUDXOAZvvKmF2KGrivzA?pwdubb2 提取码:ubb2 两款漂亮的bootstrap分页样式 纯CSS3用户卡片设计效果 4种炫酷CSS3 loading预加…

第六十章 Unity 发布Web平台

WebGL 是一种用于在 Web 浏览器中渲染图形的 API,基于 OpenGL ES 图形库的功能。WebGL 1.0 大致与 OpenGL ES 2.0 功能相匹配,而 WebGL 2.0 大致与 OpenGL ES 3.0 功能相匹配。WebGL 构建选项允许 Unity 将内容发布为 JavaScript 程序,而这些…

FastDFS+Nginx - 本地搭建文件服务器同时实现在外远程访问「端口映射」(1)

大家好,我是晓星航。今天为大家带来的是面向对象编程相关的讲解!😀 文章目录 前言1. 本地搭建FastDFS文件系统1.1 环境安装1.2 安装libfastcommon1.3 安装FastDFS1.4 配置Tracker1.5 配置Storage1.6 测试上传下载1.7 与Nginx整合1.8 安装Ngi…

ARM 处理器模式(二)

文章目录 ARM 处理器模式工作模式模式切换内核寄存器各个模式对应的内核寄存器 ARM 处理器模式 ARMv7-a 处理器共有 9 种工作模式 工作模式 User:用户模式,非特权模式,大部分程序运行的时候就处于此模式FIQ:快速中断模式&#x…

算法修炼之练气篇——练气二十二层

博主:命运之光 专栏:算法修炼之练气篇 前言:每天练习五道题,炼气篇大概会练习200道题左右,题目有C语言网上的题,也有洛谷上面的题,题目简单适合新手入门。(代码都是命运之光自己写的…

Vue列表展示计数器【第二篇】

&#x1f331; 1、vue列表展示案例 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>vueDemo02列表展示</title> </head> <body> <div id"xy"><!--原始展示方式…