科罗拉多州立大学发布CSU-MLP模型,用随机森林预测中期恶劣天气

news2024/11/16 0:23:30

本文首发自 HyperAI超神经微信公众号~

内容一览:近期,来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。
关键词:恶劣天气 机器学习 随机森林

天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulation and climate change) 显示,近年来恶劣天气对全球造成的损失不断加剧,仅 2019 年,相关灾害事件造成的全球经济损失就高达 1460 亿美元,保险损失高达 600 亿美元。并且,报告还称,随着恶劣天气灾害破坏性日益加重,未来相关损失会进一步加剧。因此,准确预测恶劣天气显得尤为迫切。

近期,美国科罗拉多州立大学的 Aaron J. Hill、Russ S. Schumacher 与国家海洋和大气管理局 (NOAA) 风暴预测中心 (SPC) 的 Israel Jirak 联合开发了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期(4-8天)范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

目前该成果已发布在《Weather and Forecasting》
论文地址:

https://arxiv.org/abs/2208.02383

CSU-MLP 概述

美国恶劣天气预报一般是由上文提到的 SPC 使用数值天气预报 (numerical weather prediction,简称 NWP) 模型进行预报,该模型能够提前 1-2 天预警特定恶劣天气及发生的地点,但在提前 3-8 天时只能预警发生的地点,无法预测是哪种恶劣天气。

近十年来,一种高分辨率的数值天气预报模型 CAMs (convection-allowing models) 应运而生,小于 4 天(短期)时间范围内的预报变得更加精准,但对于中长期时间范围来说,预测效果却没有较大改观。这种背景下,机器学习逐步在气象学领域得到应用。

本项研究 CSU-MLP (Colorado State University Machine Learning Probabilities) 中,模型训练的气象数据来自全球几何预报系统 (Global Ensemble Forecast System version 12,简称为 GEFSv12) 再预报数据集 (以下简称 GEFS/R),该数据集包含了美国本土 20 年的详细历史天气数据。研究人员从中选取了 9 年(2003 年-2012 年)的数据作为本次中期预报研究训练集,选取了 2 年 (2020 年-2022 年) 作为测试集。

随机森林算法

本研究基于一个叫随机森林 (Random Forest,简称 RF) 的机器学习算法。所谓随机森林是一种基于集成学习(Ensemble Learning)的分类和回归算法。具体到本研究中,就是通过恶劣天气特征输入,遍历整个决策树从而得出恶劣天气的预测结果。

因此,在随机森林算法中,恶劣天气的特征输入的尤为重要,在本研究试验中,研究人员从上述提到的训练集中提取了 12 个与恶劣天气有关联的特征变量用作训练,具体特征变量如下表所示。

用于模型训练和预测的 12 个特征变量

不过,在 GEFS/R 数据集中,这些特征变量分辨率并不一致,为此研究人员进行了插值处理,将其统一到了 0.5 度网格间距 (dergee grid spacing)。

特征工程

本研究中除了采用随机森林进行中期恶劣天气预测分析能力,还简要探究了特征工程。所谓特征工程指一种处理数据的技术,用于从观测事件周围收集特征,并将其转换为机器学习算法可以使用的形式。具体到本试验中,研究人员主要提出了两种方法进行简化特征,包括空间平均 (spatially averaging the features) 和时滞方法 (time-lagging) 等。

空间平均是指在研究人员提出将每个预测空间点上所有特征变量的值取平均数,这样可以减少噪声数据的干扰从而提高模型性能。具体过程如下图所示。

特征变量组合处理方式
时滞方法是指在预测或建模过程中,将过去一段时间的观测数据延迟应用于当前时间点的预测或建模中。

它基于假设,过去的观测数据可以提供有关当前状态和未来趋势的有用信息。本次试验中,研究人员使用了时滞方法来扩充 GEFS/R 数据集的规模,但这个过程并不会对模型产生额外的计算量。

试验结果

研究人员使用 GEFSv12 的 1.5 年实时天气预报测试 CSU-MLP 预测结果,并与 SPC 生成的人工预报进行对比。相关试验结果显示,在中期预报范围内,基于随机森林的预报系统的准确性及预报地域范围都要优于 SPC,如下图所示。但是,随着时间范围的增大,二者的预报能力都会有所下降。

2022年3月27日,CSU-MLP与SPC中期预报对比
a 图是 CSU-MLP 的 4 天预报,b 图为 SPC 的 4 天预报。其中,被阴影覆盖的部分指的是恶劣天气的预测概率,圆形图标指的是 SPC 的龙卷风(红色)、冰雹(绿色)和风暴(蓝色)的局部预报,图片的左下角和右下角分别为评估天气预报准确性的预测技能得分 BSS 和评估局部天气预报代表性的观测覆盖率。

对此,研究人员总结,整个预测系统的技巧性和精确性都有了很大的提升,主要是因为基于随机森林的预测系统在连续概率以及低概率轮廓(表示恶劣天气的估计中,概率较低的区域所形成的轮廓)两方面预测能力很强。

此外,研究人员还通过试验不同地区、不同因素(热力学和动力学)对于预报的影响,探究了特征变量对恶劣天气预报很重要。结果如下图所示。

不同特征变量对天气预报很重要

虽然上述不同因素、不同地区对预报的具体影响还有待于深入研究,但从中研究人员作出了初步判断:这些不同的特征变量会被模型进一步学习并用来进行恶劣天气预报。这也说明,基于随机森林的预测系统经过进一步的训练完善,是具有一定可信性和实用性的。

当然,在本试验过程中,研究人员也提出了基于随机森林的预测系统仍有很多需要完善的部分。比如,CSU-MLP 还需要再加入 SPC 人工预报的预测数据,进一步提升机器学习预报结果的可信性。

AI 智能气象新阶段或将到来

人类一直致力于理解并预测世界,其中较为成功的例子之一便是天气预报。古时候,人们大多依据生活经验来进行预报,如「朝霞不出门,晚霞行千里」等,到现代,科学家们开始使用传感器和气象卫星收集海量数据来进行更精准的预报。

值得关注的是,在气象学发展的现阶段,AI 的加入大大增强了天气预报的准确性。据外媒报道,近几年瑞士的气象研究人员通过引入 AI,成功预测到闪电的时间和地点,该模型目前预测准确性达到 80%。

同时早在 2015 年,IBM 公司就斥资 20 亿美元收购天气频道 (WeatherChannel) 母公司 Weather Co. 数码和数据资产,而该公司之所以花费如此大手笔,也正是计划将 Weather Co. 的天气数据和预测信息同旗下 AI 服务 Watson 相结合。可见,IBM 等巨头已经十分看好 AI 在气象学上的潜力,并已开始着手布局。

不难预测,虽然影响天气变化的客观因素成千上万,天气精准预报的难度依然较大,但随着 AI 和气象学融合的进一步加深,一个由 AI 定义的智能气象新时代或将加速来到。

P.S.:

本篇论文 code 及数据集后续会发布在 HyperAI超神经官网 Hyper.ai,感兴趣的伙伴们可以持续关注~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518420.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

进销存是什么意思?值得推荐的进销存软件有哪些?

在这个消费不断升级、直播带货和电商不断冲击的时代,实体店的生存变得越来越艰难,如何提高门店管理效率、降低管理成本、提升门店客流量,是实体店当下急需解决的几大问题。 进销存软件就是为了帮助实体店解决以上几大难题而设计的&#xff0c…

Xline v0.4.0: 一个用于元数据管理的分布式KV存储

Xline是什么?我们为什么要做Xline? Xline是一个基于Curp协议的,用于管理元数据的分布式KV存储。现有的分布式KV存储大多采用Raft共识协议,需要两次RTT才能完成一次请求。当部署在单个数据中心时,节点之间的延迟较低&a…

对STM32栈的理解Stack_Size EQU 0x00000400

对STM32栈的理解Stack_Size EQU 0x00000400 Stack_Size EQU 0x00000400表示什么意思可以通过查找flash内存的方式定位存储1.flash2.RAM内部 本人主要为个人参考网络及个人总结而来比较,如有雷同请告知,即刻删除 以下引用网上资料 理解堆和栈的区别 &…

RK3588 设备树pinctrl gpio子系统解析,解决GPIO无法正确拉高拉低的问题,RK3588设备树详解

一、RK3588设备树结构 firefly的官方说明文档RK3588gpio系统说明 function {group {rockchip,pin <bank gpio func &ref>;}; };其中&#xff0c;bank是所属的组&#xff0c;Core-3588J 有 5 组 GPIO bank&#xff1a;GPIO0-GPIO4&#xff0c;每组又以 A0-A7, B0-B…

DiffDock源码解析

DiffDock源码解析 数据预处理 数据输入方式 df pd.read_csv(args.protein_ligand_csv), 使用的是csv的方式输入&#xff0c; 格式&#xff1a; 不管受体还是配体&#xff0c; 输入可以是序列或者3维结构的文件 如果蛋白输入的是序列&#xff0c;需要计算蛋白的三维结构&am…

Type-C接口在显示器上有什么作用?Type-C 显示器方案介绍

一显示器的Type-C口&#xff0c;是未来显示器的接口的“终极形态”&#xff0c;未来显示器可以不要USB-A&#xff0c;不要HDMI&#xff0c;不要3.5音频&#xff0c;甚至不要DP口&#xff0c;但Type-C口一定会越来越多。 二显示器Type-C有什么用&#xff0c;有什么类型 1只可以…

大势智慧软硬件技术答疑第三期

1.重建大师6.0试用版&#xff0c;怎么导出DOM、DEM&#xff1f; 答&#xff1a;需要先生成三维模型&#xff0c;然后再提交产品选择DOM和DEM。 2.麻烦问下&#xff0c;修模出来贴的纹理图片&#xff0c;导出osgb后再打开就模糊了是什么情况&#xff1f; 答&#xff1a;拿高清…

OushuDB × 东方证券:数据仓库信创国产化最佳实践

前言&#xff1a;东方证券是一家综合类证券公司&#xff0c;成立于 1998 年&#xff0c;总部设在上海。经过 20 多年的发展&#xff0c;东方证券现有分支机构 177 家、管理 3200 亿资产&#xff0c;服务上亿客户。与一个大型金融机构相匹配的&#xff0c;正是东方证券当前管理的…

想利用业余时间当一名黑客?要具备什么能力,确定不来看看?

几十年前刚有小型电脑的时候&#xff0c;产生了一个由程序专家和部分网络名人所组成的文化社群。该社群的成员创造出了hacker这个词&#xff0c;也就是人们常说的“黑客”。这些黑客们建立了后来的Internet&#xff0c;以及发明了电脑的操作系统。 如果有人对这种文化做出了贡…

OpenResty(Nginx)示例

Nginx Nginx概念&#xff1a; 聊到Nginx,先简单讲一下Nginx的基本概念 Nginx是一个高性能的、开源的 Web 服务器和反向代理服务器软件&#xff0c;由 Igor Sysoev 开发。它可以作为 HTTP 服务器使用&#xff0c;也可以作为负载均衡器、HTTP 缓存、反向代理和邮件代理等其他功…

Spring ( 二 ) 介绍

2.Spring Spring框架是一个用于Java开发的开源应用程序框架&#xff0c;提供了一系列的工具和解决方案&#xff0c;帮助开发者快速构建高质量、可维护的企业级应用。Spring框架的主要特点包括&#xff1a;模块化、轻量级、可测试性、松耦合、面向切面编程&#xff08;AOP&…

NFT Insider #94:​The Sandbox与ERM Labs达成合作,周杰伦与中国移动开启元宇宙合作

引言&#xff1a;NFT Insider由NFT收藏组织WHALE Members(https://twitter.com/WHALEMembers)、BeepCrypto&#xff08;https://twitter.com/beep_crypto&#xff09;联合出品&#xff0c;浓缩每周NFT新闻&#xff0c;为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周…

c高级作业3

#!/bin/bash#有m1.txt m2.txt m3.txt m4.txt&#xff0c;分别创建出对应的目录&#xff0c;m1 m2 m3 m4 并把文件移动到对应的目录下 for ((i1;i<5;i)) do mkdir m$i touch m$i.txtmv m$i.txt m$i done九九乘法表 #九九乘法表 i1 j1 while [ $i -le 9 ] do j1while [ $j -l…

对称算法模式-GCM(Galois/Counter Mode)

以下内容来自《NIST Special Publication 800-38D November, 2007》- Recommendation for Block Cipher Modes of Operation: Galois/Counter Mode (GCM) and GMAC。 链接在此 AES Galois/Counter Mode 1. 加密步骤 2. 解密步骤 3. GCTR函数 4. GHASH函数 5. 块数据乘法 6. C…

网络分层模型 | OSI七层模型、TCP/IP四层模型

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和…

群报数是什么应用?群报数的内容如何自动写入至在线表格?

群报数是什么产品&#xff1f; 群报数是一个人人可用的在线表单工具&#xff0c;可发起「填表、收集、问卷、打卡、通知、预约、报名、投票」等类型的页面&#xff0c;支持预设名单&#xff0c;可快速排查谁未填、并对未填人员一键催填&#xff0c;所收集的数据支持「一键导出…

蓝奥声智能灯控解决方案:一种无线单火取电控制技术

单火开关出现鬼火现象一般是出现在控制小功率灯具的情况下&#xff0c;正常的5W之上的灯具一般是没啥问题的&#xff08;质量差的除外&#xff09;。就现在来说&#xff0c;单火稳定性与零火版相比还是有所欠缺&#xff0c;毕竟从电路原理上来说&#xff0c;这确实是一个硬伤。…

Spark 从入门到精通

Spark 从入门到精通 环境搭建 准备工作 创建安装目录 mkdir /opt/soft cd /opt/soft下载scala wget https://downloads.lightbend.com/scala/2.13.10/scala-2.13.10.tgz -P /opt/soft解压scala tar -zxvf scala-2.13.10.tgz修改scala目录名称 mv scala-2.13.10 scala-2下…

容灾到对象存储,能降低多少灾备成本?以华为云容灾为例

根据IPlytics的数据显示&#xff0c;华为是唯一一家进入全球十大云计算专利拥有者排行榜的中国公司&#xff1b; 华为是唯一一家提供端到端服务能力的云服务商&#xff0c;从底层的物理设备到上层的虚拟化建设都是有华为自主研发的产品&#xff1b; 华为是国内唯一一家提供5线全…

开源大模型文档

开源大模型综述 排行榜1.LLaMA资源&#xff1a; 2.Chinese-LLaMA-Alpaca资源&#xff1a; 3.Alpaca资源&#xff1a; 4.Alpaca-LoRA5.Vicuna资源&#xff1a; 6.OpenChatKit资源&#xff1a; 7.GPT4ALL8.Raven RWKV资源&#xff1a; 9.OPT资源&#xff1a; 10.Flan-T5-XXL资源&…