准确预测极端降水,哥伦比亚大学推出升级版神经网络 Org-NN

news2025/1/12 13:39:21

内容一览:随着环境变化加剧,近年来全球极端天气现象频频出现,准确预测降水强度对人类以及自然环境都十分重要。传统模型预测降水的方差较小,偏向小雨,对极端降水预测不足。

关键词:极端天气 内隐学习 神经网络

本文首发于 HyperAI 超神经微信公众平台~

受台风「杜苏芮」影响,北京市从 7 月 29 日开始了连续多日的强降雨,部分地区为特大暴雨。极端强降雨导致了海河流域发生流域性较大洪水,门头沟、涿州等地发生了严重的洪涝灾害。

据央视网 7 月 31 日报道,此次强降雨期间,北京已累计排蓄水超过 1000 万立方米,相当于排空了约 5 个颐和园昆明湖的水量,及时、准确、有效地预测极端降水,能最大程度上减轻人员伤亡,减少气象灾害带来的损失。

传统的气候模型参数化中缺少亚网格尺度的云结构与组织 (subgrid-scale cloud structure and organization) 信息,这会对粗粒度分辨率下降水强度和随机性产生影响,导致无法准确预测极端降水情况。哥伦比亚大学 LEAP 实验室使用全球风暴解析模拟与机器学习,创建了一种新的算法,解决了信息缺失的问题,提供了一种更精确的预测方法。

目前,该研究已发表于《PNAS》,文章标题为《Implicit learning of convective organization explains precipitation stochasticity》。

论文已发表于《PNAS》

论文地址:https://www.pnas.org/doi/10.1073/pnas.2216158120#abstract

准备工作:10 天气象数据+ 2 个神经网络

数据与处理

实验团队所用数据集是大气模式系统 (SAM) DYAMOND (DYnamics of the Atmospheric general circulation Modeled On Non-hydrostatic Domains) 第二阶段比较项目中模拟的大气环流动力学的一部分。这个项目对比模拟了北半球冬季的 40 天,实验人员将其中初始的 10 天作为模型的 spin-up,在后 30 天中随机抽取了 10 天作为训练集。

研究人员选择了合适的数据,并将这些数据粗粒度 (coarse-grain) 划分为子域,等同于或可与 GCM-size 的网格。

接下来,为了提供训练、验证和测试数据集,团队将 10 天分为 6 天、2 天、2 天,分别用于训练、验证和测试,且只保留了降水大于阙值 (0.05mm/h) 的样本,以便只专注于降水强度 (intensity) 而不是降水的起因 (trigger) 。最终,样本总数为 108 个。

神经网络架构

在实验中,研究人员使用了两个神经网络:传统模型 Baseline-NN(基准神经网络)与新提出的 Org-NN

Baseline-NN 是一个全连接前馈神经网络 (full connected feed-forward network),学习率按代进行调整。作为传统模型,Baseline-NN 只能访问大规模变量并预测降水。

Org-NN 含有一个自编码器,其编码器部分包括 3 个一维卷积层和两个全连接层。编码器的 input 是尺寸为 32 x 32 的高分辨率 PW (可降水,precipitable water)异常 (anomalie),output 为 org 变量,org 维度是该网络的超参数,研究人员将其设置为了 4。解码器接收 org 变量并对原始的高分辨率场进行重构,与编码器的结构恰好相反。Org-NN 的神经网络部分与 Baseline-NN 相似,只额外添加了组织潜在变量 (org) 作为其 input

两者都使用 TensorFlow 2.9 版本实现,并使用 Sherpa 优化库对超参数进行了调优。

实验结果

实验团队对两个模型进行了预训练。为了评估神经网络的预测性能,科研人员选择了 R2,这是一种常用于量化回归模型性能的指标。计算公式如下:

在这里插入图片描述

传统模型 Baseline-NN

实验团队首先使用 Baseline-NN。下图展示当使用粗粒度的 PW、SST、qv2m 和 T2m 作为 input 时的降水可预测性。其中,qv2m 与 T2m 用于向 Baseline-NN 提供边界层 (boundary-layer) 条件的信息。实验团队将粗粒度的 PW 分组,在每个组内对粗粒度降水的预测值与实际值进行平均,同时计算了落在每个分组内的粗粒度降水值方差

PW:可降水,precipitable water
SST:海面温度,sea surface temperature
qv2m:近地表 2m 的比湿,near-surface specific humidity
T2m:近地表 2m 空气湿度,surface temperature

在这里插入图片描述

图 1:PW bin 上粗粒度降水平均值

虚线:真实的降水平均值
橘线:预测的降水平均值
绿线:每个 PW bin 中计算出的 R2
阴影部分:每个分组内的方差

Baseline-NN 准确地恢复了降水平均值(即分组的平均值)在 PW 条件下的关键行为,以及在临界点附近出现的快速转变。但是,实验团队发现它无法解释全球暴风模拟中观察到的降水变异性,而且其性能(通过所有样本的 R2 值估量)约为 0.45。低 R2 值表示,尽管可以捕捉到一些降水变异性,但是无法找到 input 与降水之间的强关系,且每个 PW bin 计算的 R2 值也未超过 0.5。

与此同时,实验团队还将 Baseline-NN 所预测的降水的概率密度函数与实际降水做比较,显示该模型无法预测降水分布的尾部 (tail) ,即无法预测极端降水的情况

在这里插入图片描述

图 2:降水的概率密度函数示意图

蓝色部分:真实降水的概率密度函数
橙色部分:根据预测所得降水的概率密度函数

研究人员还将在粗粒度上的总云量作为神经网络的 input 之一,对 Baseline-NN 进一步测试。总云量在气候模型中为参数化变量,与降水无直接关系,所以将其作为神经网络的输入可能会提供有关凝结水的线索,而凝结水会直接用于降水的参数化。这其实对预测改进的作用很小,但是强调了平均云量并不能提供准确预测降水的相关信息。此外,实验团队通过进一步分析,证实了 CAPE 与 CIN 不能作为预测因子,且不能改善预测结果

在这里插入图片描述

图 3: 降水概率密度函数图

蓝色部分:真实降水概率密度函数
橘色部分:预测得出降水概率密度函数
a:input 为 [PW、SST、qv2m、T2m、感热通量(sensible heat flux)、潜热通量(latent heat flux)]
b:input 为 [PW、SST、qv2m、T2m、总云量]
c:input 为 [PW、SST、qv2m、T2m、CAPE、CIN]

结论是 Baseline-NN 在准确预测降水以及变异性方面能力较低

新模型 Org-NN

实验团队接下来颠覆了传统方法,即利用 Org-NN进行预测。因为 Org-NN 含有一个自编码器,它可以直接从神经网络的目标函数通过反向传播接受反馈。因此,自编码器将可以被动提取改善降水预测的相关信息

下图显示了以粗粒度变量和 org 作为输入的 Org-NN 的降水预测结果。相比于 Baseline-NN,Org-NN 的进步显著。当在所有数据点上进行计算时,预测的 R2 增加到 0.9。对于 PW 的每一个区间,除了降水较小的区间,计算得到的 R2 值几乎都接近 0.80。

在这里插入图片描述

图 5: Org-NN 预测结果图

D:PW bin 上粗粒度降水平均值
E:降水的概率密度函数示意图
F:图 D 中每个纬度和经度位置在时间步长上计算得出的 R2 值。图中的白色区域表示降水小于 0.05 毫米/小时,被排除在模型的输入之外。除未达到降水阈值的点的附近区域外,Org-NN 在大部分区域的 R2 值显著高于 0.8。

实验团队比较了 Org-NN 和高分辨率降水模型的真实降水的概率密度函数,对 Org-NN 的性能进一步量化。结果发现,Org-NN 完全捕捉到了概率密度函数,包括它分布的尾部,也就是对应着极端降水的部分。这说明 Org-NN 能够准确预测极端降水的情况

实验团队所得结果表明,通过将 org 纳入 input,降水预测得到了显著的改善。这表明了,在当前的气候模型中,亚网格尺度结构可能是对流和降水参数化缺失的重要信息

实验流程总结

在这里插入图片描述

图 6: 实验流程概览

A:数据处理过程:粗粒度化高分辨率数据
B:Baseline-NN:该网络接收粗尺度变量 (如 SST 和 PW) 作为 input,并预测粗尺度降水。
C:Org-NN : 左图显示了自动编码器,它接收高分辨率 PW 作为 input,并在通过瓶颈后对其进行重建。右图显示了预测粗尺度降水的神经网络。

传统气候模型变革在即

本次实验的团队来自 Learning the Earth with Artificial Intelligence and Physics (LEAP),这是哥伦比亚大学于 2021 年启动的 NSF 科学与技术中心,其主要研究策略就是结合物理建模与机器学习,利用气候科学、气候模拟的专业知识与尖端的机器学习算法,改进近期气候预测。这对气候科学与数据科学的发展都有所增益。

在这里插入图片描述

LEAP 实验室部分成员简介

|实验室官网:https://leap.columbia.edu

目前,研究人员正在将他们的机器学习方法应用于气候模型中,以改进降水强度和变异性的预测,并使科学家能够在全球变暖背景下,更准确地预测水循环和极端天气模式的变化

同时,这项研究还开辟了新的研究方向,例如探索降水具有记忆效应的可能性,即大气保留有关最近天气条件的信息,进而影响后续的大气条件。这种新方法可能在降水模拟之外具有广泛的应用,如对冰盖和海洋表面进行更好的模拟。

本文首发于 HyperAI 超神经微信公众平台~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/847709.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ABAQUS启动GPU加速计算

文章目录 系统说明CUDA安装安装cuDNNABAQUS设置Lamb波压电仿真 系统说明 基于笔记本电脑,RTX4060,win11系统。 ABAQUS的有限元求解器是基于CPU的,但是它也支持使用GPU进行加速计算。仅支持隐式求解器standard。显示求解器explicit不能用。 …

opencv基础46-图像金字塔02-拉普拉斯金字塔

前面我们介绍了高斯金字塔,高斯金字塔是通过对一幅图像一系列的向下采样所产生的。有时,我们希望通过对金字塔中的小图像进行向上采样以获取完整的大尺寸高分辨率图像,这时就需要用到拉普拉斯金字塔 前面我们已经介绍过,一幅图像在…

PyTorch深度学习环境安装(Anaconda、CUDA、cuDNN)及关联PyCharm

1. 关系讲解 Tytorch:Python机器学习库,基于Torch,用于自然语言处理等应用程序 Anaconda:是默认的python包和环境管理工具,安装了anaconda,就默认安装了conda CUDA:CUDA是一种由显卡厂商NVIDI…

算法通关村第五关——HashMap和队列问题分析

1.HashMap 1.1Hash的概念和基本特征 哈希(Hash):也称为散列。就是把任意长度的输入,通过散列算法,变换成固定长度的输出,这个输出值就是散列值。 假设数组array存放的是1到15这些数,现在要存在一个大小是7的Hash表中…

Asynq: 基于Redis实现的Go生态分布式任务队列和异步处理库

Asynq[1]是一个Go实现的分布式任务队列和异步处理库,基于redis,类似Ruby的sidekiq[2]和Python的celery[3]。Go生态类似的还有machinery[4]和goworker 同时提供一个WebUI asynqmon[5],可以源码形式安装或使用Docker image, 还可以和Prometheus…

【数据结构与算法——TypeScript】哈希表

【数据结构与算法——TypeScript】 哈希表(HashTable) 哈希表介绍和特性 哈希表是一种非常重要的数据结构,但是很多学习编程的人一直搞不懂哈希表到底是如何实现的。 在这一章节中,我门就一点点来实现一个自己的哈希表。通过实现来理解哈希表背后的原理…

oracle容灾备份怎么样Oracle容灾备份

随着科学技术的发展和业务的增长,数据安全问题越来越突出。为了保证数据的完整性、易用性和保密性,公司需要采取一系列措施来防止内容丢失的风险。  Oracle是一个关系数据库管理系统(RDBMS),OracleCorporation是由美国软件公司开发和维护的。该系统功能…

构建Docker容器监控系统(cadvisor+influxDB+grafana)

目录 一、部署 1、安装docker-cd 2、阿里云镜像加速 3、下载组件镜像 4、创建自定义网络 5、创建influxdb容器 6、创建Cadvisor 容器 7、创建granafa容器 一、部署 1、安装docker-cd [rootlocalhost ~]# iptables -F [rootlocalhost ~]# setenforce 0 setenforce: SELi…

22款奔驰GLC260加装原厂香氛负离子系统,清香宜人,久闻不腻

奔驰原厂香氛合理性可通过车内空气调节组件营造芳香四溢的怡人氛围。通过更换手套箱内香氛喷雾发生器所用的香水瓶,可轻松选择其他香氛。香氛的浓度和持续时间可调。淡雅的香氛缓缓喷出,并且在关闭后能够立刻散去。车内气味不会永久改变,香氛…

IELAB-网络工程师的路由答疑10问(2)

各位小伙伴们,接下来的问题可能有些难度,你们做好准备了吗? 7. 动态路由协议做了啥? 这次咱们先解决第一个比较棘手的问题--路由协议,相信初学的同学对于路由协议的学习总是或多或少有些问题,呐&#xff…

UVA1025 城市里的间谍 A Spy in the Metro

实际上这题就是问Mario最少的总等车时间 这题我的做法是 把一个火车从左到右(或从右到左) 的过程 转化成 途中任何车站到左边(或右边)相邻车站 的过程 相当于把他切成了一段一段 (一段就是两个相邻车站中间的部分) 这样更容易操作 具体请看代码 一些注释在代码里请往下看 #inc…

.netcore下grpc概述

一、什么是grpc 是一种与语言无关的高性能远程过程调用 (RPC) 框架。基于http/2标准设计,提供了头部压缩、tcp连接上的多路复用、流量控制、流式处理(客户端流/服务端流/双向流)。提供统一使用的.proto文件,它定义 grpc 服务和消…

屏幕录制app分享,总有适合你的一款

在现今的互联网时代,屏幕录制已经成为了一项必备的技能。然而,要想将自己的屏幕录制下来并分享给别人,就需要一款好用的屏幕录制app。市面上有许多不同的屏幕录制app,每个人的需求也各不相同。本篇文章就将为大家推荐几款适合不同…

技术应用:Docker安全性的最佳实验|聊聊工程化Docker

🔥 技术相关:《技术应用》 ⛺️ I Love you, like a fire! 文章目录 首先,使用Docker Hub控制访问其次,保护密钥写在最后 不可否认,能生存在互联网上的软件都是相互关联的,当我们开发一款应用程序时&#x…

好用的Windows 10磁盘管理工具

​前几天,我给我用的戴尔笔记本电脑装上了全新的SSD,并准备将所有除Windows操作系统以外的数据,特别是游戏,全部转移到SSD上(主要是因为这样能加快游戏的加载速度)。但在我尝试用Windows 10自带的磁盘管理操…

树莓派4B, Purple Pi, Orange Pi 3B对比

1 参数 树莓派4BPurple Pi OHOrange Pi 3BSOCBroadcom BCM2711RockChip 3566RockChip 3566CPUARM Cortex-A72 四核1.5GHz主频ARM Cortex-A55 四核 2.0GHz主频ARM Cortex-A55 四核 2.0GHz主频GPU支持OpenGL ES 3.0 graphicsMali-G52 1-Core-2EE 支持 OpenGL ES 1.1/2.0/3.2&…

Python操作MySQL将数据库表中的数据导出到excel

Author: liukai 2810248865qq.com Date: 2022-08-18 04:28:52 LastEditors: liukai 2810248865qq.com LastEditTime: 2023-06-29 09:35:25 FilePath: \PythonProject01\Python操作MySQL数据库及excel将数据库表中的数据导出到excel中.py Description: 这是默认设置,请设置custo…

独立站如何进行Facebook广告投放?关于广告投放策略的真相

谷歌广告是独立站卖家推广引流的首选渠道,那么谷歌广告该如何投放?在这个过程中有哪些需要特别注意的吗? 创建Facebook广告账户: 访问Facebook广告管理平台(Ads Manager)并创建一个广告账户。您需要提供一…

Android 数据库之GreenDAO

GreenDAO 是一款开源的面向 Android 的轻便、快捷的 ORM 框架,将 Java 对象映射到 SQLite 数据库中,我们操作数据库的时候,不再需要编写复杂的 SQL语句, 在性能方面,greenDAO 针对 Android 进行了高度优化,…

dy六神参数记录分析(立秋篇)

version: 23.9 X-SSSTUB: 搜索:x-tt-dt var hashMap Java.use("java.util.HashMap");hashMap.put.implementation function (a, b) {console.log("hashMap.put: ", a, b);return this.put(a, b);}https://codeooo.blog.csdn.n…