概述
论文地址:https://arxiv.org/abs/2404.10024
源码地址:https://github.com/Aalto-QuML/ClimODE.git
这项研究提出了用于天气预报的神经 ODE 系统 ClimODE,该系统的设计特点是通过局部卷积运算获取局部依赖关系,通过全局关注机制获取全局依赖关系,从而正确获取对天气预报非常重要的多个空间尺度的相互作用。因此,我们设计了一种 "全局依赖性 "算法,通过局部卷积运算来获取依赖性,而通过全局关注机制来获取全局依赖性。因此,尽管参数比传统方法少,但它的性能却优于传统方法,并在全球和区域层面实现了最先进的性能(表 1 显示了与基于深度学习的传统方法的比较)。该研究还讨论了如何在天气预报中适当纳入不确定性,从而成功预测天气昼夜循环导致的气温变化。
表 1:ClimODE 与基于深度学习的传统方法的比较。
研究背景
天气预报历来是通过数值计算进行的。特别是全球一级的天气预报,一直是利用超级计算机等大型计算机进行大量计算的基础。但是,由于计算量巨大,而且从过去的信息推断未来信息的误差不断积累,导致准确性下降,因此要实现这一目标非常困难。换句话说,天气预报是人类的一个夙愿。本研究利用神经 ODE 来实现这种天气预报。
相关研究
本节简要介绍与本研究相关的两项传统天气预报举措。
数值气候模型
目前的数值气候模式可分为短期天气预测模式和长期气候预测模式。其中,地球系统模式(ESM)是最先进的模式之一,它综合了大气层、冰冻圈、陆地和海洋的物理特性。然而,这些模式虽然取得了一些成功,但也存在一些问题,如对初始值的敏感性、各模式之间的结构差异、地区差异和计算负担过重等。这些问题阻碍了数值气候模式的发展。
利用深度学习进行气候预测
基于深度学习高预测性能的承诺,已经有很多人尝试使用深度学习来预测气候。它们是通过应用基本神经网络、图神经网络和 Transformer 来预测天气的努力。然而,这些方法的基本目标只是通过天气数据实现预测,并没有考虑物理机制。此外,它们也没有考虑到预测的不确定性。
建议方法
神经传输模型
本节简要介绍本文所介绍的气候模式的各个要素。图 1 也是本文提出的 ClimODE 的示意图。
图 1:本文提出的 ClimODE 示意图。
吸入方程
在本文中,气候被模拟为由 K 种物理量组成的时空序列,记为 。本文还假设该系统服从以下平流方程。
它表明,在给定的时间点上,物理量的变化可以用平流和压缩来描述。 换句话说,这可以看作是描述了一个特定物理量的守恒定律。
… 流速
在本文中,根据以往的研究,流速模型如下
换句话说,这个表格方程可以理解为模拟物理量流速的时间变化,它由物理量的空间梯度、流速和物理量的时空嵌入向量(ψ)决定。
控制方程
利用上述两个方程,一个物理量及其流速可以用以下控制方程来描述
…模拟短程和远程互动。
上述给定物理量的流速模型表明,某点流速的时间变化是由该点的物理量、其空间梯度和该物理量的流速来描述的。然而,在考虑实际天气问题时,预计长程相互作用会改变该点的流速。因此,还需要模拟相对长程的相互作用。因此,本文对流速的时间变化作了如下处理。
换句话说,在设计该网络时,第一项通过卷积网络来描述局部交互,第二项通过具有注意机制的网络来描述长程交互。
不确定性量化(排放模型)
此外,本文还探讨了不确定性的量化问题。作为一种简单的方法,我们假设每个物理量都遵循如下高斯分布。
通过这种方法,可以考虑平均行为的偏差和差异。可以说,这种设置实际上是通过高斯分布以非常简单的方式模拟天气问题的不确定性。需要注意的是,这种设置没有任何物理基础,只是为了便于操作,非常强烈地假设它遵循高斯分布。在本文中,这一模型被称为排放模型。
损失函数
本文引入的损失函数如下。第一项表示观测和预测之间的误差造成的损失。此外,第二项还加入了预测方差的正则化项。这可以防止方差的大小发生偏离。
实验结果
本文以预测 6~36 小时后的气候状态为例进行分析。数据集是从所谓的ERA5中提取的数据,时空分辨率为5.625°,增量为6小时。作为物理量,地面温度(t2m)、大气温度(t)、位势(z)和地面风矢量(u10,v10)被选为验证对象。为进行比较,还准备了几种传统方法:基于变换器的 ClimaX(由与本研究相同的数据集训练)、应用大规模自适应傅立叶神经网络的 FourCastNet(FCN)以及通常的神经 ODE。研究还包括IFS,一个基于最先进物理模拟的综合预报系统,也就是众所周知的 “欧洲模式”,也被纳入了比较范围。
全球预测比较
图 2 和表2 显示了 ClimODE 预测的物理量与相关方法预测的物理量的均方误差和准确性的比较。结果表明,ClimODE 预测天气比传统方法更准确。还应指出的是,ClimODE 的性能接近最先进的综合天气预报系统。
图 2:ClimODE 和几种传统方法预测的各物理量的均方误差和精度的可视化。
表 2.ClimODE 和一些传统方法预测的各物理量的均方误差和准确度。
对多个地区的当地预测进行比较
除了上述全球预测外,作者还比较了局限于几个地区的预测性能。表 3 显示了结果。这些结果也表明,与传统方法相比,ClimODE 更胜一筹。
表 3:ClimODE 和传统方法在某些地区的预报性能比较。
不确定性量化和 EMISON 模型的影响
作者引入了排放模型来量化不确定性,以检验其预测效果。对特定地点地表温度时间序列的预测变化(包括不确定性)进行了可视化。结果如图 3 所示,该图表明,引入排放模型可充分捕捉特定地点的温度变化。
图 3:ClimODE 预测的不确定性可视化。
在一次有趣的尝试中,作者还将世界协调时上午 12 点的偏差和离散度的空间分布在全球范围内进行了可视化。结果如图 4 所示。结果证实,排放模型的引入正确地提取了昼夜周期的偏差。此外,每个地点的不确定性也可视化为方差。结果证实,ClimODE在海洋上空的预测精度相对较高,但在北部陆地附近的预测角度相对较低。这种接近一定置信度的预测能力是 ClimODE 的一个显著特点。不过,如上所述,必须谨慎对待这种不确定性的物理解释和其他解释,这需要在今后进一步讨论。
图 4:UTC 12:00 时全球偏差和离散度的空间分布。
引入组件的有效性
作者对 ClimODE 进行了烧蚀分析,以验证每个引入组件对性能的影响。结果如图 5 所示。从图中可以看出,每个组件都以综合的方式促进了性能的提高。
图 5:ClimODE 各要素烧蚀分析的可视化。
总结
我们提出的 ClimODE 是一个数据驱动的预报模型,它适当考虑了天气中的物理连续性;ClimODE 在参数较少的情况下优于传统方法。它甚至与 IFS 相差无几。这一结果支持了引入物理正则化的数据驱动方法的有效性。另一方面,本研究讨论的重点是几十个小时的相对短期预报。因此,正如作者所指出的,是否有可能准确预测长期气候变化等问题仍不清楚。因此,需要进一步讨论基于 ClimODE 的方法。不过,即使考虑到这一点,作者的尝试也是雄心勃勃的,具有很大的潜力,有望得到进一步发展。