微软研究院的研究人员开发了大气基础模型“Aurora”,https://arxiv.org/abs/2405.13063v1
利用超过一百万小时的多样化天气和气候数据进行训练,能够预测各种大气条件,包括数据有限、变量异构和极端事件,并在全球空气污染和高分辨率天气模式预测方面表现出色,超越了现有模拟工具。
论文介绍
深度学习基础模型彻底改变了蛋白质结构预测、药物发现、计算机视觉和自然语言处理等领域。它们依靠预训练从不同的数据中学习复杂的模式,并通过微调以有限的数据在特定任务中表现出色。地球系统由大气、海洋、陆地和冰等相互关联的子系统组成,需要在不断变化的气候中进行准确建模。基础模型有可能彻底改变这些子系统和整个地球的建模方式。大气层拥有特别丰富的数据,是预训练基础模型的理想选择。传统的数值天气预报 (NWP) 模型成本高昂,并且在处理大型数据集时效率低下。最近的深度学习方法更具成本效益且更加灵活,在具有丰富数据的特定预测任务中显示出前景。然而,它们在处理稀疏或异构数据方面存在困难,并且在预测极端事件方面缺乏稳健性。基础模型通过从不同数据中学习可泛化的表示,可以潜在地解决这些挑战,正如在其他领域所证明的那样。
来自 Microsoft Research AI for Science、Microsoft Corporation、JKU Linz、University of Cambridge、Poly Corporation 和 University of Amsterdam 的研究人员推出了 Aurora,这是一种用于大气层的基础模型。Aurora 可以预测各种大气条件,包括数据有限、变量异构和极端事件的情况。Aurora 可以生成全球空气污染和高分辨率天气模式的业务预报,其性能优于最先进的模拟工具,并且计算成本低得多。Aurora 是一种灵活的 3D 大气基础模型,可以摄取和预测不同压力水平、分辨率和保真度的各种地表和气象变量。Aurora 包括一个对输入进行标准化的编码器、一个随时间推移演化表示的 Vision Transformer 处理器,以及一个将表示转换为特定预测的解码器。Aurora 在 ERA5、CMCC、IFS-HR、HRES Forecasts、GFS Analysis 和 GFS Forecasts 等不同数据集上进行了预训练,可以最大限度地减少下一个时间步的平均绝对误差。
Aurora 与 CAMS 的竞争非常激烈,在 95% 的目标上实现了 20% RMSE 以内的性能,并在 74% 的目标上达到或超过了 CAMS 的性能。Aurora 在 86% 的变量上达到或超过 CAMS 的性能。Aurora 在高层大气中的臭氧和低层大气中的短期预测方面表现不如 CAMS,而人为因素在低层大气中起着重要作用。在 2023 年 6 月 13 日伊拉克发生的一场严重沙尘暴的案例研究中,Aurora 成功地提前一天预测了该事件,证明了其在极端天气预报方面的有效性。
Aurora 通过利用 AI 基础模型从大量的地球系统数据中提取洞察力,代表了环境预测方面的重大进步。它增强了预测的准确性、分辨率和适应性,展示了 AI 在改进业务天气预报和相关领域的潜力。持续投资 AI 研究对于应对复杂的地球系统建模挑战至关重要。但是,Aurora 目前仅生成确定性预报。未来的改进包括开发概率预报、整合本地高分辨率数据集、优化计算基础设施以及增强模型的稳健性和验证,以潜在地取代传统的 NWP 系统。