Time-MoE : 时间序列领域的亿级规模混合专家基础模型

时间序列预测一直是量化研究和工业应用中的重要课题。随着深度学习技术的发展，大规模预训练模型在自然语言处理和计算机视觉领域取得了显著进展，但在时间序列预测领域，这些模型的规模和运算成本仍然限制了其在实际应用中的效能。为此，本文介绍了TIME-MOE，这是一种可扩展的统一架构，旨在通过减少推理成本来预训练更大、更强的时间序列预测基础模型。TIME-MOE利用稀疏混合专家（MoE）设计，通过为每个预测激活网络的子集来提高计算效率，从而在不增加推理成本的情况下实现模型规模的有效扩展。TIME-MOE由一系列仅解码器的Transformer模型组成，以自回归方式运行，支持灵活的预测范围和变化的输入上下文长度。研究者们首次将时间序列基础模型扩展到24亿参数，并在新引入的大规模数据集Time-300B上进行了预训练，该数据集涵盖了9个领域，包含超过3000亿个时间点。实验结果表明，TIME-MOE在预测精度上取得了显著提升，并在多个真实世界的基准测试中优于同等计算预算的密集模型。

1. 引言

时间序列数据是现实世界动态系统中的主要模态，在诸如能源、气候、教育、量化金融和城市计算等各个领域的应用中至关重要。尽管传统的预测方法在特定任务中表现出了竞争力，但直到最近，随着一些通用预测基础模型的出现，该领域才开始走向统一。尽管这些模型前景广阔，但与特定领域的模型相比，它们的规模通常较小，任务解决能力有限，这限制了它们在实际应用中的预测精度与计算预算之间的平衡。

2. 相关工作

在过去的十年中，深度学习模型已经成为时间序列预测的强大工具。这些模型可以分为单变量模型和多变量模型，其中多变量模型包括基于Transformer的方法和非Transformer模型。尽管这些模型在各自的领域内取得了有竞争力的性能，但它们通常是任务特定的，并且在跨领域数据的少样本或零样本场景中泛化能力不足。

3. 方法论

TIME-MOE模型的核心在于其创新的架构设计，该设计基于混合专家（Mixture-of-Experts, MoE）的解码器-only Transformer架构，旨在实现大规模预训练的同时降低推理成本。本章详细介绍了TIME-MOE的三个关键组成部分：输入令牌嵌入、MoE Transformer块和多分辨率预测。

3.1 TIME-MOE概览

TIME-MOE模型的设计理念是为了解决时间序列预测中的两个主要挑战：模型规模的扩展和计算效率的提升。以下是TIME-MOE模型的三个主要组成部分：

3.1.1 输入令牌嵌入

输入令牌嵌入是模型的第一层，它将原始时间序列数据转换为模型可以处理的形式。TIME-MOE采用逐点标记化策略，确保时间信息的完整性。每个时间序列数据点通过SwiGLU函数进行嵌入，得到相应的隐藏状态。

3.1.2 MoE Transformer块

MoE Transformer块是TIME-MOE的核心组件，它基于标准的Transformer解码器，并引入了混合专家层来提高计算效率。这些混合专家层由多个专家网络组成，每个网络只对一部分输入数据进行计算，从而实现模型的稀疏激活。这种设计不仅提升了模型处理大规模数据的能力，还减少了推理时的计算负担。