题目 | A TIME SERIES IS WORTH FIVE EXPERTS: HETEROGENEOUS MIXTURE OF EXPERTS FOR TRAFFIC FLOW PREDICTION |
---|---|
论文链接 | https://arxiv.org/pdf/2409.17440 |
源码地址 | https://github.com/sqlcow/TITAN(作者说论文被接受后,代码将更新) |
摘要
准确的交通预测面临重大挑战,需要对时空线索及其跨多个变量的复杂交互有深入理解。近年来,交通预测系统的进展主要得益于复杂序列中心模型的发展。然而,现有方法通常在每个时间步嵌入多个变量和空间关系,这可能阻碍有效的以变量为中心的学习,最终导致传统交通预测任务中的性能下降。
为克服这些局限性,我们引入了以变量为中心和基于先验知识的建模技术。具体而言,我们提出了一种用于交通流量预测的异构专家混合模型(Heterogeneous Mixture of Experts, TITAN)。TITAN 最初由三个专家组成,专注于序列中心的建模。然后,我们设计了一种低秩自适应方法,使 TITAN 同时能够进行以变量为中心的建模。此外,我们使用基于先验知识的建模策略来监督门控过程,以确保准确的路由。
在两个公共交通网络数据集 METR-LA 和 PEMS-BAY 上的实验表明,TITAN 有效捕捉了变量依赖性,同时确保了准确的路由。因此,与之前的最新技术 (SOTA) 模型相比,TITAN 在所有评估指标上实现了从约 4.37% 到 11.53% 的提升。
TITAN
- 1 介绍
- 2 相关工作
- 2.1 交通流量预测
- 2.2 专家混合模型
- 3 方法
- 3.1 问题定义
- 3.2 模型架构
- 3.2.1 序列为中心的建模
- 3.2.2 变量为中心的建模
- 3.2.3 退火路由
- 4 实验
- 4.1 实验设置
- 4.2 实验结果
- 4.3 消融研究
- 5 结论
- A 附录
- A.1 低秩矩阵自适应的详细介绍
- A.2 效率分析
- A.3 详细消融研究结果
- A.4 一些有意义的观察
- A.5 进一步的视觉结论
- A.6 可复现性声明
1 介绍
交通预测涉及基于传感器收集的历史数据预测未来的交通状况,这是近年来引起广泛关注的任务。高精度的交通预测可以为决策者提供有价值的指导,提升安全性和便利性,并减少对环境的影响。此外,随着人工智能的快速发展,自动驾驶技术也将从精确和及时的交通流预测中获益。
交通数据主要是时空数据,这表明它本质上与传感器的空间位置密切相关,同时也表现出时间变化,从而展示了相当大的时空异质性。这一特征使得一些在传统时间序列预测中表现出色的方法,如支持向量回归(SVR)、随机森林(RF)和梯度提升决策树(GBDT),在时空预测任务中效果较差。近年来,时空预测的最新进展见证了图神经网络(GNN)的兴起,作为一种强大的工具,用于建模非欧几里得空间中的数据。沿着这一方向,这些方法通常可以根据图的定义进行分类:基于预定义时空图的模型、利用可学习图嵌入的模型以及具有时间变化图结构的模型。
早期的时空模型利用基于托布勒第一地理定律的预定义图或基于时间接近度和空间属性(例如,兴趣点,POI)来建模节点之间的关系。尽管这些图提供了有价值的先验知识,但它们常常无法捕捉节点之间的真实依赖关系,且不完整的数据链接可能导致忽略关键关系。GraphWaveNet通过引入可学习图嵌入解决了这些限制,启发了诸如RGDAN和MTGNN等模型。MegaCRN通过利用记忆网络来进一步提高图学习性能,建立在可学习图嵌入的概念上。然而,这些模型在很大程度上仍然是以序列为中心的,这限制了它们有效学习以变量为中心的表示能力,最终影响了它们在交通预测中的表现。最近的研究已经认识到这一限制,并强调了变量为中心的表示的重要性。例如,Gao 等试图在训练前平衡序列和变量为中心的建模。虽然这种方法在某种程度上被证明是有效的,但仅仅将序列为中心和变量为中心的建模通过加权平均简单结合起来,仍然难以适应现实世界场景的复杂性。
专家混合模型(MoE)的概念最早由Jacobs 等提出,此后进行了广泛的探索和改进。在经典的MoE模型中,采用具有相同架构的多个专家,并利用稀疏门控进行粗略路由。将MoE应用于时空预测任务允许同时使用多个空间建模技术。Lee 和 Ko进行了初步尝试,将MoE模型应用于时空序列预测,结合各种专家的优势,共同建模重复性和非重复性时空模式。MoE路由过程可以看作是一种记忆查询,这引入了一个挑战:在训练的早期阶段,记忆未能正确初始化。这阻碍了MoE学习输入和输出之间有意义的关系,特别是对于具有显著不同结构的模型而言,难以有效训练。
本文提出了一种名为TITAN的MoE模型,专门用于交通流预测。TITAN由三种不同类型的专家和一个路由机制组成:1)三个专注于序列中心建模的预测专家,2)一个变量中心的预测专家,以及3)一个基于先验知识的领导专家。序列中心的专家专注于学习时间依赖性并捕捉随时间变化的模式,而变量中心的专家则强调跨变量的关系,确保对数据有更全面的理解。我们采用低秩矩阵来对齐专家之间的知识,以解决专家整合过程中面临的挑战。此外,为了在训练的早期阶段缓解次优路由决策的影响,我们引入了一个领导专家来监督路由过程,确保在不确定情况下做出更明智的决策。通过这种自适应路由机制,TITAN能够有效地建模时空数据。我们的主要贡献总结如下:
- 我们提出了TITAN,一种新颖的异构专家混合模型,结合了序列中心和变量中心的专家用于时空预测,并由领导专家监督路由过程,以改进复杂依赖关系的建模。
- 我们将不同主干网络的模型集成到MoE框架中,利用低秩自适应矩阵,有效减少了传统MoE模型中固有的归纳偏差。该方法为设计更复杂的MoE架构提供了灵活的基础。
- 我们设计了一种专家退火策略,用于MoE的记忆查询过程,逐渐减少领导专家的监督,允许TITAN在训练的早期避免次优路由决策并增强适应性。
- 我们的模型在两个现实世界的数据集上进行了评估,较最新技术模型实现了4.37%到11.53%(平均9%)的提升。
2 相关工作
2.1 交通流量预测
交通流量预测任务表现出显著的时空异质性和复杂的变量交互模式。传统的机器学习方法,如支持向量回归(SVR)、随机森林(RF)和梯度提升决策树(GBDT),这些方法严重依赖特征工程,难以捕捉这些复杂的交互。早期的时空预测模型主要通过引入图结构将空间信息整合到模型中,从而能够有效处理非欧几里得空间。例如,2018年引入的DCRNN模型,通过将图卷积注入递归单元,并结合卷积神经网络(CNN)来建模时空特征,相比于传统方法如ARIMA(时序分析模型)表现出更好的性能。尽管这些方法有效,但它们严重依赖于基于欧几里得距离的预定义图结构和启发式规则(如托布勒第一地理定律),忽略了交通的动态特性(如高峰时间和事故)。后续的工作如GraphWaveNet通过使用节点嵌入构建可学习的邻接矩阵来建模空间关系,尽管取得了一定的改进,但在捕捉异常方面仍然有限。最近的模型如MegaCRN通过整合元图学习器支持的元节点库提升了模型在异常处理方面的适应性。尽管这些模型增强了稳健性,但它们受限于独立的建模技术。
这种限制引发了对基于专家混合模型(MoE)结构的时空预测模型的兴趣。例如,TESTAM集成了三个不同的专家,用于提升时空预测的性能。然而,这些研究仍然以序列为中心,限制了其有效捕捉变量间关系的能力。本文旨在通过联合建模序列和变量中心的依赖性来解决这一挑战,允许同时考虑局部和跨变量的交互。该方法为数据提供了更全面的视角,并增强了建模复杂时空动态的能力。
2.2 专家混合模型
专家混合模型(MoE)最初由Jacobs等人提出,允许各个专家从数据集的子集独立学习,然后集成到一个统一的系统中。在此基础上,Shazeer等人引入了稀疏门控专家混合模型(SMoE),该模型使用门控网络进行专家选择,并实现了top-K路由策略,为每个输入选择固定数量的专家。Lepikhin等人进一步表明,并非所有专家在MoE模型中都具有相等的贡献,舍弃了较不重要的专家以维持最佳性能。尽管取得了这些进展,MoE模型在时空任务中仍然面临挑战。训练早期阶段往往导致次优路由,特别是在处理不可预测事件时。此时,MoE难以从记忆中查询并检索适当的信息,导致无效的路由决策。虽然SMoE通过精细的位置依赖路由引入了归纳偏差,但主要集中于避免错误路由,而忽视了为最佳路径进行优化的问题。类似地,TESEAM通过使用两个损失函数进行改进,一个用于避免错误路径,另一个用于优化专家的最佳路径,但仍未解决时空预测中基本的归纳偏差问题。在交通流量预测等具有高度时空异质性的任务中,MoE模型对独立专家结构的依赖增加了归纳偏差,降低了整体模型性能。
具有相同结构的专家在MoE中引入了强烈的归纳偏差,进一步限制了模型的灵活性和适应性。此外,当涉及具有完全不同结构的模型时,MoE难以学习输入和输出之间的关系,难以有效地跨多个任务应用模型。这突显了对能够平衡路由精度和专家专业化的新方法的需求,特别是在意外事件至关重要的动态环境中。
3 方法
3.1 问题定义
交通流量预测是一种时空多变量时间序列预测问题。给定历史观测 X = { X t ∈ R N × F } X = \{ X_t \in \mathbb{R}^{N \times F} \} X={Xt∈RN×F},其中 N N N 是空间顶点的数量, F F F 是原始输入特征的数量(例如,速度,流量),每个时间步 t t t 由时空图 G t = ( V , E t , A t ) G_t = (V, E_t, A_t) Gt=(V,Et,At) 表示。任务是基于 T ′ T' T′ 个历史信号预测 T T T 个未来图信号。模型学习一个映射函数 f ( ⋅ ) : R T ′ × N × C → R T × N × C f(\cdot): \mathbb{R}^{T' \times N \times C} \rightarrow \mathbb{R}^{T \times N \times C} f(⋅):RT′×N×C→RT×N×C,其中 C C C 表示从原始 F F F 处理得到的特征。
3.2 模型架构
尽管序列为中心的模型在时空预测中表现出成功,但它们通常难以捕捉复杂的变量交互,且训练难度大,导致精度下降。此外,在 MoE 模型中,训练前期的内存初始化不当可能导致次优路由。TITAN 通过结合变量为中心和先验知识为中心的模型,解决了这些局限性,并引入了传统的序列为中心的方法。
如图 1 所示,TITAN 集成了五个专家:
- 三个序列为中心的专家(处理 3.2.1 节中的序列依赖性)
- 一个变量为中心的专家(专注于 3.2.2 节中的变量间交互)
- 一个先验知识专家(指导 3.2.3 节中的早期路由)
除先验知识专家外,其余专家基于轻度修改的 Transformer 架构,以减少训练复杂度。最终输出由路由机制管理,确保专家的自适应选择。
3.2.1 序列为中心的建模
序列为中心的建模是时空任务的经典方法。基于 Transformer 架构并结合 MOE 结构,我们设计了三种不同的建模方法:(1)时间注意力专家,(2)时空注意力专家,(3)记忆注意力专家。为了便于解释,我们定义经典的多头自注意力(MSA)计算过程(Vaswani 等, 2017),如下所示:给定输入 X d a t a ∈ R N × F X_{data} \in \mathbb{R}^{N \times F} Xdata∈RN×F,注意力结果计算为 X o u t = M S A ( X d a t a , X d a t a , X d a t a ) X_{out} = MSA(X_{data}, X_{data}, X_{data}) Xout=MSA(Xdata,Xdata,Xdata)。MSA 的公式如下:
Q = X i n W Q , K = X i n W K , V = X i n W V , Q = X_{in} W_Q, \quad K = X_{in} W_K, \quad V = X_{in} W_V, Q=XinWQ,K=XinWK,V=XinWV,
M S A ( X i n , X i n , X i n ) = s o f t m a x ( X i n W Q ( X i n W K ) T d ) X i n W V , MSA(X_{in}, X_{in}, X_{in}) = softmax\left( \frac{X_{in} W_Q (X_{in} W_K)^T}{\sqrt{d}} \right) X_{in} W_V, MSA(Xin,Xin,Xin)=softmax(dXinWQ(XinWK)T)XinWV,
其中 W Q , W K , W V ∈ R F × d W_Q, W_K, W_V \in \mathbb{R}^{F \times d} WQ,WK,WV∈RF×d 是可学习的权重矩阵, d d d 是每个注意力头的维度。
时间注意力专家旨在捕捉时间步之间的依赖关系,因此它不涉及空间建模。然而,城市交通流量显著受人们的出行模式和生活方式影响,表现出明显的周期性,如早晚高峰。为了增强时间注意力捕捉这些周期模式的能力,我们引入了附加的周期嵌入。设
w
(
t
)
w(t)
w(t) 为将时间
t
t
t 转换为周索引的函数(范围从 1 到 7)。周期时间嵌入
X
w
∈
R
T
×
d
X_w \in \mathbb{R}^{T \times d}
Xw∈RT×d 通过将所有
T
T
T 时间切片的嵌入拼接得到。最后,周期嵌入的输出通过简单地将数据嵌入和周期嵌入相加得到:
X
e
m
b
=
X
d
a
t
a
+
X
w
,
X
t
a
,
H
t
a
=
M
S
A
(
X
e
m
b
,
X
e
m
b
,
X
e
m
b
)
X_{emb} = X_{data} + X_w, \quad X_{ta}, H_{ta} = MSA(X_{emb}, X_{emb}, X_{emb})
Xemb=Xdata+Xw,Xta,Hta=MSA(Xemb,Xemb,Xemb)
通过引入这些周期嵌入,时间注意力机制能够更好地捕捉交通数据中的周期性模式。
时空注意力专家旨在通过利用节点之间的相似性增强时间预测。与时间注意力不同,它不使用附加的周期嵌入,而是直接应用线性变换将输入
X
d
a
t
a
X_{data}
Xdata 映射到更高维空间。嵌入后,变换后的数据
X
e
m
b
∈
R
T
×
N
×
C
X_{emb} \in \mathbb{R}^{T \times N \times C}
Xemb∈RT×N×C 表示
T
T
T 个历史时间步的节点信息,其中
N
N
N 是空间节点的数量,
C
C
C 是特征维度。该过程首先在
N
N
N 个节点上应用 MSA 层,然后在
T
T
T 个时间步上再应用另一层 MSA,以捕捉空间和时间的依赖关系。
X
s
t
a
(
1
)
,
−
=
M
S
A
(
X
e
m
b
.
t
r
a
n
s
p
o
s
e
(
1
,
0
,
2
)
)
X
s
t
a
,
H
s
t
a
=
M
S
A
(
X
s
t
a
(
1
)
.
t
r
a
n
s
p
o
s
e
(
1
,
0
,
2
)
)
\begin{aligned} X_{sta}^{(1)}, - &= MSA(X_{emb}.transpose(1, 0, 2)) \\ X_{sta}, H_{sta} &= MSA(X_{sta}^{(1)}.transpose(1, 0, 2)) \end{aligned}
Xsta(1),−Xsta,Hsta=MSA(Xemb.transpose(1,0,2))=MSA(Xsta(1).transpose(1,0,2))
X s t a X_{sta} Xsta 是时空注意力专家的输出。
记忆注意力专家受到记忆增强图学习的启发,并利用了 MOE 模型中记忆模块的独特优势。记忆模块
M
M
M 由大小为
R
N
×
m
R^{N \times m}
RN×m 的向量集组成,其中
m
m
m 表示记忆大小。通过超网络生成基于
M
M
M 的节点嵌入。一旦生成新的节点嵌入,记忆注意力专家首先应用图卷积网络(GCN)进行空间特征聚合,然后通过 MSA 层进行最终预测。由于记忆模块
M
M
M 受到先验知识专家的监督,记忆注意力专家也部分利用了先验知识。生成节点嵌入并执行 GCN 的过程如下:
E
=
M
W
E
,
A
~
=
s
o
f
t
m
a
x
(
R
e
L
U
(
E
E
T
)
)
,
X
e
m
b
=
A
~
X
d
a
t
a
W
G
C
N
E = MW_E, \quad \tilde{A} = softmax(ReLU(EE^T)), \quad X_{emb} = \tilde{A} X_{data} W_{GCN}
E=MWE,A~=softmax(ReLU(EET)),Xemb=A~XdataWGCN
其中 W E W_E WE 和 W G C N W_{GCN} WGCN 是可学习的权重矩阵。完成 GCN 操作后,得到的节点特征 H H H 被传递到 MSA 层以从记忆注意力专家获得最终预测:
X m e m , H m e m = M S A ( X e m b , X e m b , X e m b ) X_{mem}, H_{mem} = MSA(X_{emb}, X_{emb}, X_{emb}) Xmem,Hmem=MSA(Xemb,Xemb,Xemb)
这一系列操作允许记忆注意力专家在利用记忆模块中的先验知识的同时捕捉时空依赖性。
3.2.2 变量为中心的建模
在序列为中心的建模方法中,每个时间步的嵌入集成了多个变量,表示潜在的延迟事件或不同的物理测量。然而,这可能无法学习以变量为中心的表示,并可能导致无意义的注意力映射。此外,所有序列为中心的模型共享相同的归纳偏差,这限制了MoE模型的性能。为了解决这些问题,我们提出了一种变量为中心的建模方法。具体而言,每个时间序列中的时间点被嵌入到变量特定的标记中,并且注意力机制利用这些标记来捕捉不同变量之间的相关性。同时,前馈网络应用于每个变量标记以学习其非线性表示。
与生成基于时间步的隐藏状态的序列为中心模型不同,变量为中心的模型不共享相同的隐藏状态结构,这使得很难由MoE路由机制控制。为解决此问题,我们在变量为中心的模型的每一层注入可训练的秩分解矩阵,以生成类似于序列为中心模型的隐藏状态,从而减少归纳偏差。对于输入数据 X d a t a ∈ R T × N × F X_{data} \in \mathbb{R}^{T \times N \times F} Xdata∈RT×N×F,在 T T T 个历史时间步上,我们首先通过线性嵌入将时间步映射到高维空间。具体而言,将时间步 T T T 转置并嵌入到高维空间中:
X e m b = E m b e d d i n g ( X d a t a . t r a n s p o s e ( 1 , 2 , 0 ) ) X_{emb} = Embedding(X_{data}.transpose(1, 2, 0)) Xemb=Embedding(Xdata.transpose(1,2,0))
在此,Embedding 是将时间步 T T T 投影到高维空间的线性映射。专家的输出是将此嵌入通过MSA层传递的结果,并且在MSA层之间注入可训练的低秩矩阵以生成专家的隐藏状态:
X e n c = M S A ( X e m b , X e m b , X e m b ) , H h i d d e n = L o w R a n k ( X e n c ) X_{enc} = MSA(X_{emb}, X_{emb}, X_{emb}), \quad H_{hidden} = LowRank(X_{enc}) Xenc=MSA(Xemb,Xemb,Xemb),Hhidden=LowRank(Xenc)
通过引入这些可训练的低秩矩阵,变量为中心的模型能够生成与序列为中心模型类似的隐藏状态,从而减少归纳偏差并提高MoE框架内模型的性能。
3.2.3 退火路由
在回归问题中,传统的MoE模型在初始化后往往会做出几乎静态的路由决策,因为门控网络没有通过回归任务的梯度得到有效指导。此时,门控网络导致“失配”,从而导致路由信息缺乏丰富性和动态性。因此,在时间序列任务中,MoE架构的目标通常是学习输入信号与输出表示之间的直接关系。
对于包含多个专家输入的 X i n p u t X_{input} Xinput,内存查询过程定义如下,所有专家的隐藏状态输出进一步用于计算 O ^ \hat{O} O^:
O = s o f t m a x ( X o u t M T d ) M , O ^ = s o f t m a x ( H e x p e r t H e x p e r t T d ) H e x p e r t O = softmax \left( \frac{X_{out} M^T}{\sqrt{d}} \right) M, \quad \hat{O} = softmax \left( \frac{H_{expert} H_{expert}^T}{\sqrt{d}} \right) H_{expert} O=softmax(dXoutMT)M,O^=softmax(dHexpertHexpertT)Hexpert
其中 M M M 代表内存项,是一组可学习向量。注意力分数 O O O 基于 X o u t X_{out} Xout 和 M M M 计算,然后使用softmax归一化。 H e x p e r t H_{expert} Hexpert 表示所有专家的隐藏状态, O ^ \hat{O} O^ 是专家隐藏状态与内存项 M M M 之间的注意力分数。
最后,每个专家的路由概率 p p p 定义为$ p = sim(O, \hat{O}) $,其中 s i m ( ⋅ ) sim(\cdot) sim(⋅) 是一种相似性函数,如点积或余弦相似度,用于测量 O O O 和 O ^ \hat{O} O^ 之间的相似性。
然而,这种计算MoE路由概率的方法引入了一个问题:在训练的初始阶段,如果 M M M 未正确初始化,可能会导致错误的路由决策,这些错误的决策可能导致专家训练不当,从而影响整体模型性能。为了解决此问题,我们通过引入先验知识监督策略改进路由机制,确保在模型训练的早期阶段准确指导路由过程。这有助于避免不必要的偏差并提高整体模型性能。
动态时间规整(DTW)是一种广泛用于交通流预测的技术,作为先验知识的合理来源。它捕捉不同节点之间的相似性和相关性。我们定义两个节点 i i i 和 j j j 之间的DTW距离为 L i , j = D T W ( X i , X j ) L_{i,j} = DTW(X_i, X_j) Li,j=DTW(Xi,Xj),其中 X i X_i Xi 和 X j X_j Xj 分别表示节点 i i i 和 j j j 的时间序列数据。 L i , j L_{i,j} Li,j 表示这两个节点之间的时间距离或差异。在城市交通流预测中,节点之间的关系通常是稀疏的,因此有必要指定节点之间的距离。具体来说,我们引入了一个阈值高斯核来调整节点之间的权重矩阵。当DTW距离超过此阈值时,两个节点之间的权重设置为0。权重矩阵 W D T W W_{DTW} WDTW 计算如下:
W i , j = { exp ( − L i , j 2 σ 2 ) , if L i , j ≤ κ , 0 , if L i , j > κ , W_{i,j} = \begin{cases} \exp \left( - \frac{L_{i,j}^2}{\sigma^2} \right), & \text{if } L_{i,j} \leq \kappa, \\ 0, & \text{if } L_{i,j} > \kappa, \end{cases} Wi,j={exp(−σ2Li,j2),0,if Li,j≤κ,if Li,j>κ,
其中 σ \sigma σ 是所有节点之间DTW距离的标准差, κ \kappa κ 是预定义的距离阈值。
尽管基于DTW距离构造的矩阵在以前的研究中被证明是有效的,但它们并不总是完全准确。为防止DTW矩阵在训练过程的后期过度影响,我们借鉴了余弦退火策略来学习率,设计了一种先验知识余弦退火策略。具体而言,在训练的前 T w a r m T_{warm} Twarm 步中,我们定义专家的路由概率为 p = s i m ( O W D T W , O ^ ) p = sim(O W_{DTW}, \hat{O}) p=sim(OWDTW,O^),其中 W D T W W_{DTW} WDTW 代表从DTW矩阵中派生的先验知识,类似于余弦退火策略。在此期间,学习率计算如下:
l r r a t e = { l r m i n + ( l r m a x − l r m i n ) ⋅ T c u r T w a r m , for the first T w a r m steps , l r m i n + 1 2 ( l r m a x − l r m i n ) ( 1 + cos ( T c u r T f r e q π ) ) , otherwise . lr_{rate} = \begin{cases} lr_{min} + (lr_{max} - lr_{min}) \cdot \frac{T_{cur}}{T_{warm}}, & \text{for the first } T_{warm} \text{ steps}, \\ lr_{min} + \frac{1}{2} (lr_{max} - lr_{min}) \left( 1 + \cos \left( \frac{T_{cur}}{T_{freq}} \pi \right) \right), & \text{otherwise}. \end{cases} lrrate={lrmin+(lrmax−lrmin)⋅TwarmTcur,lrmin+21(lrmax−lrmin)(1+cos(TfreqTcurπ)),for the first Twarm steps,otherwise.
在训练的初始阶段,我们引入 W D T W W_{DTW} WDTW 来调整路由概率,确保MoE模型路由过程的合理起点。在训练的后期阶段,我们停止通过 W D T W W_{DTW} WDTW 进行调整,从而防止不正确的先验知识干扰模型。此方法允许模型在训练的早期阶段充分利用先验知识,同时避免其在后期阶段的潜在负面影响,从而改善整体模型性能。
4 实验
在本节中,我们在两个基准数据集上进行了实验:METR-LA 和 PEMS-BAY。METR-LA 和 PEMS-BAY 分别包含洛杉矶高速公路上的 207 个传感器和湾区的 325 个传感器记录的四个月速度数据。在训练 TITAN 之前,我们进行了 z-score 归一化。在 METR-LA 和 PEMS-BAY 的情况下,我们使用 70% 的数据进行训练,10% 进行验证,20% 进行测试。
4.1 实验设置
对于这两个数据集,我们使用 Xavier 初始化来初始化参数和嵌入。超参数是通过在验证集上进行有限的网格搜索获得的,其中隐藏层大小为 { 16 , 32 , 48 , 64 , 80 } \{16, 32, 48, 64, 80\} {16,32,48,64,80},内存大小为 { 16 , 32 , 48 , 64 , 80 } \{16, 32, 48, 64, 80\} {16,32,48,64,80},层数为 { 1 , 2 , 3 , 4 , 5 } \{1, 2, 3, 4, 5\} {1,2,3,4,5}。图 2 展示了超参数搜索的结果以及相应的模型参数量。
不同颜色的线代表各种误差指标,而柱状图显示了不同超参数下模型的参数量。我们使用 Adam 优化器,
β
1
=
0.9
\beta_1 = 0.9
β1=0.9,
β
2
=
0.98
\beta_2 = 0.98
β2=0.98,
ϵ
=
1
0
−
9
\epsilon = 10^{-9}
ϵ=10−9。学习率设为
l
r
m
a
x
=
3
×
1
0
−
3
lr_{max} = 3 \times 10^{-3}
lrmax=3×10−3
调度方法如 3.2.3 节所述。我们遵循传统的 12 序列(1 小时)输入和 12 序列输出的预测设置来进行 METR-LA 和 PEMS-BAY 的实验。使用平均绝对误差(MAE)作为损失函数,均方根误差(RMSE)和平均绝对百分比误差(MAPE)作为评估指标。所有实验均在 8 块 RTX A6000 GPU 上进行。
我们将 TITAN 与 14 个基线模型进行比较:(1) STGCN,一个包含 GCN 和 CNN 的模型;(2) DCRNN,一个带有图卷积递归单元的模型;(3) Graph-WaveNet,使用参数化邻接矩阵的模型;(4) GMAN,一个基于注意力机制的模型;(5) MTGNN;(6) StemGNN;(7) AGCRN,高级自适应矩阵模型;(8) CCRNN;(9) MAF-GNN,带有多个自适应矩阵的模型;(10) PM-MemNet,带有记忆单元的模型;(11) MegaCRN;(12) TESTAM,使用 MOE 结构集成不同图结构的模型;(13) AdpSTGCN,基于自适应图卷积的模型;(14) STD-MAE,一种利用去耦的掩码自动编码器重构时空序列的最新技术模型。
4.2 实验结果
实验结果如表1所示。
TITAN 在所有模型中表现最佳,预测范围内的平均提升约为 9%。值得注意的是,我们比较了从相应论文中报告的结果与通过官方代码复现的结果。序列为中心的建模方法,包括静态图模型(如 DCRNN、RGDAN、MTGNN、CCRNN)和动态图模型(如 GMAN、AdpSTGCN),在捕捉时空依赖性方面表现出竞争力。然而,STD-MAE 通过在顺序和变分维度上重构时间序列来捕捉复杂的时空关系,表现出优越的性能。TESTAM 使用 MOE 结构同时捕捉多个空间关系,显示出次优性能。然而,它仍然受到同质专家之间共享的内在偏差的影响,导致性能劣于 TITAN。相比之下,我们的模型 TITAN 展现了优越的性能,甚至超过了使用可学习矩阵的模型。结果强调了正确处理交通流预测中突发事件的重要性。更多的效率分析详见附录 A.2,每个指标的稳健性分析详见附录 A.5。
4.3 消融研究
消融研究有两个目标:评估每种方法的实际改进并测试两个假设:(1)对于异构 MOE 模型,使用低秩自适应方法组织模型是有益的;(2)通过监督路由组织专家是有效的。为实现这些目标,我们设计了一组 TITAN 变体,如下所述:
- w/o Semantics: 该变体移除了异构语义专家。在这种情况下,TITAN 仅保留序列为中心的建模方法,可以看作是类似于 TESTAM 结构。
- Ensemble: 最终输出不使用 MoE 计算,而是通过门控网络作为每个专家输出的加权和。该设置可以使用所有异构专家,但不能使用先验专家,因为没有路由过程。
- w/o priori expert: 该变体直接移除了先验专家,路由过程仅由分类损失监督。
- Replaced priori expert: 该变体通过添加一个时间预测模块改变了先验专家的组织。在此结构中,先验专家可以看作是序列为中心的建模方法。
表 2 中的实验结果表明,我们的假设是正确的,TITAN 是一个完整且不可分割的系统。去除语义专家的结果表明,异构语义专家也改进了预测。Ensemble 的结果表明,MoE 方法显著提高了交通预测质量。去除先验专家的结果表明,正确使用先验知识来监督 MoE 中的路由过程可以在一定程度上避免局部最优,从而提高模型的性能。替换先验专家的结果表明,仅仅添加一个专家来提供先验知识是无效的,因为 MoE 模型难以直接评估先验知识的作用。其他详细结果见附录 A.3。关于每个专家在训练过程中的角色,我们在附录 A.4 中提供了一些有意义的观察。
5 结论
在本文中,我们提出了一种异构专家混合模型 (TITAN),它可以同时执行序列为中心、变量为中心和先验知识为中心的建模,并在训练过程中结合了先验知识的余弦退火策略。TITAN 在两个真实世界的数据集上实现了最新的性能,与之前最好的基线相比,平均提升了大约 9%。通过消融实验,我们证明了 TITAN 中每个模块的有效性。此外,我们进行了参数和效率分析,以进一步评估 TITAN 的性能。在未来的工作中,我们计划引入更智能的算法,如启发式方法,来优化 TITAN 中的路由过程,并将其应用扩展到多变量时间序列预测任务中。
A 附录
A.1 低秩矩阵自适应的详细介绍
上述伪代码概述了 MoE 模型中语义专家的低秩自适应过程。低秩矩阵 W A W_A WA 和 W B W_B WB 作为隐藏层和语义专家最终输出之间的桥梁。在步骤4中,使用 W A W_A WA 对嵌入进行低秩投影,随后使用 W B W_B WB 进行维度恢复。该模型迭代地更新主模型参数 Θ \Theta Θ 和低秩矩阵 W A W_A WA 和 W B W_B WB,确保低秩矩阵随着模型的学习过程适应数据。
A.2 效率分析
为了分析计算成本,我们使用了七个基线模型:
- STGCN:一种轻量级方法,通过利用 GCN 和 CNN 来预测未来的交通状况;
- DCRNN:一个成熟的交通预测模型,将图卷积集成到递归单元中,依赖于预定义的图结构;
- Graph-WaveNet:利用图嵌入进行交通预测;
- GMAN:一个用于交通预测的时空注意力模型;
- MegaCRN:一种使用 GCRNN 结合记忆网络的最新模型;
- TESTAM:一个基于 MoE 的交通预测模型,通过伪标签分类任务进行专家路由;
- RGDAN:一种先进的方法,利用随机图注意力,计算效率高。
我们还检查了其他模型用于比较,但经过仔细考虑后选择排除。例如,MTGNN 和 StemGNN 被排除,因为它们是 Graph-WaveNet 的改进版本,具有类似的计算成本。同样,AGCRN 和 CCRNN 被排除,因为它们是 DCRNN 变体,计算成本变化较小。虽然 PM-MemNet 和 MegaCRN 使用序列到序列建模和共享记忆单元,但 PM-MemNet 由于其堆叠的记忆单元导致计算瓶颈,需要 L 倍的 MegaCRN 计算资源。所有模型在使用相同硬件的情况下按照 TESTAM 的实验设置进行测试,记录了训练和推理时间。
正如表 3 所示,尽管 TITAN 使用了五个独立的专家,但我们指出,先验知识为中心的专家不直接参与预测过程。此外,系统中的每个专家层数较少,导致参数量比其他模型低,从而显著降低了总体计算负担。因此,TITAN 额外的计算成本仍然是可控的。与 TESTAM 相比,TITAN 多消耗了约 10 秒的计算时间,但性能提升约 10%,使得额外的计算成本是值得的。
A.3 详细消融研究结果
消融研究的结果(如表 4 所示)强烈支持了我们的假设。
下面,我们提供了每个消融变体结果的详细解释:
w/o Semantics: 当移除异构语义专家时,性能下降,这表明使用异构专家显著提高了预测准确性。没有语义专家时,模型表现类似于 TESTAM,这表明仅依赖序列中心的建模限制了模型捕捉变量之间复杂关系的能力。
Ensemble: 此变体的结果表明,MoE 方法动态选择专家,优于通过加权和的简单集成方法。集成设置中缺乏常规监督阻止了专家的最佳专业化,导致性能下降。此外,该设置中缺少先验专家的结果显示了在路由过程中引入先验知识的重要性。
w/o a priori expert: 此变体中的性能下降突显了先验专家在指导路由过程中的重要性。如果没有先验知识监督路由,模型更容易在训练过程中陷入局部最小值,从而导致次优路由决策。这支持了在 MoE 中引入先验知识有助于避免这些问题并提高总体模型性能的观点。
Replaced a priori expert: 用序列中心预测模块替换先验专家导致了较低的性能,这表明仅仅加入一个额外的专家并不足以有效利用先验知识。此变体确认了 MoE 模型难以利用附加的时间模块,并强调了适当地利用先验知识指导路由过程的重要性。简单地添加另一个专家而没有明确的功能区分并不能提供预期的性能提升。
通过分析这些详细的消融结果,我们可以得出结论:TITAN 是一个完整的、紧密结合的系统,每个组件都在其中起着至关重要的作用。低秩自适应组织和监督路由对于在交通预测中实现最先进的性能至关重要。
A.4 一些有意义的观察
在本节中,我们对表 5 中专家选择行为进行了更深入的分析,表 5 展示了随着预测视角(即 3 步、6 步和 12 步预测)的变化,每个专家被选择的次数如何变化,在 PEMS-BAY 数据集上进行。
Temporal Attention 专家 在短期预测(3 步预测)中很少被选中,仅有 13 次选择,这表明短期预测不依赖于时间动态。但是,在 6 步预测时,它的选择次数适度增加至 283,表明随着预测长度的增加,其重要性逐渐增加。到 12 步预测时,它的选择次数显著上升至 11,469,918,突显了时间依赖性在长期预测中的关键作用。这表明 Temporal Attention 专家在长期预测中变得不可或缺,可能是由于需要捕捉时间序列模式的增加。语义中心专家 在中期预测(6 步视角)中被选择最多,并在所有时间步长中使用,这表明我们设计此专家的低秩自适应方法的有效性。不同视角中语义专家的一致选择展示了其对模型整体预测能力的稳健贡献。
A.5 进一步的视觉结论
在本节中,我们对主文中讨论的结果进行了更详细的解释,提供了关于 TITAN 在不同数据集和时间步长上的表现的额外见解。具体来说,我们生成了箱线图,展示了每个评估指标的误差分布,按数据集和预测时间步长进行细分,如图 3 所示。
数据集间的性能稳定性:如图 3 所示,TITAN 在 Pems-Bay 数据集上的表现相比 Metr-LA 更稳定。这可归因于数据集的固有特性:Pems-Bay 拥有更密集且更一致的交通流量,使得 TITAN 更好地捕捉到不同节点之间的时空依赖关系,减少了预测误差的波动性。相比之下,Metr-LA 数据集代表了一个更为动态的城市交通环境,具有不规则模式,引入了更大的交通状况变异性,导致 TITAN 表现波动略大。尽管 Metr-LA 复杂度较高,TITAN 仍设法保持较强的预测能力,正如箱线图显示的误差分布范围较窄所证实的。
对预测时间步长的适应性:TITAN 的一大优势,如结果所示,是其在不同预测视角上的稳健性。如图 3 所示,随着预测步长的增加,TITAN 的误差分布在两个数据集上都保持相对稳定。这一一致性表明,TITAN 能够很好地适应不同的预测步长,无论是短期交通状况预测(即 15 分钟前)还是长期趋势(即 60 分钟前)。与某些模型在预测窗口扩大时性能显著下降不同,TITAN 的架构集成了序列中心和变量中心专家,允许其在不同时间尺度上保持准确性。此外,预测步长增加时误差峰值的缺失突显了 TITAN 在不同预测任务上的良好泛化能力,表明其专家结构能够有效捕捉短期波动和长期模式。
A.6 可复现性声明
我们使用两个由真实世界数据集支持的实验:
-
METR-LA:该数据集提供了从安装在洛杉矶县高速公路上的环路检测器收集的交通信息(Jagadish等人,2014)。在我们的实验中,我们使用了207个传感器的数据,并收集了从2012年3月1日到2012年6月30日为期4个月的交通数据。所观察到的交通数据点的总数为6,519,002个。
-
PEMS-BAY:该交通数据集由加州交通局(CalTrans)通过性能测量系统(PeMS)提供。我们从位于旧金山湾区325个传感器上收集了为期6个月的数据,从2017年1月1日到2017年5月31日,总共观察到的交通数据点数为16,937,179个。
两个数据集的传感器分布情况如图4所示。
所有模型参数和选择过程在本文中进行了详细描述。为了确保可复现性,我们使用8个NVIDIA GPU并固定了随机种子进行模型训练。训练期间生成的权重文件将在论文正式接受后与代码一起公开,允许研究人员访问和验证结果。