1 导读
本论文于2023年发表于交通领域顶刊《IEEE Transactions on Intelligent Transportation Systems》。文章针对OD流预测中存在的三点问题,即复杂动态的时空依赖性、数据稀疏性和不完整性以及容易受到外部因素影响展开研究,提出了一个自适应特征融合网络(AFFN),该网络通过多图自适应学习OD流的空间隐藏特征,根据外部因素的影响准确捕捉OD流的周期演化模式。为了解决OD矩阵的不完整性和稀疏性,文章将AFFN延展为多任务AFFN,将地铁站点的进出站流预测作为子任务用于提高OD预测的精确度。在南京和西安两个大规模的地铁数据集上的实验充分验证了模型的有效性。
文章信息
作者:Yuhang Xu, Yan Lyu, Guangwei Xiong, Shuyu Wang
标题:Adaptive Feature Fusion Networks for Origin-Destination Passenger Flow Prediction in Metro Systems
文献来源:IEEE Transactions on Intelligent Transportation Systems, 2023.
2 摘要
准确预测OD客流可以提高地铁服务的质量和效率。已有的工作主要研究站点级的进出站流预测,很少关注地铁系统的OD预测。主要挑战包括:1)复杂动态的时空依赖性;2)OD需求变化易受外部因素影响;3)OD需求矩阵具有稀疏性和不完整性。在这篇文章中,作者提出一个自适应特征融合网络(AFFN)用于地铁OD流预测,通过融合多知识图自适应地捕捉地铁网络的空间依赖性;基于外部因素的自学习影响,准确捕捉客流的周期性模式。为了解决OD矩阵的稀疏性和不完整性,作者将AFFN延展为多任务AFFN,将预测每个站点的进出站流作为副任务用以进一步提升OD预测精度。作者在两个南京和西安两个真实世界地铁数据集上进行大量实验,结果表明AFFN和多任务AFFN的表现优于其他基线模型;消融实验结果表明AFFN和它的关键成分在OD预测中的有效性。
3 介绍
地铁是各大城市中最受欢迎和高效的交通方式之一。随着城镇化和人口的飞速增长,地铁系统面临高度动态的出行需求,因此需要及时的优化服务运营,例如安排弹性的列车时刻表以及规划灵活的跳停路线,这要求准确的OD客流预测。虽然OD预测在出租车或叫车系统中被广泛研究,即预测从每个起始区域到目标区域的出租车出行数量。然而,这些技术无法直接应用到地铁OD需求预测上,这是因为地铁网络中的站点是由稀疏的地铁线路连接,而道路网络则更加稠密。因此,文章旨在研究如何准确预测稀疏地铁网络中的城市级OD客流。城市级地铁OD预测充满挑战性,主要面临以下问题:
1)复杂动态的时空依赖性:地铁系统的OD流是高度动态的,尤其是高峰时段。OD对的数量在短期内会发生动态变化。在空间维度上,两个距离相近的车站可能有相似的时间OD模式、相似的城市功能或者由于其他一些无法明确描绘的共享隐藏特征。因此,以全面和同步的方式捕获这些复杂的空间和时间依赖关系是至关重要的。
2)周期模式和外部因素:OD流表现出明显的日、周周期性模式。同时容易受到外部因素例如天气状况和节假日影响,从而使OD流出现异常波动。现有研究都是分别建模OD流的周期模式和外部因素的影响,无法捕捉外部因素对OD流周期模式的影响。
3)OD矩阵的不完整性和稀疏性:地铁出行通常较长,需要耗费较多时间,即大于30分钟。我们仅可以在乘客到达目的地后获得完整的OD信息,但无法实时获得乘客的目的地信息,所以实时OD矩阵缺乏未完成出行的信息。另外,OD矩阵通常非常稀疏,少量的站点对覆盖了大部分的OD行程,而大多数站点对之间的行程很少。这种不完整和稀疏的OD矩阵增加了预测难度。
为了克服这些挑战,文章提出了一个自适应特征融合网络(AFFN),通过自适应地融合多知识图建模空间隐藏特征,通过来自外部因素的自学习影响挖掘OD流的周期模式。具体来说,作者提出增强的多图卷积门控循环神经网络(EMGC-GRU),使用多个基于知识的图和一个基于注意力的隐藏相关性图编码站点间的空间依赖性。图卷积在每个GRU层中捕获时间动态。接着,周期OD流根据由外部因素学习的注意力权重进行加权,并通过带有门控单元的EMGC-GRU融合到实时预测中。为了解决OD矩阵的不完整性和稀疏性,作者将AFFN延展为多任务AFFN,将站点进出站流预测作为次任务。IO预测是一个简单许多的任务,因为IO矩阵更加稠密和完整,同时与OD预测具有高度关联。因此,共享IO预测网络可以帮助提升OD预测准确度。文章的主要贡献如下:
1)一个增强的多图卷积门控循环单元(EMGC-GRU)被提出用于详尽地捕获多个基于知识图中预定义的空间相关性,并自动学习站点间的隐藏关联性。
2)一个基于外部因素的注意力模块被提出用于协同集成带有注意力权重的周期数据流,从而提高预测精度。
3)提出非对称多任务自适应特征融合网络(AFFN),利用任务共享的IO编码器和任务共享且基于外部因素的注意力共同预测OD流和IO流,进一步提高OD预测精度。
4)在两个大规模数据集上进行的大量实验表明,AFFN和多任务AFFN对地铁系统的OD客流量预测是有效的。
4 预备知识
这个章节简要介绍了在地铁OD流预测中一些主要的符号和定义,使用的基本数学符号列在表1。
表1 关键数学表达
4.1 关键概念
1)出行:一条出行记录包含了乘客的出发站点,出发时间段,目标站点,以及到达时间段。文章定义乘客的一次出行为。
2)IO流:文章将一段时间内进入地铁站点的客流数量定义为进站流,离开地铁站点的客流数量定义为出站流。和分别表示在时间步进入或离开站点的乘客数量,具体表示为:; 。作者使用根据定义的IO矩阵,记录所有站点在时间段的进出站客流。如图1(a)表示,IO矩阵的每一行表示一个站点,第一列记录进站流,第二列记录出站流。IO流定义为,表示IO矩阵的时间序列,即.
3)OD流:作者使用两个矩阵,表示在时间段离开站点前往站点的乘客数量;表示离开站点后在时间段到达站点的乘客数量,具体表示为和。如图1(b)所示,作者将两个矩阵拼接在一起以表示一个OD矩阵,定义为,用于捕捉在一个时间步内站点离开和到达的OD出行。OD流量定义为,表示为一个随时间变化的OD矩阵序列,即。
4)外部因素:环境因素,包括天气状况和空气质量,均会影响乘客对于交通工具的选择,因此影响地铁系统的IO流和OD流变化。另外,IO流和OD流在假期、周末以及工作日均展示了不同的时空模式。因此,作者考虑这四个外部因素以提高OD流预测精度。
图1 OD流、IO矩阵以及OD矩阵例子
4.2问题定义
给定历史OD流、IO流以及外部因素,我们旨在预测下个时间步的OD矩阵:
问题1(OD流预测):给定历史OD流,外部因素,文章的目标是学习一个预测公式准确预测下一个时间步的OD矩阵,即
由于IO流等同于所有目标站点(进站流)和所有出发站点(出站流)的OD流总和,因此OD流和IO流高度相关。另外,IO预测是一个相对简单的任务,因为其输入数据相较OD预测的输入有更小的稀疏性。因此作者假设能够准确预测IO流的神经网络可以帮助OD流预测,并将IO预测视为OD预测的一个次任务:
问题2(相互预测):给定历史OD流,IO流以及外部因素,文章的目标是学习一个预测公式可以协同准确预测下一个时间步的OD流和IO流,即:
5 模型
该研究中,作者提出一个自适应特征融合网络(AFFN)用于预测地铁站点间的OD流,如图2(a)所示。AFFN首先将历史个时间步的实时OD流作为输入预测一个OD估计矩阵;接着过去几天相同时间步的周期OD矩阵序列与外部因素(天气状况和日期属性)整合在一起用于标定OD估计矩阵的注意力权重。最后,一个门控单元用于输出最后的预测结果.
图2 自适应特征融合网络(AFFN)框架
5.1 基于实时数据流的OD预测
这部分作者首先介绍模型的基础模块用于利用历史时间步(t-q)到(t-1)的OD矩阵预测下一时间步的OD矩阵。为了充分捕捉OD流的时空特征,作者提出了一个增强的多图卷积门控循环单元(EMGC-GRU),首先构建多个基于知识的图,并采用一个关系图卷积网络(RGCN)整合站点间的多重关系;考虑到站点间的一些隐藏关系无法直接通过相关知识挖掘,因此作者采用另一个图注意力网络捕捉站点间的隐藏关系。接着,两个基于知识图和注意力图的卷积被整合到两个GRUs中用于捕捉实时OD流的时间依赖性。最终,两个GRUs的输出隐藏状态被拼接并通过全连接层生成最终的隐藏状态。作者将两个EMGC-GRU堆叠作为编码器用于处理实时OD流,并采用其他图卷积层作为解码器输出OD估计矩阵。
1)以知识图为基础的时空关系表示学习:作者定义了五种知识图表示地铁站点间的不同关系。图中的每个节点表示地铁站点,边代表拓扑连通性、OD连通性、区域功能相似性、进站流相似性以及出站流相似性。
(1)拓扑图:用于建模地铁系统的物理拓扑性,其中每个节点表示两个站点是否相邻,被一条地铁线路直接相连。作者定义边的权重矩阵为一个0-1矩阵,如果两个节点相邻那么取值为1.
(2)OD图:将一段时间内从一个节点(即车站)到另一个节点的累计乘客数作为边的权重。由站点到站点的权重越大,表明两个站点间的关联性越大,预示着未来会有大量乘客由站点前往站点。
(3)功能相似性图:用于根据站点所在区域的功能建模站点间的相似性(商业、居住等)。两个具有相似的区域功能站点可能具有相似的客流时间演化模式。文章利用POI计数向量表示每个站点的区域功能。作者通过计算两个POI计数向量的余弦相似性衡量站点和站点间的功能相似性。
(4)进站流相似性图和出站流相似性图: 分别用于建模站点间的进站流相似性和出站流相似性。给定任意两个车站的进出站序列,作者通过计算DWT衡量站点的进出站流相似性。
由于图卷积网络(GCNs)仅仅通过单一图学习特征表示,因此文章使用关系图卷积网络(RGCN)整合多知识图以学习一个统一的表示。在RGCN中,一个节点首先在每个图中的相邻节点上进行聚合,然后在多个图上对聚合的节点特征表示进行汇总。在每个卷积层中,作者应用知识图上站点和站点的权重进行图卷积操作,并将所有知识图的结果进行求和。
为了整合站点关联性和OD流的时间依赖性,作者进一步利用GRUs迭代更新站点的隐藏状态。假设在时间步,表示RGCN最后一层中所有个具有个特征的站点的隐藏特征表示。,以及表示GRU中的重置门、更新门和候选激活。隐藏特征表示通过下式更新:
其中,表示时间步输入的OD矩阵,表示时间步中增强的隐藏特征表示。
2)基于图注意力网络的时空关系表示学习: 五个预定义的知识图可能不足以捕捉站点间所有可能的关联性,可能存在无法显示表示的隐藏关联性。因此,作者采用一个图注意力网络(GAT)自动学习隐藏的关联性。与RGCN不同,GAT可以自动学习节点间的重要关系而不需要一张预定义的图结构。作者采用最通用的网络结构,假设每两个节点之间存在边并自动学习边的权重以捕获隐藏的依赖性。与RGCN-GRU相似,作者使用GRUs迭代更新由GAT学习到的隐藏特征表示。GAT-GRU最后输出时间步的隐藏特征,并于RGCN-GRU输出的特征进行拼接。
3)聚合基于知识图和基于注意力的特征学习: 作者将由RGCN-GRU和GAT-GRU学习到的隐藏特征表示进行拼接,并利用全连接层生成时间步最终的隐藏状态,即:
图2(b)阐述了由知识图卷积和注意力图卷积获得的特征如何融合并更新。由于GAT-GRU提升了来自RGCN-GRU表示的全面性,将整个单元称之为增强多图卷积门控循环单元(EMGC-GRU)。
4)预测框架:作者堆叠了两层EMGC-GRU作为编码器,并使用一个GCN作为解码器输出最原始的预测。第一层依次将每个时间步的OD矩阵作为输入,它输出的隐藏状态接着输入到第二层用于更高维度的特征学习。解码器GCN将时间步的隐藏特征解码为一个初始预测值,并使用周期性的OD流量和外部因素进一步校准。
5.2 整合周期OD流和外部因素
OD流通常具有非常明显的周期模式,例如早晚高峰,这种周期模式可以提高预测精度。然而,受外部因素影响(例如周末、假期以及天气状况),客流常常会出现无规律的波动。如图3(c)所示,每个周末相同时间段的OD数量非常接近,假期期间OD数量则普遍较小。因此,文章希望通过整合外部因素与周期性OD矩阵提高预测精度。
图3 2014年4月1日至5月10日南京两个地铁站之间的每小时OD出行次数
1)基于外部因素的注意力模块:作者采用一个注意力机制建模外部因素如何影响不同时段下OD对的数量。具体来说,为了校准先前时间步下的OD估计矩阵,作者考虑了过去天相同时间步下的周期OD矩阵,即。由于受到相同外部因素影响的天数,其OD流通常比较相似,因此作者计算了在当前时间步的外部因素对过去相同时间步的外部因素的注意力,定义为。接着将计算得到的注意力权重应用于每个OD周期矩阵,将过去天的加权OD矩阵聚合作为校准预测。图4给出了更为详细的计算流程,感兴趣的读者可以阅读原文。
2)基于门控的校准预测:对于具有明显周期性特征的客流,采用周期流进行校正可以提高预测精度。然而,直接使用实时数据流的预测对于具有弱周期模式的数据可能更准确。因此,作者使用了一个门控单元自动学习应该使用多少周期信息或者实时OD流信息。最终的预测结果是根据一个可训练门控权重矩阵对两种预测结果进行权衡之后所获得,即
图4 基于外部因素的注意力模块
5.3 损失函数
作者定义了一个损失函数最小化预测值和真实值间的误差。地铁运营商通常更关注高OD需求的站点,为了关注这些OD对,作者定义了一个掩码操作,将小于特定阈值的OD需求进行掩码,仅关注OD需求高的OD对。
需要注意的是,当时,和分别表示OD矩阵的起始站点和目标站点的索引,当时,和分别表示起始站和目标站(图1(b))。
6 多任务网络
在整合了周期模式和外部因素后,实现较高精度的实时OD预测仍然是一个充满挑战的任务,具体如下:1)稀疏OD矩阵。西安地一共包含160个车站,其OD矩阵的密度仅为13.27%,即仅有13.27%的OD对没有客流。2)不完整数据。乘客通常有跨越多个时间步长的长途旅行。我们只有在乘客完成出行时才能获得完整的OD出行信息,无法在乘客出行途中得知。因此实时的OD矩阵缺乏未完成的出行。相反,IO矩阵更加稠密和完整,且被证明预测具有较高精度。IO矩阵实际上是每个起始站和目的站OD矩阵需求之和(图1(b)),作者假定一个可以精确预测IO流的网络可以帮助预测OD矩阵。因此,作者提出一个多任务网络用于相互预测IO和OD流。
6.1 多任务网络框架
图5描述了多任务网络的架构,网络由两个自适应特征融合网络(AFFNs)构成分别用于IO和OD预测。与图2(a)的单任务OD预测相似,每个AFFN模块首先将实时IO(OD)矩阵序列作为输入,并使用EMGC-GRU学习与任务相关的特征表示,该部分定义为IO(OD)编码器。IO(OD)预测器利用一个GCN层将特征表示解码为一个预测估计矩阵或者。接着利用周期IO(OD)矩阵和外部因素,通过注意力模型和门控单元校准预测估计矩阵。网络最后输出IO预测和OD预测.
为了提高OD预测的准确性,作者搭建了另一个由EMGC-GRU构成的Co-IO编码器模块。该模块同样将实时IO数据流作为输入,但输出的是IO预测器和OD预测器共享的特征表示,使相关的进出站流数据可以与OD矩阵融合在一起而提高OD预测器的预测性能。这两个任务共享基于注意力的外部因素,即注意力权重基于两个预测任务更新以捕捉IO流和OD流共享的客流周期性。
图5 多任务自适应特征融合网络
6.2 损失函数
作者首先定义两个任务独立的损失函数,最小化预测值和真实间的误差,即:
注意到IO客流实际上是OD流在起始站点或目标站点的总和,在相互预测中保持这样的关系将会有利于提升预测精度。为了实现这一点,作者定义了一个跨任务损失函数用于最小化OD矩阵每个目的地流量的总和与实际每个起始站点的进站流的误差,同样计算与出站流的误差,即:
最后的多任务AFFN的损失函数是最小化所有损失项的加权和,即:
其中,和表示两个独立任务的误差权重,是跨任务的误差权重。
7 实验讨论
实验部分,作者在南京和西安两个地铁数据集上进行多方面的实验,验证模型的预测准确性和各个模块的可靠性,具体包括单任务AFFN和多任务AFFN的预测效果比较、模型周期流数据和外部因素的消融实验、模型在不同类型地铁网络的预测效果比较、预测结果可视化分析以及模型算法运行效率分析。实验结果的具体讨论文章不展开详细介绍,感兴趣的读者可以阅读原文进行学习。
8 总结
文章提出一个自适应特征融合网络(AFFN)用于预测城市轨道交通系统的OD流。为了详尽地捕捉OD流中复杂的时空依赖性,作者首先提出一个增强的多图卷积门控循环单元(EMGC-GRU)融合站点间的隐藏关联性。作者另外提出基于外部因素的注意力模块用于精确捕捉周期特征。为了进一步提升预测精度,作者提出非对称的多任务框架相互预测OD流和IO流。评估结果表明,作者提出的方法优于其他基线模型。
关于未来的研究方向,主要如下:1)将单步预测模型延展为多步预测;2)通过融合更加详细的出行信息预测更细粒度的客流;3)研究如何将模型应用于更加复杂的地铁线路,例如环线等;4)通过研究其他交通出行方式提升预测精度,例如公交和出租车。
9 Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!