导读
本论文于2023年发表于交通领域知名期刊《IEEE Intellgent Transportations Systems Magazine》上。该论文旨在研究节假日期间城市轨道交通进站流预测问题,通过搭建时空注意力融合网络,有效融合客流数据和节假日相关社交媒体数据,充分捕捉了假期客流的时空依赖性,从而精确预测城市轨道交通假期客流,以南宁市城市轨道交通客流实际数据为例设计的数值实验验证了模型的性能和有效性。
关键词
深度学习、时空注意力融合网络、社交媒体数据、假期、短时客流预测
文章基本信息
作者:Shuxin Zhang, Jinlei Zhang, Lixing Yang, Jiateng Yin, Ziyou Gao
标题:Spatiotemporal Attention Fusion Network for Short-Term Passenger Flow Prediction on New Year's Day Holiday in Urban Rail Transit System
文献来源:IEEE Intellgent Transportation Systems Magazine, 2023, 15, 5, 59-77
摘要
短时轨道交通客流预测对于交通运营管理非常重要。新兴的深度学习模型有效提高了预测精度。然而,大部分现有模型主要针对常规工作日或周末客流进行预测。由于假期客流的突发性和无规律性,仅有一小部分研究专注于假期客流预测。为此,本文提出一个全新的时空注意力融合网络(STAFN)用于城市轨道交通假期短时客流预测。具体而言,该模型由多图注意力网络(MGATN),卷积注意力模块(Conv-Attn)以及特征融合模块构成,其中多图注意力网络主要用于动态提取客流的复杂空间依赖性,卷积注意力模块则用于从全局和局部角度挖掘时间依赖性, 特征融合模块充分融合假期相关社交媒体数据和客流数据,从而进一步学习客流在假期间的演化趋势。最后,模型在南宁市元旦假期期间的地铁AFC刷卡数据集上进行数值实验,实验结果证明了模型优越的预测性能,可以为假期短期客流预测的实际应用提供有力支持。
问题定义
本文旨在利用城市轨道交通历史客流数据和假期相关社交媒体数据预测未来假期客流,在搭建模型之前,首先需要对几个关键参数进行定义,并提出城市轨道交通假期短时客流预测问题。
客流特征矩阵
通常来说,地铁AFC卡数据包含了乘客卡号,乘客起始站点、乘客出发时间、乘客目标站点以及乘客到达时间。给定当前时刻乘客的进站信息,定义为当前时刻,车站的客流情况,表示当前时刻,城市轨道交通网络所有车站的客流情况,其中表示城市轨道交通网络中站点的数量。在本研究中,作者使用历史12个时间步的客流数据预测下一个时间段的客流数据。
社交媒体数量特征
为了研究假期对客流波动的影响,本文首先从社交媒体app上收集了假期相关社交媒体数据,接着提取并整合特定时间粒度下(如10分钟或30分钟)的数量特征数据。令表示时刻的社交媒体数量特征。本文同样选择历史12个时间步的社交媒体数量特征数据协助预测下一个时间段的客流数据。
多重交通图
考虑到交通网络实际上存在复杂动态的时空特征,包括物理拓扑特征和节点间的隐藏空间关联性,因此本文引入多重交通图用以学习轨道交通网络中的物理连通性、站点相似性以及OD关联性。具体来说,物理邻阶图、站点相似性图以及OD关联性图分别表示为, , 。表示城市轨道交通网络的站点集;表示不同图的边集合;表示边的权重,表示站点和站点之间的权重系数。
物理邻阶图
物理邻阶图可以直观地展示站点之间的物理连通性,因此本文根据轨道交通网络站点间的物理拓扑性构造物理邻阶图。如果站点和站点在实际网络中相连接,那么站点间存在物理连通边,表示为;否则。站点和站点之间的邻阶权重可以表示为:
站点相似性图
除了站点间的物理连接性,站点间的相似性对于建模复杂的空间依赖性同样重要。例如,虽然一些站点在真实地铁网络中并没相连,甚至距离较远,但由于站点功能相似(例如通勤站点或商业区站点),它们之间可能存在相似的客流模式。因此,本文考虑站点间的实时客流相似性以进一步挖掘其空间特征。具体来说,站点和站点的客流相似权重通过皮尔逊系数计算得出,具体如下:
其中,表示站点在时段的客流。表示期望值,表示方差。给定相似性权重矩阵,本文通过与预先设置的相似性阈值进行比较,选择具有较高高相似性权重的站点构建虚拟边:
获得简化后的相似性权重矩阵,本文对该矩阵进行行归一化操作。
OD关联性图
由于乘客的时空分布可以体现不同站点间的关联性,本文根据轨道交通系统中OD需求的分布构建OD关联性图。首先计算站点间的OD分布率,
其中,表示站点和站点之间的OD需求。本文通过与一个预设定的OD分布率进行比较,选择具有较高分布率的站点构建关联性边,
接着,对该矩阵使用行归一化操作以构建OD关联性权重矩阵,
问题定义
在时间段,给定所有客流信息,多重交通图,以及假期相关社交媒体特征数据,文章旨在学习一个深度学习模型,用以预测假期期间下一时刻的城市轨道交通网络客流数据。
模型框架
本文提出时空注意力融合网络模型(STAFN)旨在动态建模客流的复杂时空依赖性,其主要框架图如下图所示。模型主要由以下三个模块构成,分别是多图注意力网络,卷积注意力模块以及特征融合模块。其中,多图注意力网络充分考虑了多种交通网络图以建模复杂的空间依赖性;卷积注意力模块则利用注意力机制从局部和全局的角度建模时间依赖性;为了学习节假日对客流波动的影响,特征融合模块将客流数据与节假日社交媒体数据相融合,可以有效增强假期客流变化的趋势特征。接下来将简单介绍模型的三个模块。
图1 STAFN模型框架
多图注意力网络
图卷积网络(GCNs)在捕获图的空间相关性和拓扑信息方面具有强大的能力,近年来越来越多学者将其应用在交通流预测领域。然而,传统的图卷积网络仅仅基于物理拓扑的预定义静态图展开计算,导致在学习空间依赖关系方面存在限制。一方面,节点间的空间依赖性并非静止的,随着时间的变化空间依赖关系也会变化;另一方面,节点间的空间依赖关系十分复杂,包含显著的物理连接和隐藏的内在关联。为此,除了物理拓扑关系,本文额外考虑了站点相似性以及OD关联性,通过多图注意力网络(MGATN)充分挖掘站点间复杂的空间关系,模型框架图如下所示。
图2 MGATN模型框架
注意力机制可以动态计算节点间的关注权值来表示它们之间的关系,因此本模块首先利用注意力机制计算站间动态注意力分数。
其中表示第t个时间段的全网进站流,表示的维度。上述计算过程可以根据输入动态调整站间注意力得分。接着,模型将先验知识整合到动态注意力评分矩阵中,以保证稳定性和可解释性。本文引入了三种不同类型的图,分别是邻阶图,站点相似性图以及OD关联性图以表示车站间的多重空间依赖关系。具体来说,令 表示经过归一化处理的带有自环(self-loop)的特定图, 表示输入特征,表示输出特征,表示图卷积权重矩阵,则图注意力操作可以定义如下。
根据多重图网络分别计算得到多重输出特征矩阵, , ,接着将特征矩阵进行拼接并使用全连接层进行融合,最终生成具有多重空间依赖性的特征矩阵.
卷积注意力层
注意力机制可以有效学习序列数据的注意力权重,突出重要特征对输出的影响。因此,本文采用注意力机制从全局和局部角度捕捉客流重要的时间特征。注意力机制本质上可以视为一个映射函数,传统注意力模型使用线性映射分别生成可训练的离散输入查询向量“Q”,键值向量“K”,以及值向量“V”,然而线性映射可能无法捕捉到连续交通流数据中固有的局部演化特征,这可能导致时间关注权重分配错误。考虑到卷积操作可以有效捕捉局部特征,本文使用因果卷积操作生成具有局部演化特征的可学习参数“Q”和“K”。
具体来说,令表示查询向量,表示键值向量,表示值向量。特征矩阵通过因果卷积操作生成上述三个向量,这种潜在子空间生成过程可以用公式表示如下。
其中,表示激活函数, “*”表示因果卷积操作,“”表示线性映射,, , 分别表示可学习参数的权重参数。在获得可学习参数后,通过"Dot-Product"操作计算得到时间注意力权重
其中,()表示激活函数,确保输出在0~1之间,表示矩阵的维度,旨在避免梯度太小难以反向传播。
为了捕捉客流的多重时间特征,本文采用多头注意力机制计算多重时间注意力权重,其主要过程如下图所示。首先特征矩阵分别输入到个不同的自注意力机制中计算个时间特征矩阵,接着将个时间特征矩阵进行拼接并输入到全连接层以获取最终的时间特征矩阵。
图3 卷积注意力模块
特征融合模块
假期属于典型的非常规场景,通常容易造成客流无规律的波动,因此研究假期对客流波动的影响是十分有必要的。近几年,社交媒体数据已被证明是协助客流预测任务的可靠数据源,同时是一种经济有效的获取交通相关数据的方法。例如,假期临近时人们通常会在社交平台上发表出行计划,通过收集相关信息可以在一定程度反映人们的出行意愿和需求。因此,使用社交媒体数据作为辅助数据学习假期对客流波动的影响也许是一种可行的方式,其核心是挖掘整体的时间特征以增强客流在假期期间的演化趋势特征。
本文首先从社交媒体平台(新浪微博)收集了与假期相关的社交媒体数据,这些数据包含了相关假期以及出行等关键词,同时具有特定时间和地理位置限制(特定城市区域),可以通过新浪微博的API接口爬取得到。在收集到相关社交媒体数据后,需要对数据进行过滤筛选,通过数据清洗确保收集到的数据可以尽可能反映人们的出行。在完成数据清洗后,提取聚合假期相关社交媒体数量特征 (本文使用历史12个时间步预测未来客流)。接着,文章提出一个特征融合模块充分融合客流特征数据和假期相关社交媒体数据,使模型可以充分建模客流在假期的波动趋势特征,其计算过程如下图所示。
图4 特征融合模块计算步骤
首先,使用可学习嵌入将社交媒体数量特征转化为辅助特征矩阵以细化时间特征。接着,使用二维CNN处理辅助特征矩阵,并沿时间维度对处理后的辅助特征矩阵采取池化操作,从而提取客流随时间波动的总体趋势。该特征提取操作可以表示如下。
其中,表示平均池化操作,表示卷积核大小为的卷积操作,表示元素相乘。接着,使用全连接操作将处理后的特征矩阵映射到与客流特征矩阵相同的空间。最后,将处理后的特征矩阵与客流特征矩阵通过元素相加进行融合从而获得最终特征融合矩阵。
数值实验
本文在真实世界数据集上对提出模型的预测效果进行评价,一共选择了ARIMA、CNN、LSTM、DCRNN、GWN、ST-ResNet以及Transformer等11个基准模型进行比较,同时选择均方误差(MSE)作为损失函数,选择均方根误差(RMSE)、平均绝对误差(MAE)以及加权平均绝对百分比误差(WMAPE)作为评价指标,衡量模型预测效果。具体模型参数以及训练超参数等感兴趣读者可以查看原文。
数据集
本文使用中国广西南宁轨道交通AFC数据集进行实验,该数据集收集了2018年12月3日到2019年1月6日元旦假期前后、2019年12月2日到2020年1月5日元旦假期前后以及2020年11月30日到2021年1月3日元旦假期前后一共三个元旦假期的全网进出站客流数据。在本研究中,客流数据分别以10分钟和60分钟时间粒度进行提取划分以研究短时和长时客流预测。
图5比较了19到21年元旦假期期间客流的波动情况,从图中可以看出三者存在相似的总体趋势,在12月31日客流均出现显著提升,在跨年夜出现客流峰值,另外元旦假期期间的客流明显与其他常规时间客流模式不一致。文章进一步计算了三者的皮尔逊系数以衡量他们之间的相似性,三者间的皮尔逊系数均大于0.7,表明不同年份的元旦节期间的客流实际上存在相似的客流模式。因此,本文认为使用连续两个元旦假期前后的客流数据进行训练可以更好学习到假期客流波动的整体趋势。同时,为了便于预测,本文仅考虑不同年份期间相同的站点(即忽略新开站点)。后续消融实验对该方法进行验证,并证明了该方法的有效性。
图5 不同元旦假期客流波动情况
在社交媒体数据集方面,本文通过新浪微博API端口收集了带有关键词"元旦假期"和“出行”关键词的微博推文,这些推文的时间范围与客流数据的时间跨度保持一致,同时其地理位置需要在南宁市以内。
接着简要对客流序列数据和社交媒体数据进行分析。图6比较了2021年元旦假期期间的客流数据与假期社交媒体数据。为研究二者间是否存在关联性,本文计算了他们的皮尔逊系数,结果大约为0.684,表明二者存在适度的正相关性。因此,本文旨在从相关的社交媒体帖子中获取有效、正确的信息,以便在训练过程中加强对客流演变趋势的学习。
图6 元旦客流和相关社交媒体数据比较
实验结果
线网级预测效果
下表比较了STAFN与其他基准模型在南宁地铁客流数据集上的预测效果。从表中可以看出,深度学习的预测效果显著优于数理统计模型ARIMA,其原因是ARIMA无法捕捉客流间动态的复杂的非线性关系。另外,基础的深度学习模型BPNN、CNN以及LSTM等只能捕捉客流中有限的时间或空间依赖性,因此预测效果仅仅优于ARIMA。复合深度学习模型ST-GCN、GCN-CNN、GWN、DCRNN、ST-ResNet以及ConvLSTM等考虑了客流的时空依赖性,因此取得较好的预测效果。然而,这些模型针对的都是常规场景下的客流预测,并不适用与节假日期间的客流预测,因此预测效果并不能取得令人满意的结果。注意力模型Transformer在10分钟粒度下取得了第二好的预测效果,这是由于注意力机制可以有效捕捉序列数据的时间依赖性。然而,由于Transformer忽略了客流的空间依赖性,因此在部分情况下预测效果并不是那么令人满意。因此,本文特意提出一个深度学习模型STAFN用于克服上述缺陷。该模型提出了多图注意力网络和卷积注意力层以充分考虑客流在假期期间复杂的时空依赖性,同时加入额外的假期相关社交媒体数据,研究假期对客流波动的影响,因此在不同的时间粒度下均取得了最优的预测效果。
表1 不同模型预测效果比较(加粗表示预测效果最佳)
站点级预测效果
假期期间并不是所有站点都具有明显的假期特征。部分位于商业区周围的站点可能具有显著的假期客流特征,而那些承担日常通勤或连接城市和郊区的车站则可能不具有显著的客流特征。本文选取了三个不同类型的站点研究模型在单个站点上的预测效果。第一个站点是亭洪路站,紧邻商业区,很多居民会选择在节假日来此处游玩;第二个站点是广西大学站,一个典型的以通勤为主的车站;第三个站是南宁火车站,该站是一个大型的换乘枢纽站,可以实现多种交通方式的换乘。具体预测效果如下图所示,可以看出无论是哪种类型的车站,模型均取得了良好的预测效果,说明模型在站点级的客流预测方面同样可以取得令人满意的预测精度。
图7 单个车站预测效果图
不同时间段的预测效果
为进一步研究STAFN在不同时间段的预测效果,本文计算了模型在每个时间段的平均损失,其预测效果如下图所示。首先从不同时段的预测效果与整体的预测效果进行分析比较,STAFN的预测效果无论是在单个时间段上还是总体上都比其他基准模型的预测效果要好,说明其预测效果较为稳定。接着分析同一个模型在不同时间段的预测效果。从图中可以看出,所有模型的评价指标都存在一个大体相似的趋势。与客流早晚高峰特征一致,不同时间间隔的评价指标有明显的高峰时段,说明客流急剧增加时,评价指标呈上升趋势。与其他模型相比,STAFN存在较轻的早晚高峰特征,说明STAFN在高峰时段和非高峰时段均具有较稳定的预测效果。
图8 模型在不同时段的预测效果比较
消融实验
本文进一步对模型结构、数据组成等方面进行详细的消融实验,验证模型框架的可靠性,主要考虑了以下几种情况:
(1)使用传统的自注意力机制:替换卷积注意力层为传统的注意力层;
(2)不使用注意力机制:去除卷积注意力层;
(3)使用传统的图卷积操作:替换多图注意力网络为图卷积操作;
(4)不使用图神经网络:去除多图注意力模块;
(5)不使用多重交通图:只使用物理邻阶图建模空间依赖性;
(6)不使用特征融合模块:仅使用常规的客流数据,不使用假期相关社交媒体数据;
(7)使用一年数据:仅使用当前年份数据,而不是连续两年数据进行预测。
下表展示了模型的消融实验结果,从表中可以看出STAFN的预测性能要优于其他所有变体,表明了各模块的有效性以及数据构成的可靠性。具体来说,当模型不使用注意力机制时,模型预测效果显著下降,这是因为模型此时无法有效捕捉客流复杂的时间依赖性;当模型将卷积注意力层替换为传统注意力层时,模型预测精度出行下滑,这表明卷积操作所捕捉的局部时间特征确实可以提升注意力机制在注意力权重分配方面的准确性。在图神经网络方面,当模型移除多图注意力模块后,STAFN取得较差的预测效果,这是因为模型无法建模复杂的空间依赖性;同时将模型的多图注意力模块替换为传统图卷积网络时,模型的预测效果不如原来,这表明多图注意力网络可以有效建模多重时间依赖性;另外,仅使用物理邻阶图对空间依赖性进行建模时,模型的预测效果明显受限,表明单一的物理邻阶图无法充分反映客流复杂的时空特性。在数据利用方面,当模型仅使用当前年份的客流数据进行训练,其预测精度远不如使用连续两年客流数据进行训练,表明使用连续两年假期客流数据确实有利于模型学习假期客流特征;另外,当模型不考虑与假期相关的社交媒体数据时,模型无法进一步学习客流在假期期间的总体演化趋势,因此预测效果下降。
以上的实验结果表明本文提出的模型架构可以充分捕捉元旦假期客流复杂的时空依赖关系,同时相关的社交媒体特征数据可以有效增强对元旦假期客流演变趋势的学习,从而保证了良好的假期客流预测性能。
表2 消融实验结果示意图
总结
本文以假期客流为研究对象,提出深度学习预测模型时空注意力融合网络(STAFN),旨在解决城市轨道交通假期期间短时客流预测问题。模型由多图注意力模块、卷积注意力层以及特征融合模块构成,可以有效捕捉动态复杂的时空依赖性,同时考虑了节假日相关的社交媒体数据,有利于进一步增强模型对假期客流演变趋势的学习。与最好的模型相比,模型的实验指标RMSE,MAE以及WMAPE分别提高了4.02%,5.98%,5.35%。
然而,本研究同样存在需要改进的地方。例如,除了假日相关社交媒体外,模型还可以考虑假日期间场所内的事件信息,这会在特定时间段内造成客流干扰。同时,本文考虑了社交媒体数据这一因素对假期客流波动的影响,其他因素例如POI数据、天气数据等同样会对客流分布产生影响,因此在未来研究中,可以尝试选择合适的因素进行研究,从而提高预测精度。另外,如何将STAFN应用于其他场景(其他节假日或COVID-19)的轨道交通客流预测中以提高模型的泛化能力,同样是一个值得研究的课题,未来可以尝试进行研究学习。