TRB(Transportation Research Board,美国交通研究委员会,简称TRB)会议是交通研究领域知名度最高学术会议之一,近年来的参会人数已经超过了2万名,是参与人数和国家最多的学术盛会。TRB会议几乎涵盖了交通领域的所有主题,主要包括公路、铁路、水运、航空、管道等诸多领域,接收来自交通系统、交通工程、交通政策、交通管理、交通实际操作、政府研究、学术研究和工业界最新的研究成果。TRB会议的论文反映了交通领域的研究前沿,具有广泛的参考价值。
本文主要介绍我们在交通领域被TRB 2024接收的关于交通事件检测的研究工作,论文的题目为《A Hybrid Model for Traffic Incident Detection based on Generative Adversarial Networks and Transformer Model》,第一作者为陆新颖。交通事件检测是智能交通系统的核心任务之一,由于交通数据中大部分为无事件样本,有事件样本是少数,因此有事件样本和无事件样本的数目严重不平衡,此外,如何获取大规模交通数据集也是一个非常重大的挑战。为了解决上述问题,本文提出了一种结合Transformer和生成对抗网络(GANs)的混合模型。实验表明本文提出的混合模型既能够扩大数据集中有事件样本的数目,实现有事件样本与无事件样本的平衡,又能够全面提升交通事件检测的性能。
1. 背景与挑战
本文聚焦于交通事件检测,强调了在智能交通系统中交通事件检测的重要性。交通事件检测面临的挑战主要涉及获取大规模且平衡的数据集、传统算法的限制,以及深度学习模型对实际数据的依赖性。特别是数据集不平衡可能导致性能偏差。为解决这些问题,本文聚焦于严重不平衡与规模小的数据集情况,对交通事件检测任务进行一系列的探索,主要涉及两个方面:
(1) 数据集小和样本不平衡问题
论文强调交通事件数据集普遍存在严重的样本不平衡问题,即有事件样本与无事件样本的比例严重失衡。这种不平衡可能导致模型在对事件样本的识别上表现不佳,因为模型更容易被训练为预测正常情况。
(2) 应用深度学习模型先进性
针对交通事件检测任务,论文倡导采用深度学习模型,特别是Transformer模型。深度学习模型相较于传统机器学习方法在处理复杂非线性关系上具有显著优势。
2. 方法
本文提出的基于GANs和Transformer的混合模型的整体架构如图1所示。GANs在解决输入模型中数据不平衡和样本不足的挑战中起着关键作用。另一方面,Transformer模型擅长有效捕捉全局上下文依赖,促进对输入序列语义含义的全面理解。这种混合模型的独特之处在于巧妙地利用GANs的对抗特性,不断训练和优化以生成可靠的新样本,从而丰富样本多样性并增加数据量。因此,训练后的模型表现出更强的性能,更适应在真实世界中遇到的复杂且不断变化的数据分布。此外,通过整合Transformer模型的特性,混合方法缓解了传统顺序模型常见的梯度消失或梯度爆炸等潜在问题。这种特性增强了模型在训练过程中的鲁棒性,并使其在处理长程依赖性方面表现出色。总之,所提出的混合模型巧妙地结合了GANs和Transformer的优势,有效解决了与数据集小和样本不平衡有关的挑战。此外,该模型在理解输入序列的语义信息和管理全局依赖性方面表现出色。这种融合使其成为一个在各种实际应用中具有巨大潜力的强大工具。
图1 本文模型的架构
3. 实验结果
实验使用的数据集包括PeMS数据集、I-880数据集、Whitemud Drive数据集、NGSIM数据集。交通事件检测算法的性能评价指标包括检测率(DR)、误报率(FAR)、分类正确率(CR)以及ROC曲线下的面积(AUC)。本文提出的混合模型将生成对抗模型与Transformer模型结合在一起,其中生成对抗模型负责将不平衡的数据集增强为平衡的数据集。为了验证在交通事件检测中平衡数据集的重要性,生成对抗模型被用于将四个数据集增强到不同的有事件与无事件样本的比例。然后,使用对比方法分别在原始数据集和不同比例的增强数据集上进行比较实验,旨在验证进行交通事件检测时平衡数据集的重要性。实验结果表明模型在平衡数据集上训练得到的模型具有更好的检测性能,尤其是在假阳率方面,可使之显著降低。实验结果还表明,本文提出的模型在交通事件检测的各指标上都有优越的表现。
4. 总结
本文提出的结合Transformer和生成对抗网络(GANs)的混合模型有效地解决了交通事件检测中数据集样本严重不平衡的问题,同时本文提出的混合模型也可用来扩充交通数据集的规模,实现通过算法来扩充数据样本的目标,从而可以节约交通数据采集的经济成本和时间成本。更为重要的是,本文提出的混合模型全面提升了交通事件检测的性能,有着良好的实际应用价值。