一、问题背景与数据概览
在城市交通管理系统中,准确预测道路通行时间对于智能交通调度和路径规划具有重要意义。本文基于真实道路传感器数据,构建了一个结合时间序列分解与机器学习模型的预测框架。数据源包含三个核心部分:
-
道路通行数据(new_gy_contest_traveltime_training_data_second.txt)
-
时间区间、路段ID、通行时间等字段
-
时间粒度为2分钟级别
-
-
道路属性数据(gy_contest_link_info.txt)
-
包含道路长度、宽度等静态特征
-
-
拓扑关系数据(gy_contest_link_top.txt)
-
记录路网的连接关系
-
二、数据预处理关键技术
2.1 异常值处理
采用分层分位数修剪方法,对每条道路每日数据:
def quantile_clip(group):
group[group < group.quantile(.05)] = group.quantile(.05)
group[group > group.quantile(.95)] = group.quantile(.95)
r