文章目录
- 前言
- 一、PEMS04.csv文件
- 二、adj_PEMS04.pkl文件
- 三、adj_PEMS04_distance.pkl文件
- 四、PEMS04.npz文件
前言
最近做的实验比较多,对于交通预测数据的各种文件和文件中的数据格式理解愈加混乱,因此打算重新做一遍梳理来加深实验数据集的理解,本文章作为一个记录。
注意:本文主要以BasicTS中的数据文件作为例子,因为该工具库整理的数据和模型比较有体系,在此附上github链接和数据集下载路径。网盘密码:6v0a
BasicTS官方Github
BasicTS数据集百度网盘下载
BasicTS的pems04数据集包含如下4个文件:
首先要导库
import pandas as pd
import numpy as np
一、PEMS04.csv文件
该文件包含了307个传感器(节点)之间的联通(边)信息
(from,to,cost)的节点边信息,表示源节点到目标节点联通,并且需要一定代价到达(可以理解为距离)
如下所示,一共有340条边。
二、adj_PEMS04.pkl文件
adj_PEMS04.pkl文件表示307个传感器构成的邻接矩阵,邻接矩阵只表示了传感器之间的联通关系。需要注意的是:这是一个对称矩阵(无向图)
这里给出在jupyter notebook下完全显示矩阵信息的代码,可以展开查看被省略的信息。
#显示所有行列
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
#还原设置
pd.reset_option("display.max_columns")
pd.reset_option("display.max_rows")
#np将数组的元素全部打印出来。
np.set_printoptions(threshold=np.inf)
三、adj_PEMS04_distance.pkl文件
同文件2的adj_PEMS04.pkl类似,不过该文件将文件1的PEMS04.csv的cost信息代入了邻接矩阵,即边具有权重。表示对称带权邻接矩阵
四、PEMS04.npz文件
PEMS04.npz是一个压缩文件,如下所示其中包含了一个key:data
然后查看该data的数据形式:
可以看到data里是一个三维数据,第一维16992表示数据的数目(即每条对应一个时刻),第二维307表示有307个传感器,第三维3表示传感器检测到的特征值,即3维特征为flow, occupy, speed。