用 Python 制作空间数据可视化

news2025/1/15 23:20:03

大数据时代到来,随着智能设备与物联网技术的普及,人在社会生产活动中会产生大量的数据。在我们的日常活动中,手机会记录下我们到访过的地点;在使用城市公交IC卡、共享单车等服务时,服务供应商会知道这些出行需求产生的时间与地点;公交车与出租车的定位信息,也可以告诉我们城市交通状态的具体情况。这些具备时间、空间与个体属性的数据能够为城市交通的智慧管控提供强有力的支持。

交通领域目前需要处理的数据通常规模巨大、种类繁多,数据通常涉及个体级别连续追踪的时空数据。数据通常有多种来源,各种类型的数据格式不同、数据特征不同、数据质量不同,要求我们的处理技术能够灵活多变,针对不同数据情况有不同的处理方法,也对我们所需掌握的数据处理技术带来了巨大挑战。

本文将介绍如何使用TransBigData快速高效地处理、分析、挖掘出租车GPS数据。

1、TransBigData简介

TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据(如出租车GPS数据、共享单车数据和公交车GPS数据等)提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁、高效、灵活、易用,可以用简洁的代码实现复杂的数据任务。

目前,TransBigData主要提供以下方法:

  • 数据预处理:对数据集提供快速计算数据量、时间段、采样间隔等基本信息的方法,也针对多种数据噪声提供了相应的清洗方法。

  • 数据栅格化:提供在研究区域内生成、匹配多种类型的地理栅格(矩形、三角形、六边形及geohash栅格)的方法体系,能够以向量化的方式快速算法将空间点数据映射到地理栅格上。

  • 数据可视化:基于可视化包keplergl,用简单的代码即可在Jupyter Notebook上交互式地可视化展示数据。

  • 轨迹处理:从轨迹数据GPS点生成轨迹线型,轨迹点增密、稀疏化等。

  • 地图底图、坐标转换与计算:加载显示地图底图与各类特殊坐标系之间的坐标转换。

  • 特定处理方法:针对各类特定数据提供相应处理方法,如从出租车GPS数据中提取订单起讫点,从手机信令数据中识别居住地与工作地,从地铁网络GIS数据构建网络拓扑结构并计算最短路径等。

TransBigData可以通过pip或者conda安装,在命令提示符中运行下面代码即可安装:

pip install -U transbigdata 

安装完成后,在Python中运行如下代码即可导入TransBigData包。

import transbigdata as tbd

技术交流

技术要学会分享、交流,不建议闭门造车。 本文技术由粉丝群小伙伴分享汇总。源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、添加微信号:dkl88191,备注:来自CSDN +技术交流
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

2、数据预处理

TransBigData与数据处理中常用的Pandas和GeoPandas包能够无缝衔接。首先我们引入Pandas包并读取出租车GPS数据:

import pandas as pd  
  
# 读取数据  
data = pd.read_csv('TaxiData-Sample.csv',header = None)  
data.columns = ['VehicleNum','time','lon','lat','OpenStatus','Speed']  
data.head()  

结果如图2所示:

▲图2 出租车GPS数据

然后,引入GeoPandas包,读取研究范围的区域信息并展示:

import geopandas as gpd  
  
# 读取研究范围区域信息  
sz = gpd.read_file(r'sz/sz.shp')
sz.plot()  

结果如图3所示:

▲图3 研究范围的区域信息

TransBigData包集成了交通时空数据的一些常用预处理方法。其中,tbd.clean_outofshape方法输入数据和研究范围区域信息,能够剔除研究范围外的数据。而tbd.clean_taxi_status方法则可以剔除出租车GPS数据中载客状态瞬间变化的记录。在使用预处理方法时需要传入数据表中重要信息列所对应的列名,代码如下:

# 数据预处理  
#剔除研究范围外的数据,计算原理是在方法中先栅格化后栅格匹配研究范围后实现对应。因此这里需要同时定义栅格大小,越小则精度越高  
data = tbd.clean_outofshape(data, sz, col=['lon', 'lat'], accuracy=500)  
  
# 剔除出租车数据中载客状态瞬间变化的数据  
data = tbd.clean_taxi_status(data, col=['VehicleNum', 'time', 'OpenStatus'])  

经过上面代码的处理,我们就已经将出租车GPS数据中研究范围以外的数据和载客状态瞬间变化的数据予以剔除。

3、数据栅格化

栅格形式(地理空间上相同大小的网格)是表达数据分布最基本的方法,GPS数据经过栅格化后,每个数据点都含有其所在的栅格信息。采用栅格表达数据的分布时,其表示的分布情况与真实情况接近。

TransBigData工具为我们提供了一套完整、快速、便捷的栅格处理体系。用TransBigData进行栅格划分时,首先需要确定栅格化的参数(可以理解为定义了一个栅格坐标系),参数可以帮助我们快速进行栅格化:

# 定义研究范围边界  
bounds = [113.75, 22.4,114.62, 22.86]  
  
# 通过边界获取栅格化参数  
params = tbd.area_to_params(bounds,accuracy = 1000)  
params  

输出:

{'slon': 113.75,'slat': 22.4,'deltalon': 0.00974336289289822,'deltalat': 0.008993210412845813,'theta': 0,'method': 'rect','gridsize': 1000}

此时输出的栅格化参数params的内容存储了栅格坐标系的原点坐标(slon、slat)、单个栅格的经纬度长宽 (deltalon、deltalat)、栅格的旋转角度(theta)、栅格的形状(method参数,其值可以是方形rect、三角形tri和六边形hexa)以及栅格的大小(gridsize参数,单位为米)。

取得栅格化参数后,我们便可以用TransBigData中提供的方法对GPS数据进行栅格匹配、生成等操作。

完整的栅格处理方法体系如图4所示:

▲图4 TransBigData所提供的栅格处理体系

使用tbd.GPS_to_grid方法能够为每一个出租车GPS点生成,该方法会生成编号列LONCOL与 LATCOL,由这两列共同指定所在的栅格:

# 将GPS数据对应至栅格,将生成的栅格编号列赋值到数据表上作为新的两列  
data['LONCOL'],data['LATCOL']= tbd.GPS_to_grids(data['lon'],data['lat'],params)  

下一步,聚合集计每一栅格内的数据量,并为栅格生成地理几何图形,构建GeoDataFrame:

# 聚合集计栅格内数据量  
grid_agg=data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index()  
  
# 生成栅格的几何图形  
grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)  
  
# 转换为GeoDataFrame  
grid_agg=gpd.GeoDataFrame(grid_agg)  
  
# 绘制栅格  
grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r')  

结果如图5所示:

▲图5 数据栅格化的结果

对于一个正式的数据可视化图来说,我们还需要添加底图、色条、指北针和比例尺。TransBigData也提供了相应的功能,代码如下:

import matplotlib.pyplot as plt  
  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
  
# 添加行政区划边界作为底图  
sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.1),linewidths=0.5)  
  
# 定义色条位置  
cax = plt.axes([0.04, 0.33, 0.02, 0.3])  
plt.title('Data count')  
plt.sca(ax)  
  
# 绘制数据  
grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r',ax = ax,cax = cax,legend = True)  
  
# 添加指北针和比例尺  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

结果如图6所示:

▲图6 tbd包绘制的出租车GPS数据分布

4、订单起讫点OD提取与聚合集计

针对出租车GPS数据,TransBigData提供了直接从数据中提取出出租车订单起讫点(OD)信息的方法,代码如下:

# 从GPS数据提取OD  
oddat=tbd.taxigps_to_od(data,col=['VehicleNum','time','Lng','Lat','OpenStatus'])  
oddata  

结果如图7所示:

▲图7 tbd包提取的出租车OD

TransBigData包提供的栅格化方法可以让我们快速地进行栅格化定义,只需要修改accuracy参数,即可快速定义不同大小粒度的栅格。我们重新定义一个2km*2km的栅格坐标系,将其参数传入tbd.odagg_grid方法对OD进行栅格化聚合集计并生成GeoDataFrame:

# 重新定义栅格,获取栅格化参数  
params=tbd.area_to_params(bounds,accuracy = 2000)  
  
# 栅格化OD并集计  
od_gdf=tbd.odagg_grid(oddata,params)od_gdf.plot(column = 'count')  

结果如图8所示:

▲图8 tbd集计的栅格OD

添加地图底图,色条与比例尺指北针:

# 创建图框  
import matplotlib.pyplot as plt  
  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
  
# 添加行政区划边界作为底图  
sz.plot(ax=ax,edgecolor=(0,0,0,1),facecolor=(0,0,0,0),linewidths=0.5)  
  
# 绘制colorbar  
cax=plt.axes([0.05, 0.33, 0.02, 0.3])  
plt.title('Data count')  
plt.sca(ax)  
  
# 绘制OD  
od_gdf.plot(ax = ax,column = 'count',cmap = 'Blues_r',linewidth = 0.5,vmax = 10,cax = cax,legend = True)  
  
# 添加比例尺和指北针tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

结果如图9所示:

▲ 图9 TransBigData绘制的栅格OD数据

同时,TransBigData包也提供了将OD直接聚合集计到区域间的方法:

# OD集计到区域  
  
# 方法1:在不传入栅格化参数时,直接用经纬度匹配  
od_gdf = tbd.odagg_shape(oddata,sz,round_accuracy=6)  
  
# 方法2:传入栅格化参数时,程序会先栅格化后匹配以加快运算速度,数据量大时建议使用  
od_gdf = tbd.odagg_shape(oddata,sz,params = params)  
od_gdf.plot(column = 'count')  

结果如图10所示:

▲图10 tbd集计的小区OD

加载地图底图并调整出图参数:

# 创建图框  
import matplotlib.pyplot as plt  
import plot_map  
  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
  
# 添加行政区划边界作为底图  
sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.2),linewidths=0.5)  
  
# 绘制colorbar  
cax = plt.axes([0.05, 0.33, 0.02, 0.3])plt.title('count')  
plt.sca(ax)  
  
# 绘制OD  
od_gdf.plot(ax = ax,vmax = 100,column = 'count',cax = cax,cmap = 'autumn_r',linewidth = 1,legend = True)  
  
# 添加比例尺和指北针  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

结果如图11所示:

▲ 图11区域间OD可视化结果

5、交互可视化

在TransBigData中,我们可以对出租车数据使用简单的代码在jupyter notebook中快速进行交互可视化。这些可视化方法底层依托了keplergl包,可视化的结果不再是静态的图片,而是能够与鼠标响应交互的地图应用。

tbd.visualization_data方法可以实现数据分布的可视化,将数据传入该方法后,TransBigData会首先对数据点进行栅格集计,然后生成数据的栅格,并将数据量映射至颜色上。代码如下:

# 可视化数据点分布  
tbd.visualization_data(data,col = ['lon','lat'],accuracy=1000,height = 500) 

结果如图12所示:

▲ 图12数据分布的栅格可视化

对于出租车数据中所提取出的出行OD,也可使用tbd.visualization_od方法实现OD的弧线可视化。该方法也会对OD数据进行栅格聚合集计,生成OD弧线,并将不同大小的OD出行量映射至不同颜色。代码如下:

# 可视化数据点分布  
tbd.visualization_od(oddata,accuracy=2000,height = 500)  

结果如图13所示:

▲ 图13 OD分布的弧线可视化

对个体级的连续追踪数据,tbd.visualization_trip方法可以将数据点处理为带有时间戳的轨迹信息并动态地展示,代码如下:

# 动态可视化轨迹  
tbd.visualization_trip(data,col = ['lon','lat','VehicleNum','time'],height = 500)  

结果图14所示。点击其中的播放键,可以看到出租车运行的动态轨迹效果。

![](https://img-blog.csdnimg.cn/img_convert/248a63eec7f1047d10bd76fa37507ebd.gif

▲ 图14出租车轨迹动态可视化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gdb相关知识

cdir和cwd 当我们用gdb的命令show dir的时候,显示源码搜寻目录: cdir: 代表编译路径,可以打个断点,然后用info source命令查看。 cwd: 代表当下调试的目录,直接用pwd就可以。 添加新的搜索路径 dir /opt/nmt搜索路…

Gemini撕DCG诉感情被骗,灰度百亿大饼持仓却不会爆雷?

插播:《刘教链比特币原理》音频课正在连载中。今天次条是第一章第2节“1-2 比特币的特点和使用”,推荐每一位读者学习。点击此处查看付费合集详情[链接]以及上一课“1-1 五分钟告诉你什么是比特币和区块链”[链接]。* * *比特币今晨突然急速上涨&#xf…

Qt OpenGL(09)在着色器中实现旋转的彩色正方体

文章目录在着色器中实现旋转的彩色正方体旋转矩阵沿x轴旋转:沿y轴旋转:沿z轴旋转:在顶点着色器中实现顶一个vec3的变量 theta计算余弦和正弦值定义3个旋转矩阵最终代码在着色器中实现旋转的彩色正方体 一直觉得用OpenGL 画一个立方体或者彩色…

黑马学ElasticSearch(八)

目录: (1)黑马旅游案例-搜素-分页 (2)黑马旅游案例-条件过滤 (3)黑马旅游案例-我附近的酒店 (4)黑马旅游案例-广告置顶 (1)黑马旅游案例-搜素…

C语言 自定义类型 之 【结构体】

文章目录前言结构体类型的声明结构的自引用结构体变量的定义和初始化定义初始化结构体内存对齐结构体传参结构体实现位段什么是位段?位段的内存分配位段的跨平台问题位段的应用写在最后前言 C语言中结构体是一种用户自定义的数据类型,它相当于一个小型的…

Python3 微信支付(小程序支付)V3接口

起因: 因公司项目需要网上充值功能,从而对接微信支付,目前也只对接了微信支付的小程序支付功能,在网上找到的都是对接微信支付V2版本接口,与我所对接的接口版本不一致,无法使用,特此记录下微信支付完成功能…

中缀表达式怎么转后缀表达式

对于中缀表达式:1 2 * 3 中缀表达式是相对于人来说的,因为我们人是会判断和*的运算优先级谁高谁低 但是计算机是不会判断的,因为计算机是默认从左向右读取数据,它先遇到 就会计算,其结果是不对的。它不会提前看到后面…

使用nvm实现多个Node.js版本之间切换

使用nvm实现多个Node.js版本之间切换1.先卸载掉本系统中原有的node版本。2.去github上下载nvm安装包3.安装node常用的一些nvm命令什么是nvm? nvm是一个简单的bash脚本,它是用来管理系统中多个已存的Node.js版本。这样做主要是我的vue项目对node的版本有…

6.3、动态主机配置协议 DHCP

1、DHCP的作用 如下所示,我们如何配置用户主机,才能是用户主机正常访问网络中的 Web 服务器 即:需要给网络中的各主机正确配置 IP 地址、子网掩码、默认网关、DNS 服务器等网络相关配置信息 例如:如下所示,手工配置的…

Wind X R2 蓝牙5.2双模热插拔PCB

键盘使用说明索引(均为出厂默认值)软件支持一些常见问题解答(FAQ)首次使用测试步骤蓝牙配对规则(重要)蓝牙和USB切换键盘默认层默认触发层0的FN键配置的功能默认功能层1配置的功能默认的快捷键蓝牙参数蓝牙…

从图谱看美创,全面覆盖《数据安全产品与服务图谱2.0》

第二届数据安全治理峰会上,《数据安全产品与服务图谱2.0》(下简称:图谱2.0)正式发布。图谱2.0在原图谱框架的基础上实现了更具体系化、层次化的升级迭代,旨在进一步打通供需双方对当前主流数据安全产品与服务的认知&am…

element table数据量太大导致网页卡死崩溃

做后台项目时,一次性在表格中加载几百上千条数据,发现有时页面会崩溃。究其原因,发现是一次渲染dom太多导致卡顿。在此尝试了多种解决方法,发现最优的就是替换组件,elementUI中的表格组件el-table性能不优,…

【Linux】除了Linux基础命令外 你还应知道的命令

Linux基础命令补充一、Linux版本信息:二、云服务器的登录方法三、Linux指令1.whoami显示当前用户名2.cd加特殊符号3.stat查看文件的所有的属性4.echo用于在终端设备上输出指定字符串5.wc统计文件的字节数、单词数、行数等信息6.|管道操作符7.sort对文件内容按照ASCII码值进行排…

Node.js篇-安装与配置,基本使用,服务器,项目搭建,调试

1.安装与配置官网下载, 并配置环境变量查看安装成功/版本号: DOS命令 node -v运行JS文件: node 文件名.js2.基本使用(1)CommonJS模块化Node.js遵循了CommonJS模块化规范( e.g: 自定义模块 )使用module.exports 导出// commonjs模块化开发 function sum(){ //代码 } function…

使用Transformers 和 Tokenizers从头训练一个 language model

这是训练一个 ‘小’ 模型的demo (84 M parameters 6 layers, 768 hidden size, 12 attention heads) – 跟DistilBERT有着相同的layers & heads,语言不是英语,而是 Esperanto 。然后可以微调这个模型在下游的序列标注任务。 下载数据集 Esperant…

代码随想录算法训练营第二天|977.有序数组的平方 ,209.长度最小的子数组 ,59.螺旋矩阵II

一、参考资料有序数组的平方 题目链接:https://leetcode.cn/problems/squares-of-a-sorted-array/文章讲解:https://programmercarl.com/0977.%E6%9C%89%E5%BA%8F%E6%95%B0%E7%BB%84%E7%9A%84%E5%B9%B3%E6%96%B9.html视频讲解: https://www.b…

2.1 面向对象

文章目录初始对象成员方法构造方法其他内置方法封装继承继承的基础语法pass复写和使用父类成员类型注解变量的类型注解函数(方法)的类型注解Union类型多态初始对象 样例: # 定义类 class Student:name Nonegender None # 创建对象 stu_1 …

谷粒商城项目之高级篇笔记(一)

目录1 商城业务1.1 商品上架1.1.1 商品Mapping1.1.2 建立product索引1.1.3 上架细节1.1.4 数据一致性1.1.5 代码实现1)先查库存(商品微服务远程调用库存微服务)2)商品上架,保存到es中(商品微服务远程调用搜…

小波分析——5.使用小波对信号去噪以及重构

文章目录假设有一个原始信号我们在前面的内容中已经介绍过,小波是什么,小波是如何对信号进行分解,以及小波对信号成分是如何分析的,今天在这篇文章,也是整个小波分析最后一个章节里,我们来谈谈小波最重要的…

Java获取上传的文件大小并且转换对文件大小进行单位转化

前言 今天产品提出来一个需求,上传文件的时候要记录文件的大小,并且保存到数据库里面。 正好借着这个机会,分享下对文件大小进行单位转化的一个方法。 获取文件大小(原字节)。 一般和前后端进行文件交互,都是通过MultipartFil…