GMEL:基于地理上下文嵌入的OD流预测

news2024/11/19 8:48:52

1 文章信息

文章题为“Learning Geo-Contextual Embeddings for Commuting Flow Prediction”,是一篇发表于The Thirty-Seventh AAAI Conference on Artificial Intelligence (AAAI-20)的一篇论文。该论文主要针对交通中OD流预测任务,从地理上下文信息中捕获空间相关性,同时设置多任务学习,确保嵌入表示的有效性,提升模型性能。

2 摘要

基于基础设施和土地利用信息预测起讫点(Origin-Destination, OD)流量对城市规划和公共政策制定至关重要。然而,由于OD流的时空规律较为复杂,因此实现OD流的准确预测是一项具有挑战性的任务。大多数现有的基于机器学习的方法忽略了空间相关性,无法对附近区域的影响进行建模。为解决这些问题,文章提出了地理上下文多任务嵌入学习(GMEL)模型,该模型从地理上下文信息中捕获空间相关性,用于通勤流量预测。具体来说,我们首先构建了一个包含地理上下文信息的地理邻接网络。在此基础上,提出了一种基于图注意网络(GAT)框架的注意机制,用于捕获空间相关性,并将地理上下文信息编码到嵌入空间中。两个单独的服务贸易总协定被用来模拟供给和需求特征。为提高嵌入表示的有效性,文章使用了一个多任务学习框架来引入更强的限制,获得有效的嵌入表示,从而进行流量预测。最后,基于模型所学习的嵌入训练一个梯度增强机(gradient boosting machine),实现OD流预测。文章使用来自纽约市的真实数据集评估我们的模型,实验结果证明了文章提出的方法的有效性。本文的主要贡献如下:

1、文章提出了一个从地理上下文信息中捕获空间相关性的模型(GMEL),并基于图注意力网络将信息编码到嵌入空间中。

2、文章使用来自纽约市的真实世界数据集进行广泛的实验。结果表明GMEL的有效性。

3 基本概念

地理单元:文章将城市划分为N个地理单元76dfb220d98a67f51ae9738ab4b08807.png,例如街道等。

城市指标:城市指标是一个向量,表示地理单元的城市指标特征,描述了地理单元的基础设施和土地利用的汇总信息。

通勤旅行记录(OD)及问题定义:文章用787305d7c802f519fd7cf35ebaed3a5f.png表示通勤旅行记录,其中表示地理单元i和地理单元j之间的通勤流量,即所谓的OD流量。文章旨在利用历史通勤流量(或OD流量)预测未来的通勤流量(或OD流量)。

4 模型结构

86ef42de2fc34d1a448bcb75ff61968b.png

地理语境多任务嵌入学习器(Geo-contextual Multitask Embedding Learner, GMEL):

GMEL旨在从地理环境中捕获空间相关性。GMEL利用图注意网络将地理上下文信息编码到嵌入空间中。为提取蕴含在基础设施和土地使用中的供需特征,GMEL采用两个单独的GAT将地理上下文信息编码到两个不同的嵌入空间中。为了确保嵌入表示的有效性,GMEL采用了多任务学习框架,该框架施加了更强的限制,迫使嵌入封装有效表示,从而实现OD预测。

预测器:结合GMEL学习到的嵌入表示,文章使用GBM(gradient boosting machine)作为回归模型实现OD流域测。

GMEL旨在学习对城市地理单元进行有效嵌入,并对地理上下文信息进行编码。为了分别学习每个地理单元的供给和需求特征,该模型使用两个单独的GAT来编码这些信息。然后将生成的嵌入应用于双线性函数来预测流量。同时,这些嵌入也将应用于两个线性函数来预测地理单元的流入/流出。整体预测损失是三个任务损失的加权和,文章使用反向传播以端到端方式训练GMEL。模型的整体结构如下图所示。

55e468f3944ee9e53d5a390758c45077.png

图注意力网络(GAT):假设第l层中,节点i的状态为84d6a383b26df2b53bcf11a1e672b53c.png,同时地理单元i和地理单元j之间的边特征为0198dc8b1c9d8d1212bc380a18818ac9.png,GAT首先对所有向量进行线性变化,如下式所示。

9de7ec14bd7541670e54a573f6bbe788.png

其中,ba36aaa90e0ea05da31bbf9877a92cd4.png是可学习参数。进一步计算每个边的注意力得分,05e532e9150dfda080ea6d5629f71022.png是可学习参数。

6db035ef55c332791d2d751d92328826.png

进一步,将上述注意力得分通过softmax归一化,并进行汇总求得第l+1层,节点i的状态表示。其中,4a46b5e1bca473e751a1a50024c7c3ea.png是可学习参数。

3839ac642e8ac74e71128fa27f2e7ce6.png

12c85da74e2f6bc21e955468abb18c6d.png

供需特征建模:通勤流量(OD流量)可以被视为供给和需求之间的一种空间互动,文章假设流动是由起源地理单元的供给特征和目的地地理单元的需求特征决定的。文章使用两个单独的GAT网络分别对起点和终点的特征进行提取,并将不同结果进行汇总。

多任务学习:模型包括一个主任务和两个子任务,其中,主任务为预测通勤流量(OD流量),依据两个单独的GAT网络的输出,通过下式计算未来OD流。

ee2306558e107a15035f59ff3a6aba1d.png

对应的损失函数如下。

5dadd2600be5b72298ad764c626afc78.png

子任务为进站流和出站流的预测,文章将进出预测作为两个子任务,即预测每个地理单元的进出站总数。直觉上,通勤流量和进出流量是高度相关的,因此,这两个子任务将对GMEL的训练过程施加更强的限制。同样,分别依据两个GAT模型的输出,分别计算进站流和出站流,如下所示。

500d9bf3c1e161db241d00cde23596e3.png

对应损失函数如下。

8b1a004e3f2f1e9ccead9d7b0ea35b12.png

总损失函数为上述三个任务对应损失的加权求和,如下式所示。其中,不同任务的权重为超参数。

87d73d85cf1d62092edfdbe4bd4459d1.png

模型的训练算法如下所示。

5c2ab03c07d6d7bdacdd7607254c488d.png

5 实验

文章在纽约市的真实数据集上验证了所提出的模型,同时文章使用2010年纽约市人口普查区作为地理单位(总共2168个单位)。对于通勤行程和城市指标,文章使用了以下数据集和方法:(1)OD数据集:LODES,该数据集记录了工人的住所和工作地点,代表了稳定的通勤流量。这些流量被聚合成地理单元级流。在纽约市收集了3031641名通勤者和905837对始发目的地旅行。文章以6:2:2的比例将通勤数据随机分为训练、验证和测试数据集;(2)土地利用数据:PLUTO,该数据集记录了2015年纽约市的土地利用和基础设施信息;(3)OSRM,该方法用于测量人口普查区质心之间的旅行距离。实验结果如下所示。

c2a148258ef1fca8ba083ff7d1a45476.png

进一步,文章为说明利用空间相关性的有效性,绘制了残差图,如下图所示。这些残差图显示了预测和实际流入流量之间的差异,其中红色表示预测值低于真实值,蓝色表示预测值高于真实值,浅蓝色表示预测值和真实值基本一致。GMEL利用地理背景信息捕捉空间相关性,能够考虑到感兴趣区域的特征和附近区域的影响。

3df37dec78c7bc58d82e557bd0fddce9.png

此外,文章还对模型的参数进行分析,如下图所示。包括GAT的层数,嵌入的大小以及多任务学习的权重,如下图所示。值得一提的是,多任务学习权重的最优取值为(0.5,0.5)。

91385c64f6d2e32460ca8dc661d9febc.png

6 总结

本文研究了仅利用基础设施和土地利用信息预测通勤流量的问题,这是城市规划和公共政策制定中的一个基本问题。与传统的重力模型和最近提出的机器学习方法不同,文章提出使用地理上下文信息进行通勤流量预测。为此,文章提出了一种基于图注意网络的端到端嵌入学习框架,用于学习地理单元的地理上下文嵌入。然后将学习到的嵌入输入到梯度增强机器中进行预测。文章利用纽约市的真实数据集进行了广泛的实验。结果表明,引入地理环境信息可以大大提高预测的准确性,并且文章所提出的模型优于所有基线方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1226014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

聊聊近些年 CPU 在微架构、IO 速率上的演进过程

大家好,我是飞哥! 在上一篇《深入了解 CPU 的型号、代际架构与微架构》 中我们介绍了我手头的一颗 Intel(R) Core(TM) i5 的型号规则,以及它的物理硬件的 Die 图结构。以及它对应的 Skylake 核的微架构实现。 不少同学开始问我其它型号的 CPU…

2023年【金属非金属矿山安全检查(地下矿山)】考试报名及金属非金属矿山安全检查(地下矿山)最新解析

题库来源:安全生产模拟考试一点通公众号小程序 金属非金属矿山安全检查(地下矿山)考试报名参考答案及金属非金属矿山安全检查(地下矿山)考试试题解析是安全生产模拟考试一点通题库老师及金属非金属矿山安全检查&#…

常见树种(贵州省):002杉类

摘要:本专栏树种介绍图片来源于PPBC中国植物图像库(下附网址),本文整理仅做交流学习使用,同时便于查找,如有侵权请联系删除。 图片网址:PPBC中国植物图像库——最大的植物分类图片库 一、杉木 …

超详细vue3选项式父子组件传值

一、问题背景 最近遇到了一个情景: 子组件干完事情,需要对父组件的变量进行更新,因为父组件将该变量传递给子组件,但是不会双向绑定,这时候我们就需要传值或者触发回调去解决这个问题 我们将分为两个部分 1.父组件传…

小美的排列构造

美团2024届秋招笔试第一场编程真题 贪心问题,得到所有n全排列中相邻两数的和,这些和差距要尽可能小。 显然如果1和2排一起,或者让n和n-1相邻都是错误的。最好的方式是让相邻两数的和接近(n1)/2。 比如:n 1 n-1 2...…

在excel中设置图表的标题

已经在excel做好了一个图,默认是没有标题的: 现在来设置一个标题。 双击图表,进入编辑状态: 右键,选择“插入标题”: 输入标题:

golang学习笔记——接口interfaces

文章目录 Go 语言接口例子空接口空接口的定义空接口的应用空接口作为函数的参数空接口作为map的值 类型断言接口值 类型断言例子001类型断言例子002类型断言例子003巩固练习 Go 语言接口 接口(interface)定义了一个对象的行为规范,只定义规范…

对象与this

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 最近想再聊聊Java的对象…

vscode pandas无法使用

一、代码内容 import csv csv_reader csv.reader(open("data.csv")) for row in csv_reader:print(row) print(row[2]) 二、错误提示 ModuleNotFoundError: No module named pandas 三、安装pandas 然后我安装pandas,因为我的python的版本是python …

C++类与对象(1)—初步认识

目录 一、面向过程和面向对象 二、类 1、定义 2、类的两种定义方式 3、访问限定符 4、命名规范化 5、类的实例化 6、计算类对象的大小 7、存储方式 三、this指针 1、定义 2、存储位置 3、辨析 四、封装好处 一、面向过程和面向对象 C语言是面向过程的&#xf…

新版mmdetection3d将3D bbox绘制到图像

环境信息 使用 python mmdet3d/utils/collect_env.py收集环境信息 sys.platform: linux Python: 3.7.12 | packaged by conda-forge | (default, Oct 26 2021, 06:08:21) [GCC 9.4.0] CUDA available: True numpy_random_seed: 2147483648 GPU 0,1: NVIDIA GeForce RTX 3090 …

11月19日

一、选择题1.一般认为,世界上第1台电子数字计算机诞生于()年。 A. 1946 B. 1952 C. 1959 D. 1962 1946 记:4 5 6 7 8 平均十年一代 一、计算机发展五代1946年, 世界上第一台数字电子计算机ENIAC 1.1946年开始,第一代电子管计算机…

<Linux>权限管理|权限分类|权限设置|权限掩码|粘滞位

文章目录 Linux权限的概念Linux权限管理a. 文件访问者的分类b. 文件类型和访问权限c. 文件权限表示方法d. 文件权限的设置权限掩码file指令粘滞位 权限总结权限作业 Linux权限的概念 Linux下有两种用户:超级用户(root)和普通用户。 超级用户:可以在Lin…

Python操作Excel常用方法汇总

目录 引言 一、使用pandas库操作Excel 1、读取Excel文件 2、写入Excel文件 3、处理Excel数据 二、使用openpyxl库操作Excel 1、读取Excel文件 2、写入Excel文件 3、处理Excel数据 三、高级功能 总结 引言 Python是一种功能强大的编程语言,它可以用来处理…

MongoDB相关基础操作(库、集合、文档)

文章目录 一、库的相关操作1、查看数据库2、查看当前库3、创建数据库4、删除数据库 二、集合的相关操作1、查看库中所有集合2、创建集合2.1、显示创建2.2、隐式创建 3、删除集合 三、文档的相关操作1、插入文档1.1、插入单条文档1.2、插入多条文档1.3、脚本方式 2、查询文档3、…

电商平台革新:食派士小程序的无代码开发与广告推广集成

食派士小程序:无代码开发的连接神器 食派士小程序,作为上海食派士商贸发展有限公司的专利产品,是一种凭借无代码开发,就能实现与各种系统的连接和集成的电商解决方案。它采用无代码开发的方式,避免了API开发的复杂过程…

原型网络Prototypical Network的python代码逐行解释,新手小白也可学会!!-----系列8

文章目录 前言一、原始代码二、对每一行代码的解释:总结 前言 这是该系列原型网络的最后一段代码及其详细解释,感谢各位的阅读! 一、原始代码 if __name__ __main__:##载入数据labels_trainData, labels_testData load_data() # labels_…

常见树种(贵州省):001松类

摘要:本专栏树种介绍图片来源于PPBC中国植物图像库(下附网址),本文整理仅做交流学习使用,同时便于查找,如有侵权请联系删除。 图片网址:PPBC中国植物图像库——最大的植物分类图片库 一、华山松…

麻将馆电脑计费系统,棋牌室怎么用电脑控制灯计时,佳易王计时计费系统软件下载

麻将馆电脑计费系统,棋牌室怎么用电脑控制灯计时,佳易王计时计费系统软件下 棋牌室电脑灯控系统,需要安装一个灯控器,软件发出开灯和关灯的指令,相应的灯就打开或关闭。在点击开始计时的时候,开灯&#xff…

黔院长 | 为什么要调经络?原来通经络对人体健康如此重要!

人体的组成较为复杂,在外有皮肤、毛发;在内有经络、五脏;其他还有我们看不到的精气、津液等等,也因此人体会生各种各样的疾病。 为什么说经络畅通对人体健康如此重要?身体内外始终是一个统一的整体,内外之间…