【每日一篇】UrbanGPT：时空大语言模型【方便自己看】

摘要

时空预测旨在预测和洞察城市环境在时间和空间上不断变化的动态。它的目的是预测未来的模式，趋势和城市生活的各个方面的事件，包括交通，人口流动和犯罪率。虽然已经有许多努力致力于开发神经网络技术来准确预测时空数据，但重要的是要注意，这些方法中的许多方法在很大程度上依赖于具有足够的标记数据来生成精确的时空表示。不幸的是，数据稀缺的问题是普遍存在于实际的城市感知场景。在某些情况下，从下游场景中收集任何标记的数据变得具有挑战性，从而进一步加剧了问题。因此，有必要建立一个时空模型，可以在不同的时空学习场景中表现出强大的泛化能力。从大型语言模型（LLM）的显着成就中获得灵感，我们的目标是创建一个时空LLM，可以在广泛的下游城市任务中表现出卓越的泛化能力。为了实现这一目标，我们提出了UrbanGPT，它无缝地集成了时空依赖性编码器的预防调整范例。这种集成使LLM能够理解跨时间和空间的复杂相互依赖关系，从而在数据稀缺的情况下实现更全面和准确的预测。为了验证我们的方法的有效性，我们在各种公共数据集上进行了广泛的实验，涵盖了不同的时空预测任务。结果一致表明，我们的UrbanGPT凭借其精心设计的架构，始终优于最先进的基线。这些发现突出了构建用于时空学习的大型语言模型的潜力，特别是在标记数据稀缺的零拍摄场景中。

1 介绍

时空预测的动机是准确预测和获得有价值的洞察城市环境的动态性质。通过分析和理解跨时间和空间的不断变化的动态，时空预测使我们能够预测未来的模式，趋势和各种事件。城市生活的方方面面。这在城市计算领域具有重要意义，预测交通模式的能力可以优化交通流量，减少拥堵，并提高整体城市流动性[18，31]。此外，预测人口流动有助于有效的城市规划和资源分配[7，20]。此外，预测犯罪的能力可以大大有助于加强公共安全[32]。时空预测在塑造更智能、更高效的城市方面发挥着至关重要的作用，最终提高城市生活质量。重要的是要强调在这个时空预测领域中通常采用的各种类型的神经网络架构。这些架构旨在捕获和建模数据中空间和时间维度之间的复杂关系。一种广泛采用的架构是卷积神经网络（CNN）[15，39，45]，它通过在输入数据中应用卷积滤波器来有效地提取空间特征。另一种时空神经网络是递归神经网络（RNN）家族[1，34，43]。这些时空RNN非常适合通过保持可以随时间保留信息的记忆状态来捕获时间依赖性。最近，图神经网络（GNN）用于时空预测的使用激增[36，40，47]。GNN擅长在以图形表示的数据中建模复杂的空间关系，其中每个节点对应于一个空间位置，而边则捕捉它们之间的连接。虽然目前的时空神经网络技术已被证明是非常有效的，但关键是要认识到它们对大量标记数据的强烈依赖，以便生成准确的预测。然而，在实际的城市感知场景中普遍存在的数据稀缺问题构成了一个重大挑战。例如，在整个城市空间部署传感器来监测全市的交通量或空气质量是不切实际的，因为涉及的成本很高[17，41]。此外，有限的标记数据可用性的挑战扩展到不同城市的时空预测，其中获取每个目标城市的标记数据成为一项艰巨的任务[13，38]。这些问题强调了对新型解决方案的迫切需求，这些解决方案可以解决数据稀缺问题，并增强各种智慧城市应用中时空模型的泛化能力。受大型语言模型（LLM）的显着进步的启发，我们的主要目标是创建一个时空LLM，在各种城市任务中具有出色的泛化能力。利用LLM固有的推理能力，我们的目标是将其成功扩展到时空分析领域。我们的目标是开发一个模型，可以有效地理解和预测复杂的空间和时间模式，使其能够在各种城市场景中脱颖而出。虽然开发一个通用的时空模型能够有效地处理不同的下游是至关重要的任务、将时空上下文与大型语言模型（LLM）的知识空间对齐并使它们能够理解跨越时间和空间的复杂依赖性提出了重大挑战。这些障碍需要细致的模型设计，以弥合时空数据的独特特征与LLMs中编码的知识之间的差距。鉴于这些挑战，我们提出了UrbanGPT，一个专门为时空预测量身定制的大型语言模型。

UrbanGPT的核心是一种新颖的时空指令调优范式，它试图将复杂的时间和空间依赖关系与LLM的知识空间相匹配。在我们的UrbanGPT框架中，我们首先引入了一个时空相关性编码器，它利用了一个多级时间卷积网络。该编码器使模型能够跨越各种时间分辨率捕获时空数据中存在的复杂的时间动态。然后，我们的模型包括对齐文本和时空信息，以使语言模型能够有效地注入时空语境信号。这是通过利用投射时空依赖性表示的轻量级对齐模块来实现的。其结果是通过整合来自文本和时空域的有价值的信息来生成更具表达力的语义表示。通过在指令调优过程中结合时空信息，语言模型在理解和处理时空数据中发现的复杂关系和模式方面获得了熟练度。通过充分利用从时空域获得的洞察力，语言模型变得更好地装备以捕捉时空现象的细微差别和复杂性。这反过来又使模型能够在各种城市场景中做出更可靠、更有见地的预测，即使在面临有限数据可用性的情况下也是如此。

为了展示我们提出的模型的上级预测性能，我们将其与大语言模型（LLaMA 70 B）和时空图神经网络（STGCN）在由文本指令指导的零射击交通流预测场景中进行了比较，如图1所示。大型语言模型LLaMA可以有效地从输入文本中推断出流量模式。然而，它在处理具有复杂空间和时间依赖性的数字时间序列数据方面的局限性有时会导致相反的交通趋势预测。另一方面，预训练的基线模型表现出对时空依赖性的强烈理解。然而，它可能会受到过度拟合的源数据集和表现不佳的零杆的情况下，表明其有限的泛化能力超出现有的时空预测模型。相比之下，我们提出的模型实现了特定领域的时空知识和语言建模能力的和谐集成。这使我们能够在数据稀缺的情况下做出更准确、更可靠的预测。总的来说，我们的主要贡献可以概括如下：·据我们所知，这是首次尝试开发一种时空大型语言模型，能够预测不同数据集的各种城市现象，特别是在数据有限的情况下。我们提出了UrbanGPT，这是一个时空预测框架，它使大型语言模型（LLM）能够理解跨时间和空间的复杂相互依赖关系。这是通过将时空依赖性编码器与预处理调谐范例无缝集成来实现的，从而有效地将时空上下文与LLM对齐。·在三个基准数据集上进行的广泛实验提供了令人信服的证据，证明我们提出的UrbanGPT在零拍摄时空学习场景中具有非凡的泛化能力。这些发现突出了该模型强大的泛化能力，证明了其在准确预测和理解时空模式方面的有效性，即使在没有先验训练数据的情况下也是如此。

图一：提出的UrbanGPT的上级预测性能相比，大语言模型（LLaMA-70 B）和时空图神经网络（STGCN）在零拍交通流预测的情况下。

2 准备工作

时空数据。时空数据通常被收集，并且可以表示为三维张量 $X \in R^{R \times T \times F}$ 。𝑇𝑅张量中的每个元素 $X_{r,t,f}$ ，对应于第 r 个区域中第 t 个时间间隔的第 f 个特征的值。举个例子，让我们考虑预测城市区域的出租车交通模式。在这种情况下，数据可以代表特定区域内出租车的流入和流出（例如，第i个空间区域）在给定的时间段从t 到t-1 的期间（例如，30分钟间隔）。

时空预测。在时空预测任务中，常见的场景涉及使用历史数据来预测未来趋势。具体地说，目标是根据前面的时间步的信息预测下一个时间步的数据。

函数f（·）表示已使用历史数据有效训练的时空预测模型。时空预测任务可以分为两大类：回归预测，涉及预测交通流量或出租车需求等连续值[22]，以及分类预测，目标是对事件进行分类，如犯罪发生预测[11]。为了优化模型，使用不同的损失函数𝑓基于时空情景的具体特征。

时空Zero-shot学习。尽管当前的时空学习方法很有效，但它们在有效地推广广泛的下游时空学习场景时经常遇到困难。在这项研究中，我们的重点是解决时空零拍摄场景的挑战，我们的目标是从下游时空预测数据集或任务中以前看不见的数据中学习。这可以正式定义如下：

在此特定场景中，预测函数 $\hat{f}$ （·）负责预测来自先前未遇到的下游任务的时空数据 $\tilde{X}$ 。应该注意的是，模型训练器 $\hat{f}$ （·）不是专门针对目标数据进行训练的。

3模型

3.1 时空相关编码器

虽然大型语言模型在语言处理方面表现出了非凡的能力，但它们在理解时空数据中固有的时间演变模式方面面临挑战。为了克服这一限制，我们建议增强大型语言模型的能力，以捕捉时空背景下的时间依赖关系。这是通过集成一个时空编码器，结合了一个多级时间卷积网络。通过这样做，我们使模型能够有效地捕获各种时间分辨率之间的复杂时间依赖关系，从而提高其对时空数据中复杂时间动态的理解。具体来说，我们的时空编码器是由两个关键组成部分：一个门控扩张卷积层和一个多级相关注入层。让我们将此架构形式化为：

我们从初始的时空嵌入开始，记为。𝑇该嵌入是通过经由线性层增强原始数据X而获得的。为了解决梯度消失的问题，我们利用了 $E_r$ 的一个切片，记为 $E'_r \in R^{T\ \times d}$ ，它由扩张卷积核的大小决定。该切片用于执行残差运算。为了执行残差运算，我们使用1-D扩张卷积核，沿着相应的偏差项。 $\delta$ 利用S形激活函数来控制卷积运算过程中的信息保存程度。在门控时间扩张卷积层编码之后，我们能够有效地捕获跨多个时间步长的时间依赖性，从而产生时间表示。