为推进 AI4S 的普适化,降低学术机构科研成果的传播壁垒,为更多行业学者、科技爱好者及产业单位提供交流平台,HyperAI超神经策划了「Meet AI4S」系列直播栏目, 邀请深耕 AI for Science 领域的科研人员或相关单位,以视频的形式分享研究成果、方法思路。
在「Meet AI4S」系列直播第一期中,我们有幸邀请到了浙江大学遥感与地理信息系统博士生丁佳乐, 他所在的浙江省资源与环境信息系统重点实验室,面向数字地球和地理信息系统、遥感和全球定位系统等国家高新科技领域,已经发布了多项高价值研究成果。
本次分享,丁佳乐博士以「神经网络为房价的空间异质性提供新解释」为题, 分享了他的最新研究成果。该研究将一种由神经网络优化的空间邻近性度量 (OSP) 与地理神经网络加权回归方法进一步结合,构建了 osp-GNNWR 模型,通过解算因变量与自变量的空间非平稳回归关系实现神经网络的训练,能更准确地描述复杂的空间过程和地理现象。
点击查看完整直播回放 ⬇️
https://www.bilibili.com/video/BV14W42197on/
HyperAI超神经在不违原意的前提下,对丁佳乐博士的本次深度分享进行了整理汇总。
从模型可解释性出发,推动科学未来发展
身为一个地理科学的探索者,如果我们推出的模型只能简单预测房价,那这样的成果在我看来是无趣的。我们追求的是,借助这些模型输出的一系列随空间位置而变化的回归系数,来对地理过程或者地理模式做出合理的科学解释, 这样的研究才更具有前瞻性和实用性。正是基于这样的愿景,我今天选择了「神经网络为房价的空间异质性提供新的解释」这一主题进行分享。
前段时间,我们团队在地理信息科学领域知名期刊 International Journal of Geographical Information Science 上发表了题为「A neural network model to optimize the measure of spatial proximity in geographically weighted regression approach: a case study on house price in Wuhan」的研究论文。
论文地址:
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771
在该研究中,我们引入了神经网络方法对观测点间的多种空间邻近性度量 (如欧式距离、旅行时间等) 进行非线性耦合,得到优化的空间邻近性度量 (OSP),从而提升模型对房价预测的准确性。
为解决抽象的「空间邻近性」无法构造损失函数、神经网络难以训练等问题,我们还将 OSP 与地理神经网络加权回归方法 (Geographically Neural Network Weighted Regression, GNNWR) 进一步结合,构建了 osp-GNNWR 模型, 通过解算因变量与自变量的空间非平稳回归关系实现神经网络的训练。最终,该模型被证明具有更好的全局性能,能更准确地描述复杂的空间过程和地理现象。
接下来,我将以该成果为案例,向大家分享神经网络为房价的空间异质性提供新解释的具体流程。
研究背景:双重挑战下的科研突破
「空间异质性」是造成房价波动的关键因素,但单一的距离度量方式在捕捉复杂地理环境中房价的「空间异质性」时捉襟见肘;传统地理加权回归模型 (GWR) 在衡量空间邻近性时也面临挑战。正是由于这些因素,我们选择开展本项研究。
空间异质性:不同空间的差异性表达
首先,我先向大家介绍一下空间异质性和地理加权回归的背景。
普通线性回归模型 OLS 是确定变量回归关系最常用且最基础的统计方法,使用一个非常简洁的公式来描述因变量和多个自变量的关系,如下图所示,y 等于一个截距项,加上若干个回归系数和自变量的乘积。
当我们把 OLS 等统计学方法应用在地理学时,往往需要考虑到一些地理问题固有的空间特征, 于是就产生了空间统计和时空建模的相关研究。
普通线性回归模型会假定:回归系数和样本数据的空间位置和时间位置无关,计算得到的自变量系数是在研究区域的平均水平。
但是,现实地理过程中的回归关系会在不同的空间位置上会表现出差异性。 以房价为例,同样户型的一个房屋,在市中心和郊区的主要影响因素是不同的,因此它们的回归关系也有不同的形式,我们把这种特征称为空间异质性(空间非平稳性)。
空间异质性是地理要素关系描述的固有特征,是地理要素关系或结构在不同时空位置所具有的差异性表达。它意味着数据在不同空间位置的生成机制存在差异,会表现为相应的回归模型形式、或者参数会随空间的位置进行变化。
地理加权回归:通过核函数实现从空间邻近性到权重的转换
地理加权回归 (GWR) 是由美国 A. Stewart Fotheringham 院士提出的一种对空间异质过程的建模方法。
通过下图的公式可以看到,虽然 GWR 的整体形式还是线性回归关系,但它的截距项和回归系数变成了与坐标位置 (ui, vi) 的映射关系。也就是说,在不同的坐标位置上,它的回归关系是不同的,整个公式反映出来的回归关系也会随着空间位置有不同的改变。
GWR 的回归系数很难确定, 现在最常用的解算方法类似 OLS,即用一个加权的最小二乘法进行解算。
在下图的公式中,对角权重矩阵 W 用于对样本进行加权,可反映自变量之间的空间关联性。具体而言,样本之间的权重是根据样本的空间邻近性解算的, 空间上越临近的两个点会有越强的关联性,我们就会给它分配更大的权重,并以此来进行建模。
如何实现从空间邻近性到权重的转换? GWR 是通过一个核函数,比如说高斯核函数、双平方核函数等,来把空间邻近性转化到一个权重,从而实现权重方程构造。不过,这种方法存在一定的局限性。
过去,空间异质过程建模的关键是以时空位置邻近性 (Proximity) 度量为基础,进行时空权重核函数的设计与构建,进而利用局部加权回归理论建立非平稳性目标解算函数,通过模型评价准则的最优求解,实现时空非平稳关系的地理建模。
现有研究对这种方法的改进也多侧重于细化核函数的使用范畴,进而建立含有多带宽参数的混合核模型,却忽略了对核函数本身结构的改进与发展: 比如,以单参数解析为核心的现有核函数结构体系较为简单,难以充分估计时空邻近性对时空权重的复杂作用,导致无法精准解算复杂地理关系的时空非平稳特性。
随着近年大数据的不断发展,充分发挥大数据环境下的海量数据优势,高效利用深度神经网络的非线性拟合能力,使用神经网络来解释空间异质性,是解决当前时空关系建模方法发展困境的可行方案。
如何利用神经网络来解释空间异质性?
融合 SWNN,GNNWR 具有更强的泛化能力
之前,我们曾提出过一个地理神经网络加权回归模型 GNNWR,该模型用一个深度神经网络(空间加权神经网络 SWNN)来为每个位置上的样本赋予一系列空间权重。
GNNWR 论文地址:
https://doi.org/10.1080/13658816.2019.1707834
具体而言,SWNN 以每个样本点到其他样本点的距离向量为输入,输出该位置上的一系列的空间权重,也就是权重矩阵 W,从而实现对空间异质性的表达。
为了在较小样本上有强的泛化能力,也为了模型的训练能够更快收敛,我们在 GNNWR 方法中,把 SWNN 输出的权重和 OLS 先验得到全局回归系数相乘结合, 形成了空间异质性的回归系数。
通过上图回归方程可得,该回归方程由自变量、全局回归系数、观测点上空间非平稳的调整参数组成。基于此,我们建立了一种基于神经网络的空间回归模型,进而解算空间非平稳过程。
用神经网络优化空间邻近性度量
前面提到,SWNN 以每个样本点到其他样本点的距离向量为输入。在这个过程中,我们一般会采用欧式距离,比如用空间中两点连线的长度作为距离的度量, 这是最直观也是最容易理解的距离表达方法。
然而在城市环境中,欧式距离受到自然和交通条件的影响,难以反应实际的空间邻近性。 比如要去对岸的钱塘江,如果不能走公路大桥的话,就需要绕很大一圈才能过去。在这种情况下,两点之间的直线距离虽然很近,但它们在实际空间上是相隔非常远的,欧式距离并不能充分地反映它们的空间邻近性。
在现实世界中,受到自然景观和人造地物的约束,人员和物资的交流往往借助于道路交通网络,路网距离 (Road Network Distance, ND) 和旅行时间 (Travel Duration, TD) 也是一种适当的空间邻近性度量方法。
然而,由于交通规则限制以及道路通行能力限制, 同样长度的路网距离、同样的旅行时间时长所代表的空间邻近性并不相同。比如,同样驾车 13 分钟,校园内限速,只能走很短一段距离,如果在高架桥上,就能走很远的距离。
所以说,如果使用单一的空间邻近度量,会存在一定的局限性。因此,我们尝试建立一种距离融合函数,把多种距离度量值耦合在一起,来优化地去表征空间邻近性。
根据上述方程,我们把两点间的若干个「距离」耦合,形成一个更优、更确切表征两点之间真实的空间邻近性值。
但这个方程也存在一个问题,fsp 是一个需要统一多个不同量纲下的距离表征。比如,旅行时间和欧式距离的单位本身就是不一样的,数量级可能也会有较大差异,仅仅依靠普通的函数并不能充分地实现耦合效果。对此,我们构造了一个空间邻近性的神经网络 SPNN, 把这些距离映射到统一的空间邻近度量中。
随后,通过训练这个神经网络,就能把特定函数的计算转化成一个数据驱动的拟合过程,这就是我们用神经网络优化空间邻近性的想法。
连接两个神经网络,形成 osp-GNNWR
由于空间邻近性是一个抽象概念,没有真值,比如说给定 a 点和 b 点,就不能说 a、 b 之间的空间邻近性是一个确定的值 x,这就导致 SPNN 的损失函数无法定义,也就无法训练。
我们的解决方案是,把 SPNN 的输出直接作为 GNNWR 的距离输入,将两个神经网连接起来,形成统一的整体,我们将其称作优化空间邻近性度量的地理网络加权回归 (osp-GNNWR)。
根据这个模型,我们就可以通过样本估计值的误差直接训练整个网络,将最后因变量 y 的拟合值和增值的误差作为损失函数来直接来训练网络。整个网络被训练完毕,前面 SPNN 也同时被训练完成,进而解决了 SPNN 的求解问题,完成了回归任务。
以武汉房价为例,osp-GNNWR 为房价的空间异质性提供新解释
以武汉房价为例,我们选用 968 个独立的武汉市楼盘二手房成交数据,按 85:15 的比例划分为训练集和测试集。 并在这些数据中,用房价建模中常用的特征价格法选取了 3 大类 10 个自变量,包括这些房屋的基本信息、周边配套设施、交通便利性等。在此基础上,我们选择欧式距离和旅行时间作为 SPNN 的输入距离来构建 osp-GNNWR 模型。
对于优化后的空间邻近性度量,据下图所示,图中每个点的颜色代表拟合结果的残差差值;橙色代表 osp-GNNWR 的拟合效果比原本的 GNNWR 模型效果更好;线条代表得到的优化空间邻近性和欧式距离之间的差异。
图 a 可以看到,在城市边缘区域,OSP 与欧式距离的差异较大,且由于受路网结构影响,表现出一定的方向差异性;特别地,我们在红色箭头方向上可以发现一个较低的差值,而这主要是由于该方向与武汉市二环快速路吻合,构建 OSP 所使用的欧式距离和旅行时间本身差异较小导致的。
图 b 可以看到,在城区中心地带,由于交通设施完善,无论往哪个方向走,不同方向的空间邻近性都是较为均衡的,所以 osp 与欧氏距离的差值表现出较规则的同心圆状分布。
通过这些 OSP 和欧式距离的差异特征,我们也得以证明了优化空间邻近性度量的实际意义。
基于房价的建模结果,我们可以进一步讨论回归系数的空间异质性,比如研究大学距离对房价影响。
如下图所示,武汉市洪山区中心的 UA 参数明显高于其他地区,这表明大学对该地区的房价产生了积极影响, 也就是说越靠近教育机构,房价越上涨。此外,这些大学和科研机构也带来了更好的宜居环境,创造了更繁荣的租赁市场。
小模型也有大意义
以上研究我们并没有用大模型,虽然现在非常流行大的神经网络模型、深度网络模型等,但小模型仍然存在它的实际意义。在没有那么多算力、丰富数据集样本的情况下,设计一个小而美的模型,对于解决某些问题也会有很大的帮助。
最后是一些参考文献,大家有兴趣的话也可以去了解一下。
召集令
HyperAI超神经 (hyper.ai) 是中国最⼤的数据科学领域搜索引擎,长期聚焦 AI for Science 最新研究成果,解读了百余篇顶级期刊学术论文。
欢迎正在围绕 AI for Science 开展研究探索的课题组、研究团队与我们联系,分享最新研究成果、投稿深度解读文章、参与 Meet AI4S 直播栏目,更多推广 AI4S 的方式等待我们共同探索!
添加微信:神经星星 (微信号:Hyperai01)