小模型大突破!神经网络透视空间异质性,准确描述复杂地理现象

news2024/11/13 14:33:37

为推进 AI4S 的普适化,降低学术机构科研成果的传播壁垒,为更多行业学者、科技爱好者及产业单位提供交流平台,HyperAI超神经策划了「Meet AI4S」系列直播栏目, 邀请深耕 AI for Science 领域的科研人员或相关单位,以视频的形式分享研究成果、方法思路。

在「Meet AI4S」系列直播第一期中,我们有幸邀请到了浙江大学遥感与地理信息系统博士生丁佳乐, 他所在的浙江省资源与环境信息系统重点实验室,面向数字地球和地理信息系统、遥感和全球定位系统等国家高新科技领域,已经发布了多项高价值研究成果。

本次分享,丁佳乐博士以「神经网络为房价的空间异质性提供新解释」为题, 分享了他的最新研究成果。该研究将一种由神经网络优化的空间邻近性度量 (OSP) 与地理神经网络加权回归方法进一步结合,构建了 osp-GNNWR 模型,通过解算因变量与自变量的空间非平稳回归关系实现神经网络的训练,能更准确地描述复杂的空间过程和地理现象。

点击查看完整直播回放 ⬇️

https://www.bilibili.com/video/BV14W42197on/

HyperAI超神经在不违原意的前提下,对丁佳乐博士的本次深度分享进行了整理汇总。

在这里插入图片描述

从模型可解释性出发,推动科学未来发展

身为一个地理科学的探索者,如果我们推出的模型只能简单预测房价,那这样的成果在我看来是无趣的。我们追求的是,借助这些模型输出的一系列随空间位置而变化的回归系数,来对地理过程或者地理模式做出合理的科学解释, 这样的研究才更具有前瞻性和实用性。正是基于这样的愿景,我今天选择了「神经网络为房价的空间异质性提供新的解释」这一主题进行分享。

前段时间,我们团队在地理信息科学领域知名期刊 International Journal of Geographical Information Science 上发表了题为「A neural network model to optimize the measure of spatial proximity in geographically weighted regression approach: a case study on house price in Wuhan」的研究论文。
论文地址
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771

在该研究中,我们引入了神经网络方法对观测点间的多种空间邻近性度量 (如欧式距离、旅行时间等) 进行非线性耦合,得到优化的空间邻近性度量 (OSP),从而提升模型对房价预测的准确性。

为解决抽象的「空间邻近性」无法构造损失函数、神经网络难以训练等问题,我们还将 OSP 与地理神经网络加权回归方法 (Geographically Neural Network Weighted Regression, GNNWR) 进一步结合,构建了 osp-GNNWR 模型, 通过解算因变量与自变量的空间非平稳回归关系实现神经网络的训练。最终,该模型被证明具有更好的全局性能,能更准确地描述复杂的空间过程和地理现象。

接下来,我将以该成果为案例,向大家分享神经网络为房价的空间异质性提供新解释的具体流程。

研究背景:双重挑战下的科研突破

「空间异质性」是造成房价波动的关键因素,但单一的距离度量方式在捕捉复杂地理环境中房价的「空间异质性」时捉襟见肘;传统地理加权回归模型 (GWR) 在衡量空间邻近性时也面临挑战。正是由于这些因素,我们选择开展本项研究。

空间异质性:不同空间的差异性表达

首先,我先向大家介绍一下空间异质性和地理加权回归的背景。

普通线性回归模型 OLS 是确定变量回归关系最常用且最基础的统计方法,使用一个非常简洁的公式来描述因变量和多个自变量的关系,如下图所示,y 等于一个截距项,加上若干个回归系数和自变量的乘积。

在这里插入图片描述

当我们把 OLS 等统计学方法应用在地理学时,往往需要考虑到一些地理问题固有的空间特征, 于是就产生了空间统计和时空建模的相关研究。

普通线性回归模型会假定:回归系数和样本数据的空间位置和时间位置无关,计算得到的自变量系数是在研究区域的平均水平。

但是,现实地理过程中的回归关系会在不同的空间位置上会表现出差异性。 以房价为例,同样户型的一个房屋,在市中心和郊区的主要影响因素是不同的,因此它们的回归关系也有不同的形式,我们把这种特征称为空间异质性(空间非平稳性)。

在这里插入图片描述

空间异质性是地理要素关系描述的固有特征,是地理要素关系或结构在不同时空位置所具有的差异性表达。它意味着数据在不同空间位置的生成机制存在差异,会表现为相应的回归模型形式、或者参数会随空间的位置进行变化。

地理加权回归:通过核函数实现从空间邻近性到权重的转换

地理加权回归 (GWR) 是由美国 A. Stewart Fotheringham 院士提出的一种对空间异质过程的建模方法。

通过下图的公式可以看到,虽然 GWR 的整体形式还是线性回归关系,但它的截距项和回归系数变成了与坐标位置 (ui, vi) 的映射关系。也就是说,在不同的坐标位置上,它的回归关系是不同的,整个公式反映出来的回归关系也会随着空间位置有不同的改变。

在这里插入图片描述

GWR 的回归系数很难确定, 现在最常用的解算方法类似 OLS,即用一个加权的最小二乘法进行解算。

在下图的公式中,对角权重矩阵 W 用于对样本进行加权,可反映自变量之间的空间关联性。具体而言,样本之间的权重是根据样本的空间邻近性解算的, 空间上越临近的两个点会有越强的关联性,我们就会给它分配更大的权重,并以此来进行建模。

在这里插入图片描述

如何实现从空间邻近性到权重的转换? GWR 是通过一个核函数,比如说高斯核函数、双平方核函数等,来把空间邻近性转化到一个权重,从而实现权重方程构造。不过,这种方法存在一定的局限性。

在这里插入图片描述

过去,空间异质过程建模的关键是以时空位置邻近性 (Proximity) 度量为基础,进行时空权重核函数的设计与构建,进而利用局部加权回归理论建立非平稳性目标解算函数,通过模型评价准则的最优求解,实现时空非平稳关系的地理建模。
现有研究对这种方法的改进也多侧重于细化核函数的使用范畴,进而建立含有多带宽参数的混合核模型,却忽略了对核函数本身结构的改进与发展: 比如,以单参数解析为核心的现有核函数结构体系较为简单,难以充分估计时空邻近性对时空权重的复杂作用,导致无法精准解算复杂地理关系的时空非平稳特性。

随着近年大数据的不断发展,充分发挥大数据环境下的海量数据优势,高效利用深度神经网络的非线性拟合能力,使用神经网络来解释空间异质性,是解决当前时空关系建模方法发展困境的可行方案。

如何利用神经网络来解释空间异质性?

融合 SWNN,GNNWR 具有更强的泛化能力

之前,我们曾提出过一个地理神经网络加权回归模型 GNNWR,该模型用一个深度神经网络(空间加权神经网络 SWNN)来为每个位置上的样本赋予一系列空间权重。
GNNWR 论文地址:
https://doi.org/10.1080/13658816.2019.1707834

在这里插入图片描述

具体而言,SWNN 以每个样本点到其他样本点的距离向量为输入,输出该位置上的一系列的空间权重,也就是权重矩阵 W,从而实现对空间异质性的表达。

在这里插入图片描述

为了在较小样本上有强的泛化能力,也为了模型的训练能够更快收敛,我们在 GNNWR 方法中,把 SWNN 输出的权重和 OLS 先验得到全局回归系数相乘结合, 形成了空间异质性的回归系数。

通过上图回归方程可得,该回归方程由自变量、全局回归系数、观测点上空间非平稳的调整参数组成。基于此,我们建立了一种基于神经网络的空间回归模型,进而解算空间非平稳过程。

用神经网络优化空间邻近性度量

前面提到,SWNN 以每个样本点到其他样本点的距离向量为输入。在这个过程中,我们一般会采用欧式距离,比如用空间中两点连线的长度作为距离的度量, 这是最直观也是最容易理解的距离表达方法。

在这里插入图片描述

然而在城市环境中,欧式距离受到自然和交通条件的影响,难以反应实际的空间邻近性。 比如要去对岸的钱塘江,如果不能走公路大桥的话,就需要绕很大一圈才能过去。在这种情况下,两点之间的直线距离虽然很近,但它们在实际空间上是相隔非常远的,欧式距离并不能充分地反映它们的空间邻近性。

在现实世界中,受到自然景观和人造地物的约束,人员和物资的交流往往借助于道路交通网络,路网距离 (Road Network Distance, ND) 和旅行时间 (Travel Duration, TD) 也是一种适当的空间邻近性度量方法。

然而,由于交通规则限制以及道路通行能力限制, 同样长度的路网距离、同样的旅行时间时长所代表的空间邻近性并不相同。比如,同样驾车 13 分钟,校园内限速,只能走很短一段距离,如果在高架桥上,就能走很远的距离。

所以说,如果使用单一的空间邻近度量,会存在一定的局限性。因此,我们尝试建立一种距离融合函数,把多种距离度量值耦合在一起,来优化地去表征空间邻近性。

在这里插入图片描述

根据上述方程,我们把两点间的若干个「距离」耦合,形成一个更优、更确切表征两点之间真实的空间邻近性值。

但这个方程也存在一个问题,fsp 是一个需要统一多个不同量纲下的距离表征。比如,旅行时间和欧式距离的单位本身就是不一样的,数量级可能也会有较大差异,仅仅依靠普通的函数并不能充分地实现耦合效果。对此,我们构造了一个空间邻近性的神经网络 SPNN, 把这些距离映射到统一的空间邻近度量中。

在这里插入图片描述

随后,通过训练这个神经网络,就能把特定函数的计算转化成一个数据驱动的拟合过程,这就是我们用神经网络优化空间邻近性的想法。

连接两个神经网络,形成 osp-GNNWR

由于空间邻近性是一个抽象概念,没有真值,比如说给定 a 点和 b 点,就不能说 a、 b 之间的空间邻近性是一个确定的值 x,这就导致 SPNN 的损失函数无法定义,也就无法训练。

在这里插入图片描述

我们的解决方案是,把 SPNN 的输出直接作为 GNNWR 的距离输入,将两个神经网连接起来,形成统一的整体,我们将其称作优化空间邻近性度量的地理网络加权回归 (osp-GNNWR)。

根据这个模型,我们就可以通过样本估计值的误差直接训练整个网络,将最后因变量 y 的拟合值和增值的误差作为损失函数来直接来训练网络。整个网络被训练完毕,前面 SPNN 也同时被训练完成,进而解决了 SPNN 的求解问题,完成了回归任务。

以武汉房价为例,osp-GNNWR 为房价的空间异质性提供新解释

以武汉房价为例,我们选用 968 个独立的武汉市楼盘二手房成交数据,按 85:15 的比例划分为训练集和测试集。 并在这些数据中,用房价建模中常用的特征价格法选取了 3 大类 10 个自变量,包括这些房屋的基本信息、周边配套设施、交通便利性等。在此基础上,我们选择欧式距离和旅行时间作为 SPNN 的输入距离来构建 osp-GNNWR 模型。

在这里插入图片描述

对于优化后的空间邻近性度量,据下图所示,图中每个点的颜色代表拟合结果的残差差值;橙色代表 osp-GNNWR 的拟合效果比原本的 GNNWR 模型效果更好;线条代表得到的优化空间邻近性和欧式距离之间的差异。

在这里插入图片描述

图 a 可以看到,在城市边缘区域,OSP 与欧式距离的差异较大,且由于受路网结构影响,表现出一定的方向差异性;特别地,我们在红色箭头方向上可以发现一个较低的差值,而这主要是由于该方向与武汉市二环快速路吻合,构建 OSP 所使用的欧式距离和旅行时间本身差异较小导致的。

图 b 可以看到,在城区中心地带,由于交通设施完善,无论往哪个方向走,不同方向的空间邻近性都是较为均衡的,所以 osp 与欧氏距离的差值表现出较规则的同心圆状分布。

通过这些 OSP 和欧式距离的差异特征,我们也得以证明了优化空间邻近性度量的实际意义。

基于房价的建模结果,我们可以进一步讨论回归系数的空间异质性,比如研究大学距离对房价影响。

如下图所示,武汉市洪山区中心的 UA 参数明显高于其他地区,这表明大学对该地区的房价产生了积极影响, 也就是说越靠近教育机构,房价越上涨。此外,这些大学和科研机构也带来了更好的宜居环境,创造了更繁荣的租赁市场。

在这里插入图片描述

小模型也有大意义

以上研究我们并没有用大模型,虽然现在非常流行大的神经网络模型、深度网络模型等,但小模型仍然存在它的实际意义。在没有那么多算力、丰富数据集样本的情况下,设计一个小而美的模型,对于解决某些问题也会有很大的帮助。

最后是一些参考文献,大家有兴趣的话也可以去了解一下。

在这里插入图片描述

召集令

HyperAI超神经 (hyper.ai) 是中国最⼤的数据科学领域搜索引擎,长期聚焦 AI for Science 最新研究成果,解读了百余篇顶级期刊学术论文。

欢迎正在围绕 AI for Science 开展研究探索的课题组、研究团队与我们联系,分享最新研究成果、投稿深度解读文章、参与 Meet AI4S 直播栏目,更多推广 AI4S 的方式等待我们共同探索!

添加微信:神经星星 (微信号:Hyperai01)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1935815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新时代多目标优化【数学建模】领域的极致探索——数学规划模型

目录 例1 1.问题重述 2.基本模型 变量定义: 目标函数: 约束条件: 3.模型分析与假设 4.模型求解 5.LINGO代码实现 6.结果解释 ​编辑 7.敏感性分析 8.结果解释 例2 奶制品的销售计划 1.问题重述 ​编辑 2.基本模型 3.模…

北京邮电大学,中央空调的分户计费系统

北京邮电大学 中央空调如何公平、公正、合理的收取费用,一直都是各建筑管理者的首要问题。北京邮电大学也面临着能源分配不公,学校管理者空调收费管理困难等问题。根据学校的具体情况,拓森为其制定了一套中央空调管理运营方案—无线中央空调…

jupyter学习笔记

简介 Jupyter Notebook是一个Web应用程序,它可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。 安装使用 前提:必须安装python 先升级pip至最新版本 pip3 install --upgrade pip安装jupyter notebook pi…

springboot的简单应用

Mvc与三层架构 创建Spring项目 勾选web和mabais框架 配置yml文件,这里创建spring项目默认生成的是propertise文件,但是properties文件的格式看起来没有yml文件一目了然。yml文件配置数据库还有映射mapper层的xml文件以及设置日志级别,比如map…

刚起步的家庭海外仓:涉及到的全部业务优化流程

对于家庭海外仓来说,最难的阶段应该就是刚起步的时候。对业务流程不熟悉,也没有客户积累,本身的预算又十分有限。 在这个情况下应该注意什么,怎样才能顺利的开展业务?今天我们就针对这个问题详细的梳理了一下家庭海外…

尚品汇-(二十一)

目录: (1)使用redis实现分布式锁 (2)优化之设置锁的过期时间 (3.)优化之UUID防误删 (4)优化之LUA脚本保证删除的原子性 (1)使用redis实现分布…

go语言编程 小试牛刀 goroutine和reflect知识点

(一)goroutine package _caseimport "fmt"// sum 函数计算整数切片 values 的总和,并将结果发送到 resultChan 通道中 func sum(values []int, resultChan chan int) {sum : 0for _, value : range values {sum value}resultChan…

HarmonyOS NEXT学习——@Styles、@Extend、stateStyles

Styles装饰器 定义组件重用样式 仅支持通用属性和通用事件不支持参数可以定义全局和组件内使用,全局使用需要加function // 全局 Styles function functionName() { ... }// 在组件内 Component struct FancyUse {Styles fancy() {.height(100)} }组件内Styles的优…

智能一体式闸门在灌区中的应用

在现代化的农业灌溉领域,智能一体式闸门作为一种集自动化、智能化、高效能于一体的先进设备,正逐渐在灌区管理中发挥着重要作用。 灌区是农业生产的重要基地,其水资源的管理和利用直接关系到农作物的生长和产量。然而,传统的闸门管…

旋转中的图片视觉差效果

Hello,亲爱的宝子们?最近我一个前端架构师却临时顶替产品经理的工作,导致最近一周实在太忙了,都没有来得及更新文章。在这里想大家道歉了!也想厚颜无耻的问问大家想我了吗?(●◡●) 今天给大家带来一个非常…

Vue 使用 Element UI 组件库

https://andi.cn/page/621589.html

RAG介绍

一,RAG概述 RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索与生成任务的技术,它通过将外部知识库与大模型的生成能力相结合,提高了生成内容的准确性和丰富性。以下是关于RAG应用的…

【产品那些事】固件安全-关于OTA升级包分析

文章目录 前言什么是OTA?升级包(固件)的类型和架构案例tp-link路由器升级包怎么解包分析?binwalk安装及使用ubi_reader安装及使用unsquashfs安装及使用某车企OTA升级包通用Android OTA解包相关分区第二层解包前言 什么是OTA? OTA(Over-the-Air)是一种通过无线通信网络(…

go的Mutex实现原理及演进

下面的这个是对于昨天晚上读的几篇关于go中锁的文章知识点的总结 文章目录 1. 引言1.1 并发编程的挑战1.2 Mutex 的角色1.3 Mutex 设计的演进1.4 技术追求的美妙 引言部分详细解释引言部分注意点引言部分流程图 2. Mutex 架构演进2.1 初版 Mutex 设计2.2 性能优化 - 给新人机会…

【ffmpeg】一篇文章搞定YUV

文章目录 前言YUV是什么?YUV的用途YUV采样格式采样格式是什么YUV采样格式有哪些YUV采样格式的区别 YUV与RGBRGB 颜色空间YUV 颜色空间RGB 与 YUV 的比较RGB 转 YUV 公式YUV 转 RGB 公式注意事项 YVU数据计算通用公式4:4:4 采样格式4:2:2 采样格式4:2:0 采样格式实例…

win10删除鼠标右键选项

鼠标右键菜单时,发现里面的选项特别多,找一下属性,半天找不到。删除一些不常用的选项,让右键菜单变得干净整洁。 1、按下键盘上的“winR”组合按键,调出“运行”对话框,输入“regedit”命令,点击…

达梦数据库的系统视图v$rapply_log_task

达梦数据库的系统视图v$rapply_log_task 达梦数据库的V$RAPPLY_LOG_TASK视图是一个动态性能视图,主要用于在备库上查询。该视图需要在备库上查询(DMDSC 备库需要在控制节点(重演节点)上查询),用于查询备库…

专业PDF编辑工具:Acrobat Pro DC 2024.002.20933绿色版,提升你的工作效率!

软件介绍 Adobe Acrobat Pro DC 2024绿色便携版是一款功能强大的PDF编辑和转换软件,由Adobe公司推出。它是Acrobat XI系列的后续产品,提供了全新的用户界面和增强功能。用户可以借助这款软件将纸质文件转换为可编辑的电子文件,便于传输、签署…

RocketMQ单结点安装/Dashboard安装

目录 1.安装NameServer 2.安装Broker 3.使用自带工具测试数据发送 4.使用DashBoard进行查看 5.关闭相关设备 前置条件:两台虚拟机CentOS Linux release 7.5.1804(ps:当然也可以都部署在一台机器上) RocketMq属于天生集群。需要同时启动nameServer和Broker进行…

STP(802.1D)

802.1D:也成为生成树协议(Spanning Tree Protocol,STP),是一种工作在数据链路层的通信协议 作用:防止交换机冗余链路产生的环路,确保以太网中无环路的逻辑拓扑结构,从而避免广播风暴…