Mgeo:multi-modalgeographic language model pre-training

news2024/11/24 3:52:24

文章目录

    • question
    • 5.1 Geographic Encoder
      • 5.1.1 Encoding
      • 5.1.2
    • 5.2 multi-modal pre-training
  • 7 conclusion
  • Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking
    • abs
  • ERNIE-GeoL: A Geography-and-Language Pre-trained Model and its Applications in Baidu Maps
    • abs
    • intro

question

给定query,如何选取周边n个地理实体。(按照距离远近)
训练过程如何进行。(nlp mask,对比学习)

5.1 Geographic Encoder

如果没有 GC,仅有地理定位是毫无意义的。地理编码器将地理位置 l 作为输入,将 GC 作为一种新的模态映射到密集表征中,其中包含周围地理对象的特征 {o1, o2, ., on }。

5.1.1 Encoding

地理编码器可提取查询/POI 地理定位(点)与其周围地理对象(线或多边形)之间的相关性。地理编码器分别将地理对象的固有特征(即 ID、形状和地图位置)、关系(即 NEAR 或 COV ERED)和相对位置表示为嵌入。
ID.为了提取地理对象的内在特征,OSM ID 被映射到嵌入式中,其方式与单词嵌入式类似。oi 的 ID 嵌入表示为 ed i。
shape.使用独热函数将分类形状类型 osi 编码为数字数组,并获得其相应的嵌入信息 es i。形状类型嵌入表示为 es i。
地图位置。oi 在地图 em i 中的绝对位置是将其与其他地理物体区分开来的关键。以矩形为单位的整个地图区域被分割成 N × N 的网格,从而分别获得经度和纬度的比例因子 slng 和 slat:

地理对象的内在特征由三个组成部分(ed、es 和 em)描述。ed是地理对象的唯一标识符,es区分道路和ROI,em描述不同地理对象之间的位置关系。另外两个分量(et 和 ep)描述了地理定位与地理对象之间的相关性。将周围的地理对象编码为一个序列 {e1, ., em } 后,地理编码器采用多层双向变换器 [33] 来学习它们之间的相互作用。根据之前的工作[31],地理编码器会像 CLS 编码器一样在开头预置一个 GC 标记。因此,地理编码器的输出表示为 {hGC, h1, ., hm }。

5.1.2

我们设计了两个任务来训练地理编码器,并在以后的使用中固定下来,即屏蔽地理建模(MGM)和地理对比学习(GCL)。

MGM与广泛使用的掩码语言建模(MLM)[5]一样,MGM 的目的是预测掩码地理特征,即 OSM ID、几何类型、替代矩形的各边、关系类型和相对位置。MGM 损失 LMGM 由所有特征的屏蔽损失相加计算得出。

GCL。这项任务与大小为 bs 的批次中的多个地理位置 {l pq 1 ,…,l pq bs } 有关。我们首先定义现实世界中的地理距离矩阵 H∈Rbs×bs 如下:

请添加图片描述
其中,haversine 是计算地理位置间球形距离的 haversine 函数[23], ||`||N 是高斯归一化函数,σ 是将距离映射到范围(0,1)的 sigmoid 函数。由于输出空间中嵌入点之间的潜在距离应与它们在现实世界中的地理距离相对应,因此我们使用 hGC 作为地理定位 lpq 与 GC 的表示,并计算潜在距离矩阵̃ H∈ Rbs×bs 如下:

请添加图片描述
其中,⟨-⟩ 表示 doc-product 函数,∥ - ∥L2 为 L2 归一化函数。我们使用 KL-发散度来衡量 H 和 ~H 之间的相似度:
请添加图片描述
其中,DKL (- ∥ -) 表示 KL-发散,而 so f tmax 函数用于将 Hi 和 ~ Hi 转换为分布。

因此,地理编码器的训练损耗 Lg 的计算公式为

Lg = LMGM + LGCL (13)

利用这样的训练过程,地理编码器就能对给定地理信息系统中的 GC 进行建模。

5.2 multi-modal pre-training

MGeo 预训练的输入是一对文本和地理位置(t,l)。预训练数据可以来自不同来源,例如用户的点击或送货员的位置。多模态训练旨在将这两种模态对齐到一个潜在空间中。词嵌入用于将文本映射到向量序列中。地理编码器提供给定 l 的 GC 嵌入式。然后将两个嵌入式连接在一起,并输入多层双向变换器。
我们使用三种任务来学习 GC 与文本之间的交互,即单模式 MLM、多模式 MLM 和多模式 MGM。这些任务轮流进行训练。单模态 MLM 是 BERT 中使用的原始 MLM 任务,它随机屏蔽输入文本并用 MASK 标记替换。单模态 MLM 会移除地理编码器的输出。而多模态 MGM 则依靠整个地理编码器和部分文本信息来预测被屏蔽的标记。多模态 MGM 会随机屏蔽输入的地理特征并将其替换为 MASK,然后根据整个文本信息和部分地理信息进行预测。

7 conclusion

在本文中,我们正式提出了地理语境(GC)这一重要概念,它在现实世界中人类探索 POI 的过程中不可或缺。我们提出了一种多模态地理语言模型 MGeo,它将 GC 视为一种新的模态。因此,GC 可以与文本一起表示。此外,我们还建立了一个新的开源大规模基准 GeoTES,以促进对查询-POI 匹配主题的进一步研究。我们在最先进的 PLM 上进行了广泛的实验来评估我们提出的方法,详细的分析表明 MGeo 的性能明显优于其他基准。即使用户的地理位置可能不存在,查询也没有 GC,MGeo 仍然能比基线方法有所改进,这表明它有能力对文本到文本、GC 到 GC 以及文本到 GC 的相关性进行建模。在未来的工作中,还可以进一步探索 POI 图像等其他模式,以及更具创造性的地理编码器。此外,我们提出的 GC 建模有可能促进所有与地理相关的任务。

Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking

abs

中文地理重排序任务旨在从检索到的候选地址中找出最相关的地址,这对于导航地图等与位置相关的服务至关重要。与一般句子不同,地理上下文与地理概念密切相关,从一般跨度(如省)到具体跨度(如路)。鉴于这一特点,我们提出了一个创新框架,即地理编码器(Geo-Encoder),以更有效地将中文地理语义整合到重新排序管道中。我们的方法首先利用现成的工具将文本与地理跨度关联起来,将它们视为分块单元。然后,我们提出了一个多任务学习模块,以同时获取有效的注意力矩阵,从而确定分块对额外语义表征的贡献。此外,我们还为拟议的添加任务提出了一种异步更新机制,旨在引导模型有效地关注特定的语块。在两个不同的中国地理重新排序数据集上进行的实验表明,与最先进的基线相比,地理编码器取得了显著的改进。值得注意的是,它大大提高了 MGEOBERT 的 Hit@1 分数,在 GeoTES 数据集上从 62.76 提高到 68.98,提高了 6.22%。

ERNIE-GeoL: A Geography-and-Language Pre-trained Model and its Applications in Baidu Maps

abs

预训练模型(PTM)已成为自然语言处理和计算机视觉下游任务的基本支柱。尽管在百度地图上将通用 PTM 应用于地理相关任务取得了初步成效,但随着时间的推移,人们发现其性能明显趋于稳定。造成这种停滞的主要原因之一是通用 PTM 中缺乏现成的地理知识。为了解决这个问题,我们在本文中介绍了 ERNIE-GeoL,它是一个地理和语言预训练模型,专为改善百度地图的地理相关任务而设计和开发。ERNIE-GeoL经过精心设计,通过对包含丰富地理知识的异构图生成的大规模数据进行预训练,学习地理语言的通用表示。在大规模真实世界数据集上进行的大量定量和定性实验证明了ERNIE-GeoL的优越性和有效性。自 2021 年 4 月起,ERNIE-GeoL 已在百度地图的生产中部署,并显著提高了各种下游任务的性能。这表明,ERNIE-GeoL 可以作为各种地理相关任务的基础骨干。

intro

百度地图提供的网络地图服务,如兴趣点(POI)检索[7, 13, 15]、POI 推荐[4]、POI 信息页面[31]和智能语音助手[12]等,都通过应用 PTM 提高了性能。然而,我们在实践中观察到,随着时间的推移,性能明显趋于稳定,也就是说,与通用 PTM 的优化相比,性能提升仍然微不足道。造成这种高原现象的主要原因之一是缺乏地理知识,而地理知识在改进需要地理信息计算支持的任务(以下简称地理相关任务)中发挥着至关重要的作用。在这项工作中,我们重点关注两类地理知识。(1) 地名知识。地名是指地理位置实体的名称,如 POI、街道和地区。地名解析[20]的目的是从文本中识别和提取地名,是各种地理相关任务的基本需要。然而,通用 PTM 很难捕捉到大多数地名的语义,因为地名知识在其训练数据中基本不存在或很少出现。(2) 空间知识。空间知识主要包括地理位置实体的地理坐标以及不同地理位置实体之间的空间关系,这些知识是地理编码[9]和地理参照[11]等地理相关任务所不可或缺的。然而,由于缺乏空间知识和纳入空间知识的预训练任务,通用 PTM 无法有效处理与地理相关的任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1161906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开发第一个flutter app的六个关键步骤

Flutter这些年发展的很快,特别是在 Google 持续的加持下,Flutter SDK 的版本号已经来到了 3开头,也正式开始对 Windows、macOS 和 Linux 桌面环境提供支持。如果从 Flutter 特有的优势来看,我个人认为主要是它已经几乎和原生的性能…

【嵌入式项目应用】__UART自定义通信协议代码实现方法

目录 前言 一、什么是通信协议 二、简单通信协议的问题 三、通信协议的常见内容 1. 帧头 2. 设备地址/类型 3. 命令/指令 4. 命令类型/功能码 5. 数据长度 6. 数据 7.帧尾 8.校验码 四、通信协议代码实现 1. 消息数据发送 a. 通过串口直接发送每一个字节 b. 通过…

16. 机器学习 - 决策树

Hi,你好。我是茶桁。 在上一节课讲SVM之后,再给大家将一个新的分类模型「决策树」。我们直接开始正题。 决策树 我们从一个例子开始,来看下面这张图: 假设我们的x1 ~ x4是特征,y是最终的决定,打比方说是…

十年JAVA搬砖路——Linux搭建Ldap服务器。

1.安装命令 yum -y install openldap compat-openldap openldap-clients openldap-servers openldap-servers-sql openldap-devel2.启动ldap systemctl start slapd systemctl enable slapd3.修改密码 slappasswd Aa123456获得返回的密码加密密码串: {SSHA}DkSw0…

SQLServer数据库透明加密 安当加密

安当TDE透明加密组件是一种用于数据保护的解决方案,它对数据进行加密,以防止未经授权的访问和数据泄露。 以下是安当TDE透明加密组件的主要功能介绍: 数据保护:安当TDE透明加密组件可以对数据库中的敏感数据进行加密,…

软件无线电处理平台解决方案:330-基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡

基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡 一、板卡概述 本板卡基于Xilinx公司的FPGAXC7K325T-2FFG900 芯片,pin_to_pin兼容FPGAXC7K410T-2FFG900 ,支持PCIeX8、64bit DDR3容量2GByte,HPC的FMC连接器,北京太速科…

TypeScript之命名空间与模块

一、模块 TypeScript 与ECMAScript 2015 一样,任何包含顶级 import 或者 export 的文件都被当成一个模块 相反地,如果一个文件不带有顶级的import或者export声明,那么它的内容被视为全局可见的 例如我们在在一个 TypeScript 工程下建立一个…

Linux 网络流量监控利器 iftop命令详解及实战

简介 iftop 是什么 在 Linux 系统下即时监控服务器的网络带宽使用情况,有很多工具,比如 iptraf、nethogs 等等,但是推荐使用小巧但功能很强大的 iftop 工具。 iftop 是 Linux 系统一个免费的网卡实时流量监控工具,类似于 top 命令…

智能防雷浪涌保护器的行业应用

智能浪涌保护器是一种能够自动监测和控制电涌保护器(SPD)的工作状态,实现SPD的自我保护和远程管理的设备。智能防雷是一种将云计算、移动互联网和物联网技术引入到综合防雷措施中,实现雷电预警、智能化防雷、智能化监测的系统。这…

群晖 | Synology Directory Server 批量导入用户 文件模板格式

目录 错误写法 正确写法 错误写法 在网上找到过类似的教程,但是一律都以失败告终: 正确写法 其实并不是只要写上前面的属性即可, 就算后面不写也需要使用 tab 补齐 ,所有的属性: 1.名称 2.密码 3.描述 4…

开源问答平台网站源码系统商业运营版源码系统 带完整的搭建教程

在我们现在的日常生活中,人们对于获取信息的需求越来越大,而问答平台作为一种快速、有效的信息获取方式,受到了广泛的关注和使用。同时,随着开源技术的普及和成熟,越来越多的开发者选择使用开源技术进行网站的开发和维…

几种常见的接地类型详解

接地作为一种应用最为广泛的电气安全措施,是指电力系统和电气装置的中性点、电气设备的外露导电部分和装置外导电部分经由导体与大地相连。接地的作用主要是防止人身遭受电击、设备和线路遭受损坏、预防火灾和防止雷击、防止静电损害和保障电力系统正常运行。按其功…

关于 iOS 报Multiple commands produceMultiple 错误的解决方案

今天在运行一个RN老项目的时候,报了一个下面的错误。 对应的信息如下: Multiple commands produce /Users/xzh/RN/work/cgv_app/ios/build/Debug-iphonesimulator/cgv_app.app/Entypo.ttf Multiple commands produce /Users/xzh/RN/work/cgv_app/ios/bu…

EASYX实现多物体运动

eg1:单个物体运动使用easyx实现单个小球的运动 #include <stdio.h> #include <easyx.h> #include <iostream> #include <math.h> #include <stdlib.h> #include <conio.h> #include <time.h> #define PI 3.14 #define NODE_WIDTH 4…

应用在阀门控制中的直流有刷驱动芯片

控制阀又称阀门&#xff0c;是流体运送系统中的控制部件&#xff0c;具有导流、截流、调节、节流、防止倒流、分流或溢流卸压等功能。阀门是一种用于控制流体&#xff08;液体、气体、粉体等&#xff09;流动的装置&#xff0c;广泛应用于工业生产、建筑、农业、能源等领域。 …

提高效率!5个顶级网页开发工具助你事半功倍!

1.WordPress–一站式网站建设工具 价格&#xff1a;基本版终身免费&#xff0c;个人版HK$30&#xff0c;高级版HK$63&#xff0c;商务版HK$1993 推荐指数&#xff1a;★★★★ WordPress是一个使用PHP语言开发的博客平台。它可以在PHP和MySQL数据库的服务器上设置自己的网站&…

从项目开始学习Vue——01

目录标题 一、官方文档二、搭建环境三、停止服务四、使用 webstorm 一键创建项目创建过程可能出现错误 五、启动和访问项目&#xff08;一&#xff09;启动&#xff08;二&#xff09;访问项目六、项目目录讲解 一、官方文档 https://cn.vuejs.org/ 二、搭建环境 参考&#…

新版开源UI千月影视APP源码/后端基于ThinkPHP框架/前后端完美匹配

源码简介&#xff1a; 开源UI千月影视APP源码&#xff0c;它是基于ThinkPHP框架&#xff0c;而且前后端完美匹配。这是一个广泛使用的PHP开发框架&#xff0c;具有稳定性和安全性方面的优势。 2023版本UI千月影视APP是一款提供电影、电视剧、综艺节目等视频内容的应用程序&am…

如何使用ps制作ico图标文件

如何使用ps制作ico图标文件 Chapter1 如何使用ps制作ico图标文件Chapter2 ICOFormat.8bi&#xff08;Photoshop Ico、Cur插件&#xff09;的下载使用1. ICOFormat.8bi的作用2. ICOFormat.8bi使用 Chapter3 ps手机计算机图标教程,手绘设计精美手机APP软件图标的PS教程步骤 01 制…

ArcGIS Pro怎么生成高程点

一般情况下&#xff0c;我们从公开渠道获取到的高程数据都是DEM数据&#xff0c;但是如果要用到CAD等软件内则需要用到高程点&#xff0c;那么如何从DEM提取高程点呢&#xff0c;这里为大家介绍一下生成方法&#xff0c;希望能对你有所帮助。 数据来源 本教程所使用的数据是…