Improving IP Geolocation with Target-Centric IP Graph (Student Abstract)

news2024/11/26 2:38:58

ABSTRACT

准确的IP地理定位对于位置感知的应用程序是必不可少的。虽然基于以路由器为中心(router-centric )的IP图的最新进展被认为是前沿的,但一个挑战仍然存在:稀疏IP图的流行(14.24%,少于10个节点,9.73%孤立)限制了图的学习。为了缓解这个问题,我们将目标主机(target host)指定为中心节点,并聚合多个最后跳路由器(multiple last-hop routers)来构建以目标为中心的IP图,而不是像以前的工作那样仅仅依赖于具有最小的最后跳延迟的路由器。在三个真实数据集上的实验表明,与现有的基线相比,我们的方法显著提高了地理位置的精度。

Introduction

许多独立于客户端的IP地理定位方法已经被提出来估计地理位置。这些方法并不依赖于用户愿意共享他们的位置数据,而是使用替代技术来确定位置,而不需要直接从客户机中输入。最近,这一领域的前沿进展涉及到使用以路由器为中心的IP图的图神经网络(GNNs),以其利用丰富的周围信息的非凡能力而闻名(Wang等人2022;Tai等人2023)。然而,尽管实现了地理定位的准确性,但以路由器为中心的IP地理定位面临着一个挑战:稀疏IP图的流行限制了图学习的有效性。通过对数据集的分析,有14.24%的目标拥有少于10个邻居,其中9.73%是完全孤立的。

(Wang等人2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.

(Tai等人2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In  SIGKDD.

在这项工作中,我们提出了一个简单但有效的图富集方法(graph enrichment method来解决上述挑战。具体来说,我们将目标主机指定为中心节点,并聚合多个最后跳路由器来构建以目标为中心的(target-centric,TC)IP图,而不是像之前的工作那样仅仅依赖于最后跳延迟最小的路由器。这种直接的修改大大将隔离节点(isolated nodes的比例从9.73%降低到4.46%,将稀疏度(sparsity ratio比从14.24%降低到8.64%,进一步提高了地理定位的精度(cf。表1)。实验结果表明,该方法可以有效地消除不必要的拓扑邻居(topological neighbors),同时保留了最相关和最关键的拓扑邻居(the most pertinent and critical ones)

 表1:与最近基线的性能比较。所有结果都以公里(km)为单位进行测量。

Method

Problem Definition.

问题定义。给定一组带有属性知识\left \{ X_{i} \right \}_{i=1}^{N}地标\left \{ l_{i} \right \}_{i=1}^{N}(从WHOIS网站提取的维度为6的数据),网络测量\left \{ m_{i} \right \}_{i=1}^{N}(24维的ping and traceroute data),和坐标\left \{ y_{i} \right \}_{i=1}^{N}(2维对应经度和纬度),我们的目标是预测目标IP的地理位置:

其中,\hat{y_{T}}=(\hat{lon_{T}},\hat{lat_{T}})\in R^{2}表示目标的估计位置\Theta表示NN参数。

Sparsity Investigation.

稀疏调查。为了研究邻居数量对地理定位性能的影响,我们有选择地掩码邻接矩阵中的节点来控制邻居计数。随后,我们应用了在(Tai et al. 2023)中提出的模型,并评估了其在相邻节点数量不同的IP图上的性能。我们观察到,随着邻居的数量从1到10的增加,距离误差迅速减少(cf。图3(a))。这一观察结果显示了基于gnn的地理定位方法的一个潜在局限性:有限数量的邻居地标将显著影响地理定位的精度。

(Tai等人2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In  SIGKDD.

图3:稀疏性调查。(a)邻居数量的影响;(2)由路由器为中心的图到以目标为中心的图的稀疏性降低。

Learning on Target-Centric IP Graphs.

学习以目标为中心的IP图。与以往的工作不同(Wang et al. 2022;Tai et al. 2023)通过在路由器级聚类IP来缩小区域,我们将目标主机指定为中心节点,并聚合多个最后一跳路由器来构建以目标为中心的IP图。图1是一个以目标为中心的示例。请注意,这些路由器统计数据(及其连接的地标)是从跨越不同区域(spanning various regions)的四个战略定位(four strategically positioned)的探测主机( probing hosts)收集的跟踪器数据(traceroute data)中获得。

图1:从以路由器为中心到以目标为中心的IP图:上海中以(a)路由器为中心的地标分布;(b)以路由为中心的IP图;(c)以目标为中心的IP图其中不同的颜色表示与不同的最后一跳路由器的关联。

对于每个IP图G =(X,A),我们将节点特征定义为属性知识、网络度量和坐标的组合,总计32个维度(看前边Problem Definition。对于边缘权值(edge weights,我们采用了一种注意机制来动态学习地标与目标节点之间的相互作用,如下(Tai et al. 2023):

式中,𝑾1,𝑾2∈RR^{(d_{x}+d_{m})\times (d_{x}+d_{m})},𝒃,𝒗∈R^{(d_{x}+d_{m})}分别为可训练矩阵和向量。随后,我们应用一个GNN层来促进学习目标IP地址的表示。一旦得到最终的表示,我们就利用非线性层来估计目标IP的地理位置。我们将IP地理定位作为一个确定性的回归任务,并通过最小化估计位置\hat{y_{T}}和真实值y_{T}之间的均方误差(MSE)来优化模型。图2显示了TCGeo的细节。

图2:TCGeo架构概述: (a)处理数据收集和特征工程;(b)构建以目标为中心的IP图;(c)使用GNN进行地理定位。

Experiments Results

Datasets and Setup. 

数据集和设置。根据之前的工作(Wang et al. 2022;Tai等人,2023),我们在三个真实世界的IP地理定位数据集(纽约、洛杉矶和上海)上评估了我们的方法,这些数据集分别包含91,808、92,804和126,258个IP地址。在训练过程中,我们以70%的IP作为地标,30%作为目标IP。在测试过程中,我们将训练集作为地标,其他的作为目标ip。我们将纽约、洛杉矶数据集的学习率设置为0.002,上海数据集设置为0.001每一层的隐藏大小(除了最后一层)被固定为32

Baselines.

基线。我们将我们的方法与以下最先进的基线进行了比较,包括一种基于延迟(delay-based )的测量方法(Wang等2020)、一种属性学习(attribute learning)方法(Arik和Pfister 2021)和三种图形学习(graph learning )方法(Ding等2022;Wang等2022;Tai等2023)。

(Wang等2020)Wang, Y.; Zhu, H.; Wang, J.; Liu, J.; Wang, Y.; and Sun, L. 2020. XLBoost-Geo: An IP Geolocation System Based on Extreme Landmark Boosting. arXiv preprint arXiv:2010.13396.

(Arik和Pfister 2021)Arik, S. ¨O.; and Pfister, T. 2021. TabNet: Attentive Interpretable Tabular Learning. In AAAI, 6679–6687.

(Ding等2022)Ding, S.; Zhang, F.; Luo, X.; and Liu, F. 2022. GNN-Geo: A Graph Neural Network-based Fine-grained IP Geolocation Framework. arXiv preprint arXiv:2112.10767.

(Wang等2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.

(Tai等2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.

Sparsity Analysis.

稀疏性分析。我们探讨了不同邻居数量对地理定位性能的影响。如图3(a)所示,当邻居的数量超过10个时,TCGeo的性能没有显著的改善。因此,我们只对少于10个邻居的目标使用以目标为中心的IP图,对于其余的,我们坚持使用以路由器为中心的IP图。该策略可以在保持计算效率的同时,显著提高地理定位性能。在图3(b)中,我们演示了TCGeo在多大程度上缓解了三个数据集之间的图稀疏性问题。

图3:稀疏性调查。(a)邻居数量的影响;(2)由路由器为中心的图到以目标为中心的图的稀疏性降低。

Overall Performance.

整体性能。我们在三个数据集上的比较评估实验的结果总结在表1中,揭示了两个重要的发现: (1)基于图的IP地理定位方法优于其他方法,强调了利用上下文信息的重要性。(2)在相同的神经网络架构设计下,我们的方法优于TrustGeo,这与我们最初的动机一致,即集成更多的邻居可以有效地缓解图的稀疏性的问题。

 表1:与最近基线的性能比较。所有结果都以公里(km)为单位进行测量。

Acknowledgements

国家自然科学基金资助项目(No.62176043和No. 62072077)部分资助。

References

(Arik和Pfister 2021)Arik, S. ¨O.; and Pfister, T. 2021. TabNet: Attentive Interpretable Tabular Learning. In AAAI, 6679–6687.

(Ding等2022)Ding, S.; Zhang, F.; Luo, X.; and Liu, F. 2022. GNN-Geo: A Graph Neural Network-based Fine-grained IP Geolocation Framework. arXiv preprint arXiv:2112.10767.

(Tai等2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.

(Wang等2020)Wang, Y.; Zhu, H.; Wang, J.; Liu, J.; Wang, Y.; and Sun, L. 2020. XLBoost-Geo: An IP Geolocation System Based on Extreme Landmark Boosting. arXiv preprint arXiv:2010.13396.

(Wang等2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.​​​​​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1311766.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

界面控件DevExpress .NET MAUI v23.1 - 发布一系列新组件

DevExpress拥有.NET开发需要的所有平台控件,包含600多个UI控件、报表平台、DevExpress Dashboard eXpressApp 框架、适用于 Visual Studio的CodeRush等一系列辅助工具。屡获大奖的软件开发平台DevExpress 今年第一个重要版本v23.1正式发布,该版本拥有众多…

蓝牙模块安全指南:保护你的设备和数据

随着蓝牙技术在各个领域的广泛应用,设备之间的无线连接变得越来越普遍。然而,与此同时,蓝牙连接也面临着潜在的安全风险。本文将为你提供一份蓝牙模块安全指南,帮助你保护设备和数据免受潜在的威胁。 1. 更新至最新蓝牙协议版本&a…

java实现冒泡排序及其动图演示

冒泡排序是一种简单的排序算法,它重复地遍历要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。重复这个过程直到整个数列都是按照从小到大的顺序排列。 具体步骤如下: 比较相邻的两个元素,如果前…

swagger的ApiModelProperty设置字段的顺序

需求 让前端可以直接通过swagger就能知道各个字段是什么意思 如何配置 比如,我们设置了ApiModelProperty ApiModelProperty("用户主键")private Long userId;在swagger页面能直接看到注释 但是这个顺序是按照字母排序的,明显不符合我们的要…

鸿蒙Web组件_学习

Web组件概述 Web组件用于在应用程序中显示Web页面内容,为开发者提供页面加载、页面交互、页面调试等能力。 页面加载:Web组件提供基础的前端页面加载的能力,包括加载网络页面、本地页面、Html格式文本数据。页面交互:Web组件提供…

【EI会议征稿】第五届机械仪表与自动化国际学术会议(ICMIA 2024)

第五届机械仪表与自动化国际学术会议(ICMIA 2024) The 5th International Conference on Mechanical Instrumentation and Automation 2024年第五届机械仪表与自动化国际学术会议(ICMIA 2024)定于2024年4月5-7日在中国武汉隆重…

通俗易懂:插入排序算法全解析(C++)

插入排序算法是一种简单直观的排序算法,它的原理就像我们玩扑克牌时整理手中的牌一样。下面我将用通俗易懂的方式来解释插入排序算法的工作原理。 假设我们手上有一副无序的扑克牌,我们的目标是将它们从小到大排列起来。插入排序算法的思想是&#xff0…

Kibana搜索数据利器:KQL与Lucene

文章目录 一、搜索数据二、KQL查询1、字段搜索2、逻辑运算符3、通配符4、存在性检查5、括号 三、Lucene查询1、字段搜索2、逻辑运算符3、通配符4、范围搜索5、存在性检查6、括号 四、总结 一、搜索数据 默认情况下,您可以使用 Kibana 的标准查询语言,该…

el-table自定义表格数据

如上所示: 表格内的数据是:当前班级所在名次段的人数 / 当前班级1至n名的累计人数 5/12 也就是 5/75 需要变更为: 截至到当前名次段总人数(上次考试) / 截至到当前名次段总人数(本次考试&#xff09…

Electron 跨平台打包

最近利用 Electron 制作跨平台安装包,记录步骤,踩坑多多。 首先,一步步搭建项目 一、搭建环境 初始化 package.json,这里要求 node 版本不低于14.16,我用的 v14.16.0,16版本在 Linux 下容易出现安装依赖…

✺ch2——OpenGL图像管线

目录 基于C图形应用&管线概览OpenGL类型第一个C/OpenGL应用程序◍API (1) GLSL类型着色器——画一个点的程序◍API (2)◍API (3) 栅格化像素操作——Z-buffer算法检测 OpenGL 和 GLSL 错误◍API (4) 从顶点来构建一个三角形场景动画◍API (5) OpenGL某些方面的数值—…

12.4~12.14概率论复习与相应理解(学习、复习、备考概率论,这一篇就够了)

未分配的题目 概率计算(一些转换公式与全概率公式)与实际概率 ,贝叶斯 一些转换公式 相关性质计算 常规,公式的COV与P 复习相关公式 计算出新表达式的均值,方差,再套正态分布的公式 COV的运算性质 如…

ShenYu网关注册中心之HTTP注册原理

文章目录 1、客户端注册流程1.1、读取配置1.1.1、用于注册的 HttpClientRegisterRepository1.1.2、用于扫描构建 元数据 和 URI 的 SpringMvcClientEventListener 1.2、扫描注解,注册元数据和URI1.2.1、构建URI并写入Disruptor1.2.2、构建元数据并写入Disruptor1.2.…

Java获取当前用户当前工作目录

方法一:使用System.getProperty(“user.dir”)函数可以获取用户当前工作目录 例如,Java工程的文件布局如下: 主类文件,获取用户当前的工作目录: package com.thb;public class Test5 {public static void main(Stri…

RNN介绍及Pytorch源码解析

介绍一下RNN模型的结构以及源码,用作自己复习的材料。 RNN模型所对应的源码在:\PyTorch\Lib\site-packages\torch\nn\modules\RNN.py文件中。 RNN的模型图如下: 源码注释中写道,RNN的数学公式: 表示在时刻的隐藏状态…

KubeSphere应用【笔记四】自定义镜像

一、概述 在KubeSphere部署Redis负载时,想通过应用商店部署Redis,通过应用商店部署redis时可以指定访问密码,结果应用商店部署Redis时如下图所示,不能进行部署,所以打算自己制作有默认密码的镜像,上传至Ha…

C语言--有一个3*4的矩阵,求出其中最大值的那个元素的值,以及其所在的行号和列号

一.题目描述 有一个3*4的矩阵,要求求出其中最大值的那个元素的值,以及其所在的行号和列号 比如:给定一个3*4的矩阵如下 输出结果:最大值为 12 ,行号为3, 列号为2 二.思路分析 打擂台算法: 先思考…

爬虫的分类

爬虫的分类 网络爬虫按照系统结构和实现技术,大致可分为4类,即通用网络爬虫、聚焦网络爬虫、增量网络爬虫和深层次网络爬虫。 1.通用网络爬虫:搜索引擎的爬虫 比如用户在百度搜索引擎上检索对应关键词时,百度将对关键词进行分析…

【深度学习目标检测】五、基于深度学习的安全帽识别(python,目标检测)

深度学习目标检测方法则是利用深度神经网络模型进行目标检测,主要有以下几种: R-CNN系列:包括R-CNN、Fast R-CNN、Faster R-CNN等,通过候选区域法生成候选目标区域,然后使用卷积神经网络提取特征,并通过分类…

Linux 链接器如何使用静态库来解析引用

文章目录 通过进行代码实践静态库在编译时被链接到可执行文件中的基本原理原理总结 QA:.obj文件是什么? 通过进行代码实践 链接器在解析引用时,可以使用静态库来满足对未定义符号的引用。以下是使用静态库的一般步骤: 编写代码: 首先&#…