下载地址: Towards geolocation of millions of IP addresses | Proceedings of the 2012 Internet Measurement Conference
被引用次数:70
Hu Z, Heidemann J, Pradkin Y. Towards geolocation of millions of IP addresses[C]//Proceedings of the 2012 Internet Measurement Conference. 2012: 123-130.
ABSTRACT
以前基于测量的IP地理定位算法都集中在精度上,用越来越复杂的算法从数十个有利位置(vantage points,VPs)进行测量。在本文中,我们研究了如何扩大现有的基于测量的地理定位算法,如最短的Ping和CBG,以覆盖整个互联网。我们表明,在许多有利位置下,VP接近目标是影响精度的最重要因素。这一观察结果表明,我们的新算法可以从许多候选目标中为每个目标选择最好的几个vp。这种方法解决了地理位置可伸缩性的主要瓶颈:在保持准确性的同时,最小化进入每个目标(以及每个VP)的流量。使用这种方法,我们目前已经对已分配的约35%的单播、IPv4地址空间进行了地理定位(互联网上约85%的地址可以直接进行地理定位)。我们在一个基于web的地址空间浏览器上可视化我们的地理定位结果。
Categories and Subject Descriptors
C.2.1 [Computer-Communication Networks]: Network Architecture and Design—Network topology; [计算机通信网络]:网络体系结构与设计—网络拓扑结构
C.2.5 [Computer-Communication Networks]: Local and Wide-Area Networks—Internet; [计算机通信网络]:局域网和广域网-因特网
C.2.6 [Computer-Communication Networks]: Internetworking General Terms: Experimentation, Measurement 计算机-通信网络]:互联网通用术语:实验,测量
Keywords
IP geolocation(IP地理定位), IPv4
1. INTRODUCTION
IP地址定位是查找Internet协议地址的地理位置的过程。IP地理定位技术在当今得到了广泛的应用。例如,公司使用IP地理定位将内容限制在某些国家(例如,电视和电影,通常根据观众的国家获得不同的授权),并根据位置定制广告。互联网研究人员使用IP地理定位来将网络现象与国家联系起来,比如研究文化对社交网络的影响,或按国家和政策划分的计算机犯罪率。此外,知识产权地理定位在执法中至关重要,以确定处理计算机犯罪法规执行的适当管辖权。
一些研究和商业地理定位系统的存在,探索了许多不同的方法。它们形成了三个粗略的类别(第3节):由数据库([11,15])驱动的系统、基于测量的地理定位(如Geoping[15]、CBG [4]等)和目标辅助地理定位(如Skyhook[17])。我们在这里关注的是基于测量的系统,因为它们比数据库方法提供更好的覆盖范围和准确性,并且独立于目标。基于测量的算法都依赖于有利位置(VPs)来主动探测地理定位目标。我们研究了几何类算法和CBG类算法。
[11] David Moore, Ram Periakaruppan, and Jim Donohoe. Where in the world is netgeo.caida.org?, July 2000.
[15] Venkata N. Padmanabhan and Lakshminarayanan Subramanian. An investigation of geographic mapping techniques for Internet hosts. In Proceedings of the ACM SIGCOMM Conference, pages 173–185, San Diego, California, USA, August 2001. ACM.
[4] Bamba Gueye, Artur Ziviani, Mark Crovella, and Serge Fdida. Constraint-based geolocation of Internet hosts. ACM/IEEE Transactions on Networking, 14(6):1219–1232, December 2006.
[17] Skyhook. web page http://www.skyhookwireless.com/.
我们的目标不是发明一个新的地理定位算法,而是了解现有的算法如何可以扩展到数百万个目标和整个IPv4地址空间。我们在将现有的算法扩展到整个互联网时遇到了几个问题。
首先,所有现有的工作都使用相对较小的[4,9],通常是几十个[4,9]。
其次,现有的工作是在一个相对较小的目标集上进行测试的,通常是数百个目标。
选择已知真实值的典型目标来评估算法的精度。目前的算法有数十个vp和数百个目标,每个算法都有所有的vp向每个目标发送许多探针。虽然这个产品都是小的,是合理的,有数百个vp和10亿目标,但产品是大的。其结果是每个VP的大量流量,进入每个目标的繁重流量,其中数百个探测到达目标块中的每个IP地址,以及将这些数据的沉重负荷放在一起。
[9] Ethan Katz-Bassett, John P. John, Arvind Krishnamurthy, David Wetherall, Thomas Anderson, and Yatin Chawathe. Towards IP geolocation using delay and topology measurements. In Proceedings of the ACM Internet Measurement Conference, pages 71–84, Rio de Janeiro, Brazil, October 2006. ACM.
为了将地理位置扩展到整个互联网,我们的第一个贡献是研究了哪些因素影响了基于测量的地理位置协议的地理位置的可伸缩性和准确性。我们表明,流量,包括从vp出站还是入站到目标,都是全互联网地理定位的一个重大限制,并表明更少的vp可以使入站流量易于管理。
然后我们表明,大多数VPs对地理定位没有什么好处,这表明人们只能选择几个VPs来定位每个IP地址,在合理的同时获得合理的准确性,同时大大减少流量。我们对影响准确性的因素提出了三个猜想,并表明使用一些VPs的良好的准确性是可能的(第4.1节)。
我们的第二个贡献是定义新的算法来选择正确的几个VPs(第4.2节)。我们的想法是选择离目标最近的VPs,因为越近的VPs对位置的约束越强。通过对每个/24地址块进行试验测量,VP选择效果很好(第4.2节)。我们的实验结果表明,代表能够识别接近的副总裁,并提供几乎与许多副总裁一样好的准确性。对于最短的Ping,与所有400个VPs相比,10个接近VPs的中值误差相同,而CBG的中位数误差仅差11%
通过本文中概述的方法,我们正在对所有响应性的公共IPv4地址进行地理定位。研究人员[7]可以免费获得这些数据。
[7] Zi Hu, John Heidemann, and Yuri Pradkin. LANDER geolocation datasets. http://www.isi.edu/ant/traces/geolocation, August 2012. Also available through PREDICT (www.predict.org).
2. PROBLEM STATEMENT
我们的目标是对每个分配的单播IPv4地址进行地理定位,具有与基本最短Ping和CBG相似的精度。虽然地理定位算法是众所周知的,但将它们扩展到覆盖整个互联网的主要限制是探测流量。接下来,我们将回顾地理定位元素和这些约束条件。
2.1 Geolocation terminology
基于测量的地理定位系统将探测器从有利的位置发送到互联网上的地理定位目标。一些系统还可以在已知的参考位置上探测地标。图1显示了这些实体: