用Python爬取高德地图地铁站点数据——Python程序及详解

news2025/1/11 20:50:28

0. 准备工作

在使用以下Python程序爬取高德地图地铁站点数据前,需要先在“高德开放平台”(网站:高德开放平台 | 高德地图API)申请一个API Key。具体操作为:注册一个“高德开放平台”账号,找到右上角的控制台,如下图所示。

然后按照下图所示序号,按照顺序依次操作。

最终你将获得一个 Key,如下图所示,将此 Key复制到下面的程序【2. 获取 API Key】中的your_default_key_here的位置,替换掉your_default_key_here。

注意:使用Key爬取数据时会有爬取次数的限制,如果超过爬取次数仍然运行程序强制爬取数据,会被封号。

详细的爬取程序详解如下:

1. 导入所需的模块

import os
import requests
import json
import pandas as pd
import time
  • os: 用于与操作系统交互,在这里用于获取环境变量中的 API Key。
  • requests: 用于发送 HTTP 请求,获取高德地图的地铁站数据。
  • json: 用于处理 JSON 格式的数据。
  • pandas: 用于处理数据并将其保存为 CSV 格式。
  • time: 用于在 API 请求之间添加延迟,避免请求过于频繁。

2. 获取 API Key

API_KEY = os.getenv('GAODE_API_KEY', 'your_default_key_here')
  • 这里我们使用 os.getenv 函数从环境变量中获取 API Key。如果没有找到对应的环境变量,则使用默认的 Key 'your_default_key_here'

3. 初始化数据列表

col = ['metro_line', 'district', 'station_name', 'longitude', 'latitude']
all_stations = []
  • col: 定义 CSV 文件的列名。
  • all_stations: 用于保存所有地铁站的数据,稍后会将这些数据写入到一个 Pandas DataFrame 中。

4. 循环获取每一页的数据

for page_number in range(100):
    url_parameters = {
        'key': API_KEY,
        'types': '150500',
        'city': '昆明',
        'extensions': 'base',
        'citylimit': 'true',
        'offset': '20',
        'page': str(page_number)
    }
    url = 'https://restapi.amap.com/v3/place/text?'
    page_json = requests.get(url=url, params=url_parameters).json()
    
    if not page_json['pois']:
        print(f'爬取结束,共{page_number}页数据。')
        break
    
    for dic in page_json['pois']:
        data_dic = {
            'metro_line': dic['address'],
            'district': dic['adname'],
            'station_name': dic['name'],
            'longitude': dic['location'].split(',')[0],
            'latitude': dic['location'].split(',')[1]
        }
        all_stations.append(data_dic)
    
    time.sleep(1)
  • url_parameters: 定义 API 请求的参数,包括 API Key、类型(地铁站)、城市(昆明)、分页信息等。
  • page_json: 获取当前页面的数据并将其解析为 JSON 格式。
  • if not page_json['pois']: 检查当前页面是否有数据,如果没有数据,则跳出循环,结束爬取。
  • data_dic: 从 JSON 数据中提取我们感兴趣的信息(地址、区县、站点名、经纬度),并将其存储在字典中。
  • all_stations.append(data_dic): 将每个地铁站的数据添加到 all_stations 列表中。
  • time.sleep(1): 添加1秒的延迟,以避免发送请求过于频繁,防止被API服务封禁。

5. 保存所有数据到 CSV 文件

data_columns = pd.DataFrame(all_stations, columns=col)
data_columns.to_csv('C:\\Users\\Administrator\\Desktop\\tram_station.csv', sep=',', index=False, encoding='utf-8', header=True)
  • pd.DataFrame(all_stations, columns=col): 将收集到的所有地铁站数据转换为 Pandas DataFrame。
  • to_csv: 将 DataFrame 保存为 CSV 文件,路径指定为 C:\\Users\\Administrator\\Desktop\\tram_station.csv,使用 UTF-8 编码,不保存索引。

6. 详细解释

  • 模块导入: 我们导入了一些必要的库,用于请求数据、处理数据并保存结果。
  • API Key 获取: 通过从环境变量中获取 API Key,我们提高了安全性,并使得程序更加灵活,可以适应不同的开发环境。
  • 数据收集: 通过循环,我们逐页请求数据,直到没有更多数据为止。每次请求都会将新的地铁站信息添加到 all_stations 列表中。
  • 延迟: 在每次请求之间添加延迟是为了避免短时间内发送过多请求,这样可以防止 IP 被 API 服务暂时封禁。
  • 数据保存: 收集到所有数据后,我们将其转换为 DataFrame,并一次性保存为 CSV 文件。这比每次迭代时保存数据更加高效。

7. 完整程序

# 1. 导入所需的模块
import os
import requests
import json
import pandas as pd
import time

# 2. 获取 API Key
API_KEY = os.getenv('GAODE_API_KEY', 'your_default_key_here')

# 3. 初始化数据列表
col = ['metro_line', 'district', 'station_name', 'longitude', 'latitude']
all_stations = []

# 4. 循环获取每一页的数据
for page_number in range(100):
    url_parameters = {
        'key': API_KEY,
        'types': '150500',
        'city': '昆明',
        'extensions': 'base',
        'citylimit': 'true',
        'offset': '20',
        'page': str(page_number)
    }
    url = 'https://restapi.amap.com/v3/place/text?'
    page_json = requests.get(url=url, params=url_parameters).json()
    
    if not page_json['pois']:
        print(f'爬取结束,共{page_number}页数据。')
        break
    
    for dic in page_json['pois']:
        data_dic = {
            'metro_line': dic['address'],
            'district': dic['adname'],
            'station_name': dic['name'],
            'longitude': dic['location'].split(',')[0],
            'latitude': dic['location'].split(',')[1]
        }
        all_stations.append(data_dic)
    
    time.sleep(1)


# 5. 保存所有数据到 CSV 文件
data_columns = pd.DataFrame(all_stations, columns=col)
data_columns.to_csv('C:\\Users\\Administrator\\Desktop\\tram_station.csv', sep=',', index=False, encoding='utf-8', header=True)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2042134.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ImportError: DLL load failed: 找不到指定的程序的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

mycat读写分离实现、企业架构MySQL读写分离

一、mycat读写分离实现 1. 添加一个新的虚拟主机,设置ip为10.1.1.60,主机名为mycat.yuanyu.zhangmin.关闭防火墙 SELinux NetworkManager 2. 上传jdk和mycat安装包 3. 解压并且添加到指定的位置 [rootmycat ~]# ls anaconda-ks.cfg frp initserver.sh jdk1.8.0_19…

24暑假算法刷题 | Day30 | 贪心算法 IV | LeetCode 452. 用最少数量的箭引爆气球,435. 无重叠区间,763. 划分字母区间

目录 452. 用最少数量的箭引爆气球题目描述题解 435. 无重叠区间题目描述题解 763. 划分字母区间题目描述题解 452. 用最少数量的箭引爆气球 点此跳转题目链接 题目描述 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points ,其中…

【Docker】Elasticsearch 8.12 安装与搭建

由于工作过程中硬件资源未能达到要求,现将使用 Elasticsearch 取代原 Redis MySQL Milvus 技术栈,在重新搭建的同时记录一下搭建过程(由于之前也分享过 Docker 版本 Elasticsearch 5.x 和 Elasticsearch 7.x 的部署方法,因此本文…

横看成岭侧成峰,远近高低各不同 —— 深入探讨Obfs4流量识别:特征、方法与应用

目录 引言 Obfs4流量特征 数据包大小与分布 时间间隔(IAT) 流量方向 加密特征 Obfs4流量识别方法 深度学习模型识别 示例代码 基于部分数据的多级剪枝方法 方法步骤 深度包检测与机器学习结合 应用场景 网络安全监控 Tor网络访问优化 匿…

分层神经网络(DNN)知多少?

分层神经网络作为深度学习的核心架构,已经彻底改变了我们处理复杂问题的方式。本文将带我们走进神经网络的基础知识,揭开GPT这些强大模型的神秘面纱。希望通过本文的介绍,我们不仅能够理解神经网络的基本构成,还能洞察到它们是如何…

OpenCV图像处理——轮廓的面积与弧长计算(C++/Python)

概述 轮廓面积与轮廓周长是图像分析中的两项核心统计特征,它们为理解和量化图像中的形状提供了基础。 轮廓面积:这代表了轮廓所界定区域的像素数量,是衡量区域大小的直接指标。面积的计算结果以像素平方为单位,为我们提供了一个量…

Wireshark_DNS_v7.0

Wireshark_DNS_v7.0 一、 nslookup 前置 nslookup 是一个网络命令行工具,用于查询域名系统(DNS)中的域名解析记录。通过使用 nslookup,你可以获取某个域名的IP地址,或者获取与某个IP地址关联的域名信息。 查看域名…

学校医院NTP电子钟让时间管理更加智能

在学校和医院这样的重要场所,时间的精确管理至关重要。每一分每一秒都可能关系到教学的进度、医疗的效果以及师生和患者的体验。而 NTP 电子钟的出现,为学校和医院的时间管理带来了全新的智能化变革。 一、NTP 电子钟在学校应用 NTP 电子钟,…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第五篇 文件系统构建篇-第七十八章 离线构建Yocto系统

i.MX8MM处理器采用了先进的14LPCFinFET工艺,提供更快的速度和更高的电源效率;四核Cortex-A53,单核Cortex-M4,多达五个内核 ,主频高达1.8GHz,2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

【HarmonyOS】鸿蒙应用蓝牙功能实现 (一)

【HarmonyOS】鸿蒙应用蓝牙功能实现 前言 蓝牙技术是一种无线通信技术,可以在短距离内传输数据。它是由爱立信公司于1994年提出的,使用2.4 GHz的ISM频段,可以在10米左右的距离内进行通信。可以用于连接手机、耳机、音箱、键盘、鼠标、打印机…

工厂流水线MES报工一体机改善生产管理效率

作为智能制造的重要组成部分,MES系统(制造执行系统)在优化生产流程、提高生产效率、降低生产成本等方面发挥着不可替代的作用。而MES报工一体机作为MES系统的重要组成部分,更是帮助企业实现生产管理效率提升的利器。 一、MES报工一…

为何有了云计算,还需要边缘计算?EasyCVR视频平台助力数据高效汇聚与管理

在当今数字化的时代,云计算可谓是大名鼎鼎,它为我们的生活和工作带来了巨大的便利。但你有没有想过,既然有了强大的云计算,为什么还会出现边缘计算呢? 一、云计算与边缘计算:相辅相成的科技双雄 先来说说…

船员考证题库刷题

1、船舶主配电板系统,设有地气灯、配电板式兆欧表和低绝缘报警装置,及船舶照明分配电箱,当发生单相接地故障时而进行排查时,______设备是不能随意断电的。 A、厨房用电 B、卫星基站 C、起重机用电 答案:B 2、燃油…

修复或更换:螺杆机支撑座磨损后的处理选择

螺杆机后端支撑座磨损,主要是由于长期使用,润滑不足或使用劣质润滑油等原因导致的。当螺杆机支撑座出现磨损时,其承载能力会逐渐下降,加速磨损,导致设备运行不稳定,噪音增大,严重时还会导致设备…

老照片一键修复怎么做?6个软件帮助你快速进行老照片修复

老照片一键修复怎么做?6个软件帮助你快速进行老照片修复 老照片修复可以让陈旧、褪色或损坏的照片恢复到原有的光彩和清晰度。以下是六款方便好用的软件,能够帮助你快速进行老照片修复,且许多都支持一键操作。 智能修复老照片 这是一款专…

【Linux】守护进程:containerd的使用教程

这里写目录标题 前言一. ctr1.1 ctr CLI1.2 ctr 调试 二、 创建 container2.1 进入 NewContainer2.2 ContainerService().Create 前言 介绍了 kubelet 通过 cri 接口和 containerd 交互的过程,containerd 源码分析:启动注册流程 介绍了 containerd 作为…

屏幕防拍照技术:防止屏幕被拍照的方法有哪些?答案超乎想象!

“防身立命,安内攘外。” 在数字化时代,信息安全已成为企业乃至个人不可忽视的重要议题。 屏幕作为信息展示的主要窗口,其安全性尤为关键。 然而,随着拍照技术的日益普及与精进,屏幕内容被轻易捕捉并泄露的风险也随…

暗区突围辅助攻略:VMOS云手机硬核辅助!农场地图攻略大全!

在《暗区突围》中,了解地图和撤离点的分布对于游戏的胜利至关重要。使用VMOS云手机进行游戏辅助,可以为你带来显著的优势。VMOS云手机专门针对《暗区突围》进行了定制,内置游戏安装包,无需重新下载安装游戏。它能够实现24小时云端…

您看这篇就够了:ComfyUI 新手指南

欢迎来到 ComfyUI 的神奇世界,这是 Stable Diffusion 的一个强大而灵活的图形用户界面。无论你是数字艺术的新手,还是希望将你的图像创作提升到新高度的老手,ComfyUI 都能满足你的需求。在这篇全面的指南中,我们将带你穿越 ComfyU…