城市POI数据爬取-百度地图版

news2024/12/23 14:05:41

1 API说明

目前百度地图的最新版为地图检索V2.0服务。详细介绍可以通过开发文档-web服务Api-地点检索V2.0获取。
在这里插入图片描述
在这里插入图片描述
在使用API前需要提前注册账号获取ak。对于免费账号:目前的每日访问次数是100次,最多可以获取2000条数据。
如不需讲解仅需要下载代码:链接直达

2 代码分块讲解

2.1 空表头建立

首先构建一个新的csv文件,用于存储后续我们爬到的API数据。

import requests
import pandas as pd

header = [['province', 'city', 'area', 'name', 'lng', 'lat']]
out = pd.DataFrame(header)
save_path = '文件保存路径与文件名'
out.to_csv(save_path, mode='a', header=False,index=False, encoding='ANSI')

在后面我们需要保存API的省市区以及名称、经纬度信息,因此前面在建立空表时先将表头建立好。

2.2 构建请求与网页访问

本次以行政区划区域检索为例,希望检索某市的全部温泉商户。

query = '温泉'  # 检索关键字
region = '281'  # 检索行政区划区域(增加区域内数据召回权重,如需严格限制召回数据在区域内,请搭配使用city_limit参数)
city_limit = 'true'  # 区域数据召回限制,为true时,仅召回region对应区域内数据。
page_size = '20'  # 单次召回POI数量,默认为10条记录,最大返回20条。
page_num = '0'  # 分页页码,默认为0,0代表第一页
ak = '你的ak'

url = f'https://api.map.baidu.com/place/v2/search?query={query}&region={region}&city_limit={city_limit}&' \
      f'page_size={page_size}&page_num={page_num}&coord_type=1&output=json&ak={ak}'


对于构造的url,前面https://api.map.baidu.com/place/v2/search?为产品信息,不需更改。后面的参数可以根据个人需求设置,并可按任意顺序组合。可设置的参数有:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
本次我们根据需求设置了多个参数构建了url,其中5个考虑到可能日后会多次修改,以变量形式存在,其余的直接写进了url之中。如果不确定url是否正确可以使用print将其打印出来,用浏览器访问这个url来测试。如果访问正常,其返回内容应该是类似下面的json格式信息:
在这里插入图片描述
对于json格式信息的查看,建议使用JSON-handle等插件进行阅读,其层次结构会更加直观。
在这里插入图片描述

确认url可以访问后,访问网址并保存网址返回的json格式数据。

html = requests.get(url)  # 获取url
data = html.json()  # 通过json()解析数据
html.close()  # 关闭网页链接
count = data['total']
page_total = int(count/20)+1]

在total中,表示此次访问共可以返回的数据数量,因为我们设置了每页返回20条数据,所以经过简单的计算便可得出总页数,用于后续的循环中。

保存爬取的结果

num = 0  # 计数器
try:
    for page_num in range(page_total):
        url = f'https://api.map.baidu.com/place/v2/search?query={query}&region={region}&city_limit={city_limit}&' \
              f'page_size={page_size}&page_num={page_num}&coord_type=1&output=json&ak={ak}'

        html = requests.get(url)  # 获取url
        data = html.json()  # 通过json()解析数据
        html.close()  # 关闭网页链接
        for i in range(20):
            province = data['results'][i]['province']
            city = data['results'][i]['city']
            area = data['results'][i]['area']
            name = data['results'][i]['name']
            lng = data['results'][i]['location']['lng']
            lat = data['results'][i]['location']['lat']
            information = [[province, city, area, name, lng, lat]]
            out = pd.DataFrame(information)
            out.to_csv(save_path, mode='a', header=False,index=False, encoding='ANSI')
            num = num + 1
            print('当前获取第' + str(num) + '条数据中。')
except Exception as e:
    print('获取完成')
    print('结束代码:', str(e))

在最外层使用了一个try-except结构,因为在爬取到最后时,一页可能不满20条数据,即产生报错。如果这是全部程序不加这个结构也没问题,但是如果程序外部有嵌套,建议加上以保证程序正常运行。
这段代码有两层循环,第一层是遍历不同的页数,第二层是遍历每页各条数据进行保存。每读取一条数据后,使用追加的方式保存在csv文件中。

3 完整代码

'''
使用的是百度开发者平台地图检索功能
用于爬取营口市的洗浴数据
'''

import requests
import pandas as pd

# 构建表头
header = [['province', 'city', 'area', 'name', 'lng', 'lat']]
out = pd.DataFrame(header)
save_path = 'F:\代码包\产品中心代码\温泉POI结果.csv'
out.to_csv(save_path, mode='a', header=False,index=False, encoding='ANSI')

# 构建请求并计算所需页码
query = '温泉'  # 检索关键字
region = '281'  # 检索行政区划区域(增加区域内数据召回权重,如需严格限制召回数据在区域内,请搭配使用city_limit参数)
city_limit = 'true'  # 区域数据召回限制,为true时,仅召回region对应区域内数据。
page_size = '20'  # 单次召回POI数量,默认为10条记录,最大返回20条。
page_num = '0'  # 分页页码,默认为0,0代表第一页
ak = '你的ak'

url = f'https://api.map.baidu.com/place/v2/search?query={query}&region={region}&city_limit={city_limit}&' \
      f'page_size={page_size}&page_num={page_num}&coord_type=1&output=json&ak={ak}'

html = requests.get(url)  # 获取url
data = html.json()  # 通过json()解析数据
html.close()  # 关闭网页链接
count = data['total']
page_total = int(count/20)+1

# 保存结果
num = 0  # 计数器
try:
    for page_num in range(page_total):
        url = f'https://api.map.baidu.com/place/v2/search?query={query}&region={region}&city_limit={city_limit}&' \
              f'page_size={page_size}&page_num={page_num}&coord_type=1&output=json&ak={ak}'

        html = requests.get(url)  # 获取url
        data = html.json()  # 通过json()解析数据
        html.close()  # 关闭网页链接
        for i in range(20):
            province = data['results'][i]['province']
            city = data['results'][i]['city']
            area = data['results'][i]['area']
            name = data['results'][i]['name']
            lng = data['results'][i]['location']['lng']
            lat = data['results'][i]['location']['lat']
            information = [[province, city, area, name, lng, lat]]
            out = pd.DataFrame(information)
            out.to_csv(save_path, mode='a', header=False,index=False, encoding='ANSI')
            num = num + 1
            print('当前获取第' + str(num) + '条数据中。')
except Exception as e:
    print('获取完成')
    print('结束代码:', str(e))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/193154.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里软件架构师手写JDK源码,看完真的膜拜

最近有不少小伙伴在后台留言,说 Java 的面试越来越难了,尤其是技术面,考察得越来越细,越来越底层。 通过和大厂的面试官聊了一下发现,现在大厂特别爱考底层的一些原理,因为一些底层是不涉及到语言的&#x…

【Linux】进程状态的理解

🤣 爆笑教程 👉 《看表情包学Linux》👈 猛戳订阅 🔥 💭 写在前面:本章我们专门讲解进程的状态。我们先学习具体的 Linux 系统状态,再去介绍 OS 学科面对的概念如何理解 —— 运行态、终止态、阻…

二叉树的基础应用

二叉树 树概念及结构 1.1树的概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合。把它叫做树是因 为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。 有一个特殊的结点…

Seata分布式事务落地解决方案

引言上一篇文章介绍了分布式事务理论和相关解决方案的具体思路,我们下面快速复习一下相关知识点:1.分布式事务问题1.1.本地事务本地事务,也就是传统的单机事务。在传统数据库事务中,必须要满足四个原则:1.2.分布式事务分布式事务&…

Houdini_grass_sim (关于植物结算)

2023-2-2 开年第一篇 (记录下关于植物结算的笔记) 这是我们要算的植物(草) 思路 这个草分2部分 主干和叶子(这里我没考虑取解决穿插) 1.主干提取中心线 —— 2.用线结算器(主干)—…

MongoDB的安装(window系统)

最近因为用到mongodb,所以研究了一下,遇到一些问题,和大家分析一下。介绍:MongoDB 是一个基于分布式文件存储的数据库。由 C 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系…

AcWing 320. 能量项链(环形区间DP)

AcWing 320. 能量项链(环形区间DP)一、 问题:二、分析:三、代码一、 问题: 二、分析: 在讲解这道题之前,大家需要对线性区间DP和环形区间DP有一定的了解,因此如果不会这两个知识点的…

SpringSecurity 安全框架详解

SpringSecurity 安全框架详解 1.简介 先赘述一下身份认证和用户授权: 用户认证(Authentication):系统通过校验用户提供的用户名和密码来验证该用户是否为系统中的合法主体,即是否可以访问该系统;用户授权…

【JavaEE】文件操作IO之File 、InputStream、OutputStream 用法详解

目录 一、文件概念 (1)文件定义与组成 (2)文件的树形结构组织和目录 (3)文件路径 (4)文件分类 (5)文件操作 二、文件操作File类 (1&…

20230202在AIO-3568J开发板在原厂Android12下增加ll命令

20230202在AIO-3568J开发板在原厂Android12下增加ll命令 2023/2/2 11:50 1、使用EVB2的DTS:rk3568-evb2-lp4x-v10.dts,ENG模式编译。没有ll命令! console:/ $ console:/ $ ll /system/bin/sh: ll: inaccessible or not found 127|console:/ …

ESP-IDF:堆排序测试

堆排序测试 /堆排序测试/ void printheap (int arr[],int length) { for(int i0;i<length;i) { cout<<arr[i]<<" "; } cout<<endl; } void swapheap (int arr[],int a, int b) { int temp arr[a]; arr[a] arr[b]; arr[b] temp; } void he…

【数据库原理与SQL Server应用】Part04——数据库操作

【数据库原理与SQL Server应用】Part04——数据库操作一、数据库基本概念1.1 物理数据库1.1.1 页和区1.1.2 数据库文件1.1.3 文件组1.2 逻辑数据库1.3 SQL Server 的系统数据库和用户数据库1.4 报表服务器和报表数据库二、创建数据库2.1 管理工具界面方式创建数据库2.2 命令行方…

CSS列表与表格

目录 ​编辑 HTML 列表和 CSS 列表属性 不同的列表项目标记 实例 图像作为列表项标记 实例 定位列表项标记 实例 删除默认设置 实例 列表 - 简写属性 实例 设置列表的颜色样式 实例 更多实例 所有 CSS 列表属性 表格边框 实例 全宽表格 实例 双边框 合并…

【数据结构与算法】最小生成树 | 最短路径

&#x1f320;作者&#xff1a;阿亮joy. &#x1f386;专栏&#xff1a;《数据结构与算法要啸着学》 &#x1f387;座右铭&#xff1a;每个优秀的人都有一段沉默的时光&#xff0c;那段时光是付出了很多努力却得不到结果的日子&#xff0c;我们把它叫做扎根 目录&#x1f449;…

【图】邻接表存储图

目录 一、概念 图是什么 各种图的定义 二、图的存储结构 邻接矩阵 邻接表 代码实现邻接表存储图&#xff08;不含权重&#xff09; 一、概念 图是什么 图&#xff08;Graph)是由顶点的有穷非空集合和顶点之间边的集合组成&#xff0c;通常表示为:G(V,E)&#xff0c;其中…

Hystrix断路器执行原理

状态机 Hystrix断路器有三种状态,分别是关闭(Closed)、打开(Open)与半开(Half-Open),三种状态转化关系如下: Closed 断路器关闭:调用下游的请求正常通过Open 断路器打开:阻断对下游服务的调用,直接走 Fallback 逻辑Half-Open 断路器处于半开状态:SleepWindowInMi…

第 14 章python学习知识记录(一)

文章目录前言14.1 numpy的使用14.1.1 数字运算14.1.2 N维数组14.1.3 矩阵运算与广播14.1.4 元素访问14.2 Matplotlib的使用14.2.1 绘制简单图形14.2.2 绘制复杂图形14.2.3 显示图片14.3 os函数14.3.1 获取文件路径14.3.2 路径的基本操作14.4 tqdm的使用14.4.1 tqdm的导入和使用…

docker搭建hadoop和hive集群

一、安装docker并生成相关的镜像&#xff08;1&#xff09;安装docker安装docker教程https://www.runoob.com/docker/centos-docker-install.html只要在终端输入&#xff1a;sudo docker run hello-world后出现如下图的内容就证明安装docker成功了&#xff08;2&#xff09;拉取…

让HTTPS、SSH 共享端口的——工具SSLH

目录 安装 SSLH 配置 Apache 或 Nginx Web 服务器 配置 SSLH 测试 安装 SSLH sudo apt-get install sslh 配置 Apache 或 Nginx Web 服务器 编辑 Web 服务器&#xff08;nginx 或 apache&#xff09;配置文件并找到以下行&#xff1a; listen 443 ssl; 将其修改为&…

Uni-App 如何实现消息推送功能?

原文链接&#xff1a;Uni-App 如何实现消息推送功能&#xff1f; 前言 这里用的是uni-app自带的UniPush1.0&#xff08;个推服务&#xff09;&#xff0c;所以只针对UniPush1.0介绍实现步骤。 建议查阅的文章&#xff1a; UniPush 1.0 使用指南Unipush 常见问题 当然现在已…