爬取12306上所有城市的站台信息

news2025/1/16 1:08:17

0. 需求

爬取所有城市下的站台信息保存到Excel中:
效果:
在这里插入图片描述

1. 定位数据源

在12306随便一个车票查询页面上,通过F12控制台获取网站请求车站数据的URL
在这里插入图片描述

博主当前获取的URL为:

https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9270

*注意: 不同时期车站数据可能会发生变化, 准确度要求不高的话, 可以直接用这个, 获取时间是2023年7月5日.

2. 解构数据

在这里插入图片描述
可以看到每个站台的数据结构是:

@bjb | 北京北 | VAP | beijingbei | bjb | 0 | 0357 | 北京 | | |

我们需要的是其中的站台数据北京北 和城市数据:北京, 这种需要用到正则表达式的东西,我们现在就不用自己再去找正则表达式语法了, 直接让AI干, 效果如下:

提问:

字符串为: @bjb|北京北|VAP|beijingbei|bjb|0|0357|北京|||@bjd|北京东|BOP|beijingdong|bjd|1|0357|北京|||@shn|上海南|SNH|shanghainan|shn|14|0712|上海|||@shq|上海虹桥|AOH|shanghaihongqiao|shhq|15|0712|上海|||. 里面的正则表达式要求:每组字符串以@开始以|||结束只提取里面的汉字, 结果要求提取成{'北京':[ '北京北','北京东'],'上海':['上海南','上海虹桥']}

回答:

你好,这是Bing。我可以帮你写一个正则表达式来提取字符串里的汉字。😊

一个可能的正则表达式是:

@([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|\|\|

这个表达式会匹配以@开始,以|||结束的字符串,并且捕获其中的八个以|分隔的子字符串。我们可以用第一个和第八个子字符串来构造结果字典,因为它们都是汉字。

下面是一段Python代码来实现这个功能:

import re

# 原始字符串
s = "@bjb|北京北|VAP|beijingbei|bjb|0|0357|北京|||@bjd|北京东|BOP|beijingdong|bjd|1|0357|北京|||@shn|上海南|SNH|shanghainan|shn|14|0712|上海|||@shq|上海虹桥|AOH|shanghaihongqiao|shhq|15|0712|上海|||" 

# 正则表达式
pattern = r"@([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|\|\|" 

# 结果字典
result = {}

# 遍历所有匹配
for match in re.finditer(pattern, s):
  # 获取第一个和第八个子字符串
  city = match.group(8)
  station = match.group(1)
  # 如果城市在字典中,就添加车站到列表中
  if city in result:
    result[city].append(station)
  # 否则,就创建一个新的列表
  else:
    result[city] = [station]

# 打印结果
print(result)
复制
输出:

{'北京': ['bjb', 'bjd'], '上海': ['shn', 'shq']} 

3. 全部代码直接贴下

import requests
import re
from openpyxl import Workbook

# 可以在12306网站直接刷新 通过F12获取最新的站台版本信息 当前日期为2023年7月5日 获取的版本 station_version=1.9270
station_key_value_url = "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9270"

# 获取所有城市的站台信息
def get_station_key_value():
    requests.packages.urllib3.disable_warnings()
    response = requests.get(station_key_value_url, verify=False)
    # 正则表达式
    pattern = r"@([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|([^|]+)\|\|\|"

    # 结果字典
    result = {}
    # @bjb | 北京北 | VAP | beijingbei | bjb | 0 | 0357 | 北京 | | |
    # 遍历所有匹配

    for match in re.finditer(pattern, response.text):
        # 获取第二个和第八个子字符串
        city = match.group(8)
        station = match.group(2)
        # 如果城市在字典中,就添加车站到列表中
        if city in result:
            result[city].append(station)
        # 否则,就创建一个新的列表
        else:
            result[city] = [station]
    return result


if __name__ == '__main__':
    title = ["区划", "车站信息"]
    wb = Workbook()
    ws = wb.active
    ws.append(title)
    infos = get_station_key_value()
    for city in infos:
        i = 0
        for station in infos[city]:
            line = ['', station]
            if (i == 0):
                line = [city, station]
            i = i + 1
            ws.append(line)
    wb.save("city-stations.xlsx")

4. 成果

可以看到数据集里不仅有当前的站台, 甚至已经废弃停运的站台也在里面(2014年废弃的中华门火车站), 可以说是非常全了

资源正在审核中,通过后将在文章顶部展示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/720078.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

服务器数据恢复-raid10重建为raid6的数据恢复案例

服务器故障: 一台IBM V7000存储中的vdisk丢失,Solaris操作系统中的部署的Oracle数据库不可用。经过和工作人员的沟通得知故障原因:工作人员进行重建MDisk的操作,将原先的raid10重建为raid6,然后又再次重建为raid10&…

RLHF文本生成图模型

背景 语言大模型有RLHF技术点,是否图生成也需要RLHF。要回答这个问题其实首先需要回答的问题有三个: 1.RLHF到底是个什么技术 2.为什么需要用RLHF技术,在语言大模型用RLHF模型解决什么问题点 3.图在什么情况下需要用到RLHF技术点 RLHF技…

如何实现监听某些数值,异步页面请求后再渲染到页面上

问题: 当我们遇到小程序在某个页面,需要刷新另一个页面的数据时,通常都是返回到刷新页面,然后执行onshow的函数。 但是是否可以拿数值之后,直接就更新相应的数值就行了?不用整体刷新。或者有时候页面已经…

7.3.4 【Linux】文件系统检验

xfs_repair 处理 XFS 文件系统 xfs_repair 可以检查/修复文件系统,不过,因为修复文件系统是个很庞大的任务!因此,修复时该文件系统不能被挂载。 fsck.ext4 处理 EXT4 文件系统 fsck 是个综合指令,如果是针对 ext4 的…

“软件源 xxx 的选项 Signed-By 中含有互相冲突的值 xxx“解决方法

问题: 解决方法: 删除目录“/etc/apt/sources.list.d”下的所有文件。(至于为什么,我也不知道) 参考文章: Ubuntu18.04 安装Docker 报错:Signed-By 中含有互相冲突的值_Wynne然然不乖的博客-CS…

基于Springboot+Vue的房屋中介系统(源代码+数据库+14000字论文)064

基于SpringbootVue的房屋中介系统(源代码数据库14000字论文)064 一、系统介绍 本项目前后端分离 本系统分为管理员、用户、中介经纪人三种角色 用户角色包含以下功能: 登录、注册、个人信息修改、密码修改、房屋查看、经纪人联系 中介经纪人角色包含以下功能&…

开拓全球市场:国内企业如何通过TikTok直播开创品牌新篇章

在当今全球化的商业环境中,许多国内企业渴望将自己的品牌推向海外市场。然而,进军海外市场并不容易,尤其是对于那些缺乏国际推广经验的品牌来说。然而,随着社交媒体的兴起,一种新的推广方式正在引起关注,那…

软件测试方法

软件测试是在软件投入生产性运行之前,对软件需求分析、设计规格说明和编码的最终复审,是软件质量控制的关键步骤。 软件开发过程是一个自顶向下、逐步细化的过程,而测试过程则是依相反的顺序安排的自底向上、逐步集成的过程。 一、白盒测试…

【工厂模式与抽象工厂】—— 每天一点小知识

💧 工厂模式与抽象工厂 \color{#FF1493}{工厂模式与抽象工厂} 工厂模式与抽象工厂💧 🌷 仰望天空,妳我亦是行人.✨ 🦄 个人主页——微风撞见云的博客🎐 🐳 《数据结构与算法》专栏的文…

数据库|TiDB多副本损坏,别着急!有损恢复帮你化险为夷!

高文锋 |后端开发工程师 目录 一、前言 二、TiDB数据库的存储架构 三、集群信息 (一)Store情况 (二)测试表db 1.sbtest 1的region分布情况 (三)模拟tikv出现故障 (四)有损不…

vue【过滤器】

目录 1:过滤器的基本语法 1.1:示例代码 1.2:注意事项 2:使用Vue.filter定义全局过滤器 2.1:私有过滤器 2.2:全局过滤器 3:使用全局过滤器格式化时间 3.1:处理如图的时间 3.…

接口测试异常场景耗时耗力?一文帮你解决

背景 随着前后端分离、微服务等技术的广泛应用,接口测试在整个测试过程中扮演的角色越来越重要,如何更加高效地把接口测好、测得更加充分就成了一个亟待解决的难题。 当前在对具体的某一接口进行测试时,普遍采取的方法是测试人员按照接口文…

Vue3使用Markdown编辑器并显示

安装markdown-it npm i kangc/v-md-editornext -S 在main.js中全局注册 import { createApp } from vueimport VueMarkdownEditor from kangc/v-md-editor; import kangc/v-md-editor/lib/style/base-editor.css; import vuepressTheme from kangc/v-md-editor/lib/theme/vu…

null 类对象

这篇文章有助于理解类与对象。类是一种类型&#xff0c;而对象则是一种类型的具体的东西了&#xff0c;即对象是要分配内存的。下面看一下很简单的例子 #include <stdio.h> #include <stdlib.h> #include <memory>class CTest { public:CTest(): mValue(100…

Axure教程—表格新增(中继器)

本文介绍的是用Axure中的中继器制作表格新增功能效果 效果 预览地址&#xff1a;https://ure09q.axshare.com 功能 用户点击“新增”出现表单&#xff0c;填写数据后保存数据。 制作 一、所需元件 矩形元件、中继器 二、制作过程 1、表格 拖入一个表格元件&#xff0c;表格…

go-zero的路由机制解析

构建web服务 参考官方教程go-zero安装 //安装goctl插件 go install github.com/zeromicro/go-zero/tools/goctllatest//加载go-zero依赖 go get -u github.com/zeromicro/go-zerolatestzero构建一个http服务器&#xff0c;基于goctl命令创建&#xff1a; goctl api new demo…

Redis 7 常用数据结构

10大数据结构图示 10大数据类型&#xff1a; redis字符串(String)redis列表(ist)redis哈希表(Hash)redis集合(Set)redis有序集合(ZSet)redis地理空间(GEO)redis基数统计(HyperLogLog)redis位图(bitmap)redis位域(bitfield)redis流(Stream) Redis键(key) 命令不区分大小写&am…

Burp代理单个站点

这里写自定义目录标题 Burp代理问题解决代理单个站点&#xff08;核心&#xff09; Burp代理问题 平时进行渗透的时候为浏览器挂上代理后往往全部站点都进行代理&#xff0c;有很多没用的包被抓到&#xff0c;影响测试&#xff0c;且和在burp上设置单个站点抓包比较麻烦。 解…

奥威BI云星空标准方案:部署快、一站式的SaaS BI解决方案

奥威BI云星空标准方案是一种基于奥威BI数据云&#xff08;SaaS平台&#xff09;的商业智能解决方案&#xff0c;提供一站式的销售管理、客户关系管理、人力资源管理、财务管理等业务流程。该方案提供了从数据连接、数据建模到数据分析与价值挖掘的全链路数据应用服务&#xff0…

[AJAX]使用fetch发送请求

fetch是浏览器原生的函数&#xff0c;不需要像原生AJAX新建实例就可以用于发送AJAX请求。 支持Promise获取异步的HTTP响应&#xff0c;和支持流式获取。 服务端代码 // 服务端准备 // 1、引入express const express require(express); // 2、创建应用对象 const app expre…