嗨害大家好鸭!我是小熊猫~
明天就是2023年啦~
还有谁像我小熊猫一样没有回家的?
这次康康能不能12306抢票回家!!!
Python实现12306查票以及自动购票
[代码来源]: 青灯教育-自游老师
[环境使用]:
- Python 3.8
- Pycharm
谷歌浏览器
谷歌驱动
[模块使用]:
requests ---> pip install requests 数据请求模块
prettytable ---> pip install prettytable 打印好看一些
selenium ---> pip install selenium==3.141.0 模拟人的行为去操作浏览器
json ---> 内置模块 不需要安装
所用素材:点击此处跳转文末名片获取
city.json文件
win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)
模块安装问题:
- 如何安装python第三方模块?
1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
2. 在pycharm中点击Terminal(终端) 输入安装命令
- 安装失败原因:
- 失败一: pip 不是内部命令
解决方法: 设置环境变量
- 失败二: 出现大量报红 (read time out)
解决方法: 因为是网络链接超时, 需要切换镜像源
清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:https://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:https://pypi.hustunique.com/
山东理工大学:https://pypi.sdutlinux.org/
豆瓣:https://pypi.douban.com/simple/
例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
- 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入
解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好
或者你pycharm里面python解释器没有设置好
如何配置pycharm里面的python解释器?
- 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
- 点击齿轮, 选择add
- 添加python安装路径
pycharm如何安装插件?
- 选择file(文件) >>> setting(设置) >>> Plugins(插件)
- 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
- 选择相应的插件点击 install(安装) 即可
- 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效
一点小TIPS:
12306 每天只能退票三次
查票
购票
建议谷歌或者火狐…
爬虫采集数据思路:
一. 分析数据来源
车票信息:来源哪个数据包 <车票信息请求那个网站url地址可以得到>
开发者工具:F12
二. 代码实现步骤:
1. 发送请求, 对于刚刚分析得到url地址发送请求
2. 获取数据, 获取服务器返回响应数据, response
3. 解析数据, 提取我们想要车次信息
python就业可以找哪方面的工作?
需求是什么样子, 需要学习什么内容?
大数据专业/数据分析师 —> 除非你的公司里有爬虫工程师或者有后台数据
核心编程 + 高级开发 + 数据分析 + 爬虫
爬虫工程师:
核心编程 + 高级开发 + 爬虫
开发工程师:
核心编程 + 高级开发 + 全栈开发
导入模块
# 导入数据请求模块 ---> 第三方模块 需要 在cmd里面进行 pip install requests
import requests
导入漂亮的表格输出模块
第三方模块 需要 在cmd里面进行 pip install prettytable
import prettytable as pt
导入json
import json
导入selenium模块
---> 第三方模块 需要 在cmd里面进行 pip install selenium==3.141.0
from selenium import webdriver
导入账号密码
from password import account, Password
导入selenium控制键盘
from selenium.webdriver.common.keys import Keys
创建浏览器 <打开浏览器>
浏览器驱动放在python安装目录里面就不需要添加路径
def get_ticket(num, from_station, to_station, date_key):
driver = webdriver.Chrome()
输入网址
driver.get('https://kyfw.12306.cn/otn/resources/login.html')
通过元素定位, 找到账号输入框 输入账号 send_keys() 发送或者输入内容
driver.find_element_by_css_selector('#J-userName').send_keys(account) # 通过 css 选择器查找元素
# 通过元素定位, 找到密码输入框 输入密码 send_keys() 发送或者输入内容
driver.find_element_by_css_selector('#J-password').send_keys(Password) # 通过 css 选择器查找元素
# 通过元素定位, 找到登陆按钮, 点击登陆
driver.find_element_by_css_selector('#J-login').click()
# 隐式等待
driver.implicitly_wait(10)
# 通过元素定位, 点击弹窗确定按钮 .表示class # 表示ID
driver.find_element_by_css_selector('.modal-ft .btn').click()
# 通过元素定位, 点击车票预定
driver.find_element_by_css_selector('#link_for_ticket').click()
# 通过元素定位, 点击键盘回车
driver.find_element_by_css_selector('#fromStationText').send_keys(Keys.ENTER)
# 通过元素定位, 清空输入框内容
driver.find_element_by_css_selector('#fromStationText').clear()
# 通过元素定位, 点击一下输入框
driver.find_element_by_css_selector('#fromStationText').click()
# 通过元素定位, 输入出发城市
driver.find_element_by_css_selector('#fromStationText').send_keys(from_station)
# 通过元素定位, 点击键盘回车
driver.find_element_by_css_selector('#fromStationText').send_keys(Keys.ENTER)
driver.find_element_by_css_selector('#toStationText').clear()
driver.find_element_by_css_selector('#toStationText').click()
driver.find_element_by_css_selector('#toStationText').send_keys(to_station)
driver.find_element_by_css_selector('#toStationText').send_keys(Keys.ENTER)
date = driver.find_element_by_css_selector('.inp-w #train_date')
date.clear()
date.send_keys(date_key)
通过元素定位, 点击查询按钮
driver.find_element_by_css_selector('#query_ticket').click()
if num == 1:
driver.find_element_by_css_selector(f'#queryLeftTable tr:nth-child({num}) a.btn72').click()
elif num != 1:
driver.find_element_by_css_selector(f'#queryLeftTable tr:nth-child({num + 1}) a.btn72').click()
# #normalPassenger_0
driver.find_element_by_css_selector('#normalPassenger_1').click()
driver.find_element_by_css_selector('#submitOrder_id').click()
driver.find_element_by_css_selector('#qr_submit_id').click()
driver.find_element_by_css_selector('#qr_submit_id').click()
f = open('city.json', encoding='utf-8')
text = f.read() # 读取文件
json_data = json.loads(text)
from_city = input('请输入你要出发城市: ')
to_city = input('请输入你要到达城市: ')
date = input('请输入你要出发的时间: ')
from_station = json_data[from_city]
to_station = json_data[to_city]
发送请求, 模拟浏览器对于url地址发送请求
快捷批量替换方法:
选中内容, ctrl + R 输入正则表达式命令点击全部替换即可
(.?): (.)
‘$1’: ‘$2’,
# 确定请求网址 ---> 如果对于长链接, 我们是可以分段写 ? 后面都是属于请求参数
请求参数
data = {
'leftTicketDTO.train_date': date,
'leftTicketDTO.from_station': from_station,
'leftTicketDTO.to_station': to_station,
'purpose_codes': 'ADULT',
}
请求头
headers = {
# User-Agent: 用户代理, 表示浏览器基本身份标识
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36',
}
发送请求
response = requests.get(url=url, params=data, headers=headers)
获取数据
response.json() 获取响应对象json字典数据
解析数据
result = response.json()['data']['result']
实例化对象
tb = pt.PrettyTable()
tb.field_names = [
'序号',
'车次',
'出发时间',
'到达时间',
'耗时',
'特等座',
'一等',
'二等',
'软卧',
'硬卧',
'硬座',
'无座',
]
page = 0
lis = []
for循环 就把列表里面元素一个一个提取出来
for index in result:
# split() 字符串分割方法 --> 返回是列表
content_list = index.split('|')
# 根据列表索引位置提取内容
num = content_list[3] # 车次
start_time = content_list[8] # 出发时间
end_time = content_list[9] # 到达时间
use_time = content_list[10] # 耗时
topGrade = content_list[25] # 特等座
if topGrade:
pass
else:
topGrade = content_list[32]
first_class = content_list[31] # 一等
second_class = content_list[30] # 二等
hard_sleeper = content_list[28] # 硬卧
hard_seat = content_list[29] # 硬座
no_seat = content_list[26] # 无座
soft_sleeper = content_list[23] # 软卧
dit = {
'车次': num,
'出发时间': start_time,
'到达时间': end_time,
'耗时': use_time,
'特等座': topGrade,
'一等': first_class,
'二等': second_class,
'软卧': soft_sleeper,
'硬卧': hard_sleeper,
'硬座': hard_seat,
'无座': no_seat,
}
lis.append(dit)
tb.add_row([
page,
num,
start_time,
end_time,
use_time,
topGrade,
first_class,
second_class,
soft_sleeper,
hard_sleeper,
hard_seat,
no_seat,
])
page += 1
# 更加方便直观查看 索引位置 ---> 列表可以通过索引位置取值
# num = 0
# for i in content_list:
# # i 列表里面元素, num 对应列表索引位置
# print(i, num)
# num += 1
# break
print(tb)
num = input('请输入你想要购买车票序号: ')
get_ticket(num=int(num), from_station=from_city, to_station=to_city, date_key=date)