【Python实战】Python采集王者最低战力信息

news2024/9/25 9:29:02

前言

王者新赛季马上就要开始了,大家都开始冲榜了,准备拿一个小省标,那么,本文,就来练习获取各地最低战力的爬虫采集实战。

环境使用

  • python 3.9
  • pycharm

模块使用

  • requests

模块介绍

  • requests

        requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

  • parsel

        parsel是一个python的第三方库,相当于css选择器+xpath+re。

parsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xml内容,获取需要的数据。

相比于BeautifulSoup,xpath,parsel效率更高,使用更简单。

  • re

        re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。

  • os

        os 就是 “operating system” 的缩写,顾名思义,os模块提供的就是各种 Python 程序与操作系统进行交互的接口。通过使用 os 模块,一方面可以方便地与操作系统进行交互,另一方面也可以极大增强代码的可移植性。

  • csv

        它是一种文件格式,一般也被叫做逗号分隔值文件,可以使用 Excel 软件或者文本文档打开 。其中数据字段用半角逗号间隔(也可以使用其它字符),使用 Excel 打开时,逗号会被转换为分隔符。csv 文件是以纯文本形式存储了表格数据,并且在兼容各个操作系统。

模块安装问题:

  • 如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

在pycharm中点击Terminal(终端) 输入安装命令

  • 安装失败原因:
  • 失败一: pip 不是内部命令

                解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out)

                解决方法: 因为是网络链接超时, 需要切换镜像源

   

    清华:https://pypi.tuna.tsinghua.edu.cn/simple
    阿里云:https://mirrors.aliyun.com/pypi/simple/
    中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
    华中理工大学:https://pypi.hustunique.com/
    山东理工大学:https://pypi.sdutlinux.org/
    豆瓣:https://pypi.douban.com/simple/
    例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入

                解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好,或者你pycharm里面python解释器没有设置好。

代码实现

王者新赛季马上就要开始了,大家都开始冲榜了,准备拿一个小省标,那么,本文,就来练习获取各地最低战力的爬虫采集实战。

确定网址

确定好我们的目标网址之后,我们要找到我们需要的数据源,通过开发者工具分析,我们不难发现其数据地址。

请求URL:

https://www.sapi.run/hero/select.php

请求方式:

  • GET
  • 参数:

参数名必选类型说明
herostring英雄名
typestring选aqq、awx、iqq、iwx

请求示例

https://www.sapi.run/hero/select.php?hero=孙悟空&type=aqq

返回示例

{
  "code": 200,
  "data": {
    "uid": "167",
    "name": "孙悟空",
    "alias": "齐天大圣-孙悟空",
    "platform": "安卓-扣扣区",
    "photo": "https://game.gtimg.cn/images/yxzj/img201606/heroimg/167/167.jpg",
    "area": "武强县",
    "areaPower": "3693",
    "city": "潮州市",
    "cityPower": "5501",
    "province": "天津市",
    "provincePower": "7274",
    "guobiao": "11404",
    "stamp": "1654640093",
    "updatetime": "2022/06/08 06:14:53",
    "clientIP": "119.0.0.126"
  },
  "msg": " "
}

下面,我们开始写代码。

获取数据

第一步,发送请求,获得数据。

import requests
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

hero_url = 'https://pvp.qq.com/web201605/herolist.shtml'
response = requests.get(url=hero_url, headers=headers)

这段代码中,我们使用 Python 的 requests 模块发送了一个 GET 请求,请求的 URL 为 https://pvp.qq.com/web201605/herolist.shtml,并且使用了 headers 参数来设置请求头信息。请求头信息包括了 user-agent 字段,用于指定浏览器的 User-Agent 信息。

请求返回的结果是一个 Response 对象,我们可以使用 response.text 属性来获取请求的响应内容。在这个例子中,我们使用了 response.json() 方法来将响应内容转换为 JSON 格式,并将其存储在 response.text 属性中。

response.encoding='gbk'
heros = re.findall('alt=".*?">(.*?)</a>',response.text)[0:93]

在这个例子中,我们使用 findall() 函数来查找 JSONP 回调函数的参数,并将其存储在 response.text 变量中。然后,我们使用 [0:93] 来获取第一个匹配的子字符串,并将其存储在 heros 变量中。

解析数据

我们发现,我们得到了这样英雄名字的数据,下面,我们就可以构建url,获取战力信息。

for hero in heros:
    print(hero)
    url = f'https://www.sapi.run/hero/select.php?hero={hero}&type=qq'
    res = requests.get(url)
    data = res.json()['data']
    name = data['name']
    area = data['area']
    areaPower= data['areaPower']
    city = data['city']
    cityPower = data['cityPower']
    province= data['province']
    provincePower = data['provincePower']
    platform= data['platform']
    updatetime = data['updatetime']

这段代码中,我们使用 Python 的 requests 模块发送了一个 GET 请求,请求的 URL 为 https://www.sapi.run/hero/select.php?hero={hero}&type=qq,并且使用了 json() 方法将响应内容转换为 JSON 格式,并将其存储在 res.json() 变量中。

请求返回的结果是一个 Response 对象,我们可以使用 response.json() 方法将响应内容转换为 JSON 格式,并将其存储在 res.json() 变量中。

在这个例子中,我们使用了 res.json() 变量来获取响应内容,并将其存储在 data 变量中。然后,我们使用 name 变量获取了英雄名称,使用 area 变量获取了区域名字,使用 areaPower 变量获取了区域战力,使用 city 变量获取了市,使用 cityPower 变量获取了市战力,使用 province 变量获取了省份,使用 provincePower 变量获取了省份战力,使用 platform 变量获取了平台,使用 updatetime 变量获取了更新时间。

保存数据

dit = {
    '英雄名称':name,
    '服务区':platform,
    '更新时间': updatetime,
    '铜牌区域':area,
    '铜牌分数': areaPower,
    '银牌区域':city,
    '银牌分数': cityPower,
    '金牌区域':province,
    '金牌分数':provincePower ,
}

这段代码是一个 Python 代码片段,它定义了一个字典,其中包含了一些英雄的信息,包括英雄名称、服务区、更新时间、铜牌区域、铜牌分数、银牌区域、银牌分数、金牌区域、金牌分数等。

下面就是数据的写入了。其实,把字典数值写入到csv文件里面,特别简单,只需呀四行代码就可以实现。

f = open('最低战力.csv', mode='W', encoding='utf-8_sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['英雄名称', '服务区', '更新时间', '铜牌区域', '铜牌分数',
                                           '银牌区域', '银牌分数', '金牌区域','金牌分数'])
csv_writer.writeheader()

写入字典数值。

csv_writer.writerow(dit)
这时候,我们就会在文件夹里面找到最低战力的csv文件,我们打开看看效果。

 

附全部源码

import requests
import re
import csv
f = open('最低战力.csv', mode='w', encoding='utf-8_sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['英雄名称', '服务区', '更新时间', '铜牌区域', '铜牌分数',
                                           '银牌区域', '银牌分数', '金牌区域','金牌分数'])
csv_writer.writeheader()
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

hero_url = 'https://pvp.qq.com/web201605/herolist.shtml'
response = requests.get(url=hero_url, headers=headers)

response.encoding='gbk'
heros = re.findall('alt=".*?">(.*?)</a>',response.text)[0:93]
print(heros)
# aqq、awx、iqq、iwx
for hero in heros:
    print(hero)
    url = f'https://www.sapi.run/hero/select.php?hero={hero}&type=qq'
    res = requests.get(url)
    data = res.json()['data']
    name = data['name']
    area = data['area']
    areaPower= data['areaPower']
    city = data['city']
    cityPower = data['cityPower']
    province= data['province']
    provincePower = data['provincePower']
    platform= data['platform']
    updatetime = data['updatetime']
    dit = {
        '英雄名称':name,
        '服务区':platform,
        '更新时间': updatetime,
        '铜牌区域':area,
        '铜牌分数': areaPower,
        '银牌区域':city,
        '银牌分数': cityPower,
        '金牌区域':province,
        '金牌分数':provincePower ,
    }
    print(dit)
    csv_writer.writerow(dit)

6adf31c8c5dd4e6a83314f4805b30bc1.jpg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/638310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

都说软件测试简单,我怎么没有感觉呢?

前言 软件测试到底难不难&#xff1f;试试就知道了。 经常听想入行的朋友说&#xff1a; 我想转软件测试&#xff0c;听说软件测试很简单。 这时我的心里就呵呵了&#xff0c;谁说软件测试简单了&#xff0c;你知道吗&#xff1f;测试工程师要会的&#xff0c;要了解的东西比…

电力vr智能巡检模拟实操教学灵活性高成本低

传统电力智能运检服务培训采用交接班期间开展智能带电检测仪器的操作培训&#xff0c;教学时间、场地及材料有限&#xff0c;有了VR技术&#xff0c;将推动电力智能运检服务培训走向高科技、高效率和智能化水平。 深圳华锐视点凭借着对VR实训系统的深入研发和升级&#xff0c;多…

asp.net 框架开发的LIMS实验室信息管理系统源码

LIMS实验室信息管理系统源码 通过互联网实验室的管理模式&#xff0c;结合实验室硬件设备&#xff0c;将实验室的项目、设备、耗材、人员等结合到软件上管理&#xff0c;利用计算机网络技术、数据存储技术 、快速数据处理等&#xff0c;对实验室进行全方位的管理&#xff0c;帮…

web接口测试之GET与POST请求

目录 前言&#xff1a; GET请求 POST请求 前言&#xff1a; Web接口测试中最常见的请求方法是GET和POST&#xff0c;它们构成了大部分的Web API请求。在接口测试开发过程中&#xff0c;了解它们的原理、特点和应用场景是非常重要的。在本文中…

抖音电商发展路径:从外链种草到达人/品牌直播

复盘抖音电商发展&#xff0c;可以总结出以下几点发展特征&#xff1a; 策略重心的变化 以种草为核心&#xff0c;给电商引流站外成交&#xff08;2019 年及之前&#xff09;→ 力推达人直播但效 果一般&#xff08;2020 上半年&#xff09;→ 推品牌自播并彻底闭环&#xff0…

postgres 简单导入导出sql脚本

postgres 简单导入导出sql脚本 导出 backup选择类型 导入功能 导出 backup 选择类型 右键点击backup&#xff1a; 成功导出sql 数据文件 导入功能 cd 进入 Postgres 安装目录进入bin目录下执行一下命令 psql -d ${database_name} -h localhost -p 5432 -U postgres -f C:\…

成功案例丨借助Facebook运营海外市场的企业策略

在当今数字化时代&#xff0c;企业在拓展海外市场和赢得全球消费者的竞争中&#xff0c;社交媒体平台扮演了重要角色。其中&#xff0c;Facebook作为全球最大的社交媒体平台之一&#xff0c;为众多企业提供了成功进军海外市场的机会。 Poppy & Finch&#xff08;虞姬家&…

创建合同pdf操作整理

使用TCPDF对合同的模板创建、盖章、水印、骑缝章、设置保护等操作。 目录 合同模板处理 创建html模板 模板赋值 创建目录 创建blade合同模板 变量改活 获取html内容 创建pdf文件 盖章处理 骑缝章处理 获取总页数 分割印章 设置骑缝章 水印设置 简单水印 每页水…

Jenkins部署报错问题:已解决

一.Jenkins不能下载插件 报错sun.security.provider.certpath.SunCertPathBuilderException sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested targetat sun.security.provider.certpath.SunCertPathBuild…

学习英语给你带来了哪些机会?

昨天文章发出后&#xff0c;J姐姐给予了一些更正&#xff0c;我希望将来也能够像她那样走出去看一看。 Y呢&#xff0c;并不是我说的那样混日子&#xff0c;了解更多之后&#xff0c;才发现他是个王者&#xff0c;顿时肃然起敬。 “一起学英语”群里大佬云集&#xff0c;希望他…

【MySQL】一文带你了解SQL

&#x1f3ac; 博客主页&#xff1a;博主链接 &#x1f3a5; 本文由 M malloc 原创&#xff0c;首发于 CSDN&#x1f649; &#x1f384; 学习专栏推荐&#xff1a;LeetCode刷题集&#xff01; &#x1f3c5; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指…

《嵌入式系统设计师教程 (第2版)》学习笔记

嵌入式系统设计师教程 (第2版).pdf》链接&#xff1a;https://download.csdn.net/download/AnChenliang_1002/87864728 该资源在上传时涉及到版权问题无法上传&#xff0c;所以保留该资源仅为了日后查看时博主自己可以下载&#xff1b; 本文用来记录在学习《嵌入式系统设计师…

三亚旅拍及游玩

可选景点 ⬇️①蜈支洲岛&#xff1a;各种各样的海上项目都有&#xff0c;海岛很美&#xff0c;被称作中国马尔代夫&#xff08;144元&#xff09; ⬇️②后海村&#xff1a;很适合新手学习冲浪&#xff08;免费&#xff09; ⬇️⑤西岛&#xff1a;一座安静的文艺小岛&…

2023年6月17号英语四六级考试倒计时,这些考前准备事项一定要注意

2023年6月全国大学英语四六级考试将于6月17日&#xff08;本周六&#xff09;举行&#xff0c;冰雪为大家总结了四六级考前及考中注意事项&#xff0c;供同学们参考&#xff01; 考试时间 四级考试时间&#xff1a;6月17日上午9:00-11:20 六级考试时间&#xff1a;6月17日下午1…

爆肝整理,3个月从功能进阶自动化测试,一跃成测试卷王...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 首先先了解自动化…

GPT-4(THUDM) + LangChain >> Personalized expert AI assistant.(本地知识库教程)

GPT-4(THUDM) Langchain &#xff1e;&#xff1e; Personalized expert AI assistant. Langchain. GPT-4 LangChain简介 - 知乎 (zhihu.com) 利用LangChain和国产大模型ChatGLM-6B实现基于本地知识库的自动问答_哔哩哔哩_bilibili Github地址&#xff1a; https://github.c…

10个最佳WooCommerce电商网站测量价格计算器插件

您销售的产品需要根据大小、重量、尺寸、面积或体积定价&#xff1f;查看我们的热门WooCommerce跨境电商测量价格计算器插件列表&#xff0c;以及如何设置它们。你的客户可以轻松计算和接收定制或尺寸产品等的即时定价。 定价是任何在线商店的基本特征。就其本身而言&#xff…

ECC算法学习

ECC 一、ECC简介优缺点运用 二、算法理论基础1. 椭圆曲线的加法2. 椭圆曲线的二倍运算3. 同余运算4. 有限域5. 乘法逆元 三、算法公式1、有限域的负元2、有限域的加法&#xff0c; P Q P Q PQ3. 斜率计算&#xff08;PQ即要计算P点切线&#xff0c;需要求导&#xff09;4. 椭…

【Linux】通过 Shell 脚本修改用户密码

1. Linux 中修改用户密码 Linux 中要修改一个用户的密码通常是使用 passwd 命令来完成&#xff0c;命令格式如下。 #一般使用格式 passwd [username][注]&#xff1a;若其后不加任何用户名则表示修改当前用户的密码。 使用示例&#xff1a; 这里笔者将 im 用户的密码修改为 im…

简单的提示词操作融合微调 AI 图像

本文旨在帮助我们理解和运用稳定扩散技术对AI生成图像进行精确调整。通过本文将学习如何调整关键词的强度、消除不需要的对象以及如何混合两个关键词。 Stable Diffusion 可以直接下载秋叶大神一键安装包进行使用&#xff0c;也可以直接下git上原生下载自己部署。 百度链接 …