【爬虫】Python爬取世界杯球员榜单并保存到excel经验分享

news2025/2/23 23:08:13

大家好 我是Yhen

今天给大家分享一下
如何爬取卡塔尔世界杯球员榜
在这里插入图片描述

数据来源:百度体育
https://tiyu.baidu.com/match/%E4%B8%96%E7%95%8C%E6%9D%AF/tab/%E7%90%83%E5%91%98%E6%A6%9C/current/0

文章目录

    • 一.需求分析
    • 二.思路分析
    • 三.代码实战
    • 四.源码获取

一.需求分析

我们这次的目标是将所有榜单(射手榜、助攻榜…犯规)中的球员名 球队名/球员位置 以及榜单对应的数据爬取下来
在这里插入图片描述在这里插入图片描述

并保存到excel中去

二.思路分析

首先按下键盘的F12 打开浏览器检查工具

在这里插入图片描述

点击左上角的按钮 再点击到球员的名字处
在这里插入图片描述

我们可以看到射手榜中的球员名字的数据在页面中 id为球员榜0下的a标签下 class属性为info标签下的class属性为c-color-link c-line-clamp1的文本

同理
球队/队员位置的数据在 class属性为info标签下的class属性为c-color-gray c-line-clamp1的文本
(叠的BUFF有点多,新手看起来可能有点复杂…别急慢慢看,其实就是看每个展开的接口,然后找到对应的唯一的属性标识。不熟悉可以看看我其他的爬虫文章多多了解,练多了就好了~加油)
在代码中用Pyquery解析出来就好了
在这里插入图片描述

但是这只是第一个榜单,如何获取其他的榜单的数据呢?

接下来我们观察一下
我们点击不同的榜单 url会有怎么样的变化呢?
射手榜

助攻榜
点球榜

聪明的同学很快就发现了
每切换一次榜单,url最后的数字就会增加1

哇~ 你真厉害 这都被你发现了
点赞!

于是聪明的同学自信的敲起了代码
很快啊 一个获取球员信息的代码就写出来了
在这里插入图片描述

但当这位聪明的同学自信地运行时
却发生了意想不到的一幕
在这里插入图片描述

嗯嗯嗯?怎么就这么一点数据

他对比了一下原网页,现在似乎只爬取到了第一个榜单的数据
在这里插入图片描述

他百思不得其解
没理由啊,我已经根据榜单的数量做了一个循环处理了呀
为啥还是只得到第一个的数据呢?

困惑的他回到网页中
手动地将url中最后的数字从0改成1
在这里插入图片描述

按下回车

无语的一幕发生了
在这里插入图片描述

网页中显示的还是第一个榜单的内容…

怪不得
无效跳转了属于是
后来他又尝试改成其他的数字
在这里插入图片描述

最后发现无论改成多少,显示的都是第一个榜单的内容

他终于悟了
在这里改变上面的url并不能实现页面的跳转

那么到底如何获取其他榜单的内容呢?

回到网页中来
在这里插入图片描述

有没有一种可能
其他榜单的数据其实早就在页面中了呢?

仔细观察网页元素
发现榜单是由不同的div块组成的
每个榜单对应不同id的div块

在这里插入图片描述

再仔细看看发现 每个榜单数据的获取
除了id不同,其他子元素都是相同的

在这里插入图片描述

那么在没有指定id的情况下,获取的范围是更大的
在页面完整的情况下,常理来说应该能获取所有id下的数据才对
那么为什么只能获取到第一个榜单的数据?

Emmm…页面完整的话…
嗯?难道刚刚爬取下来的页面元素不完整?

于是我打印了刚刚获取到的源码
在这里插入图片描述

按下ctrl + F 搜索发现可以搜索到 球员榜0的数据

在这里插入图片描述

但当我搜索 球员榜1 时 就找不到对应的数据了
在这里插入图片描述

真相了
爬取下来的根本就没有我们想要的内容
那么还谈何解析?

为什么会这样呢?
因为我是用requessts发送请求并获取页面数据的

但是因为requests获取的是静态页面返回的数据

很多页面的内容并没有加载完全或者需要我们执行下滑操作才能加载

所有其他榜单的内容就无法获取到了

对于这种情况 我们可以使用selenium来爬取
在这里插入图片描述
在这里插入图片描述

现在就可以成功获取到其他榜单的内容了
有了数据
其他就是小菜一碟了

三.代码实战

首先导包

import requests
from pyquery import PyQuery as pq
from openpyxl import Workbook, load_workbook
from openpyxl.styles import Font, Alignment
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
from pyquery import PyQuery as pq

Tip:需要下载浏览器对应的webdriver驱动才能使用selenium
各个浏览器下载地址参考:
https://www.jianshu.com/p/6185f07f46d4

使用selenium 爬取页面内容
在这里插入图片描述
运行结果
在这里插入图片描述

解析出数据(详细方法看上面思路分析)

在这里插入图片描述
运行结果
在这里插入图片描述


写入到excel中


在这里插入图片描述
在这里插入图片描述


我们来看看最终的效果吧~
在这里插入图片描述

射手榜

和网页上的对比一下
在这里插入图片描述

除了同成绩的展示顺序不一样(网站随机排序,刷新几次都不一样)
其他都是一样的

在这里插入图片描述

在这里插入图片描述

助攻榜

在这里插入图片描述
在这里插入图片描述

犯规榜

至此
我们已经成功爬取下了世界杯的榜单

四.源码获取

在这里插入图片描述

源码中含有详细注释

扫码关注我的公众号 Yhen杂文铺
后台回复关键词 世界杯爬虫获取源码哦

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/28791.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

XSS game -xss学习

网址 https://xss-game.appspot.com/level1Level 1: Hello, world of XSS payload: <script> alert(1); </script>漏洞产生处: message "Sorry, no results were found for <b>" query "</b>."Level 2: Persistence is key…

基于 urlimport 进行瘦身,提升编译效率

1. 基于 urlimport 进行瘦身&#xff0c;提升编译效率urlImport 是 NextJS 提供的一个实验特性&#xff0c;支持加载远程 esmodule NextJS 会在本地对所加载的远程模块进行缓存&#xff0c;减少了我们所需构建的模块数&#xff0c;缺点是它会影响 treeShaking 的一个效果&…

【强化学习论文合集】ICLR-2022 强化学习论文 | 2022年合集(四)

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。 本专栏整理了近几年国际顶级会议中,涉及强化学习(Rein…

Redis学习(二)之 Redis Cluster集群

redis3.0以前的版本要实现集群一般是借助哨兵sentinel工具来监控master节点的状态&#xff0c;如果master节点异常&#xff0c;则会做主从切换&#xff0c;将某一台slave作为master&#xff0c;哨兵的配置略微复杂&#xff0c;并且性能和高可用等方面变现一般&#xff0c;特别是…

使用html+css实现一个静态页面【传统文化茶带音乐6页】HTML学生个人网站作业设计

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

【MySQL篇】第四篇——数据类型

数值类型 整数类型 TINYINT类型 小数类型 FLOAT DECIMAL 日期和时间类型 字符串类型 CHAR VARCHAR 二进制类型 BIT 数据类型是指系统中所允许的数据类型。MySQL数据类型定义了列中可以存储什么数据以及该数据怎么样存储的规则。 数据库中的每个列都应该有适当的数据…

新手如何从零开始搭建配置Windows云服务器?

新手如何从零开始搭建配置Windows云服务器&#xff1f;本文是搭建 Windows 云服务器入门教程&#xff0c;主要介绍如何从零开始&#xff0c;以最简单的方式搭建和配置你的Windows 云服务器。如果您之前没有搭建云服务器的经验&#xff0c;建议您按照本文介绍的方式来购买和配置…

云小课|云小课带您快速了解LTS可视化查看

阅识风云是华为云信息大咖&#xff0c;擅长将复杂信息多元化呈现&#xff0c;其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要&#xff1a; 可视化查看是日志分析的关键&#xff0c;通过可视化可…

基于SSM的药店管理系统

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下&#xff0c;你想解决的问…

【Flink】入门Demo实现、Flink运行架构之运行时组件,任务提交流程,任务调度原理

文章目录一 快速上手1 创建maven项目2 引入依赖3 代码实现&#xff08;1&#xff09;从在线数据读取&#xff08;2&#xff09;从离线数据读取4 将程序提交到单点集群运行二 Flink运行架构1 Flink运行时组件&#xff08;1&#xff09;作业管理器&#xff08;JobManager&#xf…

Qt TCP网络编程基本教程

首先介绍一下TCP&#xff1a;&#xff08;Transmission Control Protocol 传输控制协议&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议。相比而言UDP&#xff0c;就是开放式、无连接、不可靠的传输层通信协议。 下面&#xff0c;我一次进行客户端和服务器端…

STM32f103 SMO滑膜观测器的FOC驱动DIY

小时候玩航模了解到无刷电机&#xff0c;又从方波控制了解到FOC控制&#xff0c;在接触了一些开源项目的时候&#xff0c;感叹做的真好&#xff0c;不论是方波的还是Foc的启动都是那么丝滑&#xff0c;软件做的虽然好&#xff0c;但在这几年电机驱动芯片和部分型号的单片机价格…

【878. 第 N 个神奇数字】

来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 描述&#xff1a; 一个正整数如果能被 a 或 b 整除&#xff0c;那么它是神奇的。 给定三个整数 n , a , b &#xff0c;返回第 n 个神奇的数字。因为答案可能很大&#xff0c;所以返回答案 对 109 7 取模 后的值。 示…

亚马逊气候友好型承诺所有认证

【亚马逊气候友好型承诺所有认证】 亚马逊与广泛的外部认证合作&#xff0c;包括政府机构、非营利组织和独立实验室&#xff0c;以帮助我们区分更具可持续性的产品。亚马逊专注于信誉良好、透明且专注于保护自然世界的认证。我们将定期评估和重新评估认证环境&#xff0c;以确保…

若依框架的暴力破解漏洞

文章目录 漏洞描述漏洞复现修复建议漏洞描述 由于图片验证码未做好前后台的统一校验,可重复利用验证码,以及无登录错误次数限制等,导致攻击者可对账号与密码进行的穷举测试,从而获取网站登录访问权限 漏洞复现 第一步 抓包获取登录数据包,默认口令Admin123 第二步 发…

win10系统下使用openvino部署yolov5模型

文章目录前言一、环境1、硬件2、软件二、YOLO模型三、新建Qt项目1、pro文件2、main.cpp四、效果五、后记前言 上一篇介绍过使用onnxruntime实现模型推理部署&#xff0c;但在我的机器上视频效果仍不理想&#xff0c;本篇介绍使用openvino完成模型推理部署。   openvino是Inte…

Windows OpenGL ES 图像透明度

目录 一.OpenGL ES 图像透明度 1.原始图片2.效果演示 二.OpenGL ES 图像透明度源码下载三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基础 Open…

linux下gcc编程11-window下clion编译调试nginx+集成lua-nginx-module+安装开源x-waf

nginx模块 nginx作为项目的7层代理入口&#xff0c;对于http请求的过滤&#xff0c;如sql注入&#xff0c;xss攻击等过滤功能较弱&#xff0c;研究了下开源的一些waf&#xff0c;完全开源的https://github.com/xsec-lab/x-waf&#xff0c;利用lua来过滤请求&#xff0c;同时拥…

TuckER 论文笔记

Modeling Relation Paths for Representation Learning of Knowledge Bases- Introduction- Background- Algorithm- Experiment- Conclusion- CodeIvana Balazevic, Carl Allen, Timothy M.Hospedales - Introduction TuckERuckER是一个相对简单但功能强大的线性模型&#xf…

网络营销中 SEO 的作用

与其有时间去阅读各种SEO知识&#xff0c;不如多做一些实际的测试和练习。在百度官方发布的网页质量白皮书中&#xff0c;其实重点介绍了网页速度对SEO优化的影响&#xff0c;前面也出现了一种叫做闪电算法的算法&#xff0c;对于移动排名1.5秒内加载首屏即可打开的网页&#x…