爬取NBA球员信息并可视化小白入门

news2025/1/23 11:46:16

网址:虎扑体育-NBA球员得分数据排行 第1页

步骤:

  1. 分析页面 确定URL地址
  2. 模拟浏览器向服务器发送请求
  3. 数据解析 提取想要的数据
  4. 保存数据
爬虫所需要的模块
requests(发送HTTP请求)parsel(解析HTML内容)
pandas(数据保存模块)

第一步分析页面 --确定是静态页面还是动态页面
右击点击 查看网页源代码 在新窗口中搜索(Ctrl+F)我们所需要的数据

通过分析可得 此网站为静态页面  URL地址为浏览器栏中的地址

接着我们构建基本的爬虫程序 模拟浏览器 向服务器发送请求 


 

 因为此网站没有反爬虫机制 基本的浏览器伪装都不需要即可直接获取到数据

# 导包  需要通过pip install 包名下载
import requests
# 发送网络请求的地址
url = 'https://nba.hupu.com/stats/players'
resp = requests.get(url)
# 调用对象里面的属性 获取到返回的文本数据
print(resp.text)

确认爬取下来中的页面数据中有我们所需要的数据

Ctrl+F 快捷键打开搜索框 查看数据

然后提取我们想要的数据  点击元素面板  分析数据所在的结构

分析可得 我们要取tbody下面没有class属性color_font1 bg_a 的tr
 

#导包 parsel
# 实例化一个浏览器对象
selector = parsel.Selector(resp.text)
# 拿到所有的tr
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")

接着按照元素面板的结构取值  遍历所有的tr

球员:  class属性等于left下面的a标签中的文本

球队名字:从根标签中开始写Xpath  css不好匹配
得分: class属性等于bg_b的td 中的文本

下面的数据 通过xpath 取 发现是tr标签下5-12个

for li in lis:
    name = li.css('.left a::text').get()
    team = li.xpath('./td[3]/a/text()').get()
    score = li.css('.bg_b::text').get() 
    hit_shot = li.xpath('./td[5]/text()').get()
    hit_rate = li.xpath('./td[6]/text()').get()
    hit_three = li.xpath('./td[7]/text()').get()
    three_rate = li.xpath('./td[8]/text()').get()
    hit_penalty = li.xpath('./td[9]/text()').get()
    penalty_rate = li.xpath('./td[10]/text()').get()
    session = li.xpath('./td[11]/text()').get()
    play_time = li.xpath('./td[12]/text()').get()
    print(name, team, score,hit_shot,hit_rate,hit_three,hit_penalty,penalty_rate,session,play_time)

最后保存数据 保存为excel文件

# 使用字典来存储数据    
dit = {
        '球员': name,
        '球队': team,
        '得分': score,
        '命中-出手': hit_shot,
        '命中率': hit_rate,
        '命中-三分': hit_three,
        '三分命中率': three_rate,
        '命中-罚球': hit_penalty,
        '罚球命中率': penalty_rate,
        '场次': session,
        '上场时间': play_time,
    }
# 定义一个空列表 将字典数据添加进去
all.append(dit)

导入pandas 模块 保存数据到excel表格中
以下是本次案例的全部代码 供学习交流使用
 

import requests
import parsel
import pandas as pd

url = 'https://nba.hupu.com/stats/players'
all = []
resp = requests.get(url)
selector = parsel.Selector(resp.text)
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
for li in lis:
    name = li.css('.left a::text').get()
    team = li.xpath('./td[3]/a/text()').get()
    score = li.css('.bg_b::text').get()
    hit_shot = li.xpath('./td[5]/text()').get()
    hit_rate = li.xpath('./td[6]/text()').get()
    hit_three = li.xpath('./td[7]/text()').get()
    three_rate = li.xpath('./td[8]/text()').get()
    hit_penalty = li.xpath('./td[9]/text()').get()
    penalty_rate = li.xpath('./td[10]/text()').get()
    session = li.xpath('./td[11]/text()').get()
    play_time = li.xpath('./td[12]/text()').get()
    dit = {
        '球员': name,
        '球队': team,
        '得分': score,
        '命中-出手': hit_shot,
        '命中率': hit_rate,
        '命中-三分': hit_three,
        '三分命中率': three_rate,
        '命中-罚球': hit_penalty,
        '罚球命中率': penalty_rate,
        '场次': session,
        '上场时间': play_time,
    }
    all.append(dit)
    pd.DataFrame(all).to_excel('NBA.xlsx', index=False)

数据可视化板块

数据可视化所需要的模块
pandas(数据处理和分析)pyecharts

 

 

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Line

df = pd.read_excel('NBA.xlsx',index_col=False)

players = df['球员'].tolist()
scores = df['得分'].tolist()
session = df['场次'].tolist()
# 创建柱状图对象
bar = (
    Line()
  .add_xaxis(players)  # x 轴为球员
  .add_yaxis("得分", scores)  # y 轴为得分
  .add_yaxis("场次",session)
  .set_global_opts(
        title_opts=opts.TitleOpts(title="球员得分情况柱状图"),
        toolbox_opts=opts.ToolboxOpts(is_show=True),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),  # 旋转 x 轴标签,防止重叠
        yaxis_opts=opts.AxisOpts(name="得分")
    )
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)

# 渲染图表到 HTML 文件
bar.render("player_score_bar_chart.html")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2280879.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言初阶牛客网刷题——JZ17 打印从1到最大的n位数【难度:入门】

1.题目描述 牛客网OJ题链接 题目描述&#xff1a; 输入数字 n&#xff0c;按顺序打印出从 1 到最大的 n 位十进制数。比如输入 3&#xff0c;则打印出 1、2、3 一直到最大的 3 位数 999。 用返回一个整数列表来代替打印n 为正整数&#xff0c;0 < n < 5 示例1 输入&…

寒假刷题记录

4968. 互质数的个数 - AcWing题库 涉及&#xff1a;快速幂&#xff0c;欧拉函数&#xff0c;分解质因数 #include <bits/stdc.h> #define fi first #define se second #define endl \n #define pb push_backusing namespace std; using LL long long;const int mod 9…

OSI5GWIFI自组网协议层次对比

目录 5G网络5G与其他协议栈各层映射 5G网络 物理层 (PHY) 是 5G 基站协议架构的最底层&#xff0c;负责将数字数据转换为适合无线传输的信号&#xff0c;并将接收到的无线信号转换为数字数据。实现数据的编码、调制、多天线处理、资源映射等操作。涉及使用新的频段&#xff08…

Java高频面试之SE-16

hello啊&#xff0c;各位观众姥爷们&#xff01;&#xff01;&#xff01;本牛马baby今天又来了&#xff01;哈哈哈哈哈嗝&#x1f436; Java中异常的处理方式有哪些&#xff1f; 在 Java 中&#xff0c;异常的处理方式主要有以下几种&#xff1a; 1. 使用 try-catch 语句 …

HTML中的`<!DOCTYPE html>`是什么意思?

诸神缄默不语-个人CSDN博文目录 在学习HTML时&#xff0c;我们经常会看到HTML文档的开头出现<!DOCTYPE html>&#xff0c;它是HTML文件的第一行。很多初学者可能会疑惑&#xff0c;为什么需要这行代码&#xff1f;它到底有什么作用呢&#xff1f;在这篇文章中&#xff0…

Games104——游戏中地形大气和云的渲染

原文链接 原文链接 这里写目录标题 地形的几何Heightfield高程图网格自适应细分三角形的剖分二叉树T-Junctions四叉树TIN&#xff08;Triangulated Irregular Network&#xff09;不规则三角形网格 GPU Drived Tessellator(Hardware Tessellation)Mesh ShaderNon-HeightField…

Springboot自动配置的原理

先拿redis来举个例子 第一步导入依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-redis</artifactId> </dependency> 第二步配置 spring: redis: database:host:127.0.0.1 port…

【动态规划】落花人独立,微雨燕双飞 - 8. 01背包问题

本篇博客给大家带来的是01背包问题之动态规划解法技巧. &#x1f40e;文章专栏: 动态规划 &#x1f680;若有问题 评论区见 ❤ 欢迎大家点赞 评论 收藏 分享 如果你不知道分享给谁,那就分享给薯条. 你们的支持是我不断创作的动力 . 王子,公主请阅&#x1f680; 要开心要快乐顺便…

记一次虚机上传过慢问题排查

最近线上虚机有个特殊的用户反馈&#xff0c;用户反馈虚机从A服务器下载文件特别慢&#xff0c;于是scp A服务器数据到本地client&#xff0c;发现 只有几十K的流量。 当时第一反应怀疑是虚机负载压力比较大&#xff0c;但是查看虚机IO以及负载都很低。。。。 然后tcpdump抓包发…

web服务器 网站部署的架构

WEB服务器工作原理 Web web是WWW(World Wide Web)的简称&#xff0c;基本原理是&#xff1a;请求(客户端)与响应(服务器端)原理&#xff0c;由遍布在互联网中的Web服务器和安装了Web浏览器的计算机组成 客户端发出请求的方式&#xff1a;地址栏请求、超链接请求、表单请求 …

数据结构——实验七·排序

嗨~~欢迎来到Tubishu的博客&#x1f338;如果你也是一名在校大学生&#xff0c;正在寻找各种编程资源&#xff0c;那么你就来对地方啦&#x1f31f; Tubishu是一名计算机本科生&#xff0c;会不定期整理和分享学习中的优质资源&#xff0c;希望能为你的编程之路添砖加瓦⭐&…

Windows系统提示RunDLL PcaWallpaperAppDetect错误修复方法

最近&#xff0c;Win11 24H2预览版和Win10 LTSC 2025功能更新偶尔会触发RunDLL错误弹窗 具体表现为 //英文提示 Error in C:\WINDOWS\system32\PcaSvc.dll Missing entry: PcaWallpaperAppDetect//中文提示 C:\WINDOWS\system32\PcaSvc.dll出错 丢失条目:PcaWallpaperAppDe…

计算机组成原理——数据表示(二)

当生活的压力和困惑缠绕在身边&#xff0c;我们往往需要振奋精神&#xff0c;勇往直前。无论在何种困境中&#xff0c;我们都要保持积极的态度和坚定的信念。将悲观的情绪抛之脑后&#xff0c;展现出坚强的意志力和无尽的活力。振奋精神意味着我们要战胜自己内心的负面情绪&…

人源化抗体的改造方式及其优势【卡梅德生物】

随着生物制药行业的迅速发展&#xff0c;抗体药物已经成为治疗多种疾病&#xff08;尤其是癌症、免疫性疾病等&#xff09;的重要手段。抗体人源化改造技术作为抗体药物研发的关键技术之一&#xff0c;在提高药物疗效和降低免疫原性方面发挥了至关重要的作用。 1. 人源化抗体的…

【Linux】深刻理解动静态库

1.什么是库 库是写好的现有的&#xff0c;成熟的&#xff0c;可以复⽤的代码。现实中每个程序都要依赖很多基础的底层库&#xff0c;不可能每个⼈的代码都从零开始&#xff0c;因此库的存在意义⾮同寻常。本质上来说库是⼀种可执⾏代码的⼆进制形式&#xff0c;可以被操作系统载…

【java数据结构】其他非基于比较排序

【java数据结构】其他非基于比较排序 一、计数排序二、基数排序三、桶排序 博客最后附有整篇博客的全部代码&#xff01;&#xff01;&#xff01; 一、计数排序 场景&#xff1a;集中在某个范围内的一组数据 思路&#xff1a; 找到这组序列的最大值和最小值&#xff0c;通过…

博客之星2024年度总评选——我的年度创作回顾与总结

2024年&#xff0c;是我在CSDN博客上持续耕耘、不断成长的一年。在此&#xff0c;与大家分享一下我的年度创作回顾与总结。 一、创作成长与突破 在人工智能领域&#xff0c;技术迭代迅速&#xff0c;知识更新频繁。为了保持自己的竞争力&#xff0c;在今年&#xff0c;我始终…

ChromeOS 132 版本更新

ChromeOS 132 版本更新 1. 企业定制化 Chrome Web Store 管理员现在可以使用新设置定制 Chrome Web Store 以适应他们管理的用户&#xff0c;包括以下功能&#xff1a; 添加公司标志添加首页横幅和自定义公告策划扩展集合实施基于类别的控制 这些设置可以通过管理员控制台进…

Golang Gin系列-5:数据模型和数据库

在这篇Gin教程的博客中&#xff0c;我们将探索如何将模型和数据库与Gin框架无缝集成&#xff0c;使你能够构建健壮且可扩展的web应用程序。通过利用流行的库并遵循最佳实践&#xff0c;你将学习如何定义模型、建立数据库连接、执行CRUD操作以及确保基于gin的项目中的数据完整性…

计算机毕业设计hadoop+spark股票基金推荐系统 股票基金预测系统 股票基金可视化系统 股票基金数据分析 股票基金大数据 股票基金爬虫

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…