Python实战:使用DrissionPage库爬取高考网大学信息

news2024/11/20 6:27:38

上一篇文章,我刚入门 DrissionPage 爬虫库,使用这个库爬取了拉钩网关于 Python 的职位信息。

今天再使用 DrissionPage 爬虫库练习一个案例,爬取高考网大学信息。

本次爬取到2885个大学信息,包含大学名称、所在省、市、大学标签信息。

截图如下:

一、页面分析

目标网页是https://www.gaokao.cn/school/search

获取学校名称、所在省市、学婊标签信息。

二、分析思路

使用 DrissionPage 库打开目标网页

使用元素定位方法,定位到包含学校信息的 div

在 div 内继续定位学校名称、所在省市、标签这个信息

将信息存储到列表

翻页,到下一页重复爬取信息

翻完所有页,使用 pandas 将存有所有信息的列表转为 datafram

使用 pandas 将 datafram 保存为 csv 文件或者 excel 文件,或者写入数据库

三、开始写代码

1、打开网页

from DrissionPage import ChromiumPage
page = ChromiumPage()
page.get('https://www.gaokao.cn/school/search')

2、定位信息

# 定位包含学校信息的div
divs = page.eles('tag:div@class=school-search_schoolItem__3q7R2')
# 提取学校信息
for div in divs:
    # 提取学校名称
    school = div.ele('.school-search_schoolName__1L7pc')
    school_name = school.ele('tag:em')
    # 提取学校城市
    city = div.ele('.school-search_cityName__3LsWN')
    if len(city.texts()) == 2:
        city_level1 = city.texts()[0]
        city_level2 = city.texts()[1]
    elif len(city.texts()) == 1:
        city_level1 = city.texts()[0]
        city_level2 = ""
    else:
        city_level1 = ""
        city_level2 = ""
    # 提取学校标签
    tags = div.ele('.school-search_tags__ZPsHs')
    spans = tags.eles('tag:span')
    spans_list = []
    for span in spans:
        spans_list.append(span.text)

3、存储信息

# contents列表用来存放所有爬取到的大学信息
contents = []
# 信息存到contents列表
contents.append([school_name.text, city_level1, city_level2, spans_list])
# print(school_name.text, city_level1, city_level2, spans_list)

4、翻页

# 定位下一页,点击下一页
try:
    next_page = page.ele('. ant-pagination-next')
    next_page.click()
except:
    pass

5、滑动页面到底部

# 页面滚动到底部,方便查看爬到第几页
time.sleep(2)
page.scroll.to_bottom()

6、反爬措施

在编写爬虫代码时,要考虑反爬措施。不然就会遇到下面这种情况,服务器直接不给你返回数据了。

我设置的是每爬 1 次都暂停几秒,每爬 50 次暂停 1 分钟。

for i in tqdm(range(1, 146)):
    # 每爬50页暂停1分钟
    if i % 50 == 0:
        get_info()
        print("暂停1分钟")
        time.sleep(60)
    else:
        get_info()

7、保存数据到csv文件

import pandas as pd
def save_to_csv(data):
    # 保存到csv文件
    name = ['school_name', 'city_level1', 'city_level2', 'tags']
    df = pd.DataFrame(columns=name, data=data)
    df.to_csv(f"高考网大学信息{len(data)}条.csv", index=False)
    print("保存完成")

8、使用tqdm库显示进度

from tqdm import tqdm
for i in tqdm(range(1, 146)):
    # 每爬50页暂停1分钟
    if i % 50 == 0:
        get_info()
        print("暂停1分钟")
        time.sleep(60)
    else:
        get_info()

四、完整代码

通过定义函数,优化代码,整合成一个完整的代码。完整代码如下:

from DrissionPage import ChromiumPage
import pandas as pd
from tqdm import tqdm
import time


def get_info():
    global i
    # 页面滚动到底部,方便查看爬到第几页
    time.sleep(2)
    page.scroll.to_bottom()
    # 定位包含学校信息的div
    divs = page.eles('tag:div@class=school-search_schoolItem__3q7R2')
    # 提取学校信息
    for div in divs:
        # 提取学校名称
        school = div.ele('.school-search_schoolName__1L7pc')
        school_name = school.ele('tag:em')
        # 提取学校城市
        city = div.ele('.school-search_cityName__3LsWN')
        if len(city.texts()) == 2:
            city_level1 = city.texts()[0]
            city_level2 = city.texts()[1]
        elif len(city.texts()) == 1:
            city_level1 = city.texts()[0]
            city_level2 = ""
        else:
            city_level1 = ""
            city_level2 = ""
        # 提取学校标签
        tags = div.ele('.school-search_tags__ZPsHs')
        spans = tags.eles('tag:span')
        spans_list = []
        for span in spans:
            spans_list.append(span.text)

        # 信息存到contents列表
        contents.append([school_name.text, city_level1, city_level2, spans_list])
        # print(school_name.text, city.text, spans_list)
    print("爬取第", i, "页,总计获取到", len(contents), "条大学信息")

    time.sleep(2)

    # 定位下一页,点击下一页
    try:
        next_page = page.ele('. ant-pagination-next')
        next_page.click()
    except:
        pass


def craw():
    global i
    for i in tqdm(range(1, 146)):
        # 每爬50页暂停1分钟
        if i % 50 == 0:
            get_info()
            print("暂停1分钟")
            time.sleep(60)
        else:
            get_info()


def save_to_csv(data):
    # 保存到csv文件
    name = ['school_name', 'city_level1', 'city_level2', 'tags']
    df = pd.DataFrame(columns=name, data=data)
    df.to_csv(f"高考网大学信息{len(data)}条.csv", index=False)
    print("保存完成")


if __name__ == '__main__':
    # contents列表用来存放所有爬取到的大学信息
    contents = []

    page = ChromiumPage()
    page.get('https://www.gaokao.cn/school/search')

    # 声明全局变量i
    i = 0

    craw()

    save_to_csv(contents)

Pycharm 控制台输出如下:

五、数据分析

使用 excel 表自带的数据透视表功能,分析每个省的学校数量。

此外,标签字段含有的信息量也比较丰富,例如其中一个学校的标签是[‘普通本科’, ‘综合类’, ‘公办’, ‘985’, ‘211’, ‘双一流’, ‘强基计划’],也可以对标签字段进行数据分析。本文就不展开了。

六、总结

DrissionPage 库使用起来确实比 Selenium 库方便很多,再也回不去啦。哈哈哈。

本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1427991.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL中where和having的区别

前言 数据库中的 WHERE 和 HAVING 子句在 SQL 查询中扮演着关键的角色,帮助我们有效地筛选和过滤数据。这两个子句虽然都用于限定结果集,但它们的应用场景和操作对象存在明显的区别。在理解和运用这两个子句的过程中,我们能够更灵活地进行数据…

西瓜书学习笔记——k近邻学习(公式推导+举例应用)

文章目录 算法介绍实验分析 算法介绍 K最近邻(K-Nearest Neighbors,KNN)是一种常用的监督学习算法,用于分类和回归任务。该算法基于一个简单的思想:如果一个样本在特征空间中的 k k k个最近邻居中的大多数属于某个类别…

【Tomcat与网络11】如何自己实现一个简单的HTTP服务器

在前面我们尝试解释Tomcat的理论,但是呢,很多时候那些复杂的架构和设计会让我们眼花缭乱,以至于忽略了最进本的问题——服务器到底是什么?今天我们就用尽量简单的代码实现一个简易的HTTP服务器。 HTTP启动之后要持续监听&#xf…

脚踏实地 造福客户——立聪堂助听器2023-2024年度会议召开

1月30日,中国专业领先的助听器专业验配连锁机构立聪堂,在南京召开了2023-2024年度会议。 本次会议以“脚踏实地 造福客户”为主题,立聪堂总部员工与一百多家门店验配师共同参加,一起回顾2023,展望2024。 立聪堂存在的…

leetcode刷题(剑指offer) 103.二叉树的锯齿形层序遍历

103.二叉树的锯齿形层序遍历 给你二叉树的根节点 root ,返回其节点值的 锯齿形层序遍历 。(即先从左往右,再从右往左进行下一层遍历,以此类推,层与层之间交替进行)。 示例 1: 输入&#xff1a…

鸿蒙实战开发-全局UI方法的功能

主要开发内容 时间调节 使用全局UI的方法定义日期滑动选择器弹窗并弹出。 操作说明:首先创建一个包含按钮的用户界面,当用户点击“时间设置”按钮时,会弹出调用TimePickerDialog组件的show方法,显示一个时间选择对话框&#xff…

2024美国大学生数学建模C题网球运动中的势头详解思路+具体代码

2024美国大学生数学建模C题网球运动中的势头详解思路具体代码 E题数据已更新,做E题的小伙伴推荐看看博主的E题解析文章。那么废话不多说我们继续来做C题。 赛题分析 我们先阅题: 在2023年温布尔登男单决赛中,20岁的西班牙新星卡洛斯阿尔卡…

2024最新版IntelliJ IDEA安装使用指南

2024最新版IntelliJ IDEA安装使用指南 Installation and Usage Guide to the Latest JetBrains IntelliJ IDEA Community Editionn in 2024 By JacksonML JetBrains公司开发的IntelliJ IDEA一经问世,就受到全球Java/Kotlin开发者的热捧。这款集成开发环境&#xf…

match-case与if/elif/else(python)

if/elif/else语句应对一般场景,match-case主打复杂条件分支语句。 (笔记模板由python脚本于2024年01月28日 18:27:37创建,本篇笔记适合有一定编程基础,对python基础已比较扎实的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1…

Java Swing实现思聪吃热狗游戏

引言 Java Swing,一种灵活的图形用户界面库,让我们可以以相对简便的方式创建图形化应用程序。在本文中,我们将讲述如何借助Swing构建一个简单的游戏:DogGame,它的规则是控制一只名为Wsc的狗来捕捉飞来的热狗。让我们浏…

Github 2F2【解决】经验帖-PPHub登入

最近在做项目时,Github总是出问题,这是一经验贴 Github 2F2登入问题【无法登入】PPhub 2F2是为了安全,更好的生态 启用 2FA 二十八 (28) 天后,要在使用 GitHub.com 时 2FA 检查 物理安全密钥、Windows Hello 或面容 ID/触控 ID、SMS、GitHub Mobile 都可以作为 2F2 的工…

架构学习(三):scrapy-redis源码分析并实现自定义初始请求

scrapy-redis源码分析并实现自定义初始请求 前言关卡:如何自定义初始请求背景思考简单又粗暴的方式源码分析 结束 前言 通过这篇文章架构学习(二):原生scrapy如何接入scrapy-redis,初步入局分布式,我们正式开启scrapy-redis分布式…

MySQL EXPLAIN查询执行计划

EXPLAIN 可用来查看SQL执行计划,常用来分析调试SQL语句,来使SQL语句达到更好的性能。 1 前置知识 在学习EXPLAIN 之前,有些基础知识需要清楚。 1.1 JSON类型 MySQL 5.7及以上版本支持JSON数据类型。可以将数组存为JSON格式的字符串&#…

【CSS】css选择器和css获取第n个元素(:nth-of-type(n)、:nth-child(n)、first-child和last-child)

:nth-of-type、:nth-child的区别 一、css选择器二、:nth-of-type、:nth-child的区别:nth-of-type(n):选择器匹配属于父元素的特定类型的第N个子元素:nth-child(n):选择器匹配属于其父元素的第 N 个子元素,不论元素的类型:first-child&#xf…

2017 年全国职业院校技能大赛高职组“信息安全管理与评估”赛项任务书(笔记解析)

1. 网络拓扑图 2. IP 地址规划表 3. 设备初始化信息 阶段一 任务1:网络平台搭建 1 根据网络拓扑图所示,按照 IP 地址参数表,对 WAF 的名称、各接口 IP 地址进 行配置。 主机名称 模式选择:透明模式 IP 地址:匹配参数表 WAF IP 地址 子网掩码 网口列表: eth0 和 eth1 2…

【操作宝典】IntelliJ IDEA新建maven项目详细教程

目录 🌼1. 配置maven环境 🌼2. 创建maven项目 🌼3. 创建maven项目完整示例 a. 导入spring boot环境 b. 修改maven配置 c. 下载jar包 d. 创建Java类 🌼1. 配置maven环境 【安装指南】maven下载、安装与配置详细教程-CSDN博客…

Vue3+vite引入Tailwind CSS

Tailwind CSS 是一个为快速创建定制化 UI 组件而设计的实用型框架。与其他 CSS 框架或库不同,Tailwind CSS 组件没有预先设置好样式。可以使用 Tailwind 的低级实用类来为 CSS 元素设置样式,如 margin、flex、color 等。 自从 2017 年发布以来&#xff…

基于python flask茶叶网站数据大屏设计与实现,可以做期末课程设计或者毕业设计

基于Python的茶叶网站数据大屏设计与实现是一个适合期末课程设计或毕业设计的项目。该项目旨在利用Python技术和数据可视化方法,设计和开发一个针对茶叶行业的数据大屏,用于展示和分析茶叶网站的相关数据。 项目背景 随着互联网的快速发展,越…

【Java程序设计】【C00196】基于(JavaWeb+SSM)的旅游管理系统(论文+PPT)

基于(JavaWebSSM)的旅游管理系统(论文PPT) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于ssm的旅游平台 本系统分为前台、管理员2个功能模块。 前台:当游客打开系统的网址后,首先看到的…