爬虫实训案例:中国大学排名

news2024/10/4 23:45:04

近一个月左右的时间学习爬虫,在用所积累的知识爬取了《中国大学排名》这个网站,爬取的内容虽然只是可见的文本,但对于初学者来说是一个很好的练习。在爬取的过程中,通过请求数据、解析内容、提取文本、存储数据等几个重要的内容入手,不过在存储数据后的数据排版方面并不是很完善(优化),希望阅读本文章的学者大大给些存储后的数据排版方面的指点:中文对齐的问题

文章目录

  • 前言🌟
  • 一、🍉从网络上获取大学排名网页内容— getHTMLText()
  • 二、🍉提取网页内容中信息到合适的数据结构— fillUnivList()
  • 三、🍉将数据保存至电脑文件夹中— Store_as_file()
  • 四、🍉主函数
  • 总结🌟


前言🌟

本次案例主要涉及bs4库中的BeautifulSoup内容、requests的使用和存储数据等知识。

在这里插入图片描述


提示:以下是本篇文章正文内容,下面案例可供参考

一、🍉从网络上获取大学排名网页内容— getHTMLText()

  1. 爬取的网址:https://www.shanghairanking.cn/rankings/bcur/202411
  2. 判断是否可以爬取
    在该网站的根目录下查看robots.txt文件是否可以爬取内容,这里显示没有搜索到该内容
    在这里插入图片描述

3.利用request库爬取

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()  # 判断请求是否成功:如果不是200,产生异常requests.HTTPError
        r.encoding = r.apparent_encoding  # http header中猜测的响应内容编码方式 设置为 内容中分析出的响应内容编码方式(备选编码方式)
        return r.text
    except:
        return "请求失败"

二、🍉提取网页内容中信息到合适的数据结构— fillUnivList()

  1. 分析网页
    我们要爬取的是”排名“,”学校名称“,”省市“,”类型“,”总分“,”办学层次“等信息,如图:
  • 先是分析整体信息,需要爬取的文本信息都存放在.html网页中的<tbody></tbody>中的<tr>标签下.
    在这里插入图片描述
  • ”学校名称”在<div class="univname" data-v-90b0d2ac>标签下<a>标签中。
    在这里插入图片描述
    特征:<a>的父亲<div>标签的属性都是class="link-container"和style="width:200px
    在这里插入图片描述
  • 而”省市“,”类型“,”总分“,”办学层次“等,都是直接在<tr>标签的子代中,所以可以直接获取相关数据存放至列表中在这里插入图片描述
  1. 解析数据
    获取主要爬取的数据,存放至列表中并返回
def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, 'html.parser')  # 设置BeautifulSoup解析器为'html.parser'
    soup.prettify()  # 整理解析的网页
    
    # 创建列表
    tds_name = []
    name_types = []
    tds_location = []
    tds_type = []
    tds_total = []
    tds_level = []
    try:
        # 遍历tbody的下行遍历
        for tr in soup.tbody.children:
            # 检测tr标签的类型的类型,如果tr标签的类型不是bs4库定义的tag类型,将过滤掉
            if isinstance(tr, bs4.element.Tag):  # 检查变量tr是否为BeautifulSoup库中Tag类的实例的一个条件判断语句
                # tds=str(list(tr('td')[2])[0]).strip()
                # 学校名称
                td_name = tr('td')[1]
                td_div_names = td_name.find_all('div', attrs={"style": "width:200px", "class": "link-container"})
                for div_tag in td_div_names:
                    # 另一种写法
                    # name_part = div_tag.find('a').get_text(strip=True).split('\n', 1)[0]
                    a = str(div_tag.find_all('a')[0].string).strip().split('\n')[0]
                    tds_name.append(a)
                # 学校类型
                td_name_type = tr('td')[1] \
                    .find_all('div', attrs={"class": "univname"})[0] \
                    .find_all('p', attrs={"class": "tags"})[0].get_text(strip=True)
                # 位置
                td_location = tr('td')[2].get_text(strip=True)
                # 类型
                td_type = tr('td')[3].get_text(strip=True)
                # 总分
                td_total = tr('td')[4].get_text(strip=True)
                # 办学层次
                td_level = tr('td')[5].get_text(strip=True)
                # 将各个数据添加至列表
                name_types.append(td_name_type)
                tds_location.append(td_location)
                tds_type.append(td_type)
                tds_total.append(td_total)
                tds_level.append(td_level)
                # break
        # 中文名字列表
        name_cns = tds_name[::2]
        # 英文名字列表
        name_ens = tds_name[1::2]
        i=1
        # 遍历列表大学信息,存放至空列表university中,使用zip打包,zip打包后的数据是元组
        for name_cn, name_en, name_type, location, type, total, level in \
                zip(name_cns, name_ens, name_types, tds_location, tds_type, tds_total, tds_level):
            university_data = {
                '序号':i,
                '学校名称': name_cn + " " + name_en + " " + name_type,
                '省市': location,
                '类型': type,
                '总分': total,
                '办学层次': level
            }
            i+=1
            ulist.append(university_data)
        return ulist
    except:
        return "爬取失败"

三、🍉将数据保存至电脑文件夹中— Store_as_file()

这里直接给出代码块,因为完全没有真的优化处理好爬取后的数据(还是很杂乱)

def Store_as_file(path,datas):
    # 打开文件准备写入
    with open(path, 'w', encoding='utf-8') as file:
        # 写入表头,方便阅读
        file.write("{:^10}\t{:<110}\t{:<10}\t{:<10}\t{:<10}\t{:>10}\n".format("序号","学校名称","省市","类型","总分","办学层次"))
        t="\t"*10
        # file.write(f"序号\t学校名称\t\t省市\t\t类型\t\t总分\t\t办学层次\n")
        # 遍历列表,将每个字典的内容写入文件
        for university in datas:
            # 使用制表符分隔各个字段,保证对齐
            line = "{序号:^10}\t{学校名称:<110}\t{省市:<10}\t{类型:<10}\t{总分:<10}\t{办学层次:>10}\n".format(**university)
            file.write(line)

    print(f"数据已成功保存至'{path}'")

四、🍉主函数

  1. 代码块:主函数的书写
def main():
    university = []
    num = int(input("请输入大学排名的年份:"))
    url=f"https://www.shanghairanking.cn/rankings/bcur/{num}11"
    html=getHTMLText(url)
    datas=fillUnivList(university,html)
    path=input("请输入存放内容的位置:")
    Store_as_file(path,datas)
  1. 最终效果:当然,我是确实不知道怎么更改,还望读者帮忙提供点意见

在这里插入图片描述

总结🌟

总代码块:导入requests库bs4库和bs4库中的BeautifulSoup

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()  # 判断请求是否成功:如果不是200,产生异常requests.HTTPError
        r.encoding = r.apparent_encoding  # http header中猜测的响应内容编码方式 设置为 内容中分析出的响应内容编码方式(备选编码方式)
        return r.text
    except:
        return "请求失败"

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, 'html.parser')  # 设置BeautifulSoup解析器为'html.parser'
    soup.prettify()  # 整理解析的网页

    # 创建列表
    tds_name = []
    name_types = []
    tds_location = []
    tds_type = []
    tds_total = []
    tds_level = []
    try:
        # 遍历tbody的下行遍历
        for tr in soup.tbody.children:
            # 检测tr标签的类型的类型,如果tr标签的类型不是bs4库定义的tag类型,将过滤掉
            if isinstance(tr, bs4.element.Tag):  # 检查变量tr是否为BeautifulSoup库中Tag类的实例的一个条件判断语句
                # tds=str(list(tr('td')[2])[0]).strip()
                # 学校名称
                td_name = tr('td')[1]
                td_div_names = td_name.find_all('div', attrs={"style": "width:200px", "class": "link-container"})
                for div_tag in td_div_names:
                    # 另一种写法
                    # name_part = div_tag.find('a').get_text(strip=True).split('\n', 1)[0]
                    a = str(div_tag.find_all('a')[0].string).strip().split('\n')[0]
                    tds_name.append(a)
                # 学校类型
                td_name_type = tr('td')[1] \
                    .find_all('div', attrs={"class": "univname"})[0] \
                    .find_all('p', attrs={"class": "tags"})[0].get_text(strip=True)
                # 位置
                td_location = tr('td')[2].get_text(strip=True)
                # 类型
                td_type = tr('td')[3].get_text(strip=True)
                # 总分
                td_total = tr('td')[4].get_text(strip=True)
                # 办学层次
                td_level = tr('td')[5].get_text(strip=True)
                # 将各个数据添加至列表
                name_types.append(td_name_type)
                tds_location.append(td_location)
                tds_type.append(td_type)
                tds_total.append(td_total)
                tds_level.append(td_level)
                # break
        # 中文名字列表
        name_cns = tds_name[::2]
        # 英文名字列表
        name_ens = tds_name[1::2]
        i=1
        # 遍历列表大学信息,存放至空列表university中,使用zip打包,zip打包后的数据是元组
        for name_cn, name_en, name_type, location, type, total, level in \
                zip(name_cns, name_ens, name_types, tds_location, tds_type, tds_total, tds_level):
            university_data = {
                '序号':i,
                '学校名称': name_cn + " " + name_en + " " + name_type,
                '省市': location,
                '类型': type,
                '总分': total,
                '办学层次': level
            }
            i+=1
            ulist.append(university_data)
        return ulist
    except:
        return "爬取失败"

def Store_as_file(path,datas):
    # 打开文件准备写入
    with open(path, 'w', encoding='utf-8') as file:
        # 写入表头,方便阅读
        file.write("{:^10}\t{:<110}\t{:<10}\t{:<10}\t{:<10}\t{:>10}\n".format("序号","学校名称","省市","类型","总分","办学层次"))
        t="\t"*10
        # file.write(f"序号\t学校名称\t\t省市\t\t类型\t\t总分\t\t办学层次\n")
        # 遍历列表,将每个字典的内容写入文件
        for university in datas:
            # 使用制表符分隔各个字段,保证对齐
            line = "{序号:^10}\t{学校名称:<110}\t{省市:<10}\t{类型:<10}\t{总分:<10}\t{办学层次:>10}\n".format(**university)
            file.write(line)

    print(f"数据已成功保存至'{path}'")

def main():
    university = []
    num = int(input("请输入大学排名的年份:"))
    url=f"https://www.shanghairanking.cn/rankings/bcur/{num}11"
    html=getHTMLText(url)
    datas=fillUnivList(university,html)
    path=input("请输入存放内容的位置:")
    Store_as_file(path,datas)

if __name__ == '__main__':
    main()

最后还是想哆嗦一下,希望读者大大,和爬虫感兴趣的多找我讨论讨论,给出点建议和学习上的交流👑👑 👏👏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1689369.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MT3039 山脉

思路&#xff1a; 往右看能看到山顶&#xff0c;可以看成找第一个比当前元素>的元素&#xff0c;即构造单调递减栈。 例子&#xff1a; 7 5 3 4 1. 7入栈: 7 2. 5入栈: 7 5 ansans1(1是指有1个元素&#xff08;7&#xff09;可以看到5) 3. 3入栈: 7 5 3 ansans2(2是指…

使用神经实现路径表示的文本到向量生成

摘要 矢量图形在数字艺术中得到广泛应用&#xff0c;并受到设计师的青睐&#xff0c;因为它们具有可缩放性和分层特性。然而&#xff0c;创建和编辑矢量图形需要创造力和设计专业知识&#xff0c;使其成为一项耗时的任务。最近在文本到矢量&#xff08;T2V&#xff09;生成方面…

单例模式中的 双判断锁 问题、单例模式的资源问题

》》》Lazy 不存在高并发问题&#xff0c;lazy已经解决了。 CLR 类执行的顺序 静态变量初始化 1次静态构造函数 1次实例变量初始化基类静态变量初始化 1次基类静态构造函数 1次基类实例变量初始化基类实例构造函数实例构造函数 》》》 创建单例模式 好多种 1&#xff0c;静态…

丰田精益生产的模板

丰田精益生产&#xff0c;也被称为丰田生产方式&#xff08;Toyota Production System, TPS&#xff09;&#xff0c;是一套完整的生产和管理系统&#xff0c;其核心目标是最大化效率、消除浪费&#xff0c;并通过持续改进来提升产品质量。 学习优秀企业 学习福特 丰田精益生产…

文件流下载优化:由表单提交方式修改为Ajax请求

如果想直接看怎么写的可以跳转到 解决方法 节&#xff01; 需求描述 目前我们系统导出文件时&#xff0c;都是通过表单提交后&#xff0c;接收文件流自动下载。但由于在表单提交时没有相关调用前和调用后的回调函数&#xff0c;所以我们存在的问题&#xff0c;假如导出数据需…

【数据分析】Numpy和Pandas库基本用法及实例--基于Japyter notebook实现

各位大佬好 &#xff0c;这里是阿川的博客 &#xff0c; 祝您变得更强 个人主页&#xff1a;在线OJ的阿川 大佬的支持和鼓励&#xff0c;将是我成长路上最大的动力 阿川水平有限&#xff0c;如有错误&#xff0c;欢迎大佬指正 承接上篇的博客 数据分析—技术栈和开发环境搭…

【Django】从零开始学Django(持续更新中)

PyCharm的版本必须为专业版&#xff0c;社区版不具备Web开发功能的。 一. Django建站基础 Django采用MTV的框架模式&#xff0c;即模型(Model)、模板(Template)和视图(Views)&#xff0c;三者之间各自负责不同的职责。 ●模型&#xff1a;数据存取层&#xff0c;处理与数据相关…

Macos14.4 安装MySQL5.7

文章目录 前言一、MySQL介绍二、安装步骤1.下载2.安装3.配置1.进入系统设置2.启动服务3.配置环境变量4.修改密码 FAQ1.双击安装时提示&#xff1a;检测恶意软件&#xff0c;无法打开2.修改环境变量文件提示&#xff1a;readonly option is set (add ! to override)文件权限不足…

go 微服务框架 kratos 日志库使用方法及原理探究

一、Kratos 日志设计理念 kratos 日志库相关的官方文档&#xff1a;日志 | Kratos Kratos的日志库主要有如下特性&#xff1a; Logger用于对接各种日志库或日志平台&#xff0c;可以用现成的或者自己实现Helper是在您的项目代码中实际需要调用的&#xff0c;用于在业务代码里…

学习图形推理

学习图形推理 1.位置规律1.1平移1.2翻转、旋转2.样式规律2.1加减异同2.2黑白运算3.属性规律3.1对称性3.2曲直性3.3开闭性4.数量规律4.1面4.2线数量4.3笔画数4.4点数量4.5素数量5.空间重构5.1相对面5.2相邻面-公共边5.3相邻面-公共点5.4相邻面-画边法题型 一组图:从左往右找规律…

SQL——SELECT相关的题目

目录 197、上升的温度 577、员工奖金 586、订单最多的客户 596、超过5名学生的课 610、判断三角形 620、有趣的电影 181、超过经理收入的员工 1179、重新格式化部门表 1280、学生参加各科测试的次数 1068、产品销售分析I 1075、项目员工I 1084、销售分析III 1327、列出指…

LLM-Llama在 MAC M1上体验Llama.cpp和通义千问Qwen 1.5-7B

Llama.cpp的主要目标是在各种硬件上&#xff08;本地和云端&#xff09;实现LLM推断&#xff0c;同时保持最小的设置和最先进的性能。 纯C/C实现&#xff0c;没有任何依赖关系Apple芯片是一级的支持对象 - 通过ARM NEON、Accelerate和Metal框架进行优化对x86架构的AVX、AVX2和…

后端之路第二站(正片)——SprintBoot之:分层解耦

很抽象&#xff0c;我自己也不好理解&#xff0c;仅作为一个前端转后端的个人理解 一、先解释一个案例&#xff0c;以这个案例来分析“三层架构” 这里我先解释一下黑马程序员里的这个案例&#xff0c;兄弟们看视频的可以跳过这节课&#xff1a;Day05-08. 请求响应-响应-案例_…

U-Mail邮件系统反垃圾解决方案,彻底解决垃圾邮件

随着互联网的普及和电子邮件的广泛应用&#xff0c;垃圾邮件已成为一种严重的网络污染。首先&#xff0c;垃圾邮件占用了大量的网络带宽&#xff0c;导致正常邮件的传输受阻&#xff0c;严重影响了用户的使用体验。其次&#xff0c;垃圾邮件中的恶意链接和欺诈信息可能导致用户…

day34 贪心算法 455.分发饼干 376. 摆动序列

贪心算法理论基础 贪心的本质是选择每一阶段的局部最优&#xff0c;从而达到全局最优。 贪心一般解题步骤&#xff08;贪心无套路&#xff09;&#xff1a; 将问题分解为若干个子问题找出适合的贪心策略求解每一个子问题的最优解将局部最优解堆叠成全局最优解 455.分发饼干 …

go routing 之 gorilla/mux

1. 背景 继续学习 go 2. 关于 routing 的学习 上一篇 go 用的库是&#xff1a;net/http &#xff0c;这次我们使用官方的库 github.com/gorilla/mux 来实现 routing。 3. demo示例 package mainimport ("fmt""net/http""github.com/gorilla/mux&…

Python知识详解【1】~{正则表达式}

正则表达式是一种用于匹配字符串模式的文本工具&#xff0c;它由一系列普通字符和特殊字符组成&#xff0c;可以非常灵活地描述和处理字符串。以下是正则表达式的一些基本组成部分及其功能&#xff1a; 普通字符&#xff1a;大多数字母和数字在正则表达式中表示它们自己。例如…

深度学习之基于MTCNN+Facenet的人脸识别身份认证系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景与意义 随着信息技术的快速发展&#xff0c;身份认证技术在日常生活和工作中的重要性日益凸显。传统的…

初始MyBatis ,详细步骤运行第一个MyBatis程序,同时对应步骤MyBatis底层剖析

1. 初始MyBatis &#xff0c;详细步骤运行第一个MyBatis程序&#xff0c;同时对应步骤MyBatis底层剖析 文章目录 1. 初始MyBatis &#xff0c;详细步骤运行第一个MyBatis程序&#xff0c;同时对应步骤MyBatis底层剖析每博一文案2. 前沿知识2.1 框架&#xff08;framework&#…

Oracle递归查询笔记

目录 一、创建表结构和插入数据 二、查询所有子节点 三、查询所有父节点 四、查询指定节点的根节点 五、查询指定节点的递归路径 六、递归子类 七、递归父类 一、创建表结构和插入数据 CREATE TABLE "REGION" ( "ID" VARCHAR2(36) DEFAULT SYS_GUI…