Python批量获取高校基本信息

news2024/12/19 17:06:23

文章目录

  • 前言
  • 一、需求
  • 二、分析
  • 三、处理
  • 四、运行效果


前言

为了更好的掌握数据处理的能力,因而开启Python网络爬虫系列小项目文章。

  1. 小项目小需求驱动,每篇文章会使用两种以上的方式(Xpath、Bs4、PyQuery、正则等)获取想要的数据。
  2. 博客系列完结后,将会总结各种方式。

一、需求

  • 获取高校数据

    • 高校排行(软科综合、校友会综合、武书连)
    • 基本信息(博士点、硕士点、创建时间、占地面积、学校地址)
  • 多种数据存储方式

    • 本地文件存储

    • redis

    • MongoDB

二、分析

F12 打开抓包工具,刷新https://www.gaokao.cn/school/search接口页面

在这里插入图片描述

name.json 接口包含所有的高校id

在这里插入图片描述

进入学校详情页,获取到info.json接口信息

在这里插入图片描述

数据可以直接通过请求接口即可返回
已获取学校id(一共2820个数据,可以用上协程异步访问提高获取的数据的速度)
已获取学校信息的接口https://static-gkcx.gaokao.cn/www/2.0/json/live/v2/school/102/info.json(只需要修改下学校id即可访问其它学校信息)

三、处理

编写获取大学id的接口


import requests
import json
HEADERS = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"}

# 获取大学school_id
def get_school_id():
    url= "https://static-data.gaokao.cn/www/2.0/school/name.json"
    res = requests.request("GET",url=url,headers=HEADERS)
    res.encoding = "utf-8"
    # 转为json格式
    data = json.loads(res.text)
    return data

获取一次以后,本地可以进行处理提取学校id

import re
def get_id():
    f = open("name.txt", "r", encoding="utf-8")
    f1 = f.read()
    deal = re.compile(r"'school_id': '(?P<id>.*?)'",re.S)
    result = deal.findall(f1)
    # print(len(result))
    f.close()
    return  result

编写访问学校信息的接口请求


def get_school_info_1():
    url = "https://static-data.gaokao.cn/www/2.0/school/3419/info.json"
    res = requests.request("GET",url=url,headers=HEADERS)
    res.encoding = "utf-8"
    # 转为json格式
    data = json.loads(res.text)
    return data

协程异步访问接口请求(本地文件存储)

import asyncio
import aiohttp
import aiofiles


# 获取学校详细信息
async def get_school_info(url,sem):
    try:
        async with sem:
            async with aiohttp.ClientSession() as session:
                # 发送请求
                async with session.get(url) as res:
                    # 读取数据
                    content = await res.text(encoding="utf-8")
                    data = json.loads(content)
                    # 高校排行- 软科综合/校友会排名/武书连/US世界
                    school_info = {}
                    school_info["学校名称"] = data["data"]["name"]
                    school_info["软科综合"] = data["data"]["ruanke_rank"]
                    school_info["武书连"] = data["data"]["wsl_rank"]
                    school_info["校友会"] = data["data"]["xyh_rank"]
                    school_info["US世界"] = data["data"]["us_rank"]
                    # 博士点/硕士点/国家重点学科
                    school_info["博士点"] = data["data"]["num_doctor"]
                    school_info["硕士点"] = data["data"]["num_master"]
                    school_info["国家重点学科"] = data["data"]["num_subject"]
                    # 创建时间/占地面积/学校地址
                    school_info["创建时间"] = data["data"]["create_date"]
                    school_info["占地面积"] = data["data"]["area"]
                    school_info["学校地址"] = data["data"]["address"]
                    # 写入文件
                    async with aiofiles.open("school_info.txt",mode="a") as f:
                        await f.write(f"{str(school_info)}\n")
                        print("一条数据下载完毕!")
    except Exception as e:
        print(e)
 
 async def main(list_id):
    # 添加信号量控制速度
    sem = asyncio.Semaphore(100)
    tasks = []
    for i in list_id:
        # https://static-data.gaokao.cn/www/2.0/school/3419/info.json
        url = f"https://static-data.gaokao.cn/www/2.0/school/{i}/info.json"
        # 创建任务
        task = asyncio.create_task(get_school_info(url,sem))
        tasks.append(task)
    await asyncio.wait(tasks)



if __name__ == '__main__':
    # 本地获取id
    id_list = get_id()
  	asyncio.run(main(id_list))

写入Redis数据库,
如有报错DataError: Invalid input of type: ‘NoneType’. Convert to a byte, string or number first.
解决方法,降低redis版本 pip install redis==2.10.6

# 获取学校详细信息
async def get_school_info(url,sem):
    try:
        async with sem:
            async with aiohttp.ClientSession() as session:
                # 发送请求
                async with session.get(url) as res:
                    # 读取数据
                    content = await res.text(encoding="utf-8")
                    data = json.loads(content,encoding="utf-8")
                    # 高校排行- 软科综合/校友会排名/武书连/US世界
                    school_info = {}
                    school_name = data["data"]["name"]
                    school_info["软科综合"] = data["data"]["ruanke_rank"]
                    school_info["武书连"] = data["data"]["wsl_rank"]
                    school_info["校友会"] = data["data"]["xyh_rank"]
                    school_info["US世界"] = data["data"]["us_rank"]
                    # 博士点/硕士点/国家重点学科
                    school_info["博士点"] = data["data"]["num_doctor"]
                    school_info["硕士点"] = data["data"]["num_master"]
                    school_info["国家重点学科"] = data["data"]["num_subject"]
                    # 创建时间/占地面积/学校地址
                    school_info["创建时间"] = data["data"]["create_date"]
                    school_info["占地面积"] = data["data"]["area"]
                    school_info["学校地址"] = data["data"]["address"]
                    # 写入redis文件中
                    r = connect_redis()
                    r.hset("school",school_name,json.dumps(school_info))
                    print("一条数据写入成功")
    except Exception as e:
        print(e)
  
  # 连接Redis数据库
def connect_redis():
    pool  = redis.ConnectionPool(host="127.0.0.1", port=6379,db=3)
    r = redis.Redis(connection_pool=pool)
    return r

写入MongoDB数据库



import pymongo
from pymongo import MongoClient
# MongoDB数据库初始化
def get_db(database,user=None,pwd=None):
    client = MongoClient(host="localhost",port=27017)
    db = client[database]
    # 有账号密码即验证
    if user:
        db.authenticate(user,pwd)
    return db

# 增加多条数据
def insert_data_many(collection, data):
    db = get_db("school")
    result = db[collection].insert_many(data)
    return result

async def get_s
chool_info(url,sem):
    try:
        async with sem:
            async with aiohttp.ClientSession() as session:
                # 发送请求
                async with session.get(url) as res:
                    # 读取数据
                    content = await res.text(encoding="utf-8")
                    data = json.loads(content,encoding="utf-8")
                    # 高校排行- 软科综合/校友会排名/武书连/US世界
                    school_info = {}
                    school_info["学校名称"] = data["data"]["name"]
                    school_info["软科综合"] = data["data"]["ruanke_rank"]
                    school_info["武书连"] = data["data"]["wsl_rank"]
                    school_info["校友会"] = data["data"]["xyh_rank"]
                    school_info["US世界"] = data["data"]["us_rank"]
                    # 博士点/硕士点/国家重点学科
                    school_info["博士点"] = data["data"]["num_doctor"]
                    school_info["硕士点"] = data["data"]["num_master"]
                    school_info["国家重点学科"] = data["data"]["num_subject"]
                    # 创建时间/占地面积/学校地址
                    school_info["创建时间"] = data["data"]["create_date"]
                    school_info["占地面积"] = data["data"]["area"]
                    school_info["学校地址"] = data["data"]["address"]
                    insert_data_many("school",[school_info])
                    print("一条数据写入成功")
    except Exception as e:
        print(e)
        

四、运行效果

通过Redis可视化工具查看写入的2821条数据

在这里插入图片描述

MongoDB可视化工具查询数据

在这里插入图片描述

本地读取数据

请添加图片描述

完整源码文件附在在知识星球
我正在「Python^self-study」和朋友们讨论有趣的话题,你⼀起来吧?
https://t.zsxq.com/076uG3kOn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

T31快启图像效果优化

T31快启图像效果优化 liwen01 20220821 (一)基础方法及概念 参考文档 《Ingenic_Zeratul_T31_快起效果调试说明_20200927_CN》 (1)起始EV参数 IPC 每次启动都是冷启动&#xff0c;画面有一个暗变亮的过程&#xff0c;称作为AE收敛过程(自动曝光收敛过程)。 为了加快AE收…

LeetCode50天刷题计划第二季(Day 23 — 重排链表(16.20- 17.00)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录前言一、题目重排链表示例提示二、思路三、代码前言 链表基础题加一 一、题目 重排链表 给定一个单链表 L 的头节点 head &#xff0c;单链表 L 表示为&#xff…

基于粒子群优化算法的时间调制非线性频偏FDA(Matlab代码实现)

&#x1f389;&#x1f389;&#x1f389;&#x1f389;欢迎您的到来&#x1f60a;&#x1f60a;&#x1f60a; &#x1f96c;博客主页&#xff1a;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 &#x1f4dd;床头铭&#xff1a;将来的我一定会感谢…

ARM64下构建 UEFI 模块

构建Application工程目录 mkdir edk2/ShellPkg/Application/ShellHello 目录内容如下: 编写 ShellHello.c /* edk2/ShellPkg/Application/ShellHello/ShellHello.c*/ #include <Uefi.h> #include <Library/UefiLib.h> #include <Library/DebugLib.h> #i…

上手之Python之异常

什么是异常 当检测到一个错误时&#xff0c;Python解释器就无法继续执行了&#xff0c;反而出现了一些错误的提示&#xff0c;这就是所谓的“异常”, 也就是我们常说的BUG bug单词的诞生 早期计算机采用大量继电器工作&#xff0c;马克二型计算机就是这样的。 1945年9月9日&…

【JVM技术专题】 深入学习JIT编译器实现机制「 原理篇」

前提概要 解释器 Java程序最初是通过解释器(Interpreter)进行解释执行的&#xff0c;当虚拟机发现某个方法或代码块的运行特别频繁的时候&#xff0c;就会把这些代码认定为“热点代码”&#xff08;hotspot code&#xff09;。正因为如此&#xff0c;我们的hotspot的虚拟机就是…

将matlab数据导入到Python中使用

相信不少小伙伴都遇到过和我一样的问题&#xff0c;就是在尝试使用scipy.io.loadmat将matlab类型的数据导入python中的时候遇到如下错误提示。 import scipy as sc# 设定需要导入的matlab数据目录 path_TE00 r"D:\Window自带文件夹\桌面\PIC Design\Lumerical\Tutorials…

Apollo GraphQL

一、Apollo GraphQL介绍 Apollo 是一个开源的 GraphQL 开发平台&#xff0c; 提供了符合 GraphQL 规范的服务端和客户端实现。使用 Apollo 可以帮助我们更方便快捷的开发使用 GraphQL。 ● 官网&#xff1a;https://www.apollographql.com/ ● GitHub 相关开源仓库&#xff1a…

Vite+Vue+Electron环境搭建

因为electron可以直接加载html文件&#xff0c;也可以直接加载url链接&#xff0c;所以&#xff0c;我们可以在调试过程中使用url地址&#xff0c;来动态显示我们的改变过程。 electron简单来说就是对html的一种封装&#xff0c;所以我们先来搭建vue的开发环境&#xff0c;这里…

LQ0135 左孩子右兄弟【DFS+二叉树】

题目来源&#xff1a;蓝桥杯2021初赛 C A组H题 题目描述 对于一棵多叉树&#xff0c;我们可以通过“左孩子右兄弟” 表示法&#xff0c;将其转化成一棵二叉树。 如果我们认为每个结点的子结点是无序的&#xff0c;那么得到的二叉树可能不唯一。 换句话说&#xff0c;每个结点可…

并发编程之ForkJoin框架

什么是 Fork/Join 框架 Fork/Join 是从 java7 开始提供的并行执行任务的框架&#xff0c;是一个把大任务分割成若干个小任务&#xff0c;最终汇总每个小任务的结果&#xff0c;得到大任务结果的框架. 如下图&#xff1a; Fork/Join 的特性 ForJoinPool 不是为了替代 Execu…

毕业仅1年,干Python赚了50W!网友:不是吹的

前言 惊讶 ​Py现状&#xff1a;Python职位月薪5W起&#xff1f; 其他程序员&#xff1a;心态塌了&#xff01; 秒杀各行业薪资榜单&#xff0c;拿下编程语言排行榜的Python&#xff0c;工资真的如网上说的开挂了吗&#xff1f;有人在网上发现这样的一条评论信息&#xff1a…

公众号网课查题接口题库

公众号网课查题接口题库 本平台优点&#xff1a; 多题库查题、独立后台、响应速度快、全网平台可查、功能最全&#xff01; 1.想要给自己的公众号获得查题接口&#xff0c;只需要两步&#xff01; 2.题库&#xff1a; 题库&#xff1a;题库后台&#xff08;点击跳转&#xf…

Navicat 现已支持 OceanBase 企业版

近期&#xff0c;PremiumSoft CyberTech Limited 公司发布了 Navicat 16.1.3 版本&#xff0c;正式支持蚂蚁集团旗下的 OceanBase 企业版&#xff08;MySQL 兼容模式&#xff09;。此次合作旨在帮助用户通过 Navcicat 进行 OceanBase 企业版的数据库开发及管理&#xff0c;更大…

说说 Redis 事务

Redis 事务简介# Redis 只是提供了简单的事务功能。其本质是一组命令的集合&#xff0c;事务支持一次执行多个命令&#xff0c;在事务执行过程中&#xff0c;会顺序执行队列中的命令&#xff0c;其他客户端提交的命令请求不会插入到本事务执行命令序列中。命令的执行过程是顺序…

MPLS综合实验

目录 实验要求 划分IP地址 首先对MPLSVPN骨干网络进行配置 首先配置IP地址 启动IGP协议 激活MPLS和LDP VRF空间的创建 将接口划入到VRF空间中 R1和R5通过静态路由在CE和PE上配置 建立MP-BGP 对站点R1和R5进行配置 首先把IP给配置好 在VRF空间中发布路由信息 对站点…

2000-2020上市公司全要素生产率LP方法含原始数据和Stata代码

1、时间&#xff1a;2000-2020年 2、指标包括&#xff1a;stkcd、year、证券代码、固定资产净额、营业总收入、营业收入、营业成本、销售费用、管理费用、财务费用、支付给职工以及为职工支付的现金、员工人数、折旧摊销、行业代码、上市日期、AB股交叉码、退市日期、年末是否…

windows下用Java跑通spark官方文档的quick-start

这里写自定义目录标题前置环境官方示例三个小坑maven文件引用不明确未传递master url前置环境 见上一篇&#xff1a;https://blog.csdn.net/shuzip/article/details/115606522 官方示例 https://spark.apache.org/docs/3.1.1/quick-start.html /* SimpleApp.java */ import…

廊坊特色农业 国稻种芯·中国水稻节:河北复合农业促增收

廊坊特色农业 国稻种芯中国水稻节&#xff1a;河北复合农业促增收 新闻中国采编网 中国新闻采编网 谋定研究中国智库网 中国农民丰收节国际贸易促进会 国稻种芯中国水稻节 中国三农智库网-功能性农业农业大健康大会报道&#xff1a;河北廊坊安次区“稻蟹共作”新模式 特色农业…

Codeforces Round #773 (Div. 2)

A. Hard Way 题目链接&#xff1a;Problem - A - Codeforces 样例输入&#xff1a; 5 8 10 10 4 6 2 4 6 0 1 4 2 14 1 11 2 13 2 0 0 4 0 2 4 0 1 1 1 0 0样例输出&#xff1a; 0.0000000 0 2.0000 0.00 1题意&#xff1a;给定一个三角形的三个顶点&#xff0c;输入保证三角…