【爬取研招网指定学校专业信息】

news2025/3/10 21:31:07

前言

本文介绍了如何使用 Python 的 requests 库和 BeautifulSoup 库来爬取研究方向信息，并将其保存为 CSV 文件。爬取的网站为“中国研究生招生信息网”（https://yz.chsi.com.cn/）。代码从指定的专业目录页面爬取研究方向的相关信息，并保存为 CSV 文件。

代码

import requests
from bs4 import BeautifulSoup
import re
from fake_useragent import UserAgent

# 伪装请求头
ua = UserAgent()

url = input('请输入专业目录的url：')
response = requests.get(url, headers={'User-Agent': ua.random})
soup = BeautifulSoup(response.text, 'lxml')

# 使用css选择器来查找包含"查看"文本的a标签，并提取其href属性
hrefs = soup.select('a:-soup-contains("查看")')

# 解析学校名称和研究方向代码
dwmc = requests.utils.unquote(url.split('&')[1].split('=')[1], 'utf-8')
yjxkdm = url.split('&')[4].split('=')[1]
filename = dwmc + '_' + yjxkdm + '.csv'

# 打开文件，如果不存在则创建
f = open(filename, 'w')

# 提取href属性，添加上前缀
for href in hrefs:
    href = 'https://yz.chsi.com.cn' + href['href']
    response = requests.get(href, headers={'User-Agent': ua.random})
    soup = BeautifulSoup(response.text, 'lxml')
    
    # 提取详情页信息并写入文件
    a = soup.select('td.zsml-summary')
    for i in a:
        f.write(i.text.strip().replace(',', ' ') + ',')
    
    b = soup.select('span.zsml-bz')
    for i in b:
        f.write(i.text.strip().replace(',', ' ') + ',')
    
    c = soup.select('tbody.zsml-res-items')
    for i in c:
        cleaned_text = re.sub(r'\s+', ' ', i.text.strip()).replace('见招生简章', '')
        f.write(cleaned_text.replace(',', ' ') + ',')
    
    f.write('\n')

# 关闭文件
f.close()

示例

输入内容：

https://yz.chsi.com.cn/zsml/querySchAction.do?ssdm=50&dwmc=%E9%87%8D%E5%BA%86%E5%A4%A7%E5%AD%A6&mldm=08&mlmc=&yjxkdm=0812&xxfs=&zymc=

文件内容：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1615246.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【爬取研招网指定学校专业信息】

前言

代码

示例

相关文章

ROM修改进阶教程------services.jar文件过小合并odex apk合并odex 几种方法步骤解析

Day 31 贪心算法理论基础 455.分发饼干 376. 摆动序列 53. 最大子序和

Linux之ebpf(1)基础使用

C语言：数据结构(单链表)

Github账号注册

NC398 腐烂的苹果

MATLAB——M文件

运营商三要素核验接口-手机实名验证API

算法部署 | 使用TensorRT部署AlphaPose姿态估计算法

【机器学习300问】74、如何理解深度学习中L2正则化技术？

尚硅谷-JavaSE阶段考试与面试题库

Oracle中的 plsql语法

周鸿祎和雷军、马化腾相逢一笑泯恩仇

STL Array、ForwardList源码剖析

el-upload组件如何上传blob格式的url地址视频

霸气归来,AKG N9 Hybrid头戴式降噪耳机震撼发布！手边的“大耳”瞬间不香了？

ASP.NET Core 标识（Identity）框架系列（四）：闲聊 JWT 的缺点，和一些解决思路

【矩阵快速幂】太震惊了！直接把斐波那契从6s优化到了0毫秒....

【C语言进阶】指针例题大杂烩，阁下是高手还是菜鸟？

如何用网页绘制一个黑莓9900的键盘效果图