爬虫获取一个网站内所有子页面的内容

news2025/1/4 16:05:25

上一篇介绍了如何爬取一个页面内的所有指定内容,本篇讲的是爬去这个网站下所有子页面的所有指定的内容。

可能有人会说需要的内容复制粘贴,或者直接f12获取需要的文件下载地址一个一个下载就行了,但是如下图十几个一级×几十个二级×一百多个疾病×几百个内容=不太想算下去的数量级…一个mp3一兆多的大小,就只算下载所有的mp3的话就已经是t级别的了,手动一个一个下载恐怕得几个月的不听操作,所以需要本篇介绍的多页面爬虫自动获取,好歹几天时间能自动爬完。

确认需求

在这里插入图片描述
我们要获取这个网站下每个的一级科室的每个二级科室的每个疾病下的每个问题及对应的医生回答的mp3语音文件和语音内容,点击每个问题得到的页面如下:
在这里插入图片描述
从这里就可以获取到我想要的:问题、医生、问题的回答语音mp3文件、语音内容。
首先确认一下思路:遍历每个一级–>遍历每个二级–>遍历每个疾病–>遍历每一页(如下图)–>点击每个内容进去–>获取问题、医生、mp3、内容
在这里插入图片描述
以上是大概的获取思路框架,接下来确认保存形式:每个一级为一个文件夹;在每个一级目录下面存放这个一级的所有二级目录;在每个二级下存放所有对应的疾病目录;在每个疾病目录下存放这个疾病下所有的mp3文件,文件名以“医生-问题”的格式保证不重复,每个疾病目录下只有一个txt文件,里面写入本目录下所有mp3的语音内容,为了后续能快速找到对应内容,给每个内容也加一个“医生-问题”格式的标题。如下图所示:
在这里插入图片描述
在这里插入图片描述

获取对应元素

再次捋一下我们所需要的是:问题、医生、mp3文件、语音内容,接下来开始获取这4个对应的网页元素,需要说明的是我们要获取的不仅只有这四个,这四个只是获取一个页面内容所需的元素,还需要找到每个一级、二级、疾病、下一页(换页)的元素才能自动获取这个网站所有的这4个内容。

这里需要注意,我们找的每个元素需要找的是在页面中唯一的元素,这样才不会出错。比如所有的一级都放在class为“a”的div标签下,但同样的标签有多个,那么可以再往上一层,发现class为“a”的div标签class为“b”的div标签 的标签下,再看一下 class为“b”的div标签 下的 class为“a”的div标签 这样的组合仅有一个,那这个组合才是我们所需要的元素。

一级科室

f12打开开发者模式,点击箭头选择元素:
在这里插入图片描述
这里需要做的是如何获取到这个< dd >标签下的所有< a >标签,经过我的筛选发现class为’yslist_dq’的< div >标签下的第一个< dl >标签的所有< a >标签即是所有的一级科室的元素,我们所需要的是a标签内的text文本内容(作为创建目录的目录名)以及标签的href属性值(用来跳转页面到下一个一级科室)。

二级科室

在这里插入图片描述
依旧是元素选择箭头点击任意一个二级科室,图片上可以发现class为’yslist_dq’的< div >标签下的第2个< dl >标签的所有< a >标签即是所有的二级科室的元素,选择标签内的文本内容和href属性值。

疾病筛选

在这里插入图片描述
同理可得class为’yslist_dq’的< div >标签下的第3个< dl >标签的所有< a >标签即是所有的疾病筛选的元素,选择文本内容和href属性值。

每个页面

这里的每个页面是获取我们所需要的问题、医生、mp3、语音内容这4个内容的页面。
在这里插入图片描述
元素选择箭头(以下开始简称箭头)选择点击任意一个医生头像(一个头像对应一个问题),点击方框内的网址就跳到对应的页面内容中:
在这里插入图片描述
那么页面的元素就是a标签的herf属性值,首先获取到这个a标签。
可以看到每个< li >标签为一个头像,这些< li >都在class为“cur05”的< ul >标签下,经验证class为“cur05”的< ul >标签下的< li >标签下的< a >标签为唯一组合,因为每个< li >标签下只有一个< a >标签,所以直接用class为“cur05”的< ul >标签下的所有< a >标签这个组合。

页面内容——问题

在这里插入图片描述
经验证图片所见的class为“v_title”的< h3 >标签是唯一的元素,则这个h3标签就是问题的元素,我们获取的是标签的文本内容。

页面内容——医生

在这里插入图片描述
class为“mgBottom10”的< ul >标签下的< strong >标签的文本内容。

页面内容——mp3文件

在这里插入图片描述
< audio >为唯一的标签,获取其src属性值。

页面内容——语音内容

在这里插入图片描述
class为“v_con”的< div >标签下的class为“text”的< div >标签的文本内容。

下一页

在这里插入图片描述
class为“pageyl”的< div >标签下的最后一个< li >标签的< a >标签的href属性值。

代码

代码介绍

1.代码的大概思路:就是在上文确认需求中所提到的,获取每个一级的text和href值,用文本创建目录,用href值跳转到遍历到的一级科室页面;同理二级和疾病;然后遍历到第3层的疾病之下,开始获取页面的每个头像对应的href值进行跳转,在跳转的页面中根据上文找到的元素获取我们需要的4个内容;然后点击下一页重复上一步操作,直到没有下一页了。
2.headers本来用的是我自己浏览器中获取到的,但是用一个headers一次性访问上万个页面有时候也会触发反爬机制导致中断,所以我多找几个人要了他们的headers,放入list中,每次跳转页面的时候都从中random选择一个,为了确保有够random随机种子值用当前时间戳。list中的每个headers除了user-agent也可以加入cookies减少中断概率(如第一个headers中的注释所示)。
3.因为一次性访问太多次有可能有时候访问一个页面不给响应,此时使用resolve()函数循环请求该网站,每次循环随机选择headers及延长响应时间。进行跳转页面时都进行捕获异常,只要有异常就调用resolve()。
4.即使做的绕过反爬机制的准备再充足,面对这么庞大的数据爬去也肯定会有各种因素导致的中断,如果爬了几天的数据忽然中断了,再继续只能重头开始的话人真的会崩溃。虽然只是交给机器来操作是机器花了这么久的功夫,但是我们花时间等也是挺废精力的哈哈哈。所以这里也要写一个断点续传的功能,从中断处开始继续爬取(代码中注释明显可一眼找到)。

代码实现

import random
import time
import requests
import os
from bs4 import BeautifulSoup

random.seed(int(time.time()))

def resolve(url, headers_list):
    for i in range(5):  # 循环去请求网站
        headers = random.choice(headers_list)
        response = requests.get(url, headers=headers, timeout=20)
        if response.status_code == 200:
            break
    return response

save_root = "/home/alpha/桌面/results"
url = "https://www....."
# headers = {
#     "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
# }
headers_list = [
    {
        # "Cookie":r"open_link_uuid=283daf44-d04e-49ae-bb47-3b8117d9e71f;utrace=23F72A5EEEB2DAFA0537A35D6848F563;Hm_lvt_8b53bc0f3e59f56a58a92a894280e28d=1693984791;open_link_uuid=47e1a39d-224f-4c45-b1a5-a6bdb84dce5b;Hm_lvt_8bb61372f543ea81f53e93693c2a7531=1694144572;Hm_lpvt_8b53bc0f3e59f56a58a92a894280e28d=1694425881",
        "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
    }, {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76'
    }, {
        'user-agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
    }, {
        'user-agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:58.0) Gecko/20100101 Firefox/58.0'
    }, {
        'user-agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:88.0) Gecko/20100101 Firefox/88.0'
    }, {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'
    }, {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }, {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
    }, {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Core/1.94.202.400 QQBrowser/11.9.5355.400'
    }, {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
    }, {
        'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Mobile Safari/537.36'
    }
]
headers = random.choice(headers_list)
try:
    response = requests.get(url=url, headers=headers)
except:
    response = resolve(url, headers_list)
soup = BeautifulSoup(response.text, 'html.parser')
div_yslist_dq = soup.find('div', class_='yslist_dq')
first_dl = div_yslist_dq.find('dl')
a_tags_1 = first_dl.find_all('a')
for a_tag_1 in a_tags_1:     # 一级科室
    href_1 = a_tag_1.get('href')
    title_1 = a_tag_1.text
    ##############################
    # 中断 从断点继续
    # if title_1 in ["内科", "外科"]:
    # 	continue
    ##############################
    # print(f'链接地址: {href_1}, 标题: {title_1}')
    first_level = os.path.join(save_root, title_1)
    if not os.path.exists(first_level):
        os.mkdir(first_level)

    url = "https://www.youlai.cn" + href_1
    headers = random.choice(headers_list)
    try:
        response = requests.get(url=url, headers=headers)
    except:
        response = resolve(url, headers_list)
    soup = BeautifulSoup(response.text, 'html.parser')
    div_yslist_dq = soup.find('div', class_='yslist_dq')
    first_dl = div_yslist_dq.findAll('dl')[1]
    a_tags_2 = first_dl.find_all('a')
    for a_tag_2 in a_tags_2:      # 二级科室
        href_2 = a_tag_2.get('href')
        title_2 = a_tag_2.text
        if title_2 == "全部":
            continue
        ##############################
        # 中断 从断点继续
        # if title_2 in ["消化内科", "心血管内科"]:
        # 	continue
        ###############################
        # print(f'链接地址: {href_2}, 标题: {title_2}')
        sec_level = os.path.join(first_level, title_2)
        if not os.path.exists(sec_level):
            os.mkdir(sec_level)
    # input()
        url = "https://www.youlai.cn" + href_2
        headers = random.choice(headers_list)
        try:
            response = requests.get(url=url, headers=headers)
        except:
            response = resolve(url, headers_list)
        soup = BeautifulSoup(response.text, 'html.parser')
        div_yslist_dq = soup.find('div', class_='yslist_dq')
        first_dl = div_yslist_dq.findAll('dl')[2]
        a_tags_3 = first_dl.find_all('a')
        for a_tag_3 in a_tags_3:      # 疾病筛选
            href_3 = a_tag_3.get('href')
            title_3 = a_tag_3.text

            ##############################
            # 中断 从断点继续
            # if title_3 in ["胃炎", "胃溃疡", "肝硬化", "便秘", "肠胃炎", "腹痛", "慢性腹泻", "胰腺炎", "消化不良", "慢性胃炎", "反流性食管炎"]:
            #     continue
            ##############################

            if title_3 == "全部":
                continue
            # print(f'链接地址: {href_3}, 标题: {title_3}')
            third_level = os.path.join(sec_level, title_3)
            if not os.path.exists(third_level):
                os.mkdir(third_level)
            # print(href_3)
            url = "https://www.youlai.cn" + href_3
            headers = random.choice(headers_list)
            try:
                response = requests.get(url=url, headers=headers)
            except:
                response = resolve(url, headers_list)
            soup = BeautifulSoup(response.text, 'html.parser')

            page_num = soup.find('div', class_='pageyl').findAll("li")[-2].text
            # print(page_num)
            # input()
            for page in range(eval(page_num)):     # 遍历所有页数

                ##############################
                # 中断 从断点继续
                # print(page + 1)
                # if title_3 == "结肠炎" and page in [0, 1, 2]:
                #     page_url = "https://www.youlai.cn" + "/ask/voicelist/1_12_12_0_4.html"
                #     headers = random.choice(headers_list)
                #     try:
                #         response = requests.get(url=page_url, headers=headers)
                #     except:
                #         response = resolve(page_url, headers_list)
                #     soup = BeautifulSoup(response.text, 'html.parser')
                #     continue
                ##############################

                # 默认在第一页
                div_yslist_dq = soup.find('ul', class_='cur05')
                a_tags_4 = div_yslist_dq.findAll('a')
                for a_tag_4 in a_tags_4:       # 遍历每页的所有mp3
                    href_4 = a_tag_4.get('href')
                    title_4 = a_tag_4.text
                    # print(f'链接地址: {href_4}, 标题: {title_4}')
                    url = "https://www.youlai.cn" + href_4
                    headers = random.choice(headers_list)
                    try:
                        response_4 = requests.get(url=url, headers=headers)
                    except:
                        response_4 = resolve(url, headers_list)
                    soup_4 = BeautifulSoup(response_4.text, 'html.parser')
                    mp3_tag = soup_4.find('audio')
                    mp3_path = mp3_tag.get("src").strip()
                    # while True:
                    #     try:
                    #         print(response_4.status_code)
                    #         print(mp3_tag)
                    #         mp3_path = mp3_tag.get("src").strip()
                    #         break
                    #     except AttributeError:
                    #         print(headers)
                    #         headers = random.choice(headers_list)
                    #         time.sleep(5)
                    #         print(headers)
                    headers = random.choice(headers_list)
                    try:
                        mp3_content = requests.get(url=mp3_path, headers=headers).content
                    except:
                        mp3_content = resolve(mp3_path, headers_list)

                    mp3_title = soup_4.find('h3', class_='v_title').text.strip()
                    print(mp3_title)
                    if mp3_title[-1] == "?":
                        mp3_title = mp3_title[:-1]
                    doc_name = soup_4.find("ul", class_='mgBottom10').find("strong").text.strip()
                    with open(third_level + "/" + doc_name + "-" + mp3_title + ".mp3", mode="wb") as f1:  # 下载每个mp3文件
                        f1.write(mp3_content)
                    print(mp3_path)
                    mp3_text = soup_4.find('div', class_='v_con').find('div', class_='text').text.strip() + "\n"
                    with open(third_level + "/" + "content.txt", mode="a") as f2:
                        mp3_title = doc_name + "-" + mp3_title + "\n"
                        f2.write(mp3_title)
                        f2.writelines(mp3_text)
                    print(mp3_text)

                # 点击下一页
                next_page = soup.find('div', class_='pageyl').findAll("li")[-1]
                next_page_title = next_page.text
                print(next_page_title)
                if not next_page_title == "下一页":
                    continue
                next_page_href = next_page.find("a").get("href")
                print(next_page_href)
                page_url = "https://www.youlai.cn" + next_page_href
                headers = random.choice(headers_list)
                try:
                    response = requests.get(url=page_url, headers=headers)
                except:
                    response = resolve(page_url, headers_list)
                soup = BeautifulSoup(response.text, 'html.parser')

实现效果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1024300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32-无人机-电机-定时器基础知识与PWM输出原理

电机控制基础——定时器基础知识与PWM输出原理 - 掘金单片机开发中&#xff0c;电机的控制与定时器有着密不可分的关系&#xff0c;无论是直流电机&#xff0c;步进电机还是舵机&#xff0c;都会用到定时器&#xff0c;比如最常用的有刷直流电机&#xff0c;会使用定时器产生PW…

「UG/NX」Block UI 指定方位SpecifyOrientation

✨博客主页何曾参静谧的博客📌文章专栏「UG/NX」BlockUI集合📚全部专栏「UG/NX」NX二次开发「UG/NX」BlockUI集合「VS」Visual Studio「QT」QT5程序设计「C/C+&#

怎么打开mysql题库练习系统

在正式考试的时候&#xff0c;大题上方会有一个启动的按钮&#xff0c;非常明显。 我在考试之前买了题库&#xff0c;但是一直没找到怎么进入mysql &#xff08;指的不是平时自己做项目的入口&#xff0c;是考试系统仿真&#xff09; 其实是要下载一个软件&#xff1a; 就在…

大数据与云计算实验一

检查是否开启 sudo service docker status 开启服务 sudo service docker start 运行服务 sudo docker run -itd -p 8080:80 nginx 查询ID docker ps -all 进入容器shell sudo docker exec -it <容器ID或容器名称> /bin/bash 找到/usr/share/nginx/html/index.…

【小沐学CAD】虚拟仿真开发工具:GL Studio

文章目录 1、简介2、软件功能3、应用行业3.1 航空3.2 汽车3.3 防御3.4 工业3.5 电力与能源3.6 医疗3.7 空间3.8 科技 结语 1、简介 https://disti.com/gl-studio/ https://ww2.mathworks.cn/products/connections/product_detail/gl-studio.html DiSTI 是 HMI 软件、虚拟驾驶舱…

zabbix自定义key

用户参数&#xff08;zabbix-agent&#xff09; 介绍 自定义用户参数&#xff0c;也就是自定义key&#xff0c;有时&#xff0c;你可能想要运行一个代理检查&#xff0c;而不是Zabbix的预定义&#xff0c;你可以编写一个命令来检索需要的数据&#xff0c;并将其包含在代理配置…

大模型如何赋能智能客服

2022年&#xff0c;大模型技术的出色表现让人们瞩目。随着深度学习和大数据技术的发展&#xff0c;大模型在很多领域的应用已经成为可能。许多公司开始探索如何将大模型技术应用于自己的业务中&#xff0c;智能客服也不例外。 智能客服是现代企业中非常重要的一部分&#xff0…

OpenCascade插件化三维算法研究平台

基于OpenCascade 7.7.0、QT 6.5.2开发了一个插件化三维算法研究平台。 由于采用插件化技术&#xff0c;平台启动极快&#xff0c;用户用到相关功能时&#xff0c;系统才载入相关模块。插件化平台&#xff0c;不仅可以作为三维建模、展示、格式转换等工具软件&#xff0c;还可以…

从菜鸟到吃鸡高手!教你提高战斗力的顶级游戏干货!

大家好&#xff01;作为专业吃鸡行家&#xff0c;今天我将为大家分享一些与众不同的干货&#xff0c;助你成为吃鸡界的顶级战士&#xff01; 首先&#xff0c;游戏战斗力的提升是每个吃鸡玩家的追求。通过使用绝地求生作图工具&#xff0c;你可以简单快捷地分享你的战斗经验与技…

生活中的光伏

光伏作为可再生能源发电的主力军&#xff0c;逐渐被更多的电力用户所接受。随着光伏发电的普及&#xff0c;人们在日常生活中对太阳能光伏发电的利用率越来越高。 1、太阳能公交站台 太阳能公交站台&#xff0c;是指公交中途站点供电方式由原来的直接接入电源改为太阳能供电。…

InputAction的使用

感觉Unity中InputAction的使用&#xff0c;步步都是坑。 需求点介绍 当用户长按0.5s 键盘X或者VR left controller primaryButton (即X键)时&#xff0c;显示下一个图片。 步骤总览 创建InputAction资产将该InputAction资产绑定到某个GameObject上在对应的script中&#xf…

基于matlab实现的卡尔曼滤波匀加速直线运动仿真

完整程序&#xff1a; clear clc %% 初始化参数 delta_t 0.1; %采样时间 T 8; %总运行时长 t 0:delta_t:T; %时间序列 N length(t); %序列的长度 x0 0; %初始位置 u0 0; %初速度 U 10; %控制量、加速度 F [1 delta_t 0 1]; %状态转移矩阵 B …

《模型结构图绘制 -- Axure 软件使用教程》学习笔记

《模型结构图绘制 – Axure 软件使用教程》 Axure10是订阅制收费软件可以根据鼠标位置放大试图 界面介绍 页面尺寸&#xff1a;Auto&#xff08;右上角&#xff09; 页面可以自动延展尺寸

CentOS 7 安装踩坑

CentOS与Ubuntu并称为Linux最著名的两个发行版&#xff0c;但由于笔者主要从事深度学习图像算法工作&#xff0c;Ubuntu作为谷歌和多数依赖库的亲儿子占据着最高生态位。但最近接手的一个项目里&#xff0c;甲方指定需要在CentOS7上运行项目代码&#xff0c;笔者被迫小小cos了一…

Linux-软件安装/项目部署

软件安装 软件安装方式 在Linux系统中&#xff0c;安装软件的方式主要有四种&#xff0c;这四种安装方式的特点如下&#xff1a; 安装JDK 上述我们介绍了Linux系统软件安装的四种形式&#xff0c;接下来我们就通过第一种(二进制发布包)形式来安装JDK。 JDK具体安装步骤如下&…

nodejs 如何在npm发布自己的包 <记录>

一、包结构 必要结构&#xff1a; 一个包对应一个文件夹&#xff08;文件夹名不是包名&#xff0c;但最好与包名保持一致&#xff0c;包名以package.json中的name为主&#xff09;包的入口文件index.js包的配置文件package.json包的说明文档README.md 二、需要说明的文件 1.配…

基于51单片机的智能病房呼叫系统的设计与实现

一、前言 显示床位号使用到4位数码管&#xff0c;为了节约单片IO口&#xff0c;使用TM1637来驱动数码管。 二、TM1637驱动芯片简介 三、电路设计&#xff0c;使用矩阵按键来模拟每个床位的呼叫按钮 四、编写51单片机代码 void delay_ms(u16 n) {u8 i;while(n--){i 111;while…

软件测试之功能测试详解

一、功能测试概述 1&#xff09;功能测试就是对产品的各功能进行验证&#xff0c;根据功能测试用例&#xff0c;逐项测试&#xff0c;检查产品是否达到用户要求的功能。 2&#xff09;功能测试&#xff0c;根据产品特性、操作描述和用户方案&#xff0c;测试一个产品的特性和…

Qt5开发及实例V2.0-第六章Qt图形与图片

Qt5开发及实例V2.0-第六章Qt图形与图片 第6章 Qt5图形与图片6.1 Qt 5位置相关函数6.1.1 区别概述6.1.2 【实例】 6.2 Qt 5基础图形的绘制6.2.1 绘图框架设计6.2.2 绘图区的实现6.2.3 主窗口的实现 6.3 Qt 5双缓冲机制6.3.1 原理与设计6.3.2 绘图区的实现6.3.3 主窗口的实现 6.4…

Docker搭建DNS服务器--use

前言 DNS服务器是(Domain Name System或者Domain Name Service)域名系统或者域名服务,域名系统为Internet上的主机分配域名地址和IP地址。 安装 2.1 实验环境 IP 系统版本 角色 192.168.40.121 Ubuntu 22.10 DNS服务器 192.168.40.122 Ubuntu 22.10 测试机器 2.2 …