Python爬虫案例入门教程(纯小白向)——夜读书屋小说

news2024/11/22 11:21:45

Python爬虫案例——夜读书屋小说

前言

如果你是python小白并且对爬虫有着浓厚的兴趣,但是面对网上错综复杂的实战案例看也看不懂,那么你可以尝试阅读我的文章,我也是从零基础python开始学习爬虫,非常清楚在过程中所遇到的困难,如果觉得我的文章对你的成长有所帮助,可以点上关注❤❤❤,我们一起进步!

实战案例

我们今天所爬取的是一个小说网站,并且我们爬取的小说是南派三叔的藏海花(爬取的小说可以自行选择哈)
网站链接:https://www.yekan360.com/canghaihua/

在这里插入图片描述

我们的爬取目标是将这个网页里的全部章节爬取到我们的本地文件夹里,并且这次爬取我们将采用异步协程的方法来提高爬虫的效率

爬取前的准备

编译的环境是Pycharm,我们需要引入的头文件如下:

import requests
import asyncio
import aiohttp
import aiofiles
import os
from lxml import etree

如果你的Pycharm里没有安装aiohttp和aiofiles,那么可以参考一下Python中aiohttp和aiofiles模块的安装该篇文章

开始爬取

函数讲解

创建main()函数主入口

if __name__ == '__main__':
    main()

定义main函数,再里面定义一个获取小说章节网站的函数,再将返回值放入href_list变量中,最后利用asyncio中的run函数来运行,具体详细代码下面讲解

def main():
    href_list=get_chapter_url()
    asyncio.run(download(href_list))

定义get_chapter_url函数,在内部使用request模块中的get函数来获取到网站的resp(该网站不需要引入headers和cookie就能访问),之后我们应用xpath模块来爬取到我们想要的内容,最后将所需内容返回。
页面源代码的抓取下文细说哇(大家不要着急❤)

def get_chapter_url():
    url="https://www.yekan360.com/canghaihua/"
    resp=requests.get(url).text.encode("utf-8")
    #print(resp)
    tree=etree.HTML(resp)
    href_list=tree.xpath("//div[@id='play_0']/ul/li[@class='line3']/a/@href")
    return href_list

现在讲解在asyncio.run(download(href_list))中的download函数,其中download的前缀必须是async(将函数变为async对象,才能应用多任务),再应用for循环将href_list将href一一遍历出来,将拼接出完整的url,将url传入get_page_source函数(在下面讲解)来获取我们想要得到的信息,将每个获取网址内容的操作变为一个一个的任务,存放在我们所定义的tasks[ ]的列表中,再将tasks丢进asyncio.wait里让它们不断循环进行来大大提高效率

async def download(href_list):
    tasks=[]
    for href in href_list:
        url="http://yk360.kekikc.xyz/"+href
        t=asyncio.create_task(get_page_source(url))
        tasks.append(t)
    await asyncio.wait(tasks)

定义get_page_source函数来获取子页面里小说信息,我们运用aiohttp模块来对页面url的处理来获取信息,得到的信息同样可以用xpath来筛选获取。然后运用os模块创建文件,最后运用aiofiles模块将内容下载到所创建的文件夹中

async def get_page_source(url):
    while 1:
        try:
            async with aiohttp.ClientSession() as session:
                async with session.get(url) as resp:
                    page_source=await resp.text()
                    tree=etree.HTML(page_source)
                    title="\n".join(tree.xpath("//div[@class='m-title col-md-12']/h1/text()")).replace("[]","")
                    body="\n".join(tree.xpath("//div[@class='panel-body']//p/text()")).replace("\u3000","")
                    if not os.path.exists("./藏海花"):
                        os.mkdir("./藏海花")
                    async with aiofiles.open(f"./藏海花/{title}.txt",mode="w",encoding="utf-8") as f:
                        await f.write(body)
                        break
        except:
            print("报错了,重试一下",url)
    print("下载完毕",url)

网页源代码的解析

  • 小说主页源代码解析
    在这里插入图片描述

可以由图看出,该源代码对于小白来说算相当友好的,每个章节的url全部都整齐的排列出来,但是获取的url只是一部分,是需要拼接操作的。我们可以用tree.xpath(“//div[@id=‘play_0’]/ul/li[@class=‘line3’]/a/@href”),对div的id定位,再对ul的深入,最后对li中的a的属性获取即可

tree.xpath("//div[@id='play_0']/ul/li[@class='line3']/a/@href")
  • 章节页面源代码解析

由于页面源代码不好看清楚其中的嵌套结构,因此我们采用对页面的检查来对信息的抓取

在这里插入图片描述

由图可见,我们需要的标题信息是div中的class='m-title col-md-12’里的h1,而内容信息是在div中class='panel-body’里的p因此可以写出:

title="\n".join(tree.xpath("//div[@class='m-title col-md-12']/h1/text()")).replace("[]","")
body="\n".join(tree.xpath("//div[@class='panel-body']//p/text()")).replace("\u3000","")

爬取结果呈现

所创建的文件夹是在该爬虫文件同一路径下

在这里插入图片描述

在这里插入图片描述

源代码

如果有同学实在不想自己书写,那么可以直接复制到自己的编译器(pycharm3.11)运行来体验一下爬虫的乐趣,但还是希望大家可以动手自己写一写来提高自己的能力

import requests
import asyncio
import aiohttp
import aiofiles
import os
from lxml import etree

async def get_page_source(url):
    while 1:
        try:
            async with aiohttp.ClientSession() as session:
                async with session.get(url) as resp:
                    page_source=await resp.text()
                    tree=etree.HTML(page_source)
                    title="\n".join(tree.xpath("//div[@class='m-title col-md-12']/h1/text()")).replace("[]","")
                    body="\n".join(tree.xpath("//div[@class='panel-body']//p/text()")).replace("\u3000","")
                    if not os.path.exists("./藏海花"):
                        os.mkdir("./藏海花")
                    async with aiofiles.open(f"./藏海花/{title}.txt",mode="w",encoding="utf-8") as f:
                        await f.write(body)
                        break
        except:
            print("报错了,重试一下",url)
    print("下载完毕",url)
async def download(href_list):
    tasks=[]
    for href in href_list:
        url="http://yk360.kekikc.xyz/"+href
        t=asyncio.create_task(get_page_source(url))
        tasks.append(t)
    await asyncio.wait(tasks)

def get_chapter_url():
    url="https://www.yekan360.com/canghaihua/"
    resp=requests.get(url).text.encode("utf-8")
    #print(resp)
    tree=etree.HTML(resp)
    href_list=tree.xpath("//div[@id='play_0']/ul/li[@class='line3']/a/@href")
    return href_list

def main():
    href_list=get_chapter_url()
    asyncio.run(download(href_list))


if __name__ == '__main__':
    main()

总结

本次的爬虫案例并没有特别的复杂,每个函数部分的逻辑也是非常的清晰的,大家完全可以自己写出来,同时文章中若有错误和不完善的地方,可以私信给我,因为作者本身也是个小白,望谅解(❁´◡`❁)。最后如果文章对你有所帮助,或者想要和作者一起成长,可以给我点个关注,我们一起进步!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1057657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

字符编码的了解

前言: 在编写文件读取功能的过程中,我遭遇了一个棘手的乱码难题。经过细致的排查,发现这一问题的根源在于文件的字符编码。为了帮助大家有效地克服编码差异所带来的开发挑战,因此,我收集了字符集编码的相关知识&#x…

想要精通算法和SQL的成长之路 - 旋转链表

想要精通算法和SQL的成长之路 - 旋转链表 前言一. 旋转链表 前言 想要精通算法和SQL的成长之路 - 系列导航 一. 旋转链表 原题链接 由于k的大小可能超过链表长度,因此我们需要根据链表长度取模。那么我们首先需要去计算链表的长度是多少: if (head …

C# GraphicsPath 类学习

先在窗体放2个picturebox, 然后看一下如下代码; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; us…

Pytorch基础:Tensor的transpose方法

相关阅读 Pytorch基础https://blog.csdn.net/weixin_45791458/category_12457644.html?spm1001.2014.3001.5482 在Pytorch中,transpose是Tensor的一个重要方法,同时它也是一个torch模块中的一个函数,它们的语法如下所示。 Tensor.transpo…

window安装压缩版postgresql

环境: window 11 专业版postgresql-16.0-1-windows-x64-binaries.zip 一、下载 1.1 从官网下载 https://www.postgresql.org/download/windows/ 1.2 从百度网盘下载 链接:https://pan.baidu.com/s/1fmQbgWSzX4hN07Lgdzfz0g?pwddzyy 提取码&#…

汇编语言王爽第4版实验8答案(和你想的不一样)

实验8 分析一个奇怪的程序 E:\mywork\asm\p906.asm C:\>edit p906.asm assume cs:codecode segmentmov ax,4c00hint 21h start: mov ax,0 s:nop ; nop的机器码占一个字节nopmov di, offset smov si, offset s2mov ax, cs:[si]mov cs:[di],ax s0:jmp short s s1:mov ax,0in…

tauri为窗口添加阴影效果

需求 为窗口添加阴影效果,让窗口显得更立体。 实现方案 通过 tauri 中的 window-shadows 依赖实现。 编码 修改 label 标签内容 修改 src-tauri/tauri.conf.json 文件,设置 label 字段为 “customization” 增加shadows的依赖 修改 src-tauri…

第8期ThreadX视频教程:应用实战,将裸机工程移植到RTOS的任务划分,驱动和应用层交互,中断DMA,C库和中间件处理等注意事项

视频教程汇总帖:【学以致用,授人以渔】2023视频教程汇总,DSP第12期,ThreadX第8期,BSP驱动第26期,USB实战第5期,GUI实战第3期(2023-10-01) - STM32F429 - 硬汉嵌入式论坛 …

函数、函数的傅里叶级数展开、傅里叶级数的和函数之间的关系

1.函数、函数的傅里叶级数展开、傅里叶级数的和函数之间的关系 1.1 傅里叶级数中的系数公式推导 我们先来推导一下傅里叶级数中的系数公式,其实笔者已经写过一篇相关笔记,详见:为什么要把一个函数分解成三角函数?(傅利叶级数) f ( x )…

MySQL 索引优化实践(单表)

目录 一、前言二、表数据准备三、常见业务无索引查询耗时测试3.1、通过订单ID / 订单编号 查询指定订单3.2、查询订单列表 四、订单常见业务索引优化实践4.1、通过唯一索引和普通索引优化通过订单编号查询订单信息4.2、通过普通联合索引优化订单列表查询4.2.1、分析查询字段的查…

【数据结构】HashSet的底层数据结构

🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaEE 操作系统 Redis 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 HashSet 一、 HashSet 集合的底层数据结构二…

GraphPad Prism 10 for Mac(统计分析绘图软件)

GraphPad Prism是一款专业的统计和绘图软件,主要用于生物医学研究、实验设计和数据分析。 以下是 GraphPad Prism 的主要功能和特点: 数据导入和整理:GraphPad Prism 可以导入各种数据格式,并提供直观的界面用于整理、编辑和管理数…

RFID与人工智能的融合:物联网时代的智能化变革

随着物联网技术的不断发展,现实世界与数字世界的桥梁已经被打通。物联网通过各种传感器,将现实世界中的光、电、热等信号转化为有价值的数据。这些数据可以通过RFID技术进行自动收集和传输,然后经由人工智能算法进行分析、建模和预测&#xf…

【LeetCode算法系列题解】第76~80题

CONTENTS LeetCode 76. 最小覆盖子串(困难)LeetCode 77. 组合(中等)LeetCode 78. 子集(中等)LeetCode 79. 单词搜索(中等) LeetCode 76. 最小覆盖子串(困难) …

Java下正面解除警告Unchecked cast: ‘java.lang.Object‘ to ‘java.util.ArrayList‘

就是我在反序列化时&#xff0c;遇到这样一个警告&#xff1a; Unchecked cast: java.lang.Object to java.util.ArrayList<com.work1.Student>然后我去网上查&#xff0c;有些人说用SuppressWarnings(“unchecked”)去忽略警告&#xff0c;但是我觉得作为一名合格的程序…

SNERT预备队招新CTF体验赛-Web(SWCTF)

目录 1、F12 2、robots 3、game1-喂青蛙 4、game 2 - flap bird 5、game 3 - Clash 6、Get&Post 7、sql &#xff08;1&#xff09;手工注入 &#xff08;2&#xff09;工具注入 8、命令执行漏洞 9、文件上传漏洞 10、文件泄露 11、php反序列化漏洞 12、PHP绕…

【网络编程】UDP数据报套接字编程和TCP流套接字编程

文章目录 1. 网络编程基础1.1 为什么需要网络编程&#xff1f;1.2 网络编程是什么&#xff1f;1.3 概念 2. Socket套接字3. UDP数据报套接字编程3.1 DatagramSocket API3.2 DatagramPacket API3.3 InetSocketAddress API 4. UDP构建服务端客户端&#xff08;一发一收&#xff0…

QSS之QComboBox

QComboBox在Qt开发过程中经常使用&#xff0c;默认的下载列表风格达不到设计师的要求&#xff0c;本篇介绍基本的QComboBox的qss设置。 属性意思QComboBoxQComboBox基本样式QComboBox:editable右边可选择按钮QComboBox:!editable, QComboBox::drop-down:editable不可编辑或下拉…

Python中匹配模糊的字符串

嗨喽~大家好呀&#xff0c;这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 如何使用thefuzz 库&#xff0c;它允许我们在python中进行模糊字符串匹配。 此外&#xff0c;我们将学习如何使用process 模块&#xff0c;该模块允许我们在模糊…

离散数学 学习 之 5.3 一阶逻辑的推理理论

第一个证明中&#xff0c;最后三步的化简很重要&#xff0c;倒数第三步构造出一个可以化简出倒数第二步的公式&#xff0c;最后再化简 上面中的第 1&#xff0c; 2 步 和 3 &#xff0c; 4 步不能换&#xff0c;因为无法保证是同一个 c 尽量弄成前束范式 上面中2&#xff0c;3&…