Python爬虫实战——下载小说

news2026/2/12 3:03:42

Python爬虫实战——下载小说

前言
第三方库的安装
示例代码
效果演示
结尾

前言

使用requests库下载开源网站的小说

注意：本文仅用于学习交流，禁止用于盈利或侵权行为。

操作系统：windows10 家庭版
开发环境：Pycharm Conmunity 2022.3
解释器版本：Python3.8
第三方库：requests、bs4

第三方库的安装

需要安装 bs4 和 requests 库
你可以参考我的以下文章获取些许帮助：

Python第三方库安装——使用vscode、pycharm安装Python第三方库
Python中requests库使用方法详解

示例代码

import requests
from bs4 import BeautifulSoup

# 伪装浏览器头
header={
        "User-agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Mobile Safari/537.36 Edg/112.0.1722.48"
    }

# 53851740 是第一章的位置
# 746 - 740 = 6， 即爬取6章
for i in range(740,746):
	# 选定URL
    url= ("https://www.bbiquge.net/book/476/53851{}.html".format(i))

	# 请求页面，返回response对象
    resp=requests.get(url=url,headers=header)
    #解析页面
    html=BeautifulSoup(resp.text,"html.parser")

	# 获取标题
    title=html.find("h1")
	# 获取正文
    content=html.find("div",id="content")

	# 写入文件
    with open("{}.txt".format(title.text),"w+",encoding="utf-8") as f:
        f.write((content.text).replace(" ","\n") )
        f.close()

效果演示

在这里插入图片描述

结尾

代码尚不完善，代码风格不符合标准，还有值得更改的地方，如：可以去除小说中的广告，合并到同一个txt文件中等

与爬取电影影评一样，也可以通过更改以下界面的值来达到爬取不同的小说的效果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/441957.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Node【NPM】

Node【NPM】

文章目录 🌟前言🌟NPM使用🌟NPM使用场景🌟NPM的常用命令🌟NPM命令使用介绍🌟 使用NPM安装模块🌟 下载三方包🌟 全局安装VS本地安装🌟 本地安装🌟 全局安装&am…

阅读更多...

Vue全家桶

Vue全家桶

作为后端对vue学习完的快速总结目录 1.vue-cli 2 vuex 3 axios 4 router vue-cli vue-cli 3 是基于webpack 4 打造的vue-cli 2 还是 webpack 3webpack是基于node.js的，所以我们在安装脚手架前必须安装node 安装node.js(应用商店或者官网) 1.安装vue脚手架 npm…

阅读更多...

Storm proxies动态代理IP抓取产品信息用什么类型的代理呢？

Storm proxies动态代理IP抓取产品信息用什么类型的代理呢？

抓取产品信息时，可以根据实际需求和目标网站的反爬虫策略选择合适的代理类型。以下是一些常见的代理类型： HTTP代理：HTTP代理是最常见的代理类型，适用于基于HTTP协议的网站。它可以用于发送HTTP请求和接收HTTP响应，适合…

阅读更多...

storm proxies动态HTTP代理IP的三大功能？

storm proxies动态HTTP代理IP的三大功能？

动态HTTP代理IP主要具有以下三大功能： 隐私保护：动态HTTP代理IP可以隐藏用户的真实IP地址，将用户的请求发送到目标网站时，目标网站只能看到代理IP地址，而无法知道用户的真实IP地址，从而保护用户的隐私和身份…

阅读更多...

665. 非递减数列

665. 非递减数列

给你一个长度为 n 的整数数组 nums ，请你判断在最多改变 1 个元素的情况下，该数组能否变成一个非递减数列。我们是这样定义一个非递减数列的： 对于数组中任意的 i (0 < i < n-2)，总满足 nums[i] < nums[i 1]。示例…

阅读更多...

第四章（1）：词向量定义与意义

第四章（1）：词向量定义与意义

第四章（1）：词向量定义与意义目录第四章（1）：词向量定义与意义前言1. 词的表示1.1 离散表示1.1.1 One-Hot独热编码1.1.2 ngram特征表示 1.2 分布式表示 2. 意义前言在自然语言处理的领域中，每…

阅读更多...

电容-基础知识

电容-基础知识

1、电容两端电压不能激变，所以可以起到稳定电压作用 2、电容的种类：瓷片电容、插件电解电容、贴片电解电容、钽电容、CBB电容、插件瓷片电容、（X电容、Y电容，属于安规电容，对功能没有影响，对性能没有影响…

阅读更多...

权限控制_SpringSecurity

权限控制_SpringSecurity

认证-授权认证：系统提供的用于识别用户身份的功能，通常提供用户名和密码进行登录其实就是在进行认证，认证的目的是让系统知道你是谁。授权：用户认证成功后，需要为用户授权，其实就是指定当前用户可以操作…

阅读更多...

【Qt】随记1：#if 1/0 #else #endif的用法

【Qt】随记1：#if 1/0 #else #endif的用法

欢迎阅读本博文，本文主要记录Qt学习、工作中的一些注意点及相关笔记📃 希望记录的内容有帮助到你，也欢迎把你知道的分享给大家，一起进步！🎉 喜欢的话，请帮忙点赞👍、评论&#x1f4…

阅读更多...

【排序】快速排序（递归和非递归）

【排序】快速排序（递归和非递归）

快速排序前言图解大致思路对于hoare版本对于挖坑法对于前后指针法实现方法递归非递归快排的优化（基于递归的优化）三数取中法小区间优化时间复杂度和空间复杂度前言快速排序，听名字就比较霸道，效率根名字一样，非…

阅读更多...

winForm登录页面知识点

winForm登录页面知识点

先看界面引用知识控件：label,Textbox,button还有各自的属性和事件Trim()方法的使用，IsNullOrEmpty()方法的使用，Show()方法的使用 Label 属性 NameText:设置或获取文本信息image:显示图像ImageList:图像集控件SizeTag:与控件相关的自定…

阅读更多...

Gorm的关联模型

Gorm的关联模型

Belongs To 将一个模型与另一个模型建立一对一的关系例如：一张银行卡只能分配给一个用户，在User结构体里面创建一个CreditCardId外键关系，然后在User结构体里面嵌套一个CreditCard结构体 // Belongs To // 用户 type User struct {gorm.M…

阅读更多...

十个超级好用的Javascript技巧

十个超级好用的Javascript技巧

概览：在实际的开发工作过程中，积累了一些常见又超级好用的Javascript技巧和代码片段，包括整理的其他大神的JS使用技巧，今天筛选了10个，以供大家参考。动态加载JS文件在一些特殊的场景下，特别是一些库和…

阅读更多...

自己动手做chatgpt:解析gpt底层模型transformer的输入处理

自己动手做chatgpt:解析gpt底层模型transformer的输入处理

前面我们完成了一些基本概念，如果你对深度学习的基本原理还不了解，你可以通过这里获得更多信息，由于深度学习的教程汗牛充栋，因此我在这里不会重复，而是集中精力到chatgpt模型原理的分析，实现和实践上。Cha…

阅读更多...

初识C语言————3

初识C语言————3

博主这篇文章浅谈一下自己对函数和数组的理解。之后会详细说明。文章目录一、函数二、数组 1、数组定义 2、数组的下标 3、数组的使用一、函数函数可以理解为一个模块的代码，完成一个独立的功能。 #include <stdio.h> int main() {int num1 0;int num…

阅读更多...

ASEMI代理ADM3051CRZ-REEL7原装ADI车规级ADM3051CRZ-REEL7

ASEMI代理ADM3051CRZ-REEL7原装ADI车规级ADM3051CRZ-REEL7

编辑：ll ASEMI代理ADM3051CRZ-REEL7原装ADI车规级ADM3051CRZ-REEL7 型号：ADM3051CRZ-REEL7 品牌：ADI/亚德诺封装：SOIC-8 批号：2023 引脚数量：8 安装类型：表面贴装型 ADM3051CRZ-REEL7汽…

阅读更多...

【Python】读取rdata类型数据转为csv excel格式文件，无需安装r语言基于pyreadr+pandas实现数据分析（保姆级注释）

【Python】读取rdata类型数据转为csv excel格式文件，无需安装r语言基于pyreadr+pandas实现数据分析（保姆级注释）

目录环境配置取得数据名 datas.keys()取得pandas的DataFrame类型数据一些数据分析例程供入门同学学习转化为csv excel格式所有数据转化为csv取前面100行数据快速测试能否转化csv取前面100行数据快速测试能否转化xlsx 完整例程总结欢迎关注『Python』系列，持续…

阅读更多...

简述AutoGPT原理（提示词）

简述AutoGPT原理（提示词）

启动时需要设置三个项目：机器人名字、设定给机器人的角色、要完成的目标。根据你的设定利用ChatGPT进行下一步的抉择，具体的，实际上归功于提示词： 下面这段提示词在干什么呢？ 将设定的名字、角色、目标告诉ChatGPT&…

阅读更多...

【U8+】用友U8+对账不平案例及方法总结

【U8+】用友U8+对账不平案例及方法总结

【问题需求】在使用用友U8软件过程中，由于软件涉及到多方面的对账。所以经常会遇到期初或结账时对账不平。【经验分享】在众多对账中， 只有当【总账上下级】（即：总账与明细账对账）不平的时候， 软件才…

阅读更多...

春秋云境：CVE-2022-26965（后台RCE）

春秋云境：CVE-2022-26965（后台RCE）

目录一、题目二、利用cms主题构造木马一、题目介绍： Pluck-CMS-Pluck-4.7.16 后台RCE 进入题目： cms页面点击admin进行登录： 弱口令admin登录： 成功登录进去： 国产化一下： 选项---选择主题点击…

阅读更多...

推荐文章

最新文章