python基础：简单实现从网页中获取小说名单列表并存入文件中

news2026/2/13 11:53:49

python基础：简单实现从网页中获取小说名单列表并存入文件中

1.技术储备

requests：requests是使用Apache2 licensed 许可证的HTTP库，可以用于网页数据请求

requests.get():发起网络请求的一种方式，类似的还有post、 put、 delete、 head等请求方式，主要掌握get,post

requests.get():该方法的必填参数是url，也就是请求网页数据的网页路径，其它参数都是非必填参数，例如params网络请求中的参数，headers网络请求中的请求头等等

requests.get()：该方法具有返回值，返回的是response对象，这个对象是属于requests.models.Response类，这个response对象也有一些非常重要的属性和方法，例如status_code表示响应码，如果响应码为200，表示请求成功；response.content能把Response对象的内容以二进制数据的形式返回，适用于图片、音频、视频的下载；response.text这个方法可以把Response对象的内容以字符串的形式返回，适用于文字、网页源代码的下载等等

BeautifulSoup：BeautifulSoup是主要以解析web网页的Python模块，它会提供一些强大的解释器，以解析网页，然后提供一些函数，从页面中提取所需要的数据,目前是Python爬虫中最常用的模块之一。在使用前需要安装库，这里建议安装bs4，也就是第四版本，因为根据官方文档第三版的已经停止更新

解析文档，建立一个BeautifulSoup对象，各种函数都是针对此对象展开，此函数输入文档自动编码为Unicode ，输出文档自动编码为utf-8编码，所以基本不用考虑编码问题。

soup = BeautifulSoup(html,‘lxml’),BeautifulSoup()有两个参数

参数1：需要解析的文本，可以使字符串，可以使本地文件

参数2：解释器，这里有"lxml", “lxml-xml”, “html.parser”, or “html5lib”,4种，可以解析绝大多数网页，常用lxml解析；html.parser是自带的解析器，也比较常用。这里有一个坑，如果网页中没有规定编码格式，解释器就不能编码为Unicode，必须先声明一下编码格式，只需要到网页源码中查找编码格式然后做个声明就可以。一般在网页中查找charset关键字

文档对象soup常用的一些方法：

prettify()：美化文档

解析数据的方法有很多，例如：soup.find()；soup.find_all()；soup.select()等方法，它还有很多的属性，在这就不再一一强调了，我常用的方法是soup.select()，查找到自己想要的数据，根据传入select的参数来看此方法的返回值，然后进行值的处理。

文件写入操作：参考之前编写的文件操作

2.代码实现：

在这里插入图片描述

–行动是治愈恐惧的良药，犹豫拖延将不断滋养恐惧

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/363062.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

[MySQL]基本数据类型及表的基本操作

[MySQL]基本数据类型及表的基本操作

哈喽，大家好！我是保护小周ღ，本期为大家带来的是 MySQL 数据库常用的数据类型，数据表的基本操作：创建、删除、修改表，针对修改表的结构进行了讲解，随后是如何向数据表中添加数据，浅浅…

阅读更多...

Vulnhub_Venom

Vulnhub_Venom

目录一测试 （一）信息收集 1 端口服务探测 2 目录扫描 3 前端源码信息收集 （二）漏洞发现 1 前端注释敏感信息泄露 2 CVE-2018-19422-Subrion CMS v 4.2.1任意文件上传 （三）提权 1 sudo…

阅读更多...

4万字c++讲解+区分c和c++，不来可惜了（含代码+解析）

4万字c++讲解+区分c和c++，不来可惜了（含代码+解析）

目录 1 C简介 1.1 起源 1.2 应用范围 1.3 C和C 2开发工具 3 基本语法 3.1 注释 3.2关键字 3.3标识符 4 数据类型 4.1基本数据类型 4.2 数据类型在不同系统中所占空间大小 4.3 typedef声明 4.4 枚举类型 5 变量 5.1 变量的声明和定义 5.2 变量的作用域 6 运算符…

阅读更多...

面试之设计模式（简单工厂模式）

面试之设计模式（简单工厂模式）

案例在面试时，面试官让你通过面对对象语言，用Java实现计算器控制台程序，要求输入两个数和运算符号，得出结果。大家可能想到是如下： public static void main(String[] args) {Scanner scanner new Scanner(System.…

阅读更多...

一文让你了解SpringCloud五大核心组件

一文让你了解SpringCloud五大核心组件

🏆今日学习目标： 🍀SpringCloud五大核心组件 ✅创作者：林在闪闪发光 ⏰预计时间：30分钟 🎉个人主页：林在闪闪发光的个人主页 🍁林在闪闪发光的个人社区，欢迎你的加入: 林…

阅读更多...

2021-08-29

2021-08-29

服务器主：172.17.0.2 master 备:172.17.0.3 slave1 lvs虚拟IP:172.17.0.100 #nginx下载地址 http://nginx.org/download/ 本地文件路径 1.dockerfile构建nginx FROM centos:7 ADD nginx-1.6.0.tar.gz /usr/local COPY nginx_install.sh /usr/local RUN sh …

阅读更多...

毕业设计（1）-AFLGO的安装

毕业设计（1）-AFLGO的安装

AFLGO是一个模糊测试工具，在CSDN上的安装教程不多，自己在安装过程中也出现了很多教程之外的错误，最后反复安装了2天终于安装成功这里记录一下安装工程中的错误使用的平台：Ubuntu18.04 配置： 内存：6G&…

阅读更多...

StreamAPI

StreamAPI

StreamAPI 最近开发用上了 Java8的StreamAPI,(咋现在才用?嗯哼,项目需要)自己也不怎么会,来总结一波吧! 别认为好抽象!!!干他就完事一.StreamAPI介绍就是用来处理集合的数据其实到后面会发现和SQL的语句是差不多的~哈哈?你不信?往下面看 Stream:英文翻译叫做流举个粟子…

阅读更多...

华为OD机试 - 最多等和不相交连续子序列（C++） | 附带编码思路【2023】

华为OD机试 - 最多等和不相交连续子序列（C++） | 附带编码思路【2023】

刷算法题之前必看参加华为od机试，一定要注意不要完全背诵代码，需要理解之后模仿写出，通过率才会高。华为 OD 清单查看地址：https://blog.csdn.net/hihell/category_12199283.html 华为OD详细说明：https://dream.blog.csdn.net/article/details/128980730 华为OD机试题…

阅读更多...

老学长的浙大MPA现场复试经验分享

老学长的浙大MPA现场复试经验分享

作为一名在浙大MPA项目已经毕业的考生来说，很荣幸受到杭州达立易考周老师的邀请，给大家分享下我的复试经验，因为听周老师说是这几年浙大MPA因疫情情况，已经连续几年都是线上个人复试了，而今年疫情社会面较为平稳的情况…

阅读更多...

【LoRa模块】关键参数记录

【LoRa模块】关键参数记录

记录lora以及lorawa关键射频参数这里写目录标题1. LoRa LoRaWAN LPWAN 三者区分2. LoRaWAN网路架构的特点3.关键参数4.参数定义1. LoRa LoRaWAN LPWAN 三者区分 2. LoRaWAN网路架构的特点终端点的通讯是双向的 (bi-directional)LoRaWAN 数据速率可以从 0.3 kbps 到 50 kbps扩…

阅读更多...

7 个 JavaScript Web API 来构建你不知道的未来网站

7 个 JavaScript Web API 来构建你不知道的未来网站

随着技术的日新月异，为开发人员提供了令人难以置信的新工具和API。但据了解，在100 多个 API中，只有5%被开发人员积极使用。让我们来看看一些有用的Web API，它们可以帮助您将网站推向月球！🌕🚀1.…

阅读更多...

spring5.x-IOC模块源码学习

spring5.x-IOC模块源码学习

上文：spring5.x介绍及搭配spring源码阅读环境IOC介绍spring的IOC和DI演示案例com.hong.model.Userpackage com.hong.model;import org.springframework.stereotype.Component;import java.io.Serializable;/** * ClassName User * Description 用户 * Author csh * …

阅读更多...

【Java】Spring的创建和使用

【Java】Spring的创建和使用

Spring的创建和使用 Spring就是一个包含众多工具方法的IOC容器。既然是容器，那么就具备两个最主要的功能： 将对象存储到容器中从容器中将对象取出来在Java语言当中对象也叫作Bean。 1. 创建Spring项目创建一个普通maven项目添加Spring框架支持(spri…

阅读更多...

Kotlin-面向对象

Kotlin-面向对象

本片博客主要写创建对象，创建接口，创建抽象类，data关键字的作用创建对象如何声明一个对象，使用class关键字格式为： class 对象名字(对象属性名：属性类型…)｛｝ 如果对象没有函数…

阅读更多...

python自学之《21天学通Python》(12)——第15章线程和进程

python自学之《21天学通Python》(12)——第15章线程和进程

现代操作系统大多都是多任务的，可以同时执行多个程序。进程是应用程序正在执行的实体，当程序执行时，也就创建了一个主线程。进程在创建和执行时需要一定的资源，比如内存、文件、I/O设备等。大多现代操作系统中支持多线程和进程。线…

阅读更多...

JAVA服务端实现页面截屏（附代码）

JAVA服务端实现页面截屏（附代码）

JAVA服务端实现页面截屏适配需求方案一、使用JxBrowser使用步骤：方案二、JavaFX WebView使用步骤：方案三、Headless Chrome使用步骤：综上方案对比记录我的一个失败方案参考适配需求有正确完整的地址url；通过浏览器能打开该url对…

阅读更多...

Redis缓存一致性问题（缓存更新策略）

Redis缓存一致性问题（缓存更新策略）

Redis缓存的一致性1. 缓存1.1 缓存的作用：1.2 缓存的成本：2. 缓存模型3. 缓存一致性问题3.1 引入3.2 解决(1) 先更新数据库，再手动删除缓存(2) 使用事务保证原子性(3) 以Redis中的TTL为兜底3.3 案例：商铺信息查询和更新(1) 查询商…

阅读更多...

5.12 BGP选路原则综合实验

5.12 BGP选路原则综合实验

配置BGP的选路原则 1. 实验目的熟悉BGP的选路的应用场景掌握BGP的选路的配置方法2. 实验拓扑实验拓扑如图5-11所示：图5-11：配置BGP的选路原则 3. 实验步骤（1）配置IP地址 R1的配置

阅读更多...

Spring中自定义Session管理，Spring Session源码解析

Spring中自定义Session管理，Spring Session源码解析

系列文章：Spring Boot学习大纲，可以留言自己想了解的技术点目录系列文章：Spring Boot学习大纲，可以留言自己想了解的技术点 1、session是什么？ 1>session在哪里？ 2>服务器怎么知道每次说话的是…

阅读更多...

推荐文章

最新文章