Requests-翻页请求实现

news2024/11/22 12:01:57

翻页请求实现

继https://blog.csdn.net/ssslq/article/details/130747686之后,本篇详述在获取了页面第一页之后,如何获取剩余页的标题内容。
网页:https://books.toscrape.com

找规律

同样还是进行页面的检查,切到网络一栏,找到头部对应的URL。在这里插入图片描述
然后切到第二页,再去观察URL是否变化:
在这里插入图片描述
现在发现后面多了路径/catalogue/page-2.html,第二页对应了2.html,那么第一页是否是对应了1.html,试验一下:
在这里插入图片描述
发现使用了1.html之后返回到了首页,也就是第一页,现在大概明白了,每一页都可以使用X.html进行访问。这个页面总共有50页可以进行选择,既然第一页的书名已经进行了输出,那如果要访问50页,那就需要使用循环进行输出。
在这里插入图片描述

仅第一页代码

from bs4 import BeautifulSoup

import requests

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"
}#请求头改成自己的
url = "https://books.toscrape.com/catalogue/page-1.html"

responce = requests.get(url,headers=headers).text

soup = BeautifulSoup(responce,"html.parser")

all_title = soup.findAll("h3")

for i in all_title:

    title = i.find("a")
    
    print(title.string)

加循环后的代码

from bs4 import BeautifulSoup

import requests

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"
}#请求头改成自己的

for j in range(1,51):

    url = f"https://books.toscrape.com/catalogue/page-{j}.html"

    responce = requests.get(url,headers=headers).text
    
    soup = BeautifulSoup(responce,"html.parser")
    
    all_title = soup.findAll("h3")
    
    for i in all_title:
    
        title = i.find("a")
        
        print(title.string)

代码注释:

  1. from bs4 import BeautifulSoup: 导入BeautifulSoup库,这是为了使用其中的解析和提取功能。

  2. import requests: 导入requests库,这是为了发送HTTP请求获取网页内容。

  3. headers = {...}: 定义了一个字典类型的变量headers,其中包含了请求头信息。这个请求头信息中设置了User-Agent字段,模拟浏览器发送请求。

  4. for j in range(1,51):: 这是一个循环语句,从1到50循环遍历,用于处理多个页面。

  5. url = f"https://books.toscrape.com/catalogue/page-{j}.html": 根据循环变量j的值构建每个页面的URL地址。f-string用于在字符串中插入变量的值。

  6. response = requests.get(url, headers=headers).text: 发送HTTP GET请求到指定的URL,并获取响应对象。.text将响应内容以文本形式返回。将获取到的响应文本赋值给response变量。

  7. soup = BeautifulSoup(response, "html.parser"): 使用BeautifulSoup库将获取到的响应文本进行解析,创建一个BeautifulSoup对象。传入参数response作为要解析的文档内容,以及解析器类型"html.parser"。

  8. all_title = soup.findAll("h3"): 使用BeautifulSoup对象的findAll方法,查找所有<h3>标签,并将结果存储在变量all_title中。findAll返回一个列表,其中包含了所有匹配的标签。

  9. for i in all_title:: 对于all_title列表中的每个元素进行迭代。

  10. title = i.find("a"): 在当前迭代的<h3>标签中,使用find方法查找第一个<a>标签,并将结果存储在变量title中。

  11. print(title.string): 打印title标签的文本内容,即书籍的标题。使用.string获取标签内的文本。

这段代码的作用是从多个页面中爬取书籍标题信息,并将其打印出来。通过循环遍历不同的页面,每个页面的URL地址中的页码部分会随着循环变量j的值而改变。代码使用requests库发送HTTP请求获取网页内容,然后使用BeautifulSoup库解析网页并提取所需信息。最后通过循环打印出每个页面中的书籍标题。

具体爬还要多实践,才能越来越熟练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/540785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL查询——joininunion

MySql多表查询的几种方法 连接查询——join自连接查询子查询——&#x1f6e0;in合并查询——Union 认识MySQL数据库的多表查询&#xff0c;在对大量数据进行查询时仅仅使用一些基本的SQL语句已经无法满足我们日益增长的需求&#xff0c;如果要对多表进行查询就不得不认识以下几…

【计算机网络基础】测试2 物理层

文章目录 判断题选择题辨析题应用题 判断题 现在的无线局域网常用的频段是2.8GHz和5.4GHz。 多模光纤只适合于近距离传输。√ 数据在计算机内部多采用串行传输方式&#xff0c;但在通信线路上多采用并行传输方式。 统计时分复用可以按需动态分配时隙。√ 相对于同步时分复用…

安装Ubuntu系统

## ubuntu 22.04 环境处理&#xff08;按顺序安装&#xff09; 1. 搜索并打开“windows 功能”窗口 勾上图示的2项&#xff0c;点确定安装&#xff0c;可能要求重启电脑 2. windows store 中 安装ubuntu 22.04 wsl 一定要登录Microsoft Store 账号再操作 3.在ubuntu安装node.j…

以SpringMVC入门案例分析服务器初始化过程、单次请求流程

文章目录 1&#xff0c;SpringMVC概述2&#xff0c;SpringMVC入门案例2.1 需求分析2.2 案例制作步骤1:创建Maven项目步骤2:补全目录结构步骤3:导入jar包步骤4:创建配置类步骤5:创建Controller类步骤6:使用配置类替换web.xml步骤7:配置Tomcat环境步骤8:启动运行项目步骤9:浏览器…

RabbitMQ --- 死信交换机(一)

前言 当我们在使用消息队列时&#xff0c;难免会遇到一些消息被拒绝&#xff0c;重复投递或者超时等异常情况。这些异常消息如果不被正确处理&#xff0c;将会阻碍整个消息系统的正常运行。而此时&#xff0c;死信交换机&#xff08;Dead Letter Exchange&#xff0c;简称DLX&…

【遇到dfs问题,点进来看看思路】【dfs本质之一 全排列思想解决大部分dfs】例题1.全排列 例题2.单词接龙

总之就是 在已知格线上&#xff0c;填充可用数据&#xff0c; 如果回退到A&#xff0c;那么把A之前所用数据&#xff0c;换一个&#xff0c;并且A之后的数据都重新填写 这就是全排列&#xff08;截取的最关键部分&#xff0c;往下看&#xff09; 这样的话&#xff0c;就是dfs的…

【节点边际电价】机组运行约束对机组节点边际电价的影响分析(Matlab代码实现)​

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

2023年美国大学生数学建模竞赛F题绿色GDP解题全过程文档及程序

2023年美国大学生数学建模竞赛 F题 绿色GDP 原题再现&#xff1a; 背景   国内生产总值(GDP)可以说是衡量-一个国家经济健康状况的最知名和最常用的指标之一。它通常被用于确定一个国家的购买力和获得贷款的机会&#xff0c;为国家提出促进其gdp的政策和项目提供动力。GDP衡…

Springboot +Flowable,流程表单应用之外置表单(HTML形式)(一)

一.简介 整体上来说&#xff0c;我们可以将Flowable 的表单分为三种不同的类型&#xff1a; 动态表单 这种表单定义方式我们可以配置表单中每一个字段的可读性、可写性、是否必填等信息&#xff0c;不过不能定义完整的表单页面。外置表单 外置表单我们只需要定义一下表单的 k…

国考省考行测:求基期量,去年的量,增长率r小于6%化除为乘,否则直接相除

国考省考行测&#xff1a;求基期量&#xff0c;去年的量 2022找工作是学历、能力和运气的超强结合体! 公务员特招重点就是专业技能&#xff0c;附带行测和申论&#xff0c;而常规国考省考最重要的还是申论和行测&#xff0c;所以大家认真准备吧&#xff0c;我讲一起屡屡申论和…

AIGC产业研究报告2023——三维生成篇

定义 人工智能三维生成是指利用深度神经网络学习并生成物体或场景的三维模型&#xff0c;并在三维模型的基础上将色彩与光影赋予物体或场景使生成结果更加逼真。在应用中&#xff0c;生成物体或场景的三维模型称为三维建模&#xff0c;生成三维模型的色彩与光影称为三维渲染。…

在博客逮到一个阿里8年测试开发,聊过之后我悟了....

老话说的好&#xff0c;这人呐&#xff0c;一旦在某个领域鲜有敌手了&#xff0c;就会闲得疋虫疼。前几天我在上班摸鱼刷社区的时候认识了一位腾讯测试开发大佬&#xff0c;在阿里工作了8年&#xff0c;因为本人天赋比较高&#xff0c;平时工作也兢兢业业&#xff0c;现在企业内…

异常检测相关论文记录

1、Unsupervised anomaly detection algorithms on real-world data: how many do we need?真实世界数据的无监督异常检测算法&#xff1a;我们需要多少&#xff1f; Abstract&#xff1a; 将所考虑的算法在所有数据集上的相对性能进行可视化和聚类&#xff0c;我们确定了两个…

10分钟轻松实现三菱FX3UPLC连接阿里云平台

MQTT协议网关串口连接三菱FX3UPLC操作说明v1.3 目录 一. 使用流程 二. 准备工作 2.1 需要准备如下物品 2.2 LF220网关准备工作 2.3 PLC准备工作 2.4 电脑的准备工作 2.5 MQTT服务器准备工作 三. 阿里云IoT平台配置步骤 3.1 创建产品 3.2 添加设备 3.3 配…

pip下载包报错ERROR: No matching distribution found for xxx时的解决方案

前言 当我们使用python自带的pip安装一些包时&#xff0c;可能会报以下错误&#xff1a; 出现这种情况有三种可能&#xff1a; 第一种可能&#xff1a; pip的版本过低&#xff0c;需要升级一下&#xff0c;可以执行以下命令进行尝试 python -m pip install --upgrade pip第…

MySQL---存储函数、触发器

1. 存储函数 MySQL存储函数&#xff08;自定义函数&#xff09;&#xff0c;函数一般用于计算和返回一个值&#xff0c;可以将经常需要使用的计算 或功能写成一个函数。 存储函数和存储过程一样&#xff0c;都是在数据库中定义一些 SQL 语句的集合。 存储函数与存储过程的区…

如何裁剪图片,裁剪图片的几个方法

如何裁剪图片&#xff0c;裁剪图片的几个方法你知道吗&#xff1f;在日常生活中&#xff0c;当浏览图片时&#xff0c;常会想要对某些图片进行裁剪&#xff0c;或从生活照片中裁剪自己的部分。如何处理这种情况&#xff1f;裁剪图片可去除图像不必要的部分&#xff0c;让其更美…

[日记]LeetCode算法·二十六——二叉树⑥ 红黑树(插入与删除,附图)

承接上一篇AVL树AVL树&#xff0c;红黑树相较于AVL树&#xff0c;就相当于完全二叉树相当于AVL树&#xff0c;如何在性能退化和维护成本之间做出CS中经典的trade-off 文章目录 红黑树的概念红黑树查询效率红黑树的插入1 插入节点N为根节点2 插入节点N的父节点P为黑色3 N的父节…

雷鸟Air Plus体验:视觉大幅升级,影视/办公/游戏全能胜任

雷鸟BirdBath系列XR眼镜一直保持着较快的迭代频率&#xff0c;如今迎来该系列第三款产品&#xff1a;雷鸟Air Plus&#xff0c;新品在视觉体验上得到大幅升级&#xff0c;不仅FOV达到49&#xff0c;边缘成像质量更高&#xff0c;搭配索尼旗舰级Micro OLED屏实现最高120Hz刷新率…

LoRa温振变送器的类型特点及技术参数

自电器文明开始&#xff0c;短短一个世纪&#xff0c;我们对科学探索已经从工业到达了智能化的程度。传感器的应用&#xff0c;不断为时代带来惊喜&#xff0c;各行各业都在争相抓紧契机&#xff0c;利用科技不断创新&#xff0c;推动着整个传感器行业的发展。在工业自动化系统…