【酱浦菌-爬虫技术细节】解决学术堂爬虫翻页（下一页）问题

news2025/12/31 3:51:28

首先我们通过css选择器获取页码信息，这里的css选择器，选择的是含有a标签的所有li标签，代码如下：

li = html_web.css('div.pd_c_xslb_left_fenye ul li>a')
for li in li:
    li_url = li.css('a::attr(href)').get()
    li_num = li.css('a::text').get()
    print(li_num)

运行的效果如下：

可以看到这里有【下一页】，如果不除掉的话，程序就会陷入一个死循环。可以这样处理，代码如下：

li = html_web.css('div.pd_c_xslb_left_fenye ul li>a')
for li in li:
    li_url = li.css('a::attr(href)').get()
    li_num = li.css('a::text').get()
    if li_num == '下一页':
        break
    print(li_num)

运行的效果如下：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1634029.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

基于FPGA的数字信号处理（6）--如何确定Verilog表达式的符号

前言尽管signed语法的使用能带来很多便利，但同时也给表达式的符号确定带来了更多的不确定性。比如一个有符号数和一个无符号数的加法/乘法结果是有符号数还是无符号数？一个有符号数和一个无符号数的比较结果是有符号数还是无符号数？等等。接…

IOT病毒分析

前言： 最近审计报警日志，发现了一个IOT病毒，利用的是CVE-2023-1389漏洞扫描tplink，进行攻击，有点意思，拿出来分析下。发现： 查看流量日志，发现了一个有问题的访问： 访…

【架构】后端项目如何分层及分层领域模型简化

文章目录一. 如何分层1. 阿里规范2. 具体案例分析二. 分层领域模型的转换1. 阿里规范2. 模型种类简化分析三. 小结本文描述后端项目中如何进行分层，以及分层领域模型简化一. 如何分层 1. 阿里规范阿里的编码规范中约束分层逻辑如下: 开放接口层&#xff1a…

一、左半圆效果 <style style"text/css">.coupon {width: 240px;height: 100px;margin-top: 15px;background-color: #ff6347;-webkit-mask: radial-gradient(circle at left center, transparent 20px, red 20px); } </style><div class"coupon…

摩根大通推出创新工具 FlowMind，引领金融自动化新变革

近日，摩根大通人工智能研究部推出了一款极具创新性的工具——FlowMind，为金融行业带来了全新的工作模式和效率提升。 FlowMind 能够自动化金融工作流程，在信贷审批、风险评估、合规监测等重要任务中发挥着关键作用。它利用 GPT 自动生成工作…

张鸣独到政治观，规矩与自信新解

张鸣独解规矩与自信，社政新影响揭秘。张鸣独到政治观，规矩与自信新解在当今社会政治的大背景下，学者张鸣的每一次公开演讲无疑都是一次思想的盛宴。最近，他就当前的社会政治问题提出了自己独特的观点，特别是他对规矩和…

【网络原理】UDP协议 | UDP报文格式 | 校验和 | UDP的特点 | 应用层的自定义格式

文章目录一、UDP协议1.UDP的传输流程发送方接收方 2.UDP协议报文格式：长度受限校验和如何校验：CRC算法：循环冗余算法md5算法： 2.UDP的特点二、开发中常见的自定义格式1.xml（古老）2.json（最流行…

头歌：Spark任务提交

第1关：spark-submit提交任务描述相关知识 spark-submit参数计算圆周率编程要求测试说明任务描述本关任务：学会将程序提交到集群上执行。相关知识为了完成本关任务，你需要掌握：1.了解spark-submit的参数。2.学会提交Spar…

双目深度估计原理立体视觉

双目深度估计原理&立体视觉 0. 写在前面1. 双目估计的大致步骤2. 理想双目系统的深度估计公式推导3. 双目标定公式推导4. 极线校正理论推导 0. 写在前面双目深度估计是通过两个相机的对同一个点的视差来得到给该点的深度。标准系统的双目深度估计的公式推导需要满足:1)两…

按键的软件消抖

1.当出现物理情况比如单片机不小心摔了会发生灯亮的情况，所以我们得增加个延迟函数 2.这个错误是缺少头文件#include <intrins.h> 3. #include "reg52.h" #include <intrins.h>sbit key2 P2^0; sbit key1 P2^1; sbit ledone P3^7;voi…

稳扎稳打部署丝滑开源即时通讯（IM）项目OpenIM源码部署流程（linux windows mac）

背景 OpenIM包含多个关键组件，每个都是系统功能必不可少的一部分。具体来说，MongoDB 用于持久化存储；Redis 用作缓存；Kafka 用于消息队列；Zookeeper 用于服务发现；Minio 用于对象存储。这些组件的众多可能会…

用OpenCV先去除边框线，以提升OCR准确率

在OpenCV的魔力下，我们如魔法师般巧妙地抹去表格的边框线，让文字如诗如画地跃然纸上。首先，我们挥动魔杖，将五彩斑斓的图像转化为单一的灰度世界，如同将一幅绚丽的油画化为水墨画，通过cv2.cvtColor()函数的…

【多级缓存】多级缓存OpenResty，Canal，nginx本地缓存

多级缓存安装OpenRestyOpenResty入门OpenResty获取请求参数OpenResty向tomcat服务器发送请求在nginx与tomcat端之间添加redis缓存Redis本地缓存缓存同步缓存同步策略基于Canal的异步通知安装Canal Canal客户端安装OpenResty OpenResty是一个基于 Nginx的高性能 Web 平台&am…

[iOS]使用CocoaPods发布私有库

1.创建私有 Spec 仓库首先，需要一个私有的 Git 仓库来存放你的 Podspec 文件，这个仓库用于索引你所有的私有 Pods。在 GitHub 或其他 Git 服务上创建一个新的私有仓库，例如，名为 PrivatePodSpecs。克隆这个仓库到本地&#xf…

使用STM32CubeMX对STM32F4进行串口配置

目录 1. 配置1.1 Pin脚1.2 RCC开启外部晶振1.3 时钟1.4 串口配置 2. 代码2.1 默认生成代码2.1 开启串口中断函数2.3 接收中断2.4 接收回调函数2.5 增加Printf 的使用 1. 配置 1.1 Pin脚 1.2 RCC开启外部晶振 1.3 时钟外部使用8MHz晶振开启内部16MHz晶振使用锁相环开启最高…