解决Python用xpath爬取不到数据的一个思路

解决Python用xpath爬取不到数据的一个思路

news2026/1/5 10:01:56

前言

最近在学习Python爬虫的知识，既然眼睛会了难免忍不住要实践一把。

不废话直接上主题

代码不复杂，简单的例子奉上：

import requests
from lxml import etree


cookie = '浏览器F12网络请求标头里有'
user_agent = '浏览器F12网络请求标头里有'
# 具体的方法网上有很多这里不是叙述的重点

headers= {
    'User-Agent': user_agent,
    'Cookie': cookie,
    'Host': 'fanqienovel.com',
    'Connection': 'keep-alive'
}

url = "https://****"

# 使用get方法请求网页
resp = requests.get(url, headers=headers)

# 将网页内容按utf-8规范解码为文本形式
content = resp.content.decode('utf-8')

# 将文本内容创建为可解析元素
html = etree.HTML(content)

# 获取1
title1 = html.xpath('//*[@id="app"]/div/div[2]/div/div[1]/div/div[2]/div[2]/div[1]/h1/text()')[0]

# 获取2
title2 = html.xpath('//*[@id="app"]/div/div/div/div[1]/div/div[2]/div[2]/div[1]/h1/text()')[0]

“获取1”是页面打开后直接复制的XPath路径，但根据这个路径获取不到数据，见截图。

但content是有内容的，参阅网上的方案都未决解，但提供了思路。

是网站做了反爬虫处理，复制的XPath不准确导致的，想了个办法将content的内容复制到txt文档，然后修改为html的后缀用浏览器打开，在新的网页下重新复制XPath就得到了“获取2”的路径，可以发现1和2路径是有差异的。

问题到这就解决了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1883144.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

论文翻译 | (DSP)展示-搜索-预测：为知识密集型自然语言处理组合检索和语言模型

论文翻译 | (DSP)展示-搜索-预测：为知识密集型自然语言处理组合检索和语言模型

摘要检索增强式上下文学习已经成为一种强大的方法，利用冻结语言模型 (LM) 和检索模型 (RM) 来解决知识密集型任务。现有工作将这些模型结合在简单的“检索-读取”流程中，其中 RM 检索到的段落被插入到 LM 提示中。为了充分发挥冻结 LM 和 RM 的…

阅读更多...

API-本地存储

API-本地存储

学习目标： 掌握本地存储学习内容： 本地存储介绍本地存储分类存储复杂数据类型本地存储介绍： 以前我们页面写的数据一刷新页面就没有了，是不是? 随着互联网的快速发展，基于网页的应用越来越普遍，同时也…

阅读更多...

反向沙箱技术：安全隔离上网

反向沙箱技术：安全隔离上网

在信息化建设不断深化的今天，业务系统的安全性和稳定性成为各公司和相关部门关注的焦点。面对日益复杂的网络威胁，传统的安全防护手段已难以满足需求。深信达反向沙箱技术，以其独特的设计和强大的功能，成为保障政务系统信息安全的…

阅读更多...

MSPG3507——蓝牙接收数据显示在OLED，滴答定时器延时500MS

MSPG3507——蓝牙接收数据显示在OLED，滴答定时器延时500MS

#include "ti_msp_dl_config.h" #include "OLED.h" #include "stdio.h"volatile unsigned int delay_times 0;//搭配滴答定时器实现的精确ms延时 void delay_ms(unsigned int ms) {delay_times ms;while( delay_times ! 0 ); } int a0; …

阅读更多...

MySQL-数据操作类型的角度理解 S锁 X锁

MySQL-数据操作类型的角度理解 S锁 X锁

文章目录 1、S锁和S锁互相兼容2、S锁和X锁互斥3、X锁和X锁也互斥4、X锁和S锁也互斥5、select * from account for update;6、select * from account for update nowait;7、select * from account for update skip locked; 1、S锁和S锁互相兼容 2、S锁和X锁互斥 3、X锁和X锁也互…

阅读更多...

换天空背景的软件有哪些？摄影师必备，让背景从灰暗到绚烂

换天空背景的软件有哪些？摄影师必备，让背景从灰暗到绚烂

在摄影的世界里，背景往往能够为照片增添一种难以言喻的情感色彩。有时，一个简单的天空背景更换，就能让整张照片焕发出全新的生命力，表达出摄影师想要传达的情感和故事。如今，随着科技的发展，一些换天空…

阅读更多...

开源205W桌面充电器，140W+65W升降压PD3.1快充模块(2C+1A口)，IP6557+IP6538

开源205W桌面充电器，140W+65W升降压PD3.1快充模块(2C+1A口)，IP6557+IP6538

开源一个基于IP6557和IP6538芯片的205W升降压快充模块（140W65W），其中一路C口支持PD3.1协议，最高输出28V5A，另一路是A口C口，最高输出65W（20V3.25A），可搭配一个24V10A的开关…

阅读更多...

LLM对程序员的冲击和影响

LLM对程序员的冲击和影响

1LLM 在软件开发过程中的单点提效我这里罗列一些更多的可能用途： 智能代码提示代码片段智能生成SQL 语句的智能生成与调优更高效更精准的静态代码检查与自动修复（非 rule-based）智能辅助的代码评审与代码重构单元测试和接口测试代码的自动…

阅读更多...

ARM功耗管理软件之时钟电源树

ARM功耗管理软件之时钟电源树

安全之安全(security)博客目录导读思考：功耗管理软件栈及示例？WFI&WFE？时钟&电源树？DVFS&AVS？ 目录一、时钟&电源树简介二、时钟树示例三、电源树示例一、时钟&电源树简介时钟门控与自…

阅读更多...

炎黄数智人：国家体育总局冬运中心——AI裁判与教练“观君”赋能冰雪运动新篇章

炎黄数智人：国家体育总局冬运中心——AI裁判与教练“观君”赋能冰雪运动新篇章

在科技创新的浪潮下，国家体育总局冬季运动管理中心（以下简称“冬运中心”）揭开了人工智能在体育领域应用的新篇章。隆重宣布推出革命性的AI裁判与教练系统——“观君”，该系统将在冰雪运动项目中大放异彩，为运动员的训…

阅读更多...

【Kaggle】Telco Customer Churn 电信用户流失预测案例

【Kaggle】Telco Customer Churn 电信用户流失预测案例

⭐️前言：案例学习说明与案例建模流程我们将围绕Kaggle中的电信用户流失数据集（Telco Customer Churn）进行用户流失预测。在此过程中，将综合应用此前所介绍的各种方法与技巧，并在实践中提炼总结更多实用技巧。 ⭐️对…

阅读更多...

prometheus 安装node_exporter， node_exporter 安装最新版普罗米修思安装监控服务器client

prometheus 安装node_exporter， node_exporter 安装最新版普罗米修思安装监控服务器client

1. 本文介绍两种安装方式，一种安装为service,使用systemctl start node_exporter管理，第二种为安装docker内容器内使用。 1.1 安装到系统内： 1.1.1 github地址： Releases prometheus/node_exporter GitHub 1.1.2 下载命…

阅读更多...

基于移动端的助农电商系统的设计与实现08655

基于移动端的助农电商系统的设计与实现08655

基于移动端的助农电商系统的设计与实现 XXX专业XX级XX班：XXX 指导教师：XXX 摘要近年来，电子商务的快速发展引起了行业和学术界的高度关注。基于移动端的助农电商系统旨在为用户提供一个简单、高效、便捷的农产品购物体验，它不…

阅读更多...

嵌入式以太网硬件构成与MAC、PHY芯片功能介绍

嵌入式以太网硬件构成与MAC、PHY芯片功能介绍

一.以太网电路基本构成 1.总体介绍对于上述三部分，并不一定都是独立的芯片，主要有以下几种情况： CPU内部集成了MAC和PHY，难度较高； CPU内部集成MAC,PHY采用独立芯片(主流方案)； CPU不集成MAC和PHY&#…

阅读更多...

安卓应用开发学习：通过腾讯地图SDK实现定位功能

安卓应用开发学习：通过腾讯地图SDK实现定位功能

一、引言这几天有些忙，耽误了写日志，但我的学习始终没有落下，有空我就会研究《 Android App 开发进阶与项目实战》一书中定位导航方面的内容。在我的手机上先后实现了“获取经纬度及地理位置描述信息”和“获取导航卫星信息”功能后&#x…

阅读更多...

Zookeeper笔记1

Zookeeper笔记1

一、介绍 Zookeeper 是一个开源的分布式的，为分布式框架提供协调服务的 Apache 项目。是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化&#…

阅读更多...

基于路径长度的样条插补算法（自动驾驶和路径跟踪控制适用）

基于路径长度的样条插补算法（自动驾驶和路径跟踪控制适用）

以前在做车辆跟踪控制的时候发现在针对有多个X和多个Y对应的路径插补时候，总是报错，因为MATLAB里面的interp1插补函数它要求x要唯一对应一个y，当路径以单独的x或者y来求插补时候的时候就报错。由于在使用Matlab的interp1函数进行插值时&#…

阅读更多...

暴雨来袭，陈赫家变“水帘洞”网友：赫哥滴滴打船吗？

暴雨来袭，陈赫家变“水帘洞”网友：赫哥滴滴打船吗？

在魔都上海，一场突如其来的暴雨不仅让街道变成了河流，还悄悄上演了一场现实版的“水帘洞”奇遇而这场奇遇的主角，竟然是喜剧界的明星——陈赫！ 这天，乌云密布，电闪雷鸣魔都的天空仿佛被捅了个窟窿雨…

阅读更多...

为什么我的Skype点数不见了？如何重新激活 Skype 点数？

为什么我的Skype点数不见了？如何重新激活 Skype 点数？

您超过180天没有使用过点数打电话功能，点数暂时封存在您的账户里面，需要您手动激活（目前必须要登录网页版skype） 可再次使用。如何重新激活 Skype 点数？ 登录到你的帐户 . 选择重新激活信用额度 .注意： …

阅读更多...

中医药文化传承进校园活动授牌仪式在石家庄主办举办

中医药文化传承进校园活动授牌仪式在石家庄主办举办

青春闪“药”，我心向党。2024年6月30日，由河北省药品医疗器械检验研究院主办的”中医药文化传承进校园活动在石家庄主办。来自河北省各地24所学校作为示范学校现场接牌。河北省科协科普部部长范玉鑫、河北省教育厅学位管理与研究生处副处长耿立艳、河北…

阅读更多...

推荐文章

最新文章