网络爬虫中Xpath的使用方法

news2025/1/11 22:39:26
        正则表达式虽然可以处理包含了诸如 HTML 或 XML 内容的字符串,但只能根据文本的
特征匹配字符串,而忽略字符串所包含的内容的真实格式。为了解决这个问题,Python 引入
XPath 以及支持 XPath 的第三方库 lxml,专门对 XML 或 HTML 格式的数据进行解析。接下来,
本节将针对 XPath 和 lxml 的相关内容进行详细介绍。

一、XPath 简介

        XPath 即 XML 路径查询语言(XML Path Language),是一种用于确定 XML 文档中部分
节点位置的语言。它起初只支持搜索 XML 文档,更新后能支持搜索 HTML 文档。截至完稿
时,XPath 的最新版本为 XPath3.1。
        那么 XPath 是如何搜索 XML 或 HTML 文档呢?其实 XPath 基于 XML 或 HTML 的节点
树,沿着节点树的节点关系定位到目标节点所在的位置,并选取节点或节点集。为了形象地
描述出搜索节点的路径,XPath 提供了简洁明了的路径表达式,通过路径表达式可以快速地定
位与选取 XML 或 HTML 文档中的一个节点或者一组节点集。
        与正则表达式相比,路径表达式的搜索方式大不相同。在这里,我们借用一个形象的例
子进行比较。假如我们把选取目标节点比作找金燕龙办公楼。如果我们通过正则表达式查找,
则正则表达式会告诉我们办公楼有哪些特征,办公楼的左边有哪些建筑、右边有哪些建筑。
这样的描述限定的查找范围比较宽泛,查找起来比较烦琐。如果我们通过路径表达式查找,
则路径表达式会直接告诉我们办公楼的具体位置,即中国北京市昌平区建材城西路金燕龙办
公楼。这样的描述更加精准、更易查找。
        路径表达式描述了从一个节点到另一个节点或一组节点的路径。这些路径与在常规的计算
机文件系统中见到的路径非常相似。例如,“/学生名单/班级/学生/籍贯”就是一个路径表达式,
该路径表达式也是用“/”字符进行分隔的,只不过它分隔的是节点,而不是目录。接下来,通
过一张示意图来描述 XML 文档、XML 节点树与路径表达式的关系,具体如图 4-1 所示。
422ec9dbdf0e41b0bf9788283e37e4ec.png
        在图 4-1 中,从左到右、从上到下依次为 XML 文档、XML 节点树和路径表达式。其中,
路径表达式为“/bookstore/book/price”,它对应的路径为 XML 节点树中加粗的线条,用于选
取节点<price>对应的文本 39.95。

二、XPath 语法

        我们如果要编写一个路径表达式,则要先了解 XPath 的语法,如此才能使用路径表达式
正确地选取节点。路径表达式会从某个节点开始沿着节点树查找节点,直至找到目标节点。
由于节点的多样性,为了帮助开发人员快速选取目标节点,XPath 提供了一套语法规则。下面
从选取节点、谓语、选取未知节点、选取若干路径这 4 个方面介绍 XPath 的语法。

1.选取节点

        选取节点是最基础的操作之一。节点所在的路径既可以从根节点开始,也可以从任意位
置开始。选取节点的表达式如表 4-3 所示。
478967fe596b433ca6d97d3b1cf50ba2.png

1bff45a1ca6d40bbb1c6b67530b71198.png

        接下来,以 XML 文档 bookstore.xml 为例,为大家演示如何使用表 4-3 中的表达式选取
XML 文档中的节点。bookstore.xml 的具体内容如下。
<?xml version="1.0" encoding="ISO-8859-1"?> 
<bookstore> 
 <book> 
 <title lang="eng">Harry Potter</title> 
 <price>29.99</price> 
 </book> 
 <book> 
 <title lang="eng">Learning XML</title> 
 <price>39.95</price> 
 </book> 
</bookstore>

        选取节点的示例代码如下。

 1 bookstore # 选取 bookstore 的所有子节点
 2 /bookstore # 选取根节点 bookstore 
 3 bookstore/book # 从根节点 bookstore 开始,向下选取名为 book 的所有子节点
 4 //book # 从任意节点开始,选取名为 book 的所有子节点
 5 bookstore//book # 从 bookstore 的后代节点中,选取名为 book 的所有子节点
 6 //@lang # 选取所有名为 lang 的属性节点
        在上述代码中,第 3 行、第 4 行的路径表达式具有相同的功能,都可以选取节点 book 的所
有子节点。前者是从根节点开始沿着路径向下选取的,后者是从节点树的任意位置开始选取的。

2.谓语

        谓语是为路径表达式附加的条件,主要用于筛选当前被处理的节点集,选取出满足某个
特定条件的节点,或者包含了指定属性或值的节点。谓语会嵌入方括号中,位于要补充说明
的节点后面。带谓语的路径表达式的语法格式如下:
节点[谓语]
        在上述格式中,方括号中的谓语可以是整数、属性、函数,也可以是整数、属性、函数
与运算符组合的表达式。如果谓语是整数(从 1 开始),则这个数值将作为位置,用于从节点
集中选取与该位置对应的节点;如果是属性,则会从节点集中选取包含该属性的节点;如果
是函数,则会将该函数的返回值作为条件,从节点集中选取满足条件的节点。常用的 XPath
函数如表 4-4 所示。
e74661f6bf7e441195b30240688b518e.png

8f36aad2166e42e2b81d75efe0303246.png

        接下来,以前面的 bookstore.xml 为例,为大家演示带谓语的路径表达式的用法,具体代
码如下。
/bookstore/book[1] # 选取属于 bookstore 子节点的第 1 个 book 节点
/bookstore/book[last()] # 选取属于 bookstore 子节点的最后一个 book 节点
/bookstore/book[last()-1] # 选取属于 bookstore 子节点的倒数第 2 个 book 节点
/bookstore/book[position()<3] # 选取属于 bookstore 子节点的前两个 book 节点
//title[@lang] # 选取所有的属性名称为 lang 的 title 节点
//title[@lang= 'eng'] # 选取所有的属性名称为 lang 且属性值为 eng 的 title 节点
# 选取子节点 price 的值大于 35.00,且父节点为 bookstore 的所有 book 节点
/bookstore/book[price>35.00] 
# 选取属于 book 的所有子节点 title,且节点 book 的子节点 price 的值必须大于 35.00 
/bookstore/book[price>35.00]/title

3.选取未知节点

        
表 4-5 选取未知节点的通配符和函数
通配符/函数说明
*
匹配任何元素节点
@*
匹配任何属性节点
node()
匹配任何类型的节点

        XPath 提供了选取未知节点的通配符和函数,关于它们的说明如表 4-5 所示。

        以前面的 XML 文档为例,演示表 4-5 中通配符和函数的用法,具体代码如下。

/bookstore/* # 选取属于 bookstore 的所有子节点
//* # 选取文档中的所有节点
//title[@*] # 选取所有带有属性的节点 title

4.选取若干路径

        在 XPath 中,我们可以使用“|”运算符连接多个路径表达式,根据多个路径选取对应的
节点。以前面的 XML 文档为例,演示“|”运算符的用法,具体代码如下。
//book/title | //book/price # 选取属于 book 的子节点 title 和 price 
//title | //price # 选取所有 title 节点和 price 节点
# 选取属于/bookstore/book/的所有 title 节点和文档中的所有 price 节点
/bookstore/book/title | //price

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1862877.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode】一、数组相关(双指针算法 + 置换)

文章目录 1、算法复杂度1.1 时间复杂度1.2 空间复杂度 2、数组3、leetcode485&#xff1a;最大连续1的个数4、leetcode283&#xff1a;移动05、leetcode27&#xff1a;移除元素 1、算法复杂度 1.1 时间复杂度 算法的执行时间与输入值之间的关系&#xff08;看代码实际总行数的…

CMA软件测试报告对企业和用户有什么好处?

CMA是中国计量认证的简称&#xff0c;由省级以上人民政府计量行政部门对检测机构的检测能力及可靠性进行的一种全面的认证及评价&#xff0c;认证对象是所有对社会出具公正数据的产品质量监督检验机构及其它各类实验室&#xff0c;是需要强制性认证的资质。取得该资质认证的&am…

【深度强化学习】如何使用多进程(multiprocessing、pipe)来加速训练

文章目录 实验结果实现思路思路1思路2 进程与线程介绍如何实现multiprocessing、Pipe的范例关于时间对比上的问题代码修改收敛为何不稳定 技巧进程资源抢占问题线程问题cpu和gpu问题 进阶&#xff08;还没看懂/还没实验&#xff09;附代码raw代码mul代码 实验结果 实验平台&am…

Kali Linux渗透测试指南(详细教程,建议收藏)

渗透测试是对信息系统遭受实际攻击时的一种受控模拟&#xff0c;是安全中十分重要的一部分。 渗透测试人员往往会使用一些成熟的工具&#xff0c;只有全面掌握这些工具&#xff0c;我们才能更好地进行渗透。 今天就给大家分享一份Kali Linux高级渗透测试指南&#xff0c;一共…

google浏览器无法访问大端口的处理方式

属性的目标中添加后缀内容或者修改后台端口为常用端口&#xff0c;比如8080等。 “C:\Program Files\Google\Chrome\Application\chrome.exe” --explicitly-allowed-ports8888

YOLOv8+SwanHub+作物检测:从可视化训练到Demo演示

1. 项目介绍 本项目旨在利用先进的YOLOv8深度学习模型对麦穗进行高效、准确的检测。我们采用了GlobalWheat数据集&#xff0c;该数据集包含丰富的麦穗图像&#xff0c;为模型的训练提供了有力的数据支持。通过该实验&#xff0c;实现高准确率的麦穗识别&#xff0c;为农业生产提…

亮数据,一款新的低代码爬虫利器!

在当今数据驱动型时代&#xff0c;数据采集和分析能力算是个人和企业的核心竞争力。然而&#xff0c;手动采集数据耗时费力且效率低下&#xff0c;而且容易被网站封禁。 我之前使用过一个爬虫工具&#xff0c;亮数据&#xff08;Bright Data&#xff09; &#xff0c;是一款低…

LLM生成模型在生物蛋白质应用:ESM3

参考&#xff1a; https://github.com/evolutionaryscale/esm 通过GPT模型原理&#xff0c;输入蛋白质序列等模态输出预测的蛋白质序列及结构 使用 参考&#xff1a;https://colab.research.google.com/github/evolutionaryscale/esm/blob/main/examples/generate.ipynb#sc…

进阶篇08——MySQL管理

系统数据库 常用工具 mysql 客户端工具 mysqladmin 执行管理操作 mysqlbinlog 数据库二进制日志转成文本 mysqlshow 数据库查找 mysqldump 数据库备份 mysqlimport/source 数据库导入

SSH的基本使用

文章目录 1. SSH使用介绍2. 如何配置OpenSSH Client和OpenSSH Server2.1 Windows系统配置2.2 Linux系统配置2.2.1. 安装OpenSSH服务2.2.2. 启动和检查SSH服务 3. SSH具体使用方式4. vscode中使用ssh远程连接 1. SSH使用介绍 SSH 最常见的用途是通过加密连接在不安全的网络中进…

qt pro文件常用配置

概述 记录一下常用的项目pro文件的一些常用配置 常用配置 QT core gui concurrent#添加concurrent并行处理模块 CONFIG windeployqt#打包部署&#xff0c;项目->构建步骤->Make参数 添加windeployqt&#xff0c;编译自动打包greaterThan(QT_MAJOR_VERSION, 4):…

VSCode安装并配置java环境

注&#xff1a;本文不包含jdk安装教程&#xff0c;还没安装jdk的先去安装jdk并配置好环境变量 目录 一、参考博客二、下载VSCode2.1 下载地址 三、安装VSCode四、安装插件4.1 安装中文包4.2 安装java相关插件 五、创建并运行java项目 一、参考博客 https://blog.csdn.net/wei…

这几个PR小技巧你Get到了吗?

学习是永无止境的&#xff0c;需要不间断地学习&#xff0c;获取新知识。今天带来了5个PR小技巧&#xff0c;可以先收藏起来Adobe Premiere Pro 2024的获取查看Baidu Cloud 1、双倍稳定画面更舒适 一般来说大型电视剧、电影使用的拍摄设备都是非常高端的&#xff0c;不像我们…

北大医院副院长李建平:用AI解决临床心肌缺血预测的难点、卡点和痛点

2024年6月14日&#xff0c;第六届北京智源大会在中关村展示中心开幕&#xff0c;海内外的专家学者围绕人工智能关键技术路径和应用场景&#xff0c;展开了精彩演讲与尖峰对话。在「智慧医疗和生物系统&#xff1a;影像、功能与仿真」论坛上&#xff0c;北京大学第一医院副院长、…

每日一题——力扣100. 相同的树(举一反三+思想解读+逐步优化)四千字好文

一个认为一切根源都是“自己不够强”的INTJ 个人主页&#xff1a;用哲学编程-CSDN博客专栏&#xff1a;每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法 代码分析 时间复杂度分析 空间复杂度分析 总结 我要更强 时间复杂度和空…

阿尔兹海默症-图像分类数据集

阿尔兹海默症-图像分类数据集 数据集&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1gSUT74XrnHmg2Z11oZNd6A?pwdwphh 提取码&#xff1a;wphh 数据集信息介绍&#xff1a; 文件夹 健康 中的图片数量: 8000 文件夹 早期轻度认知障碍 中的图片数量: 10000 文件夹 …

RabbitMQ中lazyqueue队列

lazyqueue队列非常强悍 springboot注解方式开启 // 使用注解的方式lazy.queue队列模式 非常GoodRabbitListener(queuesToDeclare Queue(name "lazy.queue",durable "true",arguments Argument(name "x-queue-mode",value "lazy&…

【MySQL进阶之路 | 高级篇】InnoDB存储结构(页的内部结构)

1. 数据库的存储结构 : 页 索引结构给我们提供了高效的索引方式&#xff0c;不过索引信息以及数据记录都是保存在文件上的.确切说是存储在页结构中.另一方面&#xff0c;索引是在存储引擎中实现的&#xff0c;MySQL服务器上的存储引擎负责对表中数据的读取和写入操作.不同的存…

【前后端实现】AHP权重计算

AHP权重计算&#xff1a; 需求&#xff1a;前端记录矩阵维度、上三角值&#xff0c;后端构建比较矩阵、计算权重值并将结果返回给前端 比较矩阵构建 如果你想要根据上三角&#xff08;不包括对角线&#xff09;的值来构建对称矩阵&#xff0c;那么你可以稍作修改上述的generate…

窗口控制

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 海龟绘图窗口就是在运行了导入turtle模块并调用了绘图方法的Python文件后&#xff0c;打开的窗口。该窗口默认的宽度为屏幕的50%&#xff0c;高度为屏…