爬虫——XPath基本用法

news2024/11/30 10:47:38

第一章XML

一、xml简介

1.什么是XML?

1,XML指可扩展标记语言

2,XML是一种标记语言,类似于HTML

3,XML的设计宗旨是传输数据,而非显示数据

4,XML标签需要我们自己自定义

5,XML被设计为具有自我描述性

2.XML和HTML的区别?

1,XML被设计为传输和存储数据,其焦点是数据的内容

2,HTML是显示数据以及如何更好的显示数据

3.XML文档示例

<?xml version="1.0" encoding="utf-8"?>

<bookstore>
  <book category="cooking">
    <title lang="en">Everyday Italian</title>  
    <author>Giada De Laurentiis</author>  
    <year>2005</year>  
    <price>30.00</price>
  </book>  

  <book category="children">
    <title lang="en">Harry Potter</title>  
    <author>J K. Rowling</author>  
    <year>2005</year>  
    <price>29.99</price>
  </book>  

  <book category="web">
    <title lang="en">XQuery Kick Start</title>  
    <author>James McGovern</author>  
    <author>Per Bothner</author>  
    <author>Kurt Cagle</author>  
    <author>James Linn</author>  
    <author>Vaidyanathan Nagarajan</author>  
    <year>2003</year>  
    <price>49.99</price>
  </book>

  <book category="web" cover="paperback">
    <title lang="en">Learning XML</title>  
    <author>Erik T. Ray</author>  
    <year>2003</year>  
    <price>39.95</price>
  </book>

</bookstore>

注意:这上面的标签都是自定义的

二、XML的节点关系

1.父(parent)

每个元素及属性都有一个父

下面这个XML例子中,book元是title,author,year,price元素的父

<?xml version="1.0" encoding="utf-8"?>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

2.子(children)

元素节点可能有零个,一个或者多个子

在下面的例子中 title,author,year,price都是book元素的子

<?xml version="1.0" encoding="utf-8"?>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

3.同胞(sibling)

拥有相同的父的节点

在下面例子中 title,author,year,price元素都是同胞

<?xml version="1.0" encoding="utf-8"?>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

4.先辈(ancestor)

某节点的父,父的父,等等

下面例子中,title元素的先辈是book和bookstore

<?xml version="1.0" encoding="utf-8"?>

<bookstore>

    <book>
      <title>Harry Potter</title>
      <author>J K. Rowling</author>
      <year>2005</year>
      <price>29.99</price>
    </book>

</bookstore>

5.后代

某节点的子,子的子,等等

下面例子中,bookstore后代是book,title,author,year,price元素

<?xml version="1.0" encoding="utf-8"?>
<bookstore>
<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>
</bookstore>

第二章 xpath

XPath原理:先将HTML文档转为XML文档,再用XPath查找HTML节点或元素

一、xpath简介

xpth解析

(1)本地文件                                                                                           etree.parse

(2)服务器响应的数据                  response.read().decode('utf-8')          etree.HTML()

示例1:

1.本地文件解析

解析_xpath的基本使用.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Title</title>
</head>
<body>
  <ul>
    <li id="l1" class="c1">北京</li>
    <li id="l2">上海</li>
    <li class="c3">深圳</li>
    <li id="c3">武汉</li>
    <li id="c4">广州</li>
  </ul>
  <ul>
    <li>大连</li>
    <li>锦州</li>
    <li>沈阳</li>
  </ul>
</body>
</html>
#解析'解析——xpath的基本使用.html‘本地文件
tree=etree.parse('解析_xpath的基本使用.html')
print(tree)#<lxml.etree._ElementTree object at 0x000001FC65813F88>

1fb688f4348348728c93c517a07ec886.png

二、节点选取

1.选取节点

XPath使用路径表达式来选取XML文档中的节点或者节点集,这些路径表达式和我们在常规的电脑文件系统里看到的表达式非常相似。

最常用的路径表达式:

表达式描述
nodename选取此节点的所有子节点。
/从根节点选取。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.选取当前节点。
..选取当前节点的父节点。
@选取属性。

例如:

bookstore选取 bookstore 元素的所有子节点。 
bookstore/book选取属于 bookstore 的子元素的所有 book 元素。 
//book选取所有 book 子元素,而不管它们在文档中的位置。 
bookstore//book选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。 
//@lang选取名为 lang 的所有属性。 

2.选取未知节点

通配符描述
*匹配任何元素节点。
@*匹配任何属性节点。
node()匹配任何类型的节点。

比如:

路径表达式结果
/bookstore/*选取 bookstore 元素的所有子元素。
//*选取文档中的所有元素。
html/node()/meta/@*选择html下面任意节点下的meta节点的所有属性
//title[@*]选取所有带有属性的 title 元素。

 3.选取若干路径

通过在路径表达式中使用“|”运算符,您可以选取若干个路径。

比如: 

路径表达式结果
//book/title | //book/price选取 book 元素的所有 title 和 price 元素。
//title | //price选取文档中的所有 title 和 price 元素。
/bookstore/book/title | //price选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。

三、路径查询

tree.xpath('xpath路径')
1         //:查找所有的子孙节点,不考虑层级关系
2         /:找直接子节点

1.查找ul下面的li

li_list=tree.xpath('//body/ul/li')
# #判断列表的长度
print(li_list)
print(len(li_list))

82450bb404f0454ab6cdaaefee1f0d4a.png

2.谓词查询

如:

//div[@id]

//div[@id='属性值']

#查找所有有id属性的li标签
#text()获取标签中的内容
li_list=tree.xpath('//ul/li[@id]')
li_list1=tree.xpath('//ul/li[@id]/text()')#['北京', '上海']
#查找id=l1的li标签   注意引号问题
li_list2=tree.xpath('//ul/li[@id="l1"]/text()')
print(li_list)
print(li_list1)
print(li_list2)

0195153f941145e19a14fc8092654337.png

3.属性查询

如://@class

#查找id为l1的li标签的class的属性值
li_list=tree.xpath('//ul/li[@id="l1"]/@class')#c1
print(li_list)

f77f34240544459182cc0a65d4b6633a.png

4.模糊查询

如:

//div[contains(@id,"he")]

//div[starts-with(@id,"he")]

#查找id中包含l的li标签
li_list=tree.xpath('//ul/li[contains(@id,"l")]/text()')#['北京', '上海']
print(li_list)

557a7800c7664408b30da09e95e67513.png

5.内容查询

如://div/h1/text()

#查询id的值以c开头的标签
li_list=tree.xpath('//ul/li[starts-with(@id,"c")]/text()')#['武汉', '广州']
print(li_list)

45e06e5815c446cd817af8d44a0f291c.png

6.逻辑运算

如:

//div[@id="head" and @class="s_down"]

//title|//price

#查询id为l1和class为c1的标签
li_list=tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')#['北京']
li_list1=tree.xpath('//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text()')#['北京', '上海']
print(li_list)
print(len(li_list))
print(li_list1)
print(len(li_list1))

75421d60c5144a6e988f9715c95a9c4e.png

四、代码示例

html = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
 </div>
'''

# 1,使用lxml的etree类
from lxml import etree

#,2,利用etree.HTML()构造一个xpath解析对象(转为xml文档)
xml_doc=etree.HTML(html)
print(xml_doc)
print('-----'*10)

# etree.tostring()输出转换后的html代码,
html_doc = etree.tostring(xml_doc)
print(html_doc) #自动补全了body,html标签
print(type(html_doc)) # bytes类型
# print('-----'*10)
print(html_doc.decode())  # 利用decode()方法将其转成str类型,
print(type(html_doc.decode()))

4ac08a62f3f9410ebf5880d5bf639362.png

注意:

1,只要涉及到条件,加 []

2,只要获取属性值,加 @

3,通过text()取内容

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2191648.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络——ftp

在网络通信中&#xff0c;控制连接和数据连接是两种不同类型的连接&#xff0c;它们各自具有特定的功能和用途。 一、控制连接 定义与功能&#xff1a; 控制连接主要用于在通信双方之间传输控制信息&#xff0c;以建立、维护和终止数据连接。它负责协调和管理数据传输的过程&am…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04目录1. LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition摘要研究背景问题与挑战如何…

如何用python抓取豆瓣电影TOP250

1.如何获取网站信息&#xff1f; &#xff08;1&#xff09;调用requests库、bs4库 #检查库是否下载好的方法&#xff1a;打开终端界面&#xff08;terminal&#xff09;输入pip install bs4, 如果返回的信息里有Successfully installed bs4 说明安装成功&#xff08;request…

【JavaEE】——文件IO的应用

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯 你们的点赞收藏是我前进最大的动力&#xff01;&#xff01; 希望本文内容能够帮助到你&#xff01;&#xff01; 目录 一&#xff1a;文件的搜索&#xff08;面试高频&#xff09; 二&#xff1a;文件的复制 三&#xff1a…

森林火灾的预防方案

对于森林火灾的预防&#xff0c;我们需要了解森林火灾形成的原因。一般来森林火灾的形成分为自然原因和人为原因&#xff1b;自然原因多为干燥天气的自燃、雷电火等&#xff0c;而人为原因多是农、林、牧业生产用火&#xff0c;林副业生产用火&#xff0c;以及工矿运输生产用火…

无人机(自组穿越机,航模)-芯片选型

飞控MCU: 型号尺寸子型号参数规格备注STM325*532位ARM Cortex-M3 CPU&#xff0c;72MHz&#xff0c;256KB Flash&#xff0c;20KB RAMLQFP 48F33*332位ARM Cortex-M4 CPU&#xff0c;72MHz&#xff0c;256KB Flash&#xff0c;40KB RAMMPU6050F45*532位ARM Cortex-M4 CPU&…

分享我“Excel 表格”关键字的博客笔记(python脚本全程自动)

Python脚本全程自动&#xff0c;全部Python内建工具脚本纯净。 (笔记模板由python脚本于2024年10月05日 19:51:06创建&#xff0c;本篇笔记适合喜欢Excel和Python的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大…

MQ(仅供自己参考)

同步通讯的优缺点&#xff1a; 优点&#xff1a;时效高&#xff0c;数据一致&#xff0c;过程简单 缺点&#xff1a;耦合度高。性能下降。CPU等待资源的浪费。级联失败。 2、异步通讯&#xff1a;异步调用常见的实现就是事件驱动模式 异步的优缺点&#xff1a; 优点&#xf…

隐喻的使用及误用

Larry Constantine 著&#xff0c;whoisred 译 长期以来&#xff0c;在图形用户界面设计中&#xff0c;隐喻&#xff08;metaphor&#xff09;一直很流行。但是&#xff0c;虽然有少数简单的隐喻——如文件夹及垃圾箱——令人击节叫好&#xff0c;可事实上&#xff0c;大多数隐…

去噪扩散模型

Denoising Diffusion Probabilistic Models 图像扩散模型是一种生成模型&#xff0c;它基于概率扩散过程来生成新的图像。 核心步骤包括&#xff1a;&#xff08;1&#xff09;前向扩散过程&#xff1b;&#xff08;2&#xff09;逆向扩散过程 前向扩散过程&#xff08;正向过…

第十五周:机器学习笔记

第十五周周报 摘要Abstract一、机器学习1. 各式各样神奇的自注意力机制1.1 Local Attention/Truncated Attention&#xff08;截断注意力机制&#xff09;1.2 Stride Attention&#xff08;跨步注意力机制&#xff09;1.3 Global Attention&#xff08;全局注意力机制&#xff…

Jenkins pipeline配置示例

前提条件&#xff1a;已经安装Jenkins并能正常启动 如果Jenkins安装启动遇到问题可以参考&#xff1a; 1.创建pipeline 点击新建项目&#xff1a; 输入名称&#xff0c;选择pipeline&#xff1a; 进入配置页面&#xff0c;如果要配置GitHub Webhook要勾选&#xff1a;<fo…

k8s 中的金丝雀发布(灰度发布)

目录 1 什么是金丝雀发布 2 Canary 发布方式 3 Canary 两种发布方式实操 3.1 准备工作 3.1.1 将 nginx 命名两个版本 v1 与 v2 3.1.2 暴露端口并指定微服务类型 3.1.3 进入 pod 修改默认发布文件 3.1.4 测试 service 是否正常 3.2 基于权重的灰度发布 3.2.1 创建 Igress 资源类…

Uncaught TypeError: 0 is not a function的解决方法

好久不见&#xff0c;我胡汉三又回来了。 是的&#xff0c;我又发现问题了。 写JS的时候&#xff0c;发现了一堆原则性的问题&#xff0c;但是这些问题又刚好是别人没怎么遇到的。 是的&#xff0c;我用ChatGPT了。 (function frame() {window.requestAnimationFrame(frame)…

NVIDIA网卡系列之ConnectX-3规格信息(10G-PCIe 3.0x4-PF?VF?-2013年发布)

背景 NVIDIA ConnectX-3系列的网卡&#xff0c;早期还在Mellanox未被NVIDIA收购的时候就发布了&#xff0c;支持10G&#xff0c;PCIe3.0&#xff0c;最大x8通道lanes。 是10G级别的一代&#xff08;10G-CX3&#xff0c;50G-CX4&#xff0c;100G-CX5&#xff0c;200G-CX6&#…

Linux线程(七)线程安全详解

当我们编写的程序是一个多线程应用程序时&#xff0c;就不得不考虑到线程安全的问题&#xff0c;确保我们编写的程序是一个线程安全&#xff08;thread-safe&#xff09;的多线程应用程序&#xff0c;什么是线程安全以及如何保证线程安全&#xff1f;带着这些问题&#xff0c;本…

光伏项目管理如何更高效化?

一、项目规划与启动阶段的优化 1、智能规划工具&#xff1a;光伏管理软件通常配备有智能项目规划模块&#xff0c;能够根据地理位置、气候条件、政策补贴等因素&#xff0c;自动计算最佳装机容量、预测发电量及收益&#xff0c;帮助项目团队快速制定合理的项目方案。这大大缩短…

大数据毕业设计选题推荐-NBA球员数据分析系统-Python数据可视化-Hive-Hadoop-Spark

✨作者主页&#xff1a;IT毕设梦工厂✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、PHP、.NET、Node.js、GO、微信小程序、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇…

知识图谱入门——9: spaCy中命名实体识别(NER)任务中的预定义标签详解及案例(GPE、MONEY、PRODUCT、LAW、FAC、NORP是什么?)

命名实体识别&#xff08;NER, Named Entity Recognition&#xff09;是自然语言处理&#xff08;NLP&#xff09;中的重要任务之一&#xff0c;旨在从文本中识别出特定的实体&#xff0c;如人名、地名、时间等。spaCy 是一个广泛使用的 NLP 库&#xff0c;它提供了预训练的模型…

数据结构之排序(5)

摘要&#xff1a;本文主要讲各种排序算法&#xff0c;注意它们的时间复杂度 概念 将各元素按关键字递增或递减排序顺序重新排列 评价指标 稳定性: 关键字相同的元素经过排序后相对顺序是否会改变 时间复杂度、空间复杂度 分类 内部排序——数据都在内存中 外部排序——…