Python 爬虫入门(五):使用 lxml 解析网页

news2024/9/22 3:37:51

Python 爬虫入门(五):使用 lxml 解析网页

    • 前言
    • 1. lxml 简介
      • 1.1 什么是 lxml?
      • 1.2 为什么选择 lxml?
      • 1.3 安装 lxml
    • 2. lxml 基础
      • 2.1 解析 HTML/XML
      • 2.2 XPath 表达式
      • 2.3 使用 XPath 提取数据
    • 3. 深入解析
      • 3.1 处理命名空间
      • 3.2 处理属性
      • 3.3 处理文本和尾随文本
    • 4. 性能优化
      • 4.1 使用 iterparse 解析大型文件
      • 4.2 避免 XPath 性能陷阱
    • 5. 实战演练
      • 5.1 项目概述
      • 5.2 项目步骤
      • 5.3 示例代码
    • 总结

前言

欢迎来到“Python 爬虫入门”系列的第五篇文章。今天我们将深入了解HTML/XML解析库——lxml,教你如何使用它来解析网页。

1. lxml 简介

1.1 什么是 lxml?

lxml 是一个Python库,提供了对HTML和XML文件的高效处理能力。

它支持XPath和XSLT,使得在大量数据中查找和提取信息变得非常简单。

1.2 为什么选择 lxml?

  • 速度快:lxml 使用C语言编写,因此解析速度非常快。
  • 功能强大:支持XPath和XSLT,可以轻松处理复杂的查询。
  • 易于使用:API设计简洁,易于学习和使用。

1.3 安装 lxml

使用 pip 安装 lxml:

pip install lxml

2. lxml 基础

2.1 解析 HTML/XML

使用 lxml 解析HTML/XML文件非常简单。

从 lxml 库中导入 etree 模块:

from lxml import etree

使用 etree 解析HTML/XML字符串或文件:

# 解析字符串
html = """
<!DOCTYPE html>
<html>
  <head>
    <!-- 这里可以添加头部信息,比如CSS链接、JavaScript文件链接等 -->
  </head>
  <body>
    <h1>Hello, World!</h1>
    <!-- 这里可以添加更多的HTML内容 -->
  </body>
</html>
"""
root = etree.HTML(html)

# 解析文件
tree = etree.parse('demo.html')
root = tree.getroot()

2.2 XPath 表达式

XPath 是一种在XML文档中查找信息的语言。

lxml 利用XPath提供了强大的查询功能。

  • 节点轴:如 child::, parent::, descendant:: 等。
  • 节点测试:如 *(任意元素节点), text()(文本节点)等。
  • 谓语表达式:如 [position()=1](第一个节点), [@attr=‘value’](具有特定属性的节点)等。

2.3 使用 XPath 提取数据

在这里插入图片描述

3. 深入解析

3.1 处理命名空间

在解析带有命名空间的XML时,你需要在XPath表达式中声明命名空间。
在这里插入图片描述

3.2 处理属性

使用 @ 符号可以轻松获取元素的属性。
在这里插入图片描述

3.3 处理文本和尾随文本

在解析元素时,除了获取其子元素外,还可以获取其文本和尾随文本。
在这里插入图片描述

4. 性能优化

4.1 使用 iterparse 解析大型文件

当处理大型XML文件时,使用 iterparse 可以节省内存。

for _, element in etree.iterparse('large_file.xml', events=('end',)):
    if element.tag == 'target_element':
        process(element)
        element.clear()

4.2 避免 XPath 性能陷阱

编写高效的XPath表达式可以显著提高解析速度。

  • 避免使用通配符 *,因为它会匹配所有元素。
  • 使用谓语表达式限制搜索范围。

5. 实战演练

5.1 项目概述

假设我们使用 lxml 解析一个新闻网站,提取新闻标题和链接。

5.2 项目步骤

  1. 发送 HTTP 请求获取网页内容。
  2. 使用 lxml 解析网页。
  3. 使用 XPath 提取新闻标题和链接。
  4. 将结果保存到文件。

5.3 示例代码

import requests
from lxml import etree

# 发送请求
response = requests.get('http://xxx.com/news')
root = etree.HTML(response.content)

# 提取新闻标题和链接
news = root.xpath('//div[@class="news-list"]//a')
for item in news:
    title = item.xpath('text()')[0]
    link = item.get('href')
    print(f'Title: {title}, Link: {link}')

# 保存结果到文件
with open('news.txt', 'w') as f:
    for item in news:
        title = item.xpath('text()')[0]
        link = item.get('href')
        f.write(f'{title}, {link}\n')

总结

通过本文的学习,相信你已经掌握了 lxml 的基本使用方法,包括如何解析HTML/XML文件、使用XPath表达式提取数据、处理命名空间和属性、以及性能优化技巧。


如果你觉得本文对你有帮助,请不吝点赞和分享。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HarmonyOS应用开发者高级认证题目(7月新版,答案解析,持续更新)

HarmonyOS应用开发者高级认证题目&#xff08;7月新版&#xff0c;答案&解析&#xff0c;持续更新&#xff09; 单选 1.ArkTS支持以下哪些函数 A.Object.getOwnPropertySymbols(); B.Object.isExtensible(); C.Object.isPrototypeOf(); D.Object.keys(); 答案&#xff1…

《数据结构》(C语言版)第1章 绪论(下)

第1章 绪论 1.3 抽象数据类型的表示与实现1.4 算法与算法分析 1.3 抽象数据类型的表示与实现 数据类型 数据类型是一组性质相同的值的集合, 以及定义于这个集合上的一组运算的总称。 抽象数据类型(ADTs: Abstract Data Types) 更高层次的数据抽象。由用户定义&#xff0c;用…

反贿赂体系认证:企业诚信经营的护航者

在当今商业环境中&#xff0c;企业不仅要追求经济效益&#xff0c;更要坚守诚信经营的原则。反贿赂体系认证作为现代企业合规管理的重要手段&#xff0c;不仅提升了企业的道德形象&#xff0c;还为其市场竞争力注入了强劲动力。以下是反贿赂体系认证对企业的多方面益处。 首先&…

SpringBoot集成RocketMQ消息队列

RocketMQ简介 RocketMQ是阿里巴巴2016年MQ中间件&#xff0c;使用Java语言开发&#xff0c;RocketMQ 是一款开源的分布式消息系统&#xff0c;基于高可用分布式集群技术&#xff0c;提供低延时的、高可靠的消息发布与订阅服务。同时&#xff0c;广泛应用于多个领域&#xff0c…

AUTOSAR实战教程-最通俗的讲标定协议XCP初入门

XCP是什么 XCP是什么?我们开发过程中是不是经常用串口打印出一些变量的值供自己发现问题? XCP的作用1 跟上述串口看数据类似,只不过用一组更为严格的格式规定基于CAN/ETH/FLR进行数据的观测。 XCP作用2 比串口打印数据更强大的是,XCP可以通过变量地址对变量值进行改写!…

使用 Stripe 订阅和 Firestore 集成构建大型 Streamlit 应用程序

将创意转化为软件产品的能力是一项值得学习的技能。在这篇博客中&#xff0c;我将描述需要做些什么&#xff0c;以及如何将各个部分组合在一起以创建一款无需启动成本但具有订阅模式和 Firestore 集成的软件产品。 欢迎来到雲闪世界。 无论您是数据科学家、数据工程师还是从事其…

EasyAR_稠密空间图

EasyAR稠密空间图 1.稠密空间图 EasyAR稠密空间地图利用RGB相机图像对周围环境进行三维稠密重建&#xff0c;得到稠密的点云地图和网格地图。利用稠密空间地图让虚拟物体更好的融入真实环境之中&#xff0c;用以实现真实物体和虚拟物体正确遮挡、碰撞等AR应用。 2.在Unity中的…

深度学习入门——卷积神经网络

本章的主题是卷积神经网络&#xff08;Convolutional Neural Network&#xff0c;CNN&#xff09;。CNN被用于图像识别、语音识别等各种场合&#xff0c;在图像识别的比赛中&#xff0c;基于深度学习的方法几乎都以CNN为基础。本章将详细介绍CNN的结构&#xff0c;并用Python实…

从 Pandas 到 Polars 三十九:Polars 和 Matplotlib

Polars 与 matplotlib 配合得很好。 在matplotlib中&#xff0c;你可以直接使用polars的数据进行绘制图形&#xff0c;而无需把polars的dataframe转为pandas的dataframe&#xff1a; import polars as pl import matplotlib.pyplot as plt# 创建一个polars DataFrame df_pl …

5 道互联网大厂面试遇到的场景题

1.外卖单子只能被一个骑手接单 这是一个典型的分布式锁问题。可以采用以下几种方案: 基于Redis的分布式锁: 使用Redis的SETNX命令尝试获取锁设置合理的锁超时时间,防止死锁使用Lua脚本保证原子性操作考虑Redis集群环境下的一致性问题 基于Zookeeper的分布式锁: 创建临时顺…

openEuler系统合并home分区到root分区

为了支持国产系统底座&#xff0c;不受美帝卡脖子&#xff0c;加入openEuler&#xff0c;想把业务全部移植到openEuler系统上。在使用默认安装的情况下&#xff0c;会把home分区单独分配一个出来&#xff0c;为了方便&#xff0c;还是想合并到/根目录上。怎么做呢&#xff1f;发…

2023年码蹄杯专科组第三场初赛 解题报告 | 珂学家

前言 题解 这是2023年第三场码蹄杯职业院校算法比赛&#xff0c;3D眩晕&#xff08;字符串hash&#xff09;挺有意思的。 这个系列赛&#xff0c;喜欢出典题。 3D眩晕 难度: 钻石 思路: 字符串hash 这题难在容错性上&#xff0c;就是允许有x次修改( x ≤ 3 x \le 3 x≤3)&…

NICE Seminar(2023-07-16)|演化算法的理论研究到底有什么用?(南京大学钱超教授)

模式定理&#xff08;Schema Theorem&#xff09; 模式定理&#xff08;Schema Theorem&#xff09;是遗传算法&#xff08;Genetic Algorithm, GA&#xff09;的重要理论基础&#xff0c;由约翰霍兰德&#xff08;John Holland&#xff09;在1975年提出。它描述了具有特定模式…

【机器学习】回归类算法-相关性分析

一、前言 前面的几篇博客我们学习了分类算法&#xff0c;今天我们来了解一下回归类的算法吧。首先我们来谈谈两者有什么区别&#xff0c;首先是我们在之前的分类算法&#xff0c;这类算法可以将让我们学会如何将不同的数据划分到不同的类里面&#xff0c;输出的是一些离散的值。…

新书速览|AI创意商业广告设计:Adobe Firefly + Photoshop

《AI创意商业广告设计:Adobe Fire.yPhotoshop》 本书内容 随着AI技术的出现&#xff0c;平面设计领域也出现了利用人工智能进行创作的程序&#xff0c;比如Firefly、Midjourney、 Stable Di.usion等。这些程序能够创作出高质量的设计作品。其中&#xff0c;Fire.y是由Adobe公司…

内网权限维持——创建影子账户

文章目录 一、RID简介二、修改RID进行权限维持 影子账户&#xff0c;顾名思义就是隐藏的用户&#xff0c;无法通过“计算机管理”或命令行查询&#xff0c;只能在注册表中找到其信息。下面的实验是在win 7上进行的。真正的影子账户其实是windwos RID 劫持。 一、RID简介 在wi…

线程池工具类 Executors源代码详解

​ 快捷导航 一、提供了什么功能&#xff1f;源码中的定义&#xff1a;此类支持以下几种方法&#xff1a; 二、源码中是怎么实现的&#xff1f;1、创建并返回一个配置了常用设置的ExecutorServicenewFixedThreadPool()newSingleThreadExecutor()newCachedThreadPool()newWorkS…

学习C#调用LazyCaptcha模块生成验证码的基本用法

LazyCaptcha是仿EasyCaptcha和SimpleCaptcha的.net开源图形验证码模块&#xff0c;其支持生成验证码及对应的静态图或动态图&#xff0c;还支持在图形中增加气泡、干扰线等噪音以提升图片自动识别难度。LazyCaptcha既能在B/S程序中使用&#xff08;本文的原由即Admin.NET中使用…

【数据结构初阶】深度理解 “栈” (附源码)

hello&#xff0c;又见面了&#xff01; 目录 1. 栈的概念与结构 2、栈的实现 Stack.h Stack.c test.c 3、习题 正文开始—— 1. 栈的概念与结构 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端…

小试牛刀-Telebot区块链游戏机器人(TS升级)

目录 1.编写目的 2.为什么使用TypeScript实现? 3.实现功能 3.1 AI图片生成 3.2 签到 3.3 邀请 3.4 WalletConnect连接 4.功能实现详解 4.1 AI图片生成 4.2 签到 4.3 邀请 4.4 WalletConnect连接 5.功能截图 ​6.问题整理 Welcome to Code Blocks blog 本篇文章主…