爬虫内容学习-工具类---xpath-1

news2024/11/18 19:40:52

爬虫学习建议:

在编写python爬虫程序时,只需要做以下两件事:

  • 发送GET请求,获取HTML   [第一类]
  • 解析HTML,获取数据           [第二类]

这两件事,python都有相应的库帮你去做,你只需要知道如何去用它们就可以了。

爬虫目前涉及两种一是获取网页类的如urllib库,requests库,对网页进行获取,获取内容,保存,响应等。

二、解析网页内容:是网页中有很多内容,爬虫的本质是选择我需要的内容,例如我只想网页中的一部分图片,一部分视频或者一部分特殊的内容,这个选择的“部分”主要有1.正则表达式  2.xpath 3.BeautifulSoup 4.jsonparh   5.selenium

前期练习的时候,可以使用requests库+正则表达式  进行练习

后期使用的过程中,建议requests库+xpath库+Xpath Helper【浏览器工具】

工作中建议重点:requests库+xpath库+Xpath Helper【浏览器工具】+selenium结合使用

个人建议:

背景内容:

Python爬虫中Xpath的用法,相信每一个写爬虫、或者是做网页分析的人,都会因为在定位、获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定位一些id,class属性去找到对应的位置,非常的麻烦,

一款插件Chrome中的一种爬虫网页解析工具:XPath Helper
XPath Helper插件是一款免费的Chrome爬虫网页解析工具,可以帮助用户解决在获取XPath路径时无法正常定位等问题

安装了XPath Helper后就能轻松获取HTML元素的XPath,该插件主要能帮助我们在各类网站上查看的页面元素来提取查询其代码,同时我们还能对查询出来的代码进行编辑,而编辑出的结果将立即显示在旁边的结果框中,也很方便的帮助我们判断我们的XPath语句是否书写正确

1.Xpath Helper的安装【工具的安装】

在网上找到的下载地址,你可以根据实际情况进行下载

https://chrome.zzzmh.cn/info/hgimnogjllphhhkhlmebbmlgjoejdpjl

 

 安装完毕后,在需要匹配数据的页面处,使用快捷键打开助手工具(快捷键:ctrl+shift+x)

 2.Xpath Helper使用

涉及到的素材仅限于学习---仅限于学习---

 

 把刚刚复制的xpath内容复制到Xpath Helper工具中,观察结果


 


3.xpath的语法

XPath(XML Path Language - XML路径语言),它是一种用来确定XML文档中某部分位置的语言。
Xpath以XML为基础,提供用户在数据结构树中寻找节点的能力,Xpath被很多开发者亲切的称为小型查询语言。

xpath可以使用路径表达式在XML上选取节点,从而达到确认元素的目的,我们先来介绍以下语法规则

语法规则:

表达式作用
nodename选取此层级节点下的所有子节点
/代表从根节点进行选取
//可以理解为匹配,就是在所有节点中选取此节点,直到匹配为止
.选取当前节点
选取当前节点上一层(上一级目录)
@选取属性(也是匹配)

 标签定位:

方式效果
/html/body/div表示从根节点开始寻找,标签与标签之间/表示一个层级
/html//div表示多个层级 作用于两个标签之间(也可以理解为在html下进行匹配寻找标签div)
//div从任意节点开始寻找,也就是查找所有的div标签
./div表示从当前的标签开始寻找div

 属性定位

需求格式
定位div中属性名为href,属性值为‘www.baidu.com’的div标签@属性名=属性值
href为属性名 'www.baidu.com’为属性值/html/body/div[href=‘www.baidu.com’]

 索引定位

定位ul下第二个li标签(下图)//ul/li[2]
索引值开始位置为1

取文本内容

方法效果
/text()获取标签下直系的标签内容
//text()获取标签中所有的文本内容
string()获取标签中所有的文本内容

 


4.python中使用

使用步骤:

1.安装lxml库

pip install lxml
 

2.导入lxml

from lxml import etree

3.解析文件

3.1解析本地文件(离线文件)

html_tee=etree.parse("xxx.html")

3.2解析网络文件 (互联网网址)

html_tee=etree.HTML(response.read().decode("utf-8"))

4.加载文件

html_tee.xpath(路径)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82423.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ubuntu20.04 搭建kernel调试环境第四篇--图形化调试kernel

一、安装eclipse 1)官网下载对应的版本(eclipse-inst-jre-linux64.tar.gz) Eclipse Packages | The Eclipse Foundation - home to a global community, the Eclipse IDE, Jakarta EE and over 350 open source projects... 2)…

群集【LNMP+SSL+nfs+负载均衡及高可用】

目录 🦐web1部署 🍁创建证书 🍁创建论坛 🦐mysql部署 🦐php部署 🦐nfs部署 🍁创建共享目录 🍁挂载目录 🦐LNMP测试 🦐web2部署 🦐lb1部署 &#x…

资料:成为全栈dApp开发者的学习计划

资料:成为全栈dApp开发者的学习计划 本篇介绍与区块链和去中心化应用程序有关的一切。 前提条件 任何面向对象编程语言的基础知识。Node.js和Npm。前端基础知识。如果你有兴趣做一个全栈的去中心化应用,而不仅仅是智能合约。 流程 去中心化技术和区块…

Mybatis:Mybatis动态SQL(8)

动态SQL1. 动态sql简介2. if3. where4. trim5. choose、when、otherwise6. foreachforeach实现批量添加foreach实现批量删除7. SQL片段8. 总结1. 动态sql简介 Mybatis框架的动态SQL技术是一种根据特定条件动态拼装SQL语句的功能,它存在的意义是为了解决拼接SQL语句…

CAS介绍

CAS介绍一、什么是CAS二、CAS是怎么实现的三、CAS应用场景3.1 实现原子类3.2 实现自旋锁四、CAS的 ABA问题4.1 什么是ABA问题4.2 ABA问题引来的bug4.3 解决方案一、什么是CAS CAS:全称Compare and swap,字面意思:“比较并交换”。一个 CAS 涉…

基于Oracle数据库的学生信息管理系统的设计与开发(JSP)

目 录 1 引言 1 1.1 课题来源及意义 1 1.2 研究内容与目标 1 1.3 本文的内容结构 2 1.4 本章小结 3 2 需求分析 4 2.1 系统功能需求 4 2.2 系统的性能需求 4 2.3 系统数据要求 5 2.4…

Linux恶意攻击自查方案

用户及用户文件检查 (1)passwd文件 文件权限 /etc/passwd默认权限为644,其最小权限为444,首先应对该文件权限进行检查,以确认配置是否正确: ls -l /etc/passwd 用户检查 查看passwd文件内容&#xff…

浅谈电缆行业MES系统解决方案

电缆行业虽然只是一个配套行业,却占据着中国电工行业1/4的产值。它产品种类众多,应用范围十分广泛,涉及到电力、建筑、通信、制造等行业,与国民经济的各个部门都密切相关。电缆还被称为国民经济的“动脉”与“神经”,是…

Guice + Jersey + Jetty 框架 - 学习笔记

因项目使用 Guice Jersey Jetty 框架,所有进行了学习,下面是学习笔记。 目录 一、Guice 1. 依赖注入方式: Inject 2. 依赖绑定(依赖注册): bind() 3. 作用域 4. 基本使用 二、Jersey 使用内置容器为例(使用J…

[附源码]Python计算机毕业设计单位库房管理系统Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

老公下班要跟我学测试,35岁3娃全职宝妈的逆袭之路

马上35了,当了5年全职宝妈,看起来我应该是幸福的,公婆一直在帮忙带娃,老公也舍得给我花钱,愿意把钱全都交给我,在家里不用做饭,家务有人帮把手,主要就是带娃。我应该是幸福的&#x…

说说真实Java项目的开发流程,以及面试前的项目准备说辞

介绍项目是必不可少的Java面试环节,求职者需要借此证明自己真实Java项目的经验,如果再做的好的话,需要借此展开自己的亮点说辞。 不过之前如果只有学习项目经验,比如是自己跑通一个项目,或者是在培训班里通过一个Sprin…

Centos7:Postgresql 14安装

文章目录安装Server配置数据目录创建数据存储目录配置环境变量,数据目录Reload systemd初始化DB启动数据库安装模块包postgresql14-contribpostgresql14-devel安装Server sudo yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64…

(附源码)ssm高校实验室系统 毕业设计 800008

高校实验室管理系统 摘 要 随着社会的发展,社会的方方面面都在利用信息化时代的优势。互联网的优势和普及使得各种系统的开发成为必需。 本文以实际运用为开发背景,运用软件工程原理和开发方法,它主要是使用动态网页开发技术JSP,J…

前端js实现canvas压缩图片并上传

一. 上传前压缩图片的好处 可以减少用户的等待时间,提升使用体验,目前手机拍摄的图片文件大小一般在几 M 左右,文件直接上传时会有卡顿现象。可以减少服务端的存储空间。再次回去图片资源是也可以快速的加载。虽然目前阿里云的 oss 有相对应…

NPDP在国内有多少含金量?

产品经理国际资格认证,New Product Development Professional(NPDP),由美国产品开发与管理协会(PDMA)所发起,是国际公认的唯一的新产品开发专业认证。是考察产品经理能力的证书。(npdp产品经理资料文末&…

文本生成图像简述3--杂谈技术难点、研究意义、应用领域和目前的局限性

文本生成图像(text-to-image)指的是使用人工智能技术将文本转换为图像的过程,其可以根据给定文本生成符合描述的真实图像,其是多模态机器学习的任务之一,具有巨大的应用潜力,如视觉推理、图像编辑、视频游戏…

如何解决 Redis 数据倾斜、热点等问题

Redis 作为一门主流技术,应用场景非常多,很多大中小厂面试都列为重点考察内容 前几天有小伙伴学习时,遇到下面几个问题,来咨询 考虑到这些问题比较高频,工作中经常会遇到,这里写篇文章系统讲解下 问题描…

web网页设计期末课程大作业 HTML+CSS+JavaScript 美食餐饮文化主题网站设计 学生DW静态网页设计

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

关于vSphere HA Admission Control的讨论--2

上一期内容中预留的一些小问题首先做出回答&#xff1a; Q1&#xff1a;<若此时vCenter Server所在主机出现故障&#xff0c;vSphere HA是否能够正常完成故障响应&#xff1f;> A1&#xff1a;对于vSphere HA而言&#xff0c;在设计上采用主机通过FDM来管理HA的故障响应。…