工具-自动获取/校对XpathHelper/XpathHelperPlus/XPathHelperWizard插件轻松配置xpath规则

news2024/11/26 16:39:29

目录

        • 一、xpath插件功能对比
          • 1.1、应用的范围
          • 1.2、不依赖插件,依赖谷歌开发者工具
          • 1.3、XpathHelper/XpathHelperPlus/XPathHelperWizard插件功能特点
        • 二、安装XpathHelper插件以及用法
          • 2.1、安装XpathHelperPlus插件
          • 2.2、XpathHelperPlus插件使用方法
        • 三、安装XPathHelperWizard插件以及用法
          • 3.1、安装XPathHelperWizard插件
          • 3.2、XPathHelperWizard插件用法
        • 四、更多的xpath语法基础知识

一、xpath插件功能对比

1.1、应用的范围
  • 1、曾使用过八爪鱼配置过百来个网站的爬取,八爪鱼采集器或许不会写代码的人都使用过,八爪鱼自生成的规则,可能网站部分内容提取不精确以及要提取的复杂度高的时候,都需要人为修改xpath,该插件能很好的辅助调试
  • 2、数千个网站监控一些数据内容文本或者部分图表趋势变化的时候,有时候就是一个简单的xpath规则,来确定监控区域
  • 3、上千个网站提取部分精确文本内容 或者 是图片链接,也都需要确定一个xpath规则;比如新闻的标题/内容/链接;招投标的表格字段更复杂的规则提取;房产数据的采集等;小到不会用代码写程序采集数据的,大到会写代码采集数据的,都离不开固定xpath/css等规则
  • 4、最后,毫不夸张的说,近半年我配置了近5k个网站的xpath规则!! ! 此刻送给自己一点掌声,也要和大家分享下一些好用的工具插件XpathHelperPlus 和 Pasty插件
  • 5、批量打开网址插件Pasty插件下载地址 ;使用方法:首先复制数十个网址,然后到浏览器页面直接点击右上角Pasty按钮,之后浏览器就会自动批量打开网址了
1.2、不依赖插件,依赖谷歌开发者工具
  • 1、按F12或者鼠标右击选择检查,打开谷歌开发者工具栏(elements选项) ;在右侧谷歌开发者工具栏的左上角点击箭头按钮;回到左侧网页内容悬停移动或者点击,此时右侧会同步显示你点击内容的html元素
    在这里插入图片描述
  • 2 、鼠标右击右侧html元素,选择copy xpath即可得到xpath规则;
    在这里插入图片描述
1.3、XpathHelper/XpathHelperPlus/XPathHelperWizard插件功能特点
  • 1、可以先看看xpath-helper插件使用,掌握点基础xpath语法知识;但是插件更推荐下面两个XpathHelperPlus 其次 XPathHelperWizard
    在这里插入图片描述
  • 2、但是更推荐这个大佬的xpath-helper-plus插件,在xpath-helper插件上做了升级功能,更强大的特点精简xpath规则,能复制css,而且操作更容易,很舒服,而且米佬一直在持续更新,前不久刚迭代了新版本
    在这里插入图片描述

二、安装XpathHelper插件以及用法

2.1、安装XpathHelperPlus插件
  • 1、大佬开源的git上面选择最新版本下载压缩包 ,如果下载不下来私信我发哈
    在这里插入图片描述
    在这里插入图片描述
  • 2、具体的安装步骤如下,谷歌浏览器右上角三个竖点点击>扩展程序>管理扩展程序或者在浏览器输入chrome://extensions/ 也可以打开
    在这里插入图片描述
  • 关掉浏览器,再打开浏览器就安装好了,这里固定下,方便随时使用
2.2、XpathHelperPlus插件使用方法
  • 1、如下获取xpath规则或者css规则
    在这里插入图片描述

三、安装XPathHelperWizard插件以及用法

3.1、安装XPathHelperWizard插件
  • 1、下载XPathHelperWizard插件
    在这里插入图片描述
  • 2、具体的安装步骤如下,谷歌浏览器右上角三个竖点点击>扩展程序>管理扩展程序或者在浏览器输入chrome://extensions/ 也可以打开,然后做如下图中步骤
    在这里插入图片描述
    在这里插入图片描述
3.2、XPathHelperWizard插件用法
  • 1、它这里优点很明显,就是它的规则模糊精简了,选择相似的元素并可视化结果,并且在网站更改时不太可能中断
    在这里插入图片描述
    在这里插入图片描述
  • 2、但是会有明显不精确的地方,范围反而更大了,但是有没有办法解决呢,目前有
    在这里插入图片描述
  • 3、我们可以这样操作,稍微复杂了下,先找了个大的区域,相当于确定了一级目标范围,然后在一级目标范围内找相似规则,然后再小范围规则,两者一拼就可以了;但是这么操作的话,我还是更愿意选择XpathHelperPlus插件
    在这里插入图片描述
    在这里插入图片描述

四、更多的xpath语法基础知识

  • xpath规则语法知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/651322.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自然语言处理: 第二章Word2Vec

一. 理论基础 维度很高(与语料库有关),计算复杂稀疏性,浪费计算效率,只有一个元素是1 其他都是0缺乏语义信息,无法衡量语义相似度无法处理未知单词 而在One-Hot的基础上,Word2Vec 是一种分布式表达字/词的方式&#x…

Java|注解之定义注解

Java语言使用interface语法来定义注解(Annotation),它的格式如下: public interface Report {int type() default 211;String level() default "211";String value() default "211"; } 注解的参数类似无参数…

华为OD机试真题 JavaScript 实现【比赛评分】【2023 B卷 100分】,附详细解题思路

一、题目描述 一个有N个选手参加比赛&#xff0c;选手编号为1~N&#xff08;3<N<100&#xff09;&#xff0c;有M&#xff08;3<M<10&#xff09;个评委对选手进行打分。打分规则为每个评委对选手打分&#xff0c;最高分10分&#xff0c;最低分1分。 请计算得分最…

Android 音视频开发核心知识点笔记整合

很多开发者都知道Android音视频开发这个概念&#xff0c;音视频开发不仅需要掌握图像、音频、视频的基础知识&#xff0c;并且还需要掌握如何对它们进行采集、渲染、处理、传输等一系列的开发和应用&#xff0c;因此&#xff0c;音视频开发是一门涉及到很多内容的领域。 随着5G…

开战在即!与全球伙伴一起打造你的数据应用,TiDB Future App Hackathon 2023 来啦!

2023 TiDB Future App Hackathon 来啦&#xff01;本届 Hackathon 的主题为&#xff1a;Code, Innovate & Build Amazing Data Applications —— 释放你的创造力、构建突破性的应用、在全球范围内寻找你的队友、体验最新最 in 的 Serverless 技术&#xff0c;更有 总计 $3…

马原第一章复习1.

一.物质的存在方式 《德法年鉴》 完成从唯物到唯心 从革命主义等到共产主义的过度 为创立马克思理论提供了根本前提《德意志形态》 首次阐述了历史唯物主义的基本观点《共产党宣言》标志着马克思主义的公开问世 也是第一个无产阶级政党的党纲《资本论》阐述剩余价值学说 解释生…

【推荐】Oracle Live SQL——在线 Oracle SQL 测试工具

最近回答了几个 CSDN “学习”功能里“问答”区的一些专业相关问题&#xff0c;回答过程中采用严谨的方式&#xff0c;在 Oracle Live SQL 上进行验证测试。这个很好用的 Oracle APEX 应用我使用好几年了&#xff0c;虽然近年来已转行 MySQL 和国产数据库领域&#xff0c;但仍然…

链表与顺序表的区别以及扩展计算机硬件的存储体系

好久没有更新文章了&#xff0c;在忙学校的事情时我还是比较怀念大家一直以来对我的关注和鼓励&#xff0c;接下来我会继续更新数据结构相关的文章&#xff0c;也请大家多多支持&#xff0c;十分感谢。正文来了&#xff1a; 首先说明一点&#xff0c;我在举例和比较时所使用的是…

【2023,学点儿新Java-02】计算机硬件与软件 | CPU、内存、硬盘概览 | 科学使用键盘——“指法” | 软件——计算机的灵魂 | 人机交互方式

前情回顾&#xff1a; 【2023&#xff0c;学点儿新Java-01】从查看本机 jdk版本 开始 | Java基础全程脉络图、Java工程师全程技术路线、Java职业晋升路线图 我们见到的太阳 是八分钟前的太阳&#xff0c;见到的月亮 是一点三秒之前的月亮&#xff0c;见到一英里之外的建筑&…

【Docker 安装 Zipkin】—— 每天一点小知识

&#x1f4a7; D o c k e r 安装 Z i p k i n \color{#FF1493}{Docker 安装 Zipkin} Docker安装Zipkin&#x1f4a7; &#x1f337; 仰望天空&#xff0c;妳我亦是行人.✨ &#x1f984; 个人主页——微风撞见云的博客&#x1f390; &#x1f433; 《数据结构与算法》…

解决vue打包一次部署到不同的服务器的问题

1. 问题描述 在工作的时候&#xff0c;往往碰到同一套vue前端代码程序需要部署到很多的服务器上&#xff0c;每次更改完程序都需要打包部署到各个服务器上&#xff0c;因为每个服务器的访问地址和端口都不一样&#xff0c;如果用的若依自带的框架&#xff0c;需要每次都需要打…

Spring Security --- 自定义登录逻辑

目录 UserDetailsService详解 返回值 方法参数 异常 PasswordEncoder密码解析器详解 接口介绍 内置解析器介绍 BCryptPasswordEncoder简介 代码演示 自定义登录逻辑 编写配置类 自定义逻辑 UserDetailsService详解 当什么也没有配置的时候&#xff0c;账号和密码是…

Vue3:计算属性、监听器

computed 计算属性 计算属性是指 基于现有状态派生 (演变) 出新的状态&#xff0c;现有状态发生变化&#xff0c;派生状态重新计算。 computed 接收回调函数作为参数&#xff0c;基于回调函数中使用的响应式数据进行计算属性的创建&#xff0c;回调函数的返回值就是基于现有状态…

软件测试什么样的技术栈才能进入大厂

我们知道&#xff0c;能在一线大厂工作是大多数人的目标&#xff0c;不仅薪酬高&#xff0c;技能提升快&#xff0c;而且能得到公司影响力背书&#xff0c;将来就算跳槽也能带来光环加持。 最近疫情的影响&#xff0c;网上也爆出了一些裁员新闻&#xff0c;可以说这个疫情确实…

【深入浅出密码学】RSA

RSA密码体制 引言&#xff1a; RSA加密的本意并不是为了取代对称密码&#xff0c;而且它比诸如AES的密码要慢很多&#xff0c;因为RSA当中涉及许多数学计算&#xff0c;RSA通常和类似AES的对称密码一起使用&#xff0c;真正用来加密大量数据的是对称密码。而RSA主要保护对称密…

Linux0.11内核源码解析-block_dev.c

目录 block_dev.c 文件的作用 int block_write(int dev, long * pos, char * buf, int count) block_dev.c 文件的作用 block_dev.c 文件的作用 block_dev.c 文件就包含两个函数&#xff0c;分别是block_read和block_write函数&#xff0c;提供给read和write系统调用 块读写…

STM32开发踩坑——基于CubeMx+Gcc移植正点原子3.5‘TFTLCD(开发环境:正点F103精英版+3.5‘TFTLCD)

成立这个专栏的目的是&#xff0c;记录自己嵌入式开发遇到的问题&#xff0c;与成功的解决方法&#xff0c;方便自己回顾。 最近在学习王维波老师的《STM32Cube高效开发教程》&#xff0c;王老师移植的是普中科技的驱动&#xff0c;而我手动移植了一下正点原子的lcd驱动&#…

【Java高级语法】(三)泛型:关于泛型最全面的讲解来了~

Java高级语法详解之泛型 :one: 概念:two: 优势:three: 使用3.1 泛型类3.2 泛型接口3.3 泛型方法 :four: 通配符&#xff08;Wildcards&#xff09;4.1 无界通配符&#xff08;Unbounded Wildcard&#xff09;4.2 上限通配符&#xff08;Upper Bounded Wildcard&#xff09;4.3 …

aardio - 【库】http访问网页

为了简化http访问操作&#xff0c;提高速度&#xff0c;丰富功能&#xff0c;特封装了此库&#xff0c;可以根据需要进行选择。 本库带一个dll&#xff0c;所以建议优先选择使用 inet.http 库&#xff1a; 如果使用 inet.http库&#xff0c;直接 inet.http.get() 速度较慢。 大…

理解3ds max中的容器的概念

实验一&#xff1a; 在场景中创建一个容器 把这个容器保存为一个文件&#xff0c;在文件夹中可看到此容器文件&#xff0c;其大小为892KB&#xff0c;同时可看到生成一个同名的lock类型文件。 将场景中的某一个物体&#xff08;面加多一点的&#xff09;添加到容器中&#x…