【Java-Crawler】爬取动态页面(WebMagic、Selenium、ChromeDriver)

news2025/4/6 9:29:01

WebMagic+Selenium+ChromeDriver+Maven 爬取动态页面

  • 一、需要下载的资源和引入的依赖
    • 资源
    • 依赖
  • 二、实战代码
    • 测试效果

在上一篇说WebMagic框架的时候( 一文学会WebMagic爬虫框架),提到了WebMagic仅能解析静态页面,满足不了小编的爬虫需求了,小编现在要爬取动态的页面,需要爬取JavaScript被解析后的页面了。

一、需要下载的资源和引入的依赖

资源

“多的不说,少的不辣”,先直接给出本篇博客需要的资源和依赖。

在这里插入图片描述根据GPT的答案所述:114.0.5735.16 对应的Google浏览器版本应该是 94.0.4606.61,所以咱下载的Google浏览器版本得是 94.0.4606.61 版本的。下面是其下载网盘链接。

链接:https://pan.baidu.com/s/1eMnn-phueE5yZgCdoEQOwA?pwd=tk0w
提取码:tk0w

下载驱动有两种方式,一种是去ChromeDriver官网,一种是去ChromeDriver官方下载地址,咱选择后者,因为后者不需要考虑版本对应问题,ChromeDriver对应什么版本Google对应就是什么版本,而且上面人GPT也说了,后者下载的更加稳定。

在这里插入图片描述
注意:下载完的驱动会有一个chromedriver.exe,然后需要把它放到C:\Windows\System32目录下,以便运行代码的时候可以找到。当然这种比较局限,一般System.setProperty("webdriver.chrome.driver", chromedriver.exe的路径);来指定。当然前者在本机上方便点。

依赖

首先这里是拿Maven去创建模块去测试的,下面给出需要的依赖。

首先既然需要使用 WebMagic 框架,那就要添加其相关依赖(一个是核心依赖、一个是拓展依赖,他们内部还使用了一个工具包commons-lang,咱得加进去)。

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.5.3</version>
        </dependency>

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.5.3</version>
        </dependency>
        <!--工具包(StringUtils)-->
        <dependency>
            <groupId>commons-lang</groupId>
            <artifactId>commons-lang</artifactId>
            <version>2.6</version>
        </dependency>

然后为了获取动态页面代码,咱得使用 Selenium 测试,还需要远程调试 Google Chrome 浏览器,为了允许开发者通过HTTP协议与Chrome浏览器通信,所以需要远程调试协议:Chrome DevTools协议,而selenium-devtools-v86依赖则提供了该协议的集成。所以需添加以下依赖(selenium-devtools-v86是selenium-java的一个依赖项,版本号要一致,不然没作用):

        <!--非常重要-->->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-devtools-v86</artifactId>
            <version>4.0.0-beta-2</version>
        </dependency>

        <!--版本和devtools一致-->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>4.0.0-beta-2</version>
        </dependency>

最后咱需要一个强大的Java工具库,guava(噶哇)。

        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>31.1-jre</version>
        </dependency>

至此需要的资源和依赖就欧了,接下来就是实战了。

二、实战代码

  1. Spider(蜘蛛)容器配置、管理、开启;
  2. 创建 ChromeDriver 驱动对象,可根据需要向上转型为 WebDriverJavascriptExecutor
  3. 模拟打开对应网页,可通过 page.getUrl.toString() 获取 url字符串;
  4. 然后通过 ChromeDriver 对象去获取对应的 WebElement 对象;
  5. 然后通过webElement.getAttribute("outerHTML")获得原始html字符串,构造 Html 对象,剩下的就是 WebMagic 框架一样的操作了。

    关闭、退出 ChromeDriver 驱动。
public class CompanyProcessor implements PageProcessor {


    private Site site = Site.me()
    .setRetryTimes(3)
    .setRetrySleepTime(3000)
    .setSleepTime(1000)
    .setTimeOut(3000);

    public void process(Page page) {

        // 创建ChromeDriver实例对象
        ChromeDriver driver = new ChromeDriver();
        // 去模拟浏览器输入url后敲回车
        driver.get(page.getUrl().toString());
        try {
            Thread.sleep(1000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        // 获取body下的标签内容
        WebElement webElement = driver.findElement(By.tagName("body"));
        // 模拟点击事件,因为有的时候不通过一些外设操作有些html代码是不会出现的,就爬不了了
        WebElement element = webElement.findElement(By.cssSelector("span[event-type='15']"));
        element.click();
		
		// 不知道是不是多线程run的原因,这里点击完要等一会儿,不然后面获取点击后的代码没有		
		try {
            Thread.sleep(2000);
        } catch (InterruptedException e) {
            throw new RuntimeException(e);
        }
			
        // 获取其body下的原始html字符串,只含指定webElement下的内容
        String str = webElement.getAttribute("outerHTML");
        
        // 将上面得出来的字符串转换成Html对象
        // 其构造生成的是通过 Jsoup 解析对Html对象内部属性document进行初始化的
        Html html = new Html(str);
        System.out.println(html.xpath("//tbody/tr").all());
        // 关闭驱动,退出驱动
        driver.close();
        driver.quit();

    }

    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new CompanyProcessor())
                .addUrl("https://we.51job.com/pc/search?keyword=java&searchType=2&sortType=0&metro=")
                .thread(5)
                .run();
    }
}

测试效果

已经可以获取到职位链接和职位相关信息了。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/562925.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能Python-python_numpy转置

Python中的Numpy转置&#xff1a;使用transpose()函数 在Python中&#xff0c;Numpy是非常常用的一个科学计算库&#xff0c;它提供了大量的数学函数、矩阵计算等功能。其中&#xff0c;矩阵的转置是一个非常基本的运算&#xff0c;在Numpy中&#xff0c;我们可以使用transpos…

SSRS rdlc报表 六 报表分组和总计

报表分组和总计在报表中是一个很常用的功能&#xff0c;比如我们需要按部门进行分组&#xff0c;统计每个部门的费用支出&#xff0c;或者在进一步分组&#xff0c;每个部门每个月的费用支出&#xff0c;通过rdlc报表&#xff0c;很容易实现这个需求。 我们下面要讲解的案例&a…

Thinkphp漏洞详解合集

文章目录 Thinkphp6.0.12LTS反序列化漏洞环境漏洞分析 thinkphp lang命令执行环境影响版本漏洞分析漏洞复现 CNVD-2018-24942(t5RCE)环境影响版本漏洞分析漏洞复现 Thinkphp3.2.x命令执行环境漏洞分析漏洞复现 thinkphp-2x-rce漏洞环境影响版本漏洞分析 Thinkphp5.0.23变量覆盖…

人机交互软件工程视角 第3-11章部分课后习题答案

4. 对于用于帮助儿童之间进行交流和合作的移动设备&#xff0c; 核心可用性目标&#xff1a; 简单易用性&#xff1a;移动设备应该具备简单直观的界面和操作方式&#xff0c;以便儿童能够轻松理解和使用。 可靠性&#xff1a;设备应该稳定运行&#xff0c;并且提供可靠的通…

什么是智能制造?制造企业该如何发展?

智能制造是落实我国制造强国战略的重要举措&#xff0c;加快推进智能制造&#xff0c;是加速我国工业化和信息化深度融合、推动制造业供给侧结构性改革的重要着力点&#xff0c;对重塑我国制造业竞争新优势具有重要意义。 ——摘自《中国制造 2025》 概念的提出 德勤公司(Delo…

使用 PAI-Blade 优化 Stable Diffusion 推理流程(二)

背景 上一篇中&#xff0c;我们使用了 PAI-Blade 优化了 diffusers 中 Stable Diffusion 模型。本篇&#xff0c;我们继续介绍使用 PAI-Blade 优化 LoRA 和 Controlnet 的推理流程。相关优化已经同样在 registry.cn-beijing.aliyuncs.com/blade_demo/blade_diffusion镜像中可以…

Linkage Mapper 连通性模型的构建方法详解(含实际案例分析)

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Linkage Mapper解密数字世界链接 文章目录 一、 简介1.1 连通性模型概述二、 Linkage Mapper工具箱2.1 工具箱概述2.2 安装和加载工具箱

【Android定制】BUILD_AGO_GMS = no 和 BUILD_GMS=no属性

文章目录 概要名词解释细节小结 概要 在安卓底层源码中&#xff0c;有这样的两个属性&#xff0c;这两个第一眼看上去都像是带不带谷歌&#xff0c;BUILD_AGO_GMS no和BUILD_GMSno有什么区别&#xff1f;&#xff1f; 如果带了谷歌&#xff0c;那么这个设备就差不多是国外定…

低代码平台盘点:这5款平台备受欢迎!

随着数字化转型需求的持续增长&#xff0c;企业正在寻求更高效的方式来构建定制软件。低代码平台因其能够以最少的编码需求促进更快的应用程序开发而广受欢迎。这些平台提供拖放界面、预置模板和可视化设计工具&#xff0c;使用户无需具备编程语言专业知识即可构建自定义应用程…

超详细的React路由基础使用

目录 基础路由 结构准备 封装自定义NavLink 路由的模糊匹配 嵌套路由 路由传参 声明式路由 路由传递params参数 search(也称query)参数 state传参 编程式路由导航 withRouter 演示 基础路由 单页应用程序 SPA: 整个应用只有一个完整的页面 点击页面中的链接不会刷新…

API架构的选择,RESTful、GraphQL还是gRPC

文章目录 一、RESTful1、什么是RESTful&#xff1f;2、RESTful架构的原则3、RESTful的适用场景4、RESTful的优点5、RESTful的缺点 二、GraphQL1、什么是GraphQL&#xff1f;2、GraphQL的原则3、GraphQL的优点4、GraphQL的缺点 三、gRPC1、什么是gRPC2、gRPC的应用场景3、gRPC的…

SpringBoot打包轻身方法

前言: 记得有人说过,Sb(ps:简称:SpringBoot)可以采用镜像分离进行部署打包,但是这种的话需要docker环境,由于Docker不会使用,还会在Centenos中出现各种错误,无法解决.个人菜 纯属个人意见,本次不会采用Docker 进而采用maven的插件进行打包. 1,在pom文件中加入配置以下: <bu…

队列的实现(附含三道经典例题)

&#x1f349;文章主页&#xff1a;阿博历练记 &#x1f4d6;文章专栏&#xff1a;数据结构与算法 &#x1f68d;代码仓库&#xff1a;阿博编程日记 &#x1f365;欢迎关注&#xff1a;欢迎友友们点赞收藏关注哦&#x1f339; 文章目录 &#x1f33e;前言&#x1f3ac;队列&…

HACK ME PLEASE: 1

文章目录 HACK ME PLEASE: 1实战演练一、前期准备1、相关信息 二、信息收集1、访问网站2、端口扫描2、扫描目录3、访问网站4、访问网站5、扫描目录6、访问网站7、登录MySQL数据库8、查看数据表9、查看users表的内容10、查看tblUsers表内容11、解密12、加密13、修改密码14、查询…

解决Ubuntu 22.04 程序以管理员权限运行无法播放声音

文章目录 摘要需求背景问百度问GPT最终解决方案,这篇文章的核心第一步,把root账户加入到组里面,第二步,编写一个服务文件第三步,允许这个文件第四步,启动服务第五步,修改Config文件第六步,重启电脑关键字: Qt、 pulseaudio、 管理员、 声音、 服务 摘要 这个是我…

CentOS 7.9配置SSH免密登录(无需合并authorized_keys)

场景&#xff1a;在CentOS 7.9操作系统上&#xff0c;配置SSH免密登录&#xff0c;以满足集群中应用的控制脚本能够依赖SSH来执行针对整个集群的操作。 版本&#xff1a; 操作系统&#xff1a;CentOS 7.9 1.配置SSH免密登录原因 (1)规划安装和部署的组件在运行时&#xff0…

科技云报道:ChatGPT的胜利,宣告知识图谱的消亡?

科技云报道原创。 过去10年&#xff0c;知识图谱可谓是最接近“人工智能”的概念。业内普遍认为&#xff0c;知识图谱的概念最先是由谷歌于2012年正式提出&#xff0c;主要用来支撑下一代搜索和在线广告业务。 此后&#xff0c;这项技术迅速火爆&#xff0c;被国内外多家搜索…

FasterTransformer5.0编译安装与测试

基础环境&#xff1a;centos7 cuda10.2cudnn7 显卡&#xff1a;Tesla V100 1 C编译准备 代码准备&#xff1a; git clone -b release/v5.0_tag https://github.com/NVIDIA/FasterTransformer.git mkdir -p FasterTransformer/build cd FasterTransformer/build git submodu…

2023年还有人在纠结如何学习黑客知识?

首先我谈下对黑客&网络安全的认知&#xff0c;其实最重要的是兴趣热爱&#xff0c;不同于网络安全工程师&#xff0c;他们大都是培训机构培训出来的&#xff0c;具备的基本都是防御和白帽子技能&#xff0c;他们绝大多数的人看的是工资&#xff0c;他们是为了就业而学习&am…

【国产虚拟仪器】基于AD9172/AD9176的4 通道12.6GSPS 采样率16 位DA 播放FMC JESD204B 接口子卡模块

板卡概述 FMC_XM131 是一款4 通道12.6GSPS 采样率16 位DA 播放FMC子卡模块&#xff0c;该板卡为FMC标准&#xff0c;符合VITA57.4 规范&#xff0c;可以作为一个理想的IO 模块耦合至FPGA 前端&#xff0c;16 通道的JESD204B 接口通过FMC连接器连接至FPGA 的高速串行端…