selenium自动化教程及使用java来爬取数据

news2025/1/9 14:53:57

目录

  • 一、介绍
  • 二、下载浏览器驱动
    • 1.获取要下载的驱动版本号
    • 2.下载驱动
  • 三、Maven如下
  • 四、简单使用
  • 五、定位器
    • 1.定位器
    • 2.说明
      • (1) class name 定位器
      • (2) css selector 定位器
      • (3) id 定位器
      • (4) name 定位器
      • (5) link text 定位器
      • (6) partial link text 定位器
      • (7) tag 定位器
      • (8) xpath 定位器
  • 六、常见操作
    • 1.打开网址链接
    • 2.获取当前网页的标题和链接
    • 3.浏览器前进、后退、刷新、关闭
    • 4.弹窗的警告、确认
  • 七、使用 cookie
    • 1.添加cookie
    • 2.获取与删除 Cookie
      • (1)获取指定 Cookie
      • (2)获取所有 Cookie
      • (3)删除指定 Cookie
      • (4)删除所有 Cookie
  • 八、键盘与鼠标操作

一、介绍

selenium 是一个用于自动化测试 Web 应用的工具集 ,它可以模拟用户自动去浏览器网页上进行点击、输入、选择下拉值复选框、鼠标移动、任意 JavaScript 执行等等操作。

selenium 有三个产品:

  • Selenium WebDriver:基于浏览器的回归自动化套件和测试,你可以使用 Java、Python、JavaScript、Ruby、JavaScript、C# 这些语言中的一种来编写代码,Selenium WebDriver 会根据代码去打开浏览器自动去网页上进行操作和测试。
  • Selenium IDE:selenium 开发的浏览器里的一款插件,它是界面化的操作,不用编写代码。如果你使用的谷歌浏览器你可以去谷歌插件应用商店搜索 Selenium IDE 进行安装和使用。Selenium IDE 的使用可以参考:Selenium IDE教程
  • Selenium Grid:通过在多台机器上分布式运行测试,可以从一个中心点管理多个环境,从而轻松针对大量浏览器/操作系统进行组合运行测试。

本文讲的是使用 Selenium WebDriver 通过 java 代码来自动对网页进行操作,推荐使用 Chrome 浏览器来操作。

二、下载浏览器驱动

1.获取要下载的驱动版本号

请添加图片描述

Chrome 浏览器里查看你当前的版本,我这里是114.0.5735.134 ,丢弃最后一位数,得到 114.0.5735 ,然后拼接到https://chromedriver.storage.googleapis.com/LATEST_RELEASE_ 会得到一个链接,我得到的链接如下:

https://chromedriver.storage.googleapis.com/LATEST_RELEASE_114.0.5735

浏览器访问该链接会得到一个版本号

请添加图片描述

我这里得到的是 114.0.5735.90 ,说明我应该要下载 114.0.5735.90 的驱动。

(关于版本选择可参考: Version Selection)

2.下载驱动

根据上面得到的版本号,去 ChromeDriver 下载 页面选择对应的谷歌浏览器版本号的驱动。

请添加图片描述

然后根据你电脑的操作系统下载对应驱动并解压(我这里下载的是 windos 版的),解压后得到 chromedriver.exe。

请添加图片描述

三、Maven如下

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>4.10.0</version>
        </dependency>

四、简单使用

下面的例子将会自动打开一个新的浏览器窗口,然后自动打开百度并自动搜索 “csdn 西凉的悲伤”,然后自动点击打开第一个搜索结果即我的博客主页,然后把抓取博客主页的文章目录和链接。

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.support.ui.WebDriverWait;
import java.time.Duration;
import java.util.List;

import static org.openqa.selenium.support.ui.ExpectedConditions.numberOfWindowsToBe;
import static org.openqa.selenium.support.ui.ExpectedConditions.titleIs;


public class MainServer {
    public static void main(String[] args) {
        //加载 chromedriver 驱动
        System.setProperty("webdriver.chrome.driver", "D:\\Program\\chromedriver\\chromedriver.exe");
        //打开一个浏览器窗口
        WebDriver driver = new ChromeDriver();
        //打开百度链接
        driver.navigate().to("http://www.baidu.com/");
        //在搜索文本框输入"csdn 西凉的悲伤"
        driver.findElement(By.id("kw")).sendKeys("csdn 西凉的悲伤");
        //点击搜索按钮
        driver.findElement(By.id("su")).click();


        //存储当前原始窗口或页签的ID
        String originalWindow = driver.getWindowHandle();
        //获取当前打开的窗口或页签数
        int windosSize = driver.getWindowHandles().size();

        //等到百度搜索结果页面元素加载完(这里最多等5秒)
        driver.manage().timeouts().implicitlyWait(Duration.ofSeconds(5));
        //点击第一条搜索结果,会打开新页签,也就是第2个页签
        driver.findElement(By.xpath("//*[@id='content_left']/div[@id='1']/div[@class='c-container']/div/h3/a")).click();


        WebDriverWait wait = new WebDriverWait(driver, Duration.ofMillis(10));
        //等待第2个新窗口或新页签打开
        wait.until(numberOfWindowsToBe(2));
        //循环指导找到新窗口或页签的句柄
        for (String windowHandle : driver.getWindowHandles()) {
            if(!originalWindow.contentEquals(windowHandle)) {
                //driver切换为新窗口或新页签的
                driver.switchTo().window(windowHandle);
                break;
            }
        }
        //等待新窗口或新页签的内容加载
        wait.until(titleIs("西凉的悲伤的博客_CSDN博客-java,工具,其他领域博主"));


        //读取当前页面标题
        System.out.println("当前网址的标题:"+driver.getTitle());
        //从地址栏中读取当前 URL
        System.out.println("当前网址的链接:"+driver.getCurrentUrl());
        System.out.println();


        List<WebElement> articleTitles = driver.findElements(By.xpath("//*[@class='blog-list-box-top']/h4"));
        List<WebElement> articleUrls = driver.findElements(By.xpath("//*[@class='blog-list-box']/a"));
        for (int i = 0; i < articleTitles.size(); i++) {
            String articleTitle = articleTitles .get(i).getText();
            String articleUrl = articleUrls.get(i).getAttribute("href");
            System.out.println("文章标题:"+articleTitle+" 链接:"+articleUrl);
        }
    }
}

效果如下:
请添加图片描述

1.上面的代码使用了System.setProperty 来加载驱动,当然,你也可以把它配置到环境变量里就不用从代码里加载驱动了。你可以参考这篇文章来配置驱动的环境变量:selenium配置使用chromedriver。

2.上面的代码使用了 implicitlyWait 方法来显式等待页面加载完,然后再去查找第一条搜索结果并点击,如果不等页面加载完就查找会找不到并报错。除了显式等待,还有隐式等待、流利等待,你可参考官网的说明:selenium Waits

3.如果想不打开浏览器即不打开浏览器 GUI,只让程序在后台跑把数据加载到内存在内存操作输出结果,可以把上面第18行代码替换为如下:

        ChromeOptions options = new ChromeOptions();
        options.addArguments("--headless"); //无浏览器模式
        options.addArguments("--disable-gpu"); // 谷歌文档提到需要加上这个属性来规避bug
        WebDriver driver = new ChromeDriver(options);

五、定位器

网页上有很多元素按钮和文本等东西,比如:如果你想自动点击登录按钮,需要先找到登录按钮;如果你想点击某个链接需要先找到该链接才能点击。

1.定位器

帮我们找元素的这个东西就叫做定位器,上面的示例里使用了 xpath 定位器,不止 xpath 定位器,selenium 还为我们提供了其他定位器方便我们来查找元素。

定位器描述
class name根据class 的值来搜索匹配元素
css selector根据 css 的值来搜索匹配元素
id根据 id 属性的值来搜索匹配元素
name根据 name 属性的值来搜索匹配元素
link text根据链接显示的全部文本搜索匹配元素
partial link text根据链接显示的部分文本搜索匹配元素
tag name根据html标签名搜索匹配元素
xpath根据元素的层级位置搜索匹配元素

2.说明

以以下 html 为例,对上面的定位器进行说明。

<html>
<body>
<style>
.information {
  background-color: white;
  color: black;
  padding: 10px;
}
</style>
<h2>Contact Selenium</h2>

<form action="/action_page.php">
  <input type="radio" name="gender" value="m" />Male &nbsp;
  <input type="radio" name="gender" value="f" />Female <br>
  <br>
  <label for="fname">First name:</label><br>
  <input class="information" type="text" id="fname" name="fname" value="Jane"><br><br>
  <label for="lname">Last name:</label><br>
  <input class="information" type="text" id="lname" name="lname" value="Doe"><br><br>
  <label for="newsletter">Newsletter:</label>
  <input type="checkbox" name="newsletter" value="1" /><br><br>
  <input type="submit" value="Submit">
</form> 

<p>To know more about Selenium, visit the official page 
<a href ="www.selenium.dev">Selenium Official Page</a> 
</p>

</body>
</html>

(1) class name 定位器

HTML 页面 Web 元素可以具有class属性,我们可以使用 Selenium 中可用的类名定位器来识别这些元素。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.className("information"));

(2) css selector 定位器

CSS 是用于设置 HTML 页面样式的语言。我们可以使用 css 选择器定位器策略来识别页面上的元素。如果元素有一个 id,我们创建定位器为 css = #id。否则我们遵循的格式是 css =[attribute=value] 。下面使用 css 为名字文本框创建定位器。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.cssSelector("#fname"));

(3) id 定位器

我们可以使用网页中元素可用的 ID 属性来定位它。通常,ID 属性对于网页上的元素应该是唯一的。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.id("lname"));

(4) name 定位器

我们可以使用网页中元素可用的 NAME 属性来定位它。通常 NAME 属性对于网页上的元素应该是唯一的。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.name("newsletter"));

(5) link text 定位器

如果我们要定位的元素是一个链接,我们可以使用链接文本定位器在网页上识别它。链接文本是链接显示的文本。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.linkText("Selenium Official Page"));

(6) partial link text 定位器

如果我们要定位的元素是一个链接,我们可以使用部分链接文本定位器在网页上识别它。链接文本是链接显示的文本。我们可以将部分文本作为值传递。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.partialLinkText("Official Page"));

(7) tag 定位器

我们可以使用 HTML TAG 本身作为定位器来识别页面上的 Web 元素。使用tag 定位器来定位“a”标签。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.tagName("a"));

(8) xpath 定位器

一个HTML文档可以看作是一个XML文档,然后我们就可以使用xpath来遍历到达感兴趣元素的路径来定位元素。XPath 可以是绝对 xpath,它是从文档的根目录创建的。示例 - /html/form/input[1]。这将返回男性单​​选按钮。或者 xpath 可能是相对的。示例: //输入[@name=‘fname’]。这将返回名字文本框。让我们使用 xpath 为女性单选按钮创建定位器。

    WebDriver driver = new ChromeDriver();
	driver.findElement(By.xpath("//input[@value='f']"));

关于 xpath 定位器你可以参考文章: Selenium 中的 XPath 和 selenium 定位元素

六、常见操作

1.打开网址链接

//方便的方式
driver.get("http://www.baidu.com");
//或者长一点的方式
driver.navigate().to("http://www.baidu.com");

2.获取当前网页的标题和链接

//读取当前页面标题
driver.getTitle();
//从地址栏中读取当前 URL
driver.getCurrentUrl();

3.浏览器前进、后退、刷新、关闭

//浏览器的后退
driver.navigate().back();
//浏览器的前进
driver.navigate().forward();
//浏览器的刷新
driver.navigate().refresh();
//关闭浏览器
driver.quit();

4.弹窗的警告、确认

(1)获取警告弹窗的文本并点击确认

//使用link text定位器找到页面链接,并点击它来出发弹窗 
driver.findElement(By.linkText("See an example alert")).click();
//等弹窗显示并获取弹窗对象
Alert alert = wait.until(ExpectedConditions.alertIsPresent());
//获取弹窗的文本内容
String text = alert.getText();
//点击弹窗的确认按钮
alert.accept();

(2)确认弹窗类似于警告弹窗,除了用户还可以选择取消消息。
此示例还展示了另一种获取弹窗对象的方法:

//使用link text定位器找到链接,并点击它来出发弹窗 
driver.findElement(By.linkText("See a sample confirm")).click();
//等弹窗显示
wait.until(ExpectedConditions.alertIsPresent());
//获取弹窗对象
Alert alert = driver.switchTo().alert();
//获取弹窗的文本内容
String text = alert.getText();
//点击弹窗的取消按钮
alert.dismiss();

(3)可输入的弹窗
提示类似于确认弹窗,可输入的弹窗还可以输入一些文本信息,与使用表单元素类似。

//使用link text定位器找到链接,并点击它来出发弹窗 
driver.findElement(By.linkText("See a sample prompt")).click();
//等弹窗显示并获取弹窗对象
Alert alert = wait.until(ExpectedConditions.alertIsPresent());
//在弹窗的输入框输入“你好啊”
alert.sendKeys("你好啊");
//按确定按钮
alert.accept();

七、使用 cookie

1.添加cookie

public static void main(String[] args) {
        WebDriver driver = new ChromeDriver();
        try {
        	//打开网址
            driver.get("http://www.example.com");
            //添加cookie到当前浏览器网址的上下文中
            driver.manage().addCookie(new Cookie("key", "value"));
        } finally {
        	//关闭浏览器
            driver.quit();
        }
}

2.获取与删除 Cookie

(1)获取指定 Cookie

public static void main(String[] args) {
       WebDriver driver = new ChromeDriver();
        try {
            driver.get("http://www.example.com");
            //设置一个Cookie
            driver.manage().addCookie(new Cookie("login", "fgflkshf&"));
            // 获取key是 'login'的Cookie
            Cookie cookie1 = driver.manage().getCookieNamed("login");
            System.out.println(cookie1);
        } finally {
            driver.quit();
        }
}

(2)获取所有 Cookie

		Set<Cookie> cookies = driver.manage().getCookies();

(3)删除指定 Cookie

 		driver.manage().deleteCookieNamed("login");

(4)删除所有 Cookie

		driver.manage().deleteAllCookies();

八、键盘与鼠标操作

键盘与鼠标操作可参考官网说明:

1.键盘操作说明

2.鼠标操作说明

3.滚轮操作说明


参考:
Java-Selenium自动化教程(学了不亏)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/663292.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 内存检测LeakCanary

在github上下载了一个项目&#xff1a;安装debug版本会产生两个apk&#xff0c;一个是apk本身&#xff0c;一个是Leaks release版本就正常 不会产生这个问题&#xff0c;百思不得其解&#xff0c;第一次遇到这个问题。 看到这篇博客豁然开朗&#xff1a;在build.gradle.kts 里…

3天爆肝整理,性能测试问题汇总+解决办法(重要)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 开始性能测试前需…

入门孪生网络3-------使用一维卷积神经网络1DCNN与孪生网络的组合模型来实现excel数据的分类

文章目录 前言入门孪生网络的第三小节&#xff0c;我尝试使用keras或tensorflow2框架来搭建一个数据分类的网络。大家可以参考的程序思路&#xff0c;我也是小白&#xff0c;可以评论区一起讨论。 一、孪生网络与1DCNN组合网络的搭建思路二、我编写的孪生网络与1DCNN组合网络程…

操作教程:EasyCVR视频融合平台如何配置平台级联?

EasyCVR视频融合平台基于云边端一体化架构&#xff0c;可支持多协议、多类型设备接入&#xff0c;在视频能力上&#xff0c;平台可实现视频直播、录像、回放、检索、云存储、告警上报、语音对讲、电子地图、集群、智能分析以及平台级联等。平台可拓展性强、开放度高、部署轻快&…

干货讲解,财务报表结构分析

财务报表的构成是对企业财务状况、经营成果和现金流量的结构性表述。企业必须重视财务结构对经营业绩的影响&#xff0c;才能解决发展中的问题。 资产质量关注两个角度&#xff0c;一是资产结构&#xff0c;二是现金含量。 资产结构是什么意思呢&#xff1f;就是固定资产和无…

Linux 定时任务提权

Linux 定时任务提权 1.概述2.定时任务创建3.提权步骤 1.概述 定时任务&#xff08;cron job&#xff09;是Linux系统中的一个守护进程&#xff0c;用于调度重复任务&#xff0c;通过配置crontab可以让系统周期性地执行某些命令或者脚本。cron 是 Linux 系统中最为实用的工具之…

apple pencil二代平替笔哪个好用?苹果平板触控笔

随着互联网的快速发展&#xff0c;移动数码产品如手机、平板电脑、笔记本等正逐步进入人们的日常生活。同时电容笔的出现&#xff0c;也让这些产品的功能作用更上一层楼。由于苹果原装电容笔的价格非常贵&#xff0c;使得国内出现了越来越多的平替电容笔。总的来说&#xff0c;…

前端开发:基于cypress的自动化实践

如何在vue中使用cypress如何运行cypress如何编写测试用例如何解决测试数据的问题遇到的元素定位的问题如何看待cypresscypress是否为最佳工具测试怎么办&#xff1f; 如何在vue中使用cypress vue提供了vue-cli 可以快速的创建vue项目。 vue create hello-world在选择安装项里…

【亲测】集群环境中MMDetection3.0环境配置

本文记录下在集群环境下使用MMDetection的内容。 环境简介&#xff1a;所用集群设备为本地集群&#xff0c;具有管理节点和计算节点&#xff0c;且管理和计算在不同的主机上&#xff0c;作为用户&#xff0c;没有超级管理员权限。 MMdetection源码下载点击进入 这里主要记录下环…

二叉树题目:二叉树的中序遍历

文章目录 题目标题和出处难度题目描述要求示例数据范围进阶 解法一思路和算法代码复杂度分析 解法二思路和算法代码复杂度分析 解法三思路和算法代码复杂度分析 题目 标题和出处 标题&#xff1a;二叉树的中序遍历 出处&#xff1a;94. 二叉树的中序遍历 难度 3 级 题目描…

Windows Terminal添加至鼠标右键

Windows Terminal添加至鼠标右键 安装 在Microsoft Store中即可下载。 配置 在鼠标右键打开 下载Terminal图标 图标地址:https://raw.githubusercontent.com/microsoft/terminal/master/res/terminal.ico 下载后保存在某个文件夹path 添加到鼠标右键 批处理修改注册表 …

Linux常见指令(超详解哦)

Linux常见指令 引言Linux常见指令查指令——man文件管理相关指令lspwdcdtouchmkdirrmdir与rmrmdirrm cpmvfind 文件查看类catmorelesshead 与 tailheadtail使用管道显示某段内容 grep 打包压缩相关指令zip/unziptar 总结 引言 Linux与我们熟悉的Window都是操作系统&#xff0c…

spring-aop入门

spring-aop入门 什么是AOP OOP(Object-Oriented Programming)面向对象编程&#xff0c;允许开发者定义纵向的关系&#xff0c;但并适用于定义横向的关系&#xff0c;导致了大量代码的重复&#xff0c;而不利于各个模块的重用。 AOP(Aspect-Oriented Programming)&#xff0c;…

优思学院|质量管理六大思维陷阱【五】:有了控制图就能改进质量?

1. 引言 在工厂的生产过程中&#xff0c;质量控制是至关重要的。控制图是一种常见的质量管理工具&#xff0c;它可以帮助工厂监测过程的稳定性和质量表现&#xff0c;同时它也是六西格玛最重要的工具之一。然而&#xff0c;人们对于控制图的理解并不总是正确&#xff0c;有时被…

【中危】Kubernetes secrets-store-csi-driver 信息泄露漏洞

漏洞描述&#xff1a; Kubernetes secrets-store-csi-driver 是一个用于 Kubernetes 的 CSI 驱动程序&#xff0c;它提供了一种将外部密钥存储系统中的凭据注入到 Kubernetes Pod 的机制。 在 secrets-store-csi-driver 受影响版本中&#xff0c;当在 CSIDriver 对象中配置了…

操作系统期末复习简记(更新中~)

文件 定义&#xff1a;文件是以计算机硬盘为载体的存储在计算机上的信息集合&#xff08;宽泛的&#xff09; 属性&#xff1a;描述文件状态的信息&#xff0c;eg.名称&#xff0c;修改时间等等 基本操作&#xff1a;创建、打开、修改文件 文件的逻辑结构 1、无结构文件&#x…

【SpringMVC】统一异常处理 前后台协议联调 拦截器(文末赠书)

1&#xff0c;统一异常处理 1. 问题描述 在讲解这一部分知识点之前&#xff0c;我们先来演示个效果&#xff0c;修改BookController类的getById方法 GetMapping("/{id}") public Result getById(PathVariable Integer id) {//手动添加一个错误信息if(id1){int i …

JS BOM和DOM对象的尺寸

A scroll…..系列 scrollHeight: 获取对象的滚动高度。 scrollWidth:获取对象的滚动宽度 scrollLeft:设置或获取位于对象左边界和窗口中目前可见内容的最左端之间的距离 内容距左边框的距离(不算padding与border) scrollTop:设置或获取位于对象最顶端和窗口中可见内容的最…

智慧景区预约系统开发 实现游客自助游玩

旅游是我们休闲娱乐的重要手段之一&#xff0c;尤其是疫情放开以来&#xff0c;旅游成为很多人节假日的首选。绝大多数的旅游景区都是需要购票参观的&#xff0c;对于景区来说也是卖出的票越多&#xff0c;盈利越多。所以各大景区也一直都在拓展新的售票渠道来提升旅客数量。通…

JavaScript基础笔记

JavaScript 介绍 JavaScript 是什么 1JavaScript 书写位置 JavaScript 注释 JavaScript 结束符 JavaScript 输入输出语法 变量 变量是什么&#xff1f; 变量的基本使用 变量的本质 变量命名规则与规范 数组的基本使用 常量 数据类型 数据类型 – 数字类型&#xff08;Number&…