Python爬虫框架之Selenium库入门:用Python实现网页自动化测试详解

news2025/1/16 10:55:22

f84f55b244044817a84be4552036dabe.png


 概要

是否还在为网页测试而烦恼?是否还在为重复的点击、等待而劳累?试试强大的Selenium!让你的网页自动化测试变得轻松有趣!

 

一、Selenium库到底是什么?

Selenium 是一个强大的自动化测试工具,它可以让你直接操控浏览器,完成各种与网页交互的任务。通过使用 Python 的 Selenium 库,你可以高效地实现网页自动化测试,从而节省大量时间和精力。

1.1 Selenium库的主要功能

  • 自动化测试:可以实现对网站的自动化功能测试,比如点击按钮、输入文本、选择下拉菜单等。

  • 网页爬虫:对于一些需要登录或者有反爬机制的网站,使用 Selenium 可以轻松应对。

  • 自动化任务:如定时访问网站、自动提交表单等。

1.2 Selenium库的优势

  1. 支持多种编程语言:Python、Java、C#、Ruby 等。

  2. 支持多种浏览器:Chrome、Firefox、Edge、Safari 等。

  3. 跨平台:Windows、macOS、Linux。

  4. 社区活跃,持续更新维护。

二、Selenium库的安装与配置

2.1 安装Selenium库

在安装 Selenium 库之前,请确保已经安装了 Python。接下来,只需打开终端或命令提示符,输入以下命令即可安装 Selenium 库:

pip install selenium

2.2 配置浏览器驱动

要使用 Selenium 控制浏览器,你还需要安装对应浏览器的驱动。这里以 Chrome 浏览器为例,其他浏览器驱动的安装方法类似。

  1. 下载 Chrome 驱动:搜 ChromeDriver 在下载页面选择与你的 Chrome 浏览器版本匹配的驱动。

  2. 解压下载的压缩包,将解压后的 chromedriver 文件放置在一个可执行路径下,如 /usr/local/bin(macOS、Linux)或 C:\Windows(Windows)。

三、使用Selenium库进行基本操作

3.1 启动浏览器

导入 Selenium 的 webdriver 模块,然后实例化一个 Chrome 驱动对象,就可以启动 Chrome 浏览器了:

from selenium import webdriver

driver = webdriver.Chrome()

3.2 打开网页

使用 get 方法,传入目标网址,即可让浏览器打开该网址:

driver.get("https://www.baidu.com")

3.3 定位页面元素

Selenium 提供了多种定位页面元素的方法,如 find_element_by_idfind_element_by_namefind_element_by_class_name 等。这里以百度搜索框为例,使用 find_element_by_id 方法定位:

search_box = driver.find_element_by_id("kw")

3.4 操作页面元素

找到页面元素后,你可以对其进行各种操作,如输入文本、点击按钮等。这里以输入搜索关键词为例:

search_box.send_keys("Selenium")

3.5 提交表单

在搜索框输入关键词后,还需要点击“百度一下”按钮来提交表单。这里用 find_element_by_id 方法定位按钮,然后用 click 方法进行点击:

search_button = driver.find_element_by_id("su")
search_button.click()

3.6 等待页面加载

在进行自动化测试时,很多时候需要等待页面加载。Selenium 提供了两种等待方法:显式等待和隐式等待。

3.6.1 显式等待

显式等待会在指定时间内,不断尝试查找目标元素,直到找到为止。这里以等待搜索结果出现为例:

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "content_left"))
    )
except TimeoutException:
    print("等待超时!")

3.6.2 隐式等待

隐式等待会在查找元素时,等待指定时间后再抛出异常。这里以等待搜索结果出现为例:

driver.implicitly_wait(10)
content_left = driver.find_element_by_id("content_left")

3.7 获取页面信息

获取页面的标题、URL、源代码等信息:

title = driver.title
url = driver.current_url
source = driver.page_source

print("标题:", title)
print("URL:", url)

3.8 关闭浏览器

完成所有操作后,别忘了关闭浏览器:

driver.quit()

四、Selenium库的高级应用

4.1 切换窗口

在进行自动化测试时,有时需要切换到新打开的窗口。这里以点击百度首页底部的 “关于百度” 链接为例,演示如何切换窗口:

from selenium.webdriver.common.keys import Keys

about_link = driver.find_element_by_link_text("关于百度")
about_link.send_keys(Keys.CONTROL + Keys.RETURN)

driver.switch_to.window(driver.window_handles[-1])

4.2 切换 Frame

有些网页会使用 Frame 嵌套页面,这时需要切换到对应的 Frame 才能操作其中的元素。切换 Frame 可以用 switch_to.frame 方法:

driver.switch_to.frame("frame_name")

切换回主页面可以用 switch_to.default_content 方法:

driver.switch_to.default_content()

4.3 执行 JavaScript 代码

有时候,你可能需要执行一些 JavaScript 代码来实现特定功能,比如滚动页面、修改元素属性等。这里以滚动页面为例:

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

五、技术总结

通过本文的介绍,相信你已经掌握了 Selenium 库的基本知识,包括自动化测试、浏览器驱动、页面交互等。现在,你可以用 Python + Selenium 轻松搞定网页自动化测试啦!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/935263.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OLED透明屏水波纹效果:打造独特的显示体验

OLED透明屏水波纹效果是一种独特的显示技术,通过模拟水波纹的视觉效果,为用户带来更加生动逼真的观感。 根据市场调研报告显示,OLED透明屏水波纹效果已经在广告、游戏和商业领域得到广泛应用,为品牌提供了新的展示方式&#xff0…

Git想远程仓库与推送以及拉取远程仓库

理解分布式版本控制系统 1.中央服务器 我们⽬前所说的所有内容(⼯作区,暂存区,版本库等等),都是在本地也就是在你的笔记本或者计算机上。⽽我们的 Git 其实是分布式版本控制系统!什么意思呢? 那我们多人…

java八股文面试[多线程]——为什么要用线程池、线程池参数

速记7个: 核心、最大 存活2 队列 工厂 拒绝 线程池处理流程: 线程池底层工作原理: 线程复用原理: 知识来源: 【并发与线程】为什么使用线程池,参数解释_哔哩哔哩_bilibili 【并发与线程】线程池处理流程…

【⑮MySQL | 视图】概述 | 创建 | 查看 | 更新 | 修改 | 删除

前言 ✨欢迎来到小K的MySQL专栏,本节将为大家带来MySQL视图概述 | 创建 | 查看 | 更新 | 修改 | 删除的分享✨ 目录 前言1.视图概述2.创建视图3.查看视图4.更新视图数据5.修改视图6.删除视图总结 1.视图概述 1.1 为什么使用视图? 视图一方面可以帮我们使…

【Acwing91】最短Hamilton路径详细题解

题目描述 题目分析 首先我们来分析暴力做法,此时最大需要遍历(n20)20个顶点的排列方式,总共计算的次数为20!,数量级远远大于10^8,显然是不合理的。 此时,我们可以对上述dfs遍历的众多情况进行…

SpringBoot项目在启动后自动关闭

问题描述: 今天搭建了一个SpringBoot项目,但是在启动之后就自行关闭了,就像下面这样: 原因分析:在创建SpringBoot项目的时候,Web的依赖没有导入,默认以普通java项目运行导致的终止。 解决方案…

【Tkinter系列01/5】界面初步和布局

一、说明 一般来说,界面开发中,如果不是大型的软件,就不必用QT之类的实现,用Tkinter已经足够,然而即便是Tkinter规模不大,也需要一个系统专业的学习过程,本篇将是对Tkinter系列介绍的一篇博文。…

SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录(第五天)MyBatis的注解开发

SSM框架的学习与应用(Spring Spring MVC MyBatis)-Java EE企业级应用开发学习记录(第五天)MyBatis的注解开发 ​ 昨天我们深入学习了MyBatis多表之间的关联映射,了解掌握了一对一关联映射,一对多关联映射,嵌套查询方…

基于Milvus Cloud的相似穿搭推荐系统教程——图像分割

作为一个大众眼中的“非典型程序员”,我喜欢拥抱时尚和潮流,比如我经常在演讲时穿粉色裤子,这甚至已经成为一个标志性打扮。某天又逢主题演讲日,我站在衣柜前挑选上衣的时候,忽然灵光乍现:有没有可能借助 Milvus Cloud找到和我穿搭风格最为相似的明星呢? 这个想法在我脑…

不系安全带抓拍自动识别

不系安全带抓拍自动识别系统通过yolo系列算法框架模型利用高清摄像头,不系安全带抓拍自动识别算法对高空作业场景进行监控,当检测到人员未佩戴安全带时会自动抓拍并进行告警记录。YOLO系列算法是一类典型的one-stage目标检测算法,其利用ancho…

Day44|leetcode 518.零钱兑换II、377. 组合总和 Ⅳ

完全背包理论基础 视频链接:带你学透完全背包问题! 和 01背包有什么差别?遍历顺序上有什么讲究?_哔哩哔哩_bilibili 完全背包与01背包不同的地方就是:01背包每种物品只能取一次,而完全背包每种物品可以取…

【排序】快速排序(前后指针法)—— 考的最少的一种算法

以从小到大的顺序进行说明。 前后指针法 是指对于一个数组,定义前后各一个指针(prev 和 cur) prev用于卡一个比基准值大的值进行交换cur用于向前遍历出比基准值小的,和prev进行交换 图解 初始化 选出基准值4 如果cur 所在的值…

重要岗位人员脱岗预警 脱岗监测预警算法

重要岗位人员脱岗预警 脱岗监测预警算法通过yolov8网络模型深度学习算法,重要岗位人员脱岗预警 脱岗监测预警算法对现场人员行为进行实时监测和识别,通过算法识别脱岗、睡岗和玩手机等异常行为,实现对人员行为的预警和告警。YOLOv8是目前YOLO…

java八股文面试[多线程]——什么是守护线程

知识来源: 【2023年面试】什么是守护线程_哔哩哔哩_bilibili

【Linux】DNS系统,ICMP协议,NAPT技术

遏制自己内心的知识优越感,才能让你发自内心的去尊重他人,避免狂妄自大,才能让你不断的丰富自己的内心。 文章目录 一、DNS系统1.DNS服务器返回域名对应的ip2.使用dig工具分析DNS过程3.浏览器中输入url后发生的事情? 二、ICMP协议…

【Springboot】| 从深入自动配置原理到实现 自定义Springboot starter

目录 一. 🦁 前言二. 🦁 Spring-boot starter 原理实现分析2.1 自动配置原理 三. 🦁 操作实践3.1 项目场景3.2 搭建项目3.3 添加相关依赖3.4 删除一些不需要的东西3.5 发邮件工具类逻辑编写3.6 创建相关配置类3.7 创建 Spring.factories 文件…

java八股文面试[多线程]——死锁、活锁、饥饿

DCL双重锁:TODO 如何预防死锁: 如何查看线程死锁: 知识来源: 【2023年面试】描述一下线程安全活跃态问题,以及竞态条件_哔哩哔哩_bilibili 【2023年面试】如何预防死锁_哔哩哔哩_bilibili 【并发与线程】阿里一面&…

手把手教你用 ANSYS workbench

ANSYS Workbench ANSYS Workbench是一款基于有限元分析(FEA)的工程仿真软件。其基本概念包括: 工作区(Workspace):工程仿真模块都在此区域内,包括几何建模、网格划分、边界条件设置、分析求解等…

锐捷PPP协议原理--尚文网络敏姐

PPP 点对点协议 目录 PPP 点对点协议 PPP 简介 PPP协议层介绍: PPP协议工作原理 第一个阶段:LCP协商 第二阶段:身份认证阶段 第三阶段:NCP协商阶段 PPP配置实验 PAP的单向认证: PAP双向认证 CHAP的单向认证&#…

数组名和函数名是指针?指针和引用底层一样?

在2023/8/26日晚上,我看到一个所谓“典”的视频,一开始还没太在意,后面想了想发现我貌似也一直犯了以下的错误,而错误的原因在于我在新手阶段学习C/C并不是查阅文档扎好脚步学习的,而是被铺天盖地的新手学习基础教程里…