网页自动化测试和爬虫:Selenium库入门与进阶

news2024/11/7 5:58:50

网页自动化测试和爬虫:Selenium库入门与进阶

在现代Web开发和数据分析中,自动化测试和数据采集成为了开发流程中的重要部分。Python 的 Selenium 库是一种强大的工具,不仅用于网页自动化测试,也在网页爬虫中得到了广泛的应用。本文将带你从 Selenium 的基础用法入手,逐步深入到进阶技巧,帮助你轻松应对网页自动化任务。

一、Selenium简介与安装

Selenium 是一个浏览器自动化工具,可以模拟用户操作,如点击按钮、填入表单、滚动页面等。它支持多种浏览器(如 Chrome、Firefox 等),使其成为自动化测试和动态页面数据采集的强力工具。

1. 安装Selenium

使用 pip 安装 Selenium:

pip install selenium

另外,还需下载相应浏览器的驱动程序,比如 chromedrivergeckodriver。以 Chrome 为例,你可以从 ChromeDriver官网 下载对应的驱动,并将其路径加入到系统 PATH 中。

2. 快速启动

以下代码展示了如何用 Selenium 启动一个浏览器并访问指定网页。

from selenium import webdriver

# 启动 Chrome 浏览器
driver = webdriver.Chrome()

# 访问网页
driver.get("https://www.example.com")

# 输出网页标题
print(driver.title)

# 关闭浏览器
driver.quit()

二、基本操作:定位元素

Selenium 提供了多种方式来定位页面中的元素,从最常用的 idclass name 到更高级的 CSS 选择器和 XPath。以下是一些常见的元素定位方法:

from selenium.webdriver.common.by import By

# 按 ID 查找元素
element = driver.find_element(By.ID, "element_id")

# 按 class name 查找元素
element = driver.find_element(By.CLASS_NAME, "element_class")

# 按 name 查找元素
element = driver.find_element(By.NAME, "element_name")

# 使用 CSS 选择器
element = driver.find_element(By.CSS_SELECTOR, ".class > #id")

# 使用 XPath
element = driver.find_element(By.XPATH, "//tag[@attribute='value']")

三、模拟用户操作

1. 输入文本

可以用 .send_keys() 向输入框内输入文本内容,例如登录页面中的账号和密码:

# 找到输入框并输入文本
input_box = driver.find_element(By.ID, "username")
input_box.send_keys("my_username")

2. 点击按钮

按钮可以通过 .click() 方法触发点击事件。

# 点击登录按钮
login_button = driver.find_element(By.ID, "login")
login_button.click()

3. 清空文本框

使用 .clear() 方法可以清除文本框中的内容:

input_box.clear()

四、等待与超时

有时页面加载或元素显示需要一定时间,Selenium 提供了三种等待方式,以确保操作在元素完全加载后再执行:

1. 隐式等待

隐式等待在定位元素时会等待设定时间,使 Selenium 有足够时间找到元素。

driver.implicitly_wait(10)  # 10秒

2. 显式等待

显式等待允许我们设定特定条件,例如等待元素可点击或可见。

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待某个按钮可点击
button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, "button_id")))
button.click()

3. 强制等待

强制等待可以暂停代码执行指定时间,但通常不推荐长期使用,因为它不够灵活。

import time

time.sleep(5)  # 强制等待5秒

五、处理弹窗、iframe和多窗口

1. 处理弹窗(Alert)

弹窗可以通过 alert 方法接受或取消。

alert = driver.switch_to.alert
alert.accept()  # 接受弹窗
alert.dismiss()  # 取消弹窗

2. 切换到 iframe

如果需要操作 iframe 内的元素,需先切换到该 iframe。

# 切换到 iframe
iframe = driver.find_element(By.ID, "iframe_id")
driver.switch_to.frame(iframe)

# 操作 iframe 内部的元素
# ...

# 切换回默认内容
driver.switch_to.default_content()

3. 处理多窗口

在多窗口环境中,可以使用 window_handles 切换窗口。

# 获取所有窗口句柄
handles = driver.window_handles

# 切换到新窗口
driver.switch_to.window(handles[1])

六、网页爬虫应用:抓取动态数据

Selenium 强大的自动化功能,使其在数据爬取中非常适合处理需要用户交互的页面。以下是一个使用 Selenium 抓取动态内容的简单示例:

from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 打开网页并输入搜索关键词
driver.get("https://www.google.com")
search_box = driver.find_element(By.NAME, "q")
search_box.send_keys("Selenium 教程")
search_box.send_keys(Keys.RETURN)

# 获取搜索结果
results = driver.find_elements(By.CSS_SELECTOR, "h3")
for result in results:
    print(result.text)

七、使用无头浏览器

无头浏览器允许我们在没有浏览器窗口的情况下运行 Selenium,提高运行速度和效率,尤其适合服务器端应用。

from selenium.webdriver.chrome.options import Options

# 设置无头模式
options = Options()
options.add_argument("--headless")
driver = webdriver.Chrome(options=options)

driver.get("https://www.example.com")
print(driver.title)
driver.quit()

八、进阶技巧

1. 滚动页面

某些页面加载内容的方式是通过滚动触发的。可以使用 JavaScript 指令来实现页面滚动。

# 滚动到底部
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# 滚动至某个元素
target = driver.find_element(By.ID, "target_id")
driver.execute_script("arguments[0].scrollIntoView();", target)

2. 模拟鼠标悬停

在一些页面中,悬停可以显示更多内容,使用 ActionChains 可以实现鼠标悬停操作。

from selenium.webdriver.common.action_chains import ActionChains

element = driver.find_element(By.ID, "hover_element")
ActionChains(driver).move_to_element(element).perform()

3. 模拟键盘操作

Selenium 可以模拟键盘事件,如全选、复制、粘贴等:

from selenium.webdriver.common.keys import Keys

input_box = driver.find_element(By.ID, "input_box")
input_box.send_keys(Keys.CONTROL, 'a')  # 全选
input_box.send_keys(Keys.CONTROL, 'c')  # 复制
input_box.send_keys(Keys.CONTROL, 'v')  # 粘贴

九、Selenium 使用建议

  1. 减少等待时间:尽量使用显式等待,避免使用固定时长的强制等待,以提高执行效率。
  2. 无头模式:在爬取数据时使用无头模式,以节省资源并加快速度。
  3. 异常处理:使用 try-except 块捕捉可能的异常,以确保代码在出现错误时不会停止。
  4. 避免频繁刷新:对于动态内容尽量避免使用频繁的页面刷新,可能会导致网站将请求封锁。

十、总结

Selenium 是一个功能全面的网页自动化测试工具,既可用于网页功能的自动化测试,又能在网页爬虫中抓取动态数据。掌握了以上基本与进阶技巧,相信你已经可以用 Selenium 轻松应对各种网页交互场景。在实际项目中,通过合理地使用等待和浏览器选项,Selenium 可以成为非常高效、稳定的数据获取和测试工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2234815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【大数据学习 | kafka】kafka的偏移量管理

1. 偏移量的概念 消费者在消费数据的时候需要将消费的记录存储到一个位置,防止因为消费者程序宕机而引起断点消费数据丢失问题,下一次可以按照相应的位置从kafka中找寻数据,这个消费位置记录称之为偏移量offset。 kafka0.9以前版本将偏移量信…

专业 UI 设计公司:为您开启交互设计新征程

在当今数字化时代,UI设计不仅是产品外观的呈现,更是用户体验的核心组成部分。专业的UI设计公司凭借其深厚的设计底蕴、前沿的设计理念以及丰富的项目经验,能够为企业开启全新的交互设计征程,提升产品的市场竞争力。以下是对一家专…

【神经科学学习笔记】基于分层嵌套谱分割(Nested Spectral Partition)模型分析大脑网络整合与分离的学习总结

一、前言 1.学习背景 最近在学习脑网络分析方法时,笔者偶然读到了一篇发表在Physical Review Letters上的文章,文章介绍了一种名为嵌套谱分割(Nested-Spectral Partition, NSP)的方法,用于研究大脑功能网络的分离和整合特性。 传统的脑网络分…

初识C++(上) -- C++的关键字、命名空间、缺省参数以及函数的重载

目录 一、C的关键字(C98) 二、命名空间 1、命名冲突 2、命名空间 2.1 命名空间的定义 (1). 命名空间定义的例子以及命名空间的嵌套: (2). 同一个工程中允许存在多个相同名称的命名空间,编译器最后会合成同一个命名空间中: 2…

计算机网络socket编程(1)_UDP网络编程实现echo server

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 计算机网络socket编程(1)_UDP网络编程实现echo server 收录于专栏【计算机网络】 本专栏旨在分享学习计算机网络的一点学习笔记,欢迎大家在评论区交…

[安洵杯 2019]easy_web 详细题解

知识点: 编码转换 命令执行 linux空格_关键字绕过 打开页面 发现url 是 /index.php?imgTXpVek5UTTFNbVUzTURabE5qYz0&cmd 有img参数和cmd参数 cmd参数是没赋值的,随便赋值为123456 页面没有反应 鼠标移动到图片下面时发现有东西,当然直接查看页面源代码也可以发现 尝…

免费,基于React + ECharts 国产开源 IoT 物联网 Web 可视化数据大屏

文末查看开源项目地址 Light Chaser 是一款国产开源免费的基于 React18、Vite5、TypeScript5 技术栈实现的 Web 可视化大屏设计工具,支持Docker方式部署,支持MySQL、PostgreSQL、SQL Server、Oracle 数据源。 你可以简单快速地搭建数据可视化展示、数据报…

Linux服务管理-DHCP

DHCP DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)是一个局域网的网络协议,它允许服务器自动地将IP地址和其他网络配置参数分配给网络中的计算机。DHCP极大地简化了网络管理,尤其是当大量设备需要接入…

如何使用Netdata部署高性能的服务器监控平台

简介 Netdata 是一个开源的、实时的性能和健康监控工具,专为系统、应用程序、SNMP 设备等而设计。它以其高度交互的 Web 仪表板和极低的资源开销而闻名。 主要特点:实时监控、全面监控、零配置、轻量级、交互式仪表板、可扩展性、警报和通知、分布式监…

【MySQL】深度学习与解析 : 库的操作知识整合

前言:本节内容是MySQL库的操作, 内容较少, 大体内容为创建库、删除库、修改库、库备份操作。 ps:本节内容适合安装了MySQL的友友们进行观看, 实操更有利于记住哦。 目录 创建数据库 查看数据库列表 创建数据库 删除数据库 …

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01目录1. A Perspective for Adapting Generalist AI to Specialized Medical AI Applications and Their Challenges2. Synergi…

白杨SEO:百度在降低个人备案类网站搜索关键词排名和流量?怎样应对?【参考】

很久没有写百度或者网站这块内容了,一是因为做百度网站朋友越来越少,不管是个人还是企业;二是百度上用户搜索与百度给到网站的流量都越来越少。 为什么想到今天又来写这个呢?因为上个月有个朋友来咨询我说网站百度排名全没了&…

5分钟科普:AI网关是什么?应用场景是什么?有没有开源的选择?

AI网关的功能及其定义 AI网关位于企业应用与内外部大模型调用的交汇点,能够灵活地将请求转发给内部自建模型或外部大模型服务提供商,甚至海外的服务商。它管理着企业所有的AI出口流量,为企业内的不同团队提供了多方面的优势。 对于开发团队…

Java学习Day60:微服务总结!(有经处无火,无火处无经)

1、技术版本 jdk&#xff1a;17及以上 -如果JDK8 springboot&#xff1a;3.1及其以上 -版本2.x springFramWork&#xff1a;6.0及其以上 -版本5.x springCloud&#xff1a;2022.0.5 -版本格林威治或者休斯顿 2、模拟springcloud 父模块指定父pom <parent><…

登录功能设计(php+mysql)

一 登录功能 1. 创建一个登录页面&#xff08;login.php&#xff09;&#xff0c;包含一个表单&#xff0c;用户输入用户名和密码。 2. 在表单的提交事件中&#xff0c;使用PHP代码处理用户输入的用户名和密码。 3. 首先&#xff0c;连接MySQL数据库。然后&a…

【物联网技术】ESP8266 WIFI模块STA、AP、STA+AP、TCP/UDP透传工作模式介绍与AT指令介绍

前言:本文对ESP8266 WIFI模块STA、AP、STA+AP、TCP/UDP透传工作模式进行介绍;以及AT指令介绍,包括基础AT指令,WIFI功能AT指令、TCP/IP相关AT指令、常用AT指令实例进行介绍。 ESP8266 WIFI模块的接线及固件烧写可参考我的这篇博客:正点原子ATK-ESP8266 WIFI模块接线及固件…

【前端】JavaScript 方法速查大全-函数、正则、格式化、转换、进制、 XSS 转义(四)

&#x1f525; 前言 在现代前端开发中&#xff0c;JavaScript 是不可或缺的语言。无论是处理数据、操作 DOM&#xff0c;还是进行复杂的逻辑运算&#xff0c;掌握 JavaScript 的各种方法都是每位开发者的必修课。本文将为您提供一个全面、系统的 JavaScript 方法参考&#xff…

关于路由笔记

路由 定义&#xff1a; 在计算机网络中&#xff0c;路由是将数据包从源节点传输到目标节点的过程。这个过程涉及到网络中的多个设备&#xff0c;如路由器、交换机等&#xff0c;其中路由器起着关键的决策作用。 工作原理示例&#xff1a; 假设你在一个公司的局域网内&#…

25.停车场管理系统(基于web的Java项目)

目录 1.系统的受众说明 2.相关技术与方法 3.系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作可行性 3.2 需求分析 3.2.1 系统功能描述 3.2.2 用例图分析 4. 系统设计 4.1 系统类分析 5. 系统详细设计与实现 5.1 用户登录 5.2 系统信…

【含开题报告+文档+源码】基于SpringBoot+Vue智能居民健康检测系统设计与实现

开题报告 随着社会发展和人民生活水平的提高&#xff0c;人们对健康生活的要求越来越高。而广大居民由于条件限制&#xff0c;存在着健康管理服务不足的问题。本文基于JavaWeb技术&#xff0c;设计并实现了一种居民健康检测系统。首先&#xff0c;本文对该平台的需求进行了分析…