Selenium库自动化测试入门

news2025/4/14 0:44:01

前言

为什么要学selenium？？前面已经学了requests库我们会发现

对于绝大多数动态渲染的网页来说，用requests进行爬虫比较繁琐。

所以我们还是要学习一下selenium库，以帮助我们更高效的爬取网页。

环境：

pychar 2020.1 x64版本

谷歌浏览器驱动，需要根据自己的谷歌浏览器版本所对应的驱动进行下载。

selenium库，如果没有安装，可以在pychar终端输入 pip install selenium。

这是我没有安装之前的，可以使用pip list命令来查看自己有没有安装selenium库

这是安装之后的，可以看到selenium库已经安装完成了。

下面进行简单的代码测试。咱们用淘宝网址和百度来进行测试。

from selenium import webdriver
import time
from selenium.webdriver.common.by import By
#浏览器驱动
bro=webdriver.Chrome()
#目标网址
bro.get('https://www.taobao.com')
#标签定位
s_input=bro.find_element(By.ID,'q')
#内容（key）输入
s_input.send_keys('java')

#标签定位
btn=bro.find_element(By.CLASS_NAME,'btn-search')
#点击事件
btn.click()

#垂直滚动2000xp
bro.execute_script('window.scrollTo(0,2000)')
time.sleep(2)
bro.get('https://www.baidu.com')
time.sleep(2)
bro.back()
time.sleep(2)
bro.forward()
time.sleep(2)
bro.quit()#释放内存

最后附录一个比较官方的解释，selenium和requests的区别

Selenium 和 Requests 是两个用于 Web 爬虫和自动化的 Python 库，它们之间有一些主要区别：

1. 工作方式：
   - Selenium：Selenium 是一个自动化测试工具，主要用于模拟用户与浏览器的交互。它通过控制 Web 浏览器（如 Chrome、Firefox）来加载网页并与网页元素进行交互。这使得它能够处理 JavaScript 生成的动态内容和与 Web 页面上的表单、按钮等元素进行交互。
   - Requests：Requests 是一个用于发送 HTTP 请求的库。它可以模拟发送各种类型的请求（如 GET、POST、PUT 等）并处理响应。Requests 主要用于获取网页的 HTML 内容，不能直接处理 JavaScript 生成的动态内容。

2. 性能：
   - Selenium：由于 Selenium 使用真实浏览器加载页面，因此在处理动态内容和需要与页面元素交互的场景下性能较低。此外，使用真实浏览器还需要额外的资源（如浏览器安装、驱动程序等）。
   - Requests：Requests 直接发送 HTTP 请求并获取 HTML 内容，因此性能较高。但是，它不能处理 JavaScript 生成的动态内容。

3. 处理 JavaScript：
   - Selenium：Selenium 可以很好地处理 JavaScript 生成的动态内容。
   - Requests：Requests 无法直接处理 JavaScript 生成的动态内容。但是，可以结合其他库（如 BeautifulSoup、PyQuery 等）来解析 HTML 内容。

4. API 使用：
   - Selenium：Selenium 提供了丰富的 API，可以用于查找、定位和操作网页元素。
   - Requests：Requests 主要用于发送 HTTP 请求和处理响应。它不提供用于查找和操作网页元素的 API。

总之，Selenium 更适合用于需要模拟用户与浏览器交互的场景，例如处理动态内容、与表单和按钮等元素交互。而 Requests 更适合用于简单的数据抓取任务，例如获取网页的基本内容。在实际应用中，根据需求和场景选择合适的库。