Python爬虫基础之Selenium详解

news2025/3/13 18:50:44

目录

  • 1. Selenium简介
  • 2. 为什么使用Selenium?
  • 3. Selenium的安装
  • 4. Selenium的使用
  • 5. Selenium的元素定位
  • 6. Selenium的交互
  • 7. Chrome handless
  • 参考文献

原文地址:https://program-park.top/2023/10/16/reptile_3/

本文章中所有内容仅供学习交流使用,不用于其他任何目的,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关。

1. Selenium简介

  Selenium 是一个用于 Web 应用程序测试的工具。最初是为网站自动化测试而开发的,可以直接运行在浏览器上,支持的浏览器包括 IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 和 Edge 等。
  爬虫中使用它是为了解决 requests 无法直接执行 JavaScript 代码的问题。Selenium 本质上是通过驱动浏览器,彻底模拟浏览器的操作,好比跳转、输入、点击、下拉等,来拿到网页渲染之后的结果。Selenium 是 Python 的一个第三方库,对外提供的接口能够操作浏览器,从而让浏览器完成自动化的操作。

2. 为什么使用Selenium?

  Selenium 能模拟浏览器功能自动执行网页中的 JavaScript 代码,实现动态加载。

3. Selenium的安装

  谷歌浏览器驱动下载地址:https://registry.npmmirror.com/binary.html?path=chromedriver/
  查看自己谷歌浏览器的版本,我这里的版本是正式版本116.0.5845.188,驱动下载地址最新的只有114.0.5735.90,所以只能去官网的测试页面下载118.0.5993.70版本的驱动(https://googlechromelabs.github.io/chrome-for-testing/#stable,版本向下兼容),然后把下载的压缩包解压,将exe文件放入 PyCharm 项目的根目录下。
  之后执行pip install selenium命令,安装 selenium 库。

4. Selenium的使用

from selenium import webdriver

# 创建浏览器操作对象
path = 'chromedriver.exe'
browser= webdriver.Chrome(path)

# 访问网站
url = 'https://www.baidu.com'

browser.get(url)
# content = browser.page_source
# print(content)

  需要注意的是,如果你的 selenium 是4.11.2以上的版本,不需要设置driver.exe的路径,selenium 可以自己处理浏览器的驱动程序,因此代码直接改为brower = webdriver.Chrome()即可。
  运行代码,得到下面的效果:

5. Selenium的元素定位

  自动化工具要做的就是模拟鼠标和键盘来操作点击、输入等等元素,但是操作这些元素的前提是找到它们,WebDriver 提供了很多元素定位的方法:

  • 根据标签 id 获取元素:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser= webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    button = browser.find_element(By.ID, 'su')
    # button = browser.find_elements(By.ID, 'su')
    print(button)
    
  • 根据标签 name 属性的值获取元素:
    button = browser.find_element(By.NAME, 'wd')
    print(button)
    
  • 根据 Xpath 语句获取元素;
    button = browser.find_element(By.XPATH, '//input[@id="su"]')
    print(button)
    
  • 根据标签名获取元素:
    button = browser.find_elements(By.TAG_NAME, 'input')
    print(button)
    
  • 根据 bs4 语法获取元素:
    button = browser.find_elements(By.CSS_SELECTOR, '#su')
    print(button)
    
  • 根据标签的文本获取元素(精确定位):
    button = browser.find_elements(By.LINK_TEXT, '地图')
    print(button)
    
  • 根据标签的文本获取元素(模糊定位):
    button = browser.find_elements(By.PARTIAL_LINK_TEXT, '地')
    print(button)
    
  • 根据 class 属性获取元素:
    button = browser.find_element(By.CLASS_NAME, 'wrapper_new')
    print(button)
    

  当我们定位到元素之后,自然就要考虑如何获取到元素的各种信息,selenium 给我们提供了获取元素不同信息的方法:

  • 获取元素属性:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser= webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    button = browser.find_element(By.ID, 'su')
    print(input.get_attribute('class'))
    
  • 获取元素标签名:
    input = browser.find_element(By.ID, 'su')
    print(input.tag_name)
    
  • 获取元素文本:
    input = browser.find_element(By.ID, 'su')
    print(input.text)
    
  • 获取元素位置:
    input = browser.find_element(By.ID, 'su')
    print(input.location)
    
  • 获取元素大小:
    input = browser.find_element(By.ID, 'su')
    print(input.size)
    

6. Selenium的交互

  页面交互指的是我们平时在浏览器上的各种操作,比如输入文本、点击链接、回车、下拉框等,下面就演示 selenium 是如何进行页面交互的。

  • 输入文本:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    # 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)
    
    # 关闭浏览器
    browser.close()
    
  • 点击:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    # 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)
    
    # 定位百度一下的按钮
    button = browser.find_element(By.ID, 'su')
    # 点击按钮
    button.click()
    time.sleep(2)
    
    # 关闭浏览器
    browser.close()
    
  • 清除文本:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    # 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)
    
    # 清除selenium
    input.clear()
    time.sleep(2)
    
    # 关闭浏览器
    browser.close()
    
  • 回车确认:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    # 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)
    
    # 回车查询
    input.submit()
    time.sleep(2)
    
    # 关闭浏览器
    browser.close()
    
  • 运行 JavaScript:
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    # 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)
    
    # 回车查询
    input.submit()
    time.sleep(2)
    
    # js代码
    js_bottom = 'document.documentElement.scrollTop=100000'
    # 下拉进度条,页面滑动
    browser.execute_script(js_bottom)
    time.sleep(2)
    
    # 关闭浏览器
    browser.close()
    
  • 前进后退
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    import time
    
    # 创建浏览器操作对象
    # path = 'chromedriver.exe'
    browser = webdriver.Chrome()
    
    # 访问网站
    url = 'https://www.baidu.com'
    browser.get(url)
    
    # 定位输入框
    input = browser.find_element(By.ID, 'kw')
    # 输入文本selenium
    input.send_keys('selenium')
    time.sleep(2)
    
    # 回车查询
    input.submit()
    time.sleep(2)
    
    # js代码
    js_bottom = 'document.documentElement.scrollTop=100000'
    # 页面滑动
    browser.execute_script(js_bottom)
    time.sleep(2)
    
    # 定位下一页的按钮
    next = browser.find_element(By.XPATH, '//a[@class="n"]')
    # 点击下一页
    next.click()
    time.sleep(2)
    
    # 返回到上一页面
    browser.back()
    time.sleep(2)
    
    # 前进到下一页
    browser.forward()
    time.sleep(2)
    
    # 关闭浏览器
    browser.close()
    

7. Chrome handless

  在上面的测试过程中可以发现,虽然 selenium 简便好用,但是它的运行速度很慢,这是因为 selenium 是有界面的,需要执行前端 css 和 js 的渲染。那么下面就介绍一个无界面的浏览器,Chrome-handless 模式,运行效率要比真实的浏览器快很多,在 selenium 的基础上,支持页面元素查找、js 执行等,代码和 selenium 一致。
  使用前提:

  • Chrome
    • Unix\Linux chrome >= 59
    • Windows chrome >= 60
  • Python >= 3.6
  • Selenium >= 3.4.*
from selenium import webdriver

def share_browser():
    # headless自带配置,不需要再做额外的修改
    from selenium.webdriver.chrome.options import Options
    # 初始化
    chrome_options = Options()
    chrome_options.add_argument('‐‐headless')
    chrome_options.add_argument('‐‐disable‐gpu')
    # 谷歌浏览器的安装路径
    path = r'C:\Users\\AppData\Local\Google\Chrome\Application\chrome.exe'
    chrome_options.binary_location = path
    browser = webdriver.Chrome(options=chrome_options)
    return browser

browser = share_browser()
url = 'https://www.baidu.com'
browser.get(url)

# 本地保存照片
browser.save_screenshot('baidu.png')

参考文献

  【1】http://www.noobyard.com/article/p-boitcibx-g.html
  【2】https://www.jb51.net/article/149145.htm
  【3】https://zhuanlan.zhihu.com/p/462460461
  【4】https://blog.csdn.net/weixin_67553250/article/details/127555724
  【5】https://www.cnblogs.com/Summer-skr–blog/p/11491078.html
  【6】https://www.bilibili.com/video/BV1Db4y1m7Ho?p=77

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1104002.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

k8s集群授权prometheus(集群外部署)

一、前言 在集群外部prometheus想要调用k8s集群的apiserver获取监控数据需要通过token和ca验证,在集群内部部署的prometheus就不会有这个情况,因为集群内部部署prometheus pod的时候就已经注入了访问集群的token和ca文件,所以以下就针对k8s集…

吴恩达深度学习笔记

B站看的视频,课太长了,180多节,但搬运的没有作业练习,最好找个能练习的 1,假设模型时,以前(2011版机器学习)用西塔代表参数组成的向量,现在用w代表参数组成的向量,b代表西塔0&#x…

Django REST Framework完整教程-RESTful规范-序列化和反序列数据-数据视图

文章目录 1.简介及安装2.案例模型2.1.创建模型2.2.安装mysql必要组件2.3.管理后台转中文2.4.启动后台 3.数据序列化4.RESTful规范4.1.协议、域名和版本4.2.uri(统一资源标识符)4.3.查增删改4.4.过滤信息(Filtering)4.5.状态码(Status Codes&a…

Prometheus-Grafana

Grafana可对Prometheus实现可视化操作。prometheus-grafana提供了一个可运行的环境用于对测试网络进行实时监控。prometheus-grafana下有一个docker-compose.yaml文件用于控制prometheus和grafana的启动,和监控网络的指标。 配置需求: 推荐使用linux系统…

外汇天眼;VT Markets 赞助玛莎拉蒂MSG Racing电动方程式世界锦标赛

随着国际汽联电动方程式世界锦标赛第十赛季的到来,外汇经纪商 VT Markets 和玛莎拉蒂 MSG Racing 宣布了一项为期多年的全球合作。 外汇天眼温馨提醒:在做外汇交易之前,一定要审核清楚外汇平台的资质以及官网信息,以防上当受骗&am…

大模型Agent最新论文及源码合集,覆盖构建、应用、评估

人们对于通用人工智能(AGI)的追求可以追溯到1950 年代中期,当时的AI研究者对机器拥有人类思维能力抱有很高的期望,但是随着研究的深入,他们发现想实现这个目标比最初设想的困难许多。到如今,AGI仍然有很长的…

【计算机网络】网络原理

目录 1.网络的发展 2.协议 3.OSI七层网络模型 4.TCP/IP五层网络模型及作用 5.经典面试题 6.封装和分用 发送方(封装) 接收方(分用) 1.网络的发展 路由器:路由指的是最佳路径的选择。一般家用的是5个网口,1个WAN口4个LAN口(口:端口)。可…

JDK 21的新特性总结和分析

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

[正式学习java②]——数组的基本使用,java内存图与内存分配

一、数组的两种初始化方式 1.完整格式(静态初始化) 数据类型[] 数组名 new 数据类型[]{元素1,元素2…}; //范例 int[] arr new int[]{1,2,3,4}; 简化书写 一般我们会省略后面的 new 数据类型[] int[] arr {1,2,3,4}; 2.动态初始化 当不知道数组里面的初始值的时候&#xf…

AI绘画使用Stable Diffusion(SDXL)绘制玉雕风格的龙

一、引言 灵感来源于在逛 LibLib 时,看到的 Lib 原创者「熊叁gaikan」发布的「翠玉白菜 sdxl|玉雕风格」 的 Lora 模型。简直太好看了,一下子就被吸引了! 科普下「翠玉白菜」: 翠玉白菜是由翠玉所琢碾出白菜形状的清…

四川天蝶电子商务有限公司抖音电商服务引领行业标杆

随着电子商务的飞速发展,四川天蝶电子商务有限公司作为一家领先的抖音电商服务提供商,已经脱颖而出。本文将详细解析四川天蝶电子商务有限公司的抖音电商服务,让您一探究竟。 一、卓越的服务理念 四川天蝶电子商务有限公司始终坚持以客户为中…

微前端三:qiankun 协作开发和上线部署

我们先看qiankun怎么上线部署: 我这边用的是yaml 文件在 rancher上部署的: base是基座,这里每个应用都是一个服务,这个还是跟之前一样并没有区别,那如何在一个域名上挂载多个服务呢? 最开始我们主要是在in…

【调度算法】NSGA II

简介 NSGA-II(Nondominated Sorting Genetic Algorithm II)是一种经典的多目标优化算法,由Srinivas和Deb于2000年在NSGA的基础上提出,用于解决多目标优化问题。相较于NSGA,NSGA-II在运行速度和解集的收敛性上表现更好…

nginx的优先级和匹配方式

Nginx的location的优先级和匹配方式: 在http模块当中有server,在server模块才有location,location匹配的是uri /test /image 在一个server当中有多个location,如何来确定匹配那个location Nginx支持正则表达式: ^…

PLC 学习day01 了解PLC 的组成和知识。

1.资料来源 链接:3.三菱PLC编程视频关于PLC工作原理的介绍_哔哩哔哩_bilibili 2. PLC 的知识 2.1 PLC 的概述及特点功能 PLC是可编程逻辑控制器(Programmable Logic Controller)的英文缩写,是融合了继电器控制功能和计算机运算功…

补体C3/C4(C3/C4)介绍

补体是一种血清蛋白质,存在于人和脊椎动物血清及组织液中,不耐热,活化后具有酶活性、可介导免疫应答和炎症反应。可被抗原-抗体复合物或微生物所激活,导致病原微生物裂解或被吞噬。可通过三条既独立又交叉的途径被激活&#xff0c…

DNS(二)

实现 Internet DNS 架构 架构图 实验环境 关闭SELinux、Firewalld。时间保持一致 主机名IP角色client192.168.28.146DNS客户端,DNS地址为192.168.28.145localdns192.168.28.145本地DNS服务器(只缓存)forward192.168.28.144转发目标DNS服务…

TARJAN复习 求强连通分量、割点、桥

TARJAN复习 求强连通分量、割点、桥 文章目录 TARJAN复习 求强连通分量、割点、桥强连通分量缩点桥割点 感觉之前写的不好, 再水一篇博客 强连通分量 “有向图强连通分量:在有向图G中,如果两个顶点vi,vj间(vi>vj)有…

【vue】vue实现海康ws协议的实时监控播放:

文章目录 一、效果图:二、实现过程:【1】官网下载h5player.js:【2】引入h5player.min.js:【3】使用: 一、效果图: 二、实现过程: 【1】官网下载h5player.js: 【H5视频播放器开发包】…

Linux shell编程学习笔记13:文件测试运算

Linux Shell 脚本编程和其他编程语言一样,支持算数、关系、布尔、逻辑、字符串、文件测试等多种运算。前面几节我们依次研究了 Linux shell编程 中的 字符串运算、算术运算、关系运算、布尔运算 和 逻辑运算,今天我们来研究 Linux shell编程中的文件测…