Python爬虫知识体系-----Selenium

news2024/9/17 9:02:21
数据科学、数据分析、人工智能必备知识汇总-----Python爬虫-----持续更新:https://blog.csdn.net/grd_java/article/details/140574349

文章目录

  • 一、安装和基本使用
  • 二、元素定位
  • 三、访问元素信息
  • 四、自动化交互
  • 五、PhantomJS
  • 六、Chrome headless

一、安装和基本使用

什么是Selenium
  1. 一个用于Web应用程序测试的工具
  2. 测试直接运行在浏览器中,就像真正的用户在操作一样
  3. 支持通过各种driver驱动真实浏览器完成测试(例如FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)
  4. 支持无界面浏览器操作
特长

模拟浏览器功能,自动执行网页中js代码,实现动态加载

安装谷歌驱动
  1. 查看谷歌浏览器版本,只需要点击谷歌浏览器右上角的菜单按钮,然后选择帮助---->关于即可查看
    在这里插入图片描述
    在这里插入图片描述
  1. 操作谷歌浏览器的驱动下载地址(给出两个,第一个没有再去第二个):
  1. http://chromedriver.storage.googleapis.com/index.html
  2. https://googlechromelabs.github.io/chrome-for-testing/
  1. 选择对应版本和操作系统进行下载,上图中我的版本是126,但是这里只有127,所以可以选择额外下载127版本的chrome浏览器
    在这里插入图片描述
  1. 将下载好的压缩包解压,将驱动.exe文件拖入chrome浏览器文件夹下
    在这里插入图片描述
python安装selenium

使用命令pip install selenium进行安装即可
在这里插入图片描述

简单案例,解决常见报错
  1. 正常使用selenium访问百度首页,一般会报错ValueError: Timeout value connect was <object object at 0x000001BC8A4386F0>, but it must be an int, float or None.
    在这里插入图片描述
  2. 这是因为和urllib3的版本不兼容导致
    在这里插入图片描述
  3. 所以将urllib3降低到1.26.2版本,首先使用命令pip uninstall urllib3卸载,然后安装指定版本(pip install urllib3==1.26.2)
    在这里插入图片描述
访问京东首页,让京东知道我们是真实的浏览器在访问,从而将所有数据交给我们,而不是隐藏部分数据

注意我们要指定一个谷歌浏览器的用户文件夹(随便一个即可),就可以正常访问了。但是访问后,浏览器会显示Chrome正受到自动测试软件的控制,这是接下来我们要解决的问题
在这里插入图片描述

'''导包(start)'''
from selenium import webdriver
'''导包(end)'''
# 浏览器驱动路径
path = "E:\chrome-win64\chromedriver.exe"
# 设置浏览器选项,解决用selenium打开浏览器时,因为没有指定用户文件夹而进入data页面
options = webdriver.ChromeOptions()
# options.add_argument(r'user-data-dir=任意文件夹路径即可')
options.add_argument(r'user-data-dir=D:\biancheng\PycharmProjects\test\urllibTest\userDir')
# 根据指定路径获取对应浏览器驱动对象,并且指定chrome_options
driver = webdriver.Chrome(executable_path = path,chrome_options=options)
url = "https://www.jd.com/" # 要访问的网址
# 访问url
driver.get(url)
# 获取网页源码
content = driver.page_source
print(content)

二、元素定位

元素定位:自动化要做的就是模拟鼠标和键盘操作来操作这些元素,点击、输入操作等等。首先要找到这些元素,WebDriver提供了很多定位元素的方法。

根据id定位百度一下按钮
  1. 可以发现按钮的id为su
    在这里插入图片描述
  2. 我们直接通过driver.find_element_by_id()来进行查找
    在这里插入图片描述
'''导包(start)'''
from selenium import webdriver
'''导包(end)'''
# 浏览器驱动路径
path = "C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Bin\\chromedriver.exe"
# 设置浏览器选项,解决用selenium打开浏览器时,因为没有指定用户文件夹而进入data页面
options = webdriver.ChromeOptions()
# options.add_argument(r'user-data-dir=任意文件夹路径即可')
options.add_argument(r'user-data-dir=D:\biancheng\PycharmProjects\test\urllibTest\userDir')
# 根据指定路径获取对应浏览器驱动对象,并且指定chrome_options
driver = webdriver.Chrome(executable_path = path,chrome_options=options)
url = "https://www.baidu.com/" # 要访问的网址
# 访问url
driver.get(url)
# 获取网页源码
input = driver.find_element_by_id('su')
print(input)
根据name属性定位input输入框
  1. 可以发现搜索框的name属性值为wd
    在这里插入图片描述
  2. 我们直接通过driver.find_element_by_id()来进行查找
    在这里插入图片描述
根据xpath路径找到百度一下按钮
  1. 先确定其xpath路径
    在这里插入图片描述
  2. 通过driver.find_element_by_xpath(‘//input[@id=“su”]’)进行定位
    在这里插入图片描述
根据标签名定位所有input

通过driver.find_elements_by_tag_name(‘input’),将所有input控件保存到list列表返回
在这里插入图片描述

通过css选择器语法定位id为kw的元素
  1. 百度搜索框id为kw
    在这里插入图片描述
  2. 通过driver.find_elements_by_css_selector(‘#kw’)[0]获取
    在这里插入图片描述
通过超链接定位
  1. 定位百度首页左上角第一个超链接"新闻"
    在这里插入图片描述
  2. 通过driver.find_element_by_link_text(‘新闻’)获取即可
    在这里插入图片描述

三、访问元素信息

上面讲解了如何找到元素,现在来介绍如何获取这些元素的信息

获取元素属性
  1. 获取新闻超链接的class属性
    在这里插入图片描述
  2. 通过目标元素对象.get_attribute(“class”)获取即可
'''导包(start)'''
from selenium import webdriver
'''导包(end)'''
# 浏览器驱动路径
path = "C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Bin\\chromedriver.exe"
# 设置浏览器选项,解决用selenium打开浏览器时,因为没有指定用户文件夹而进入data页面
options = webdriver.ChromeOptions()
# options.add_argument(r'user-data-dir=任意文件夹路径即可')
options.add_argument(r'user-data-dir=D:\biancheng\PycharmProjects\test\urllibTest\userDir')
# 根据指定路径获取对应浏览器驱动对象,并且指定chrome_options
driver = webdriver.Chrome(executable_path = path,chrome_options=options)
url = "https://www.baidu.com/" # 要访问的网址
# 访问url
driver.get(url)
# 获取网页源码
input = driver.find_element_by_link_text('新闻')
print(input.get_attribute("class"))
获取元素文本内容
  1. 获取新闻超链接的标签内容
    在这里插入图片描述
  2. 通过目标元素对象.text来获取
    在这里插入图片描述
获取标签名

通过目标元素对象.tag_name来获取
在这里插入图片描述

四、自动化交互

找到元素后,不能只是获取内容,还要进行自动化交互,例如点击按钮等操作

在百度一下搜索框输入文字

通过目标元素.send_keys(“爬虫一下喽!”),将"爬虫一下喽!"输入到搜索框
在这里插入图片描述

'''导包(start)'''
from selenium import webdriver
'''导包(end)'''
# 浏览器驱动路径
path = "C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Bin\\chromedriver.exe"
# 设置浏览器选项,解决用selenium打开浏览器时,因为没有指定用户文件夹而进入data页面
options = webdriver.ChromeOptions()
# options.add_argument(r'user-data-dir=任意文件夹路径即可')
options.add_argument(r'user-data-dir=D:\biancheng\PycharmProjects\test\urllibTest\userDir')
# 根据指定路径获取对应浏览器驱动对象,并且指定chrome_options
driver = webdriver.Chrome(executable_path = path,chrome_options=options)
url = "https://www.baidu.com/" # 要访问的网址
# 访问url
driver.get(url)
# 获取网页源码
input = driver.find_element_by_id('kw')
input.send_keys("爬虫一下喽!")
点击百度一下按钮

在这里插入图片描述

input = driver.find_element_by_id('kw')
input.send_keys("爬虫一下喽!")
baiduButton = driver.find_element_by_id('su')
baiduButton.click()
在上面的基础上,实现向下滑动到页面底部,点击第二页按钮,获取第二页源码,回退到上一级,然后在前进一级(回退的逆操作),然后关闭浏览器
  1. 获取第二页按钮的xpath语句为://span[@class = “page-item_M4MDr pc” and text()=2]
    在这里插入图片描述
  2. 代码实现
    在这里插入图片描述
'''导包(start)'''
from selenium import webdriver
import time
'''导包(end)'''
# 浏览器驱动路径
path = "C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Bin\\chromedriver.exe"
# 设置浏览器选项,解决用selenium打开浏览器时,因为没有指定用户文件夹而进入data页面
options = webdriver.ChromeOptions()
# options.add_argument(r'user-data-dir=任意文件夹路径即可')
options.add_argument(r'user-data-dir=D:\biancheng\PycharmProjects\test\urllibTest\userDir')
# 根据指定路径获取对应浏览器驱动对象,并且指定chrome_options
driver = webdriver.Chrome(executable_path = path,chrome_options=options)
url = "https://www.baidu.com/" # 要访问的网址
# 访问url
driver.get(url)
# 互动操作
# 1. 获取搜索框,并输入爬虫一下喽!
input = driver.find_element_by_id('kw')
input.send_keys("爬虫一下喽!")
time.sleep(2)
# 2. 获取百度一下按钮,并单击
baiduButton = driver.find_element_by_id('su')
baiduButton.click()
time.sleep(2)
# 3. 执行js代码,定位到距离网页上端100000的位置,也就是类似于向下滑100000个像素
js = "document.documentElement.scrollTop=100000"
driver.execute_script(js)
time.sleep(2)
# 4. 点击第二页按钮
page2Button = driver.find_element_by_xpath("//span[@class = 'page-item_M4MDr pc' and text()=2]")
page2Button.click()
time.sleep(2)
# 5. 获取第二页源码
page_source2 = driver.page_source
print(page_source2)
time.sleep(2)
# 6. 回退到上一页
driver.back()
time.sleep(2)
# 7. 前进一级
driver.forward()
time.sleep(2)
# 8. 退出浏览器
driver.quit()

五、PhantomJS

  1. 一个无界面浏览器,前面直接用selenium打开的浏览器,和我们人为打开是一样的,这样的操作对于程序来说有些太慢了
  2. 支持页面元素查找,js执行等等
  3. 由于不进行css和GUI渲染,运行效率要比真实浏览器快很多

但是因为这个团队已经散伙,所以这个已经不再更新了,老项目你依然会见到它,这里提一下就是让大家不要日后见到两眼懵
而现如今,Chrome headless用的更多一点

六、Chrome headless

Chrome-headless模式是Google在Chrome浏览器59版所新增的一种模式,可以让你在不打卡UI界面的情况下使用Chrome浏览器,运行效果与Chrome完美的保持了一致性

代码层面,除了需要一些固定代码创建Chrome headless对象以外,其余操作代码与上面直接用selenium打开浏览器是一样的。下面的代码是用Chrome headless模式打开百度首页,并且截屏
在这里插入图片描述
在这里插入图片描述

'''导包(start)'''
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
'''导包(end)'''
# 固定写法,获取chrome headless对象
def get_headless_browser(executable_path):
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    # path是我们chrome浏览器的绝对路径
    path = r'C:\Users\Administrator\AppData\Local\Google\Chrome\Bin\chrome.exe'
    chrome_options.binary_location = path
    brower = webdriver.Chrome(executable_path=executable_path, chrome_options=chrome_options)
    return brower

if __name__ == '__main__':
    # 驱动路径,如果配置到环境变量中,可以不进行这一步
    executable_path = "C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Bin\\chromedriver.exe"
    # 获取chrome headless对象
    brower = get_headless_browser(executable_path)
    # 其余使用方法和有界面是相同的
    brower.get('https://www.baidu.com')
    # 截屏——当前操作界面
    brower.save_screenshot('baidu.png')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963543.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一刷代码随想录(贪心12)

贪心算法理论基础 刷题或者面试的时候&#xff0c;手动模拟一下感觉可以局部最优推出整体最优&#xff0c;而且想不到反例&#xff0c;那么就试一试贪心。 例如刚刚举的拿钞票的例子&#xff0c;就是模拟一下每次拿做大的&#xff0c;最后就能拿到最多的钱&#xff0c;这还要…

对称字符串

import java.util.Scanner; /*** author gyf* ClassName Test* Date 2024/7/31 13:39* Version V1.0* Description :*/ public class Test {public static void main(String[] args) {// StringBuilder 的场景// 1.字符串的拼接// 2.字符串的反转Scanner scanner new Scanner(…

Maven问题:IDEA无法创建javaweb和没有web Application支持的方案

解决方案一&#xff1a; 项目右键单击&#xff0c;点击add framework support 完成后就出现了web文件夹 解决方案二 右键单击后没有add framework support,先制作该功能的快捷键&#xff0c;添加快捷键之后按照解决方案1操作 注&#xff1a; 如果按照以上步骤均创建不成…

springboot业务层service开发全过程(以mybatis-plus为例)

在配置完数据层Dao/Mapper层的基础上&#xff0c;接下来我们要开始实现业务层的开发。 数据层和业务层的区别&#xff1a; 简单来说业务层是数据层的一个升级&#xff0c;从名字上也可以看出&#xff0c;数据层要想查询一个ID&#xff0c;都是需要定义SelectById这样的名称&a…

零门槛AI 绘图:教你为客户定制 ComfyUI Serverless API 应用

作者&#xff1a;鸥弋、筱姜 2023年下半年&#xff0c;ComfyUI 以其快速、流畅的图像生成能力&#xff0c;结合多样的自定义节点&#xff0c;迅速在创作者中流行起来。ComfyUI 的亮点就是能够批量化生成图像&#xff0c;一键加载大量工作流&#xff0c;让用户可以轻松实现人像…

代理仓业务好做吗?有没有什么系统可以打理的?

做海外仓代理相对自建海外仓而言&#xff0c;风险较小&#xff0c;更适合货代&#xff0c;但也需要面对一些难题&#xff1a;仓库管理、市场拓展、多仓协同、打通接口等。易境通DWMS系统就可以让海外仓代理变得简单明晰&#xff0c;让刚进入这个领域的小白也可以成功转型&#…

各类网页设计的设计尺寸大揭秘

我们讨论网页的大小时&#xff0c;我们需要明白这不仅仅是一个数字。在一个充满随时变化和创新的数字世界中&#xff0c;网页的建立和设计应考虑设备类型、屏幕大小和分辨率、用户浏览习惯等诸多因素。本文将深入分析这个主题&#xff0c;以帮助您充分理解这种情况&#xff0c;…

tensorRT 自带测试样例 sampleOnnxMNIST 源码分析

该测试样例是进行手写数字识别&#xff0c;使用 Visual Studio 2022 打开 tensorRT安装目录下的 samples 下的 sampleOnnxMNIST 工程( 例如我的是 D:\install\tensorRT\TensorRT-8.6.1.6\samples\sampleOnnxMNIST )&#xff0c;执行输出结果&#xff1a; 成功识别出数字0&#…

ai模特换装软件哪个好用?不知道怎么穿搭就用这几个

最近#紫色跑道的city穿搭#风靡全网&#xff0c;大家纷纷晒出自己的紫色风情。 可一想到衣橱里堆积如山的衣服和钱包的“瘦身计划”&#xff0c;是不是有点小纠结&#xff1f; 别怕&#xff0c;科技来救场&#xff01;那就是“一键换装在线工具”&#xff0c;让你无需剁手&…

【初阶数据结构】11.排序(2)

文章目录 2.3 交换排序2.3.1 冒泡排序2.3.2 快速排序2.3.2.1 hoare版本2.3.2.2 挖坑法2.3.2.3 lomuto前后指针2.3.2.4 非递归版本 2.4 归并排序2.5 测试代码&#xff1a;排序性能对比2.6 非比较排序2.6.1 计数排序 3.排序算法复杂度及稳定性分析 2.3 交换排序 交换排序基本思想…

2024最新 Navicat Premium 17 简体中文激活版详细安装教程(最简单的激活方式)

一、下载地址 下载链接&#xff1a;分享文件&#xff1a;Navicat Premium 17.0.8 (x64) 中文版.zip 二、安装步骤 1、解压后点击运行navicat170_premium_cs_x64.exe 2、开始安装 3、选择安装路径&#xff0c;最好不要放在系统盘C盘&#xff0c;后面两个步骤默认 4、安装中&a…

【小知识】黑白分明的计算机世界——关系表达式,逻辑表达式和三目运算符

【小知识】黑白分明的计算机世界——关系表达式&#xff0c;逻辑表达式和三目运算符 1.逻辑变量2.关系表达式和逻辑表达式2.1.关系表达式2.1.1.例题——a和b的关系2.1.2.浮点数精度误差 2.2.逻辑表达式2.2.1.常见的逻辑运算符2.2.2.优先级2.2.3.注意事项2.2.3.1.在写逻辑表达式…

书生大模型学习笔记 - 连接云端开发机

申请InternStudio开发机&#xff1a; 这里进去报名参加实战营即可获取 书生大模型实战营 InternStudio平台 创建开发机 SSH连接开发机&#xff1a; SSH免密码登录 本地创建SSH密钥 ssh-keygen -t rsa打开以下文件获取公钥 ~/.ssh/id_rsa.pub去InternStudio添加公钥 …

OPenCV高级编程——OpenCV常见的API及绘图知识详解

目录 引言 一、Mat类详解 1. Mat类的基本结构 2. Mat类的数据类型 3. Mat类的创建与初始化 4. Mat类的使用技巧 二、OpenCV核心功能模块 1. 基本的图像读取与显示 2. 图像的保存 3. 矩阵操作 4. 等待键盘输入与销毁窗口 5. 命名窗口 三、图像处理模块 1. 色彩空间…

一个简单的车辆目标检测和跟踪示例

点击下方卡片&#xff0c;关注“小白玩转Python”公众号 介绍 目标检测&#xff1a;目标检测是指在图像或视频帧中识别和定位特定目标&#xff0c;并使用边界框来确定它们的位置。YOLO&#xff08;You Only Look Once&#xff09;是一种高效的单阶段目标检测算法&#xff0c;以…

普冉Puya 超高性价比M0 MCU 工业电子解决方案

普冉半导体(上海)股份有限公司成立于2016年&#xff0c;总部位于上海张江高科&#xff0c;公司目前主要产品包括微控制器芯片、非易失性存储器芯片及模拟产品。产品广泛应用于物联网、智能手机及周边、可穿戴、服务器、光模块、工业控制、汽车电子、安防等领域。公司在深圳、韩…

Spring Boot集成udp通讯

Spring Boot集成udp通讯 加入依赖编辑配置文件配置相关属性具体业务类客户端调试 加入依赖 <!--加入UDP通信所需依赖--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-integration</artifactId&…

GD32 MCU电源复位和系统复位有什么区别

GD32 MCU的复位分为电源复位和系统复位&#xff0c;电源复位又称为冷复位&#xff0c;相较于系统复位&#xff0c;上电复位更彻底&#xff0c;下面为大家详细介绍上电复位和系统复位的实现以及区别。 电源复位包括上电/掉电复位或者从standby模式唤醒产生的复位&#xff0c;电…

HarmonyOS NEXT——奇妙的调用方式

注解调用一句话总结Extend抽取特定组件样式、事件&#xff0c;可以传递参数Style抽取公共样式、事件&#xff0c;不可以传递参数Builder抽取结构、样式、事件&#xff0c;可以传递参数BuilderParams自定义组件中传递UI组件多个BuilderParams自定义组件中传递多个UI组件 Extend…

echarts加载区域地图,并标注点

效果如下&#xff0c;加载了南海区域的地图&#xff0c;并标注几个气象站点&#xff1b; 1、下载区域地图的JSON&#xff1a;DataV.GeoAtlas地理小工具系列 新建nanhai.json&#xff0c;把下载的JSON数据放进来 说明&#xff1a;如果第二步不打勾&#xff0c;只显示省的名字&a…