【Python爬虫】8大模块md文档集合从0到scrapy高手,第7篇:selenium 数据提取详解

news2024/11/16 3:49:58

本文主要学习一下关于爬虫的相关前置知识和一些理论性的知识,通过本文我们能够知道什么是爬虫,都有那些分类,爬虫能干什么等,同时还会站在爬虫的角度复习一下http协议。

爬虫全套笔记地址: 请移步这里


共 8 章,37 子模块


Selenium本文概要

本阶段本文主要学习selenium自动化测试框架在爬虫中的应用,selenium能够大幅降低爬虫的编写难度,但是也同样会大幅降低爬虫的爬取速度。在逼不得已的情况下我们可以使用selenium进行爬虫的编写。

selenium提取数据

知识点:
  • 了解 driver对象的常用属性和方法
  • 掌握 driver对象定位标签元素标签对象的方法
  • 掌握 标签对象提取文本和属性值的方法

1. driver对象的常用属性和方法

在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法

  1. driver.page_source 当前标签页浏览器渲染之后的网页源代码
  2. driver.current_url 当前标签页的url
  3. driver.close() 关闭当前标签页,如果只有一个标签页则关闭整个浏览器
  4. driver.quit() 关闭浏览器
  5. driver.forward() 页面前进
  6. driver.back() 页面后退
  7. driver.screen_shot(img_name) 页面截图

知识点:了解 driver对象的常用属性和方法

2. driver对象定位标签元素标签对象的方法

在selenium中可以通过多种方式来定位标签,返回标签元素对象

find_element_by_id                         (返回一个元素)
find_element(s)_by_class_name             (根据类名元素列表)
find_element(s)_by_name                 (根据标签的name属性值返回包含标签对象元素的列表)
find_element(s)_by_xpath                 (返回一个包含元素的列表)
find_element(s)_by_link_text             (根据连接文本元素列表)
find_element(s)_by_partial_link_text     (根据链接包含的文本元素列表)
find_element(s)_by_tag_name             (根据标签名元素列表)
find_element(s)_by_css_selector         (根据css选择器来元素列表)
  • 注意:

    • find_element和find_elements的区别:

      • 多了个s就返回列表,没有s就返回匹配到的第一个标签对象
      • find_element匹配不到就抛出异常,find_elements匹配不到就返回空列表
    • by_link_text和by_partial_link_tex的区别:全部文本和包含某个文本

    • 以上函数的使用方法

      • driver.find_element_by_id('id_str')

知识点:掌握 driver对象定位标签元素标签对象的方法

3. 标签对象提取文本内容和属性值

find_element仅仅能够元素,不能够直接其中的数据,如果需要数据需要使用以下方法

  • 对元素执行点击操作element.click()

    • 对定位到的标签对象进行点击操作
  • 向输入框输入数据element.send_keys(data)

    • 对定位到的标签对象输入数据
  • 文本element.text

    • 通过定位的标签对象的text属性,文本内容
  • 属性值element.get_attribute("属性名")

    • 通过定位的标签对象的get_attribute函数,传入属性名,来属性的值
  • 代码实现,如下:

from selenium import webdriver

driver = webdriver.Chrome()

driver.get('http://www.itcast.cn/')

ret = driver.find_elements_by_tag_name('h2')
print(ret[0].text) # 

ret = driver.find_elements_by_link_text('黑马程序员')
print(ret[0].get_attribute('href'))

driver.quit()

selenium的其它使用方法

知识点:
  • 掌握 selenium控制标签页的切换
  • 掌握 selenium控制iframe的切换
  • 掌握 利用seleniumcookie的方法
  • 掌握 手动实现页面等待
  • 掌握 selenium控制浏览器执行js代码的方法
  • 掌握 selenium开启无界面模式
  • 了解 selenium使用代理ip
  • 了解 selenium替换user-agent

1. selenium标签页的切换

当selenium控制浏览器打开多个标签页时,如何控制浏览器在不同的标签页中进行切换呢?需要我们做以下两步:

  • 所有标签页的窗口句柄

  • 利用窗口句柄字切换到句柄指向的标签页

    • 这里的窗口句柄是指:指向标签页对象的标识
    • 关于句柄请课后了解更多,本小节不做展开
  • 具体的方法

  
  
# 1. 当前所有的标签页的句柄构成的列表
  
  
current_windows = driver.window_handles

  
  
# 2. 根据标签页句柄列表索引下标进行切换
  
  
driver.switch_to.window(current_windows[0])
  • 参考代码示例:
import time
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://www.baidu.com/")

time.sleep(1)
driver.find_element_by_id('kw').send_keys('python')
time.sleep(1)
driver.find_element_by_id('su').click()
time.sleep(1)

  
  
# 通过执行js来新开一个标签页
  
  
js = 'window.open("https://www.sogou.com");'
driver.execute_script(js)
time.sleep(1)

  
  
# 1. 当前所有的窗口
  
  
windows = driver.window_handles

time.sleep(2)
  
  
# 2. 根据窗口索引进行切换
  
  
driver.switch_to.window(windows[0])
time.sleep(2)
driver.switch_to.window(windows[1])

time.sleep(6)
driver.quit()

知识点:掌握 selenium控制标签页的切换

2. switch_to切换frame标签

iframe是html中常用的一种技术,即一个页面中嵌套了另一个网页,selenium默认是访问不了frame中的内容的,对应的解决思路是driver.switch_to.frame(frame_element)。接下来我们通过qq邮箱模拟登陆来学习这个知识点
  • 参考代码:
import time
from selenium import webdriver

driver = webdriver.Chrome()

url = 'https://mail.qq.com/cgi-bin/loginpage'
driver.get(url)
time.sleep(2)

login_frame = driver.find_element_by_id('login_frame') # 根据id定位 frame元素
driver.switch_to.frame(login_frame) # 转向到该frame中

driver.find_element_by_xpath('//*[@id="u"]').send_keys('1596930226@qq.com')
time.sleep(2)

driver.find_element_by_xpath('//*[@id="p"]').send_keys('hahamimashicuode')
time.sleep(2)

driver.find_element_by_xpath('//*[@id="login_button"]').click()
time.sleep(2)

"""操作frame外边的元素需要切换出去"""
windows = driver.window_handles
driver.switch_to.window(windows[0])

content = driver.find_element_by_class_name('login_pictures_title').text
print(content)

driver.quit()
  • 总结:

    • 切换到定位的frame标签嵌套的页面中

      • driver.switch_to.frame(通过find_element_by函数定位的frame、iframe标签对象)
    • 利用切换标签页的方式切出frame标签

      • windows = driver.window_handles
        driver.switch_to.window(windows[0])
        
      
      

知识点:掌握 selenium控制frame标签的切换

3. selenium对cookie的处理

selenium能够帮助我们处理页面中的cookie,比如、删除,接下来我们就学习这部分知识

3.1 cookie

driver.get_cookies()返回列表,其中包含的是完整的cookie信息!不光有name、value,还有domain等cookie其他维度的信息。所以如果想要把的cookie信息和requests模块配合使用的话,需要转换为name、value作为键值对的cookie字典

  
  
# 当前标签页的全部cookie信息
  
  
print(driver.get_cookies())
  
  
# 把cookie转化为字典
  
  
cookies_dict = {cookie[‘name’]: cookie[‘value’] for cookie in driver.get_cookies()}
3.2 删除cookie
  
  
#删除一条cookie
  
  
driver.delete_cookie("CookieName")

  
  
# 删除所有的cookie
  
  
driver.delete_all_cookies()

知识点:掌握 利用seleniumcookie的方法

4. selenium控制浏览器执行js代码

selenium可以让浏览器执行我们规定的js代码,运行下列代码查看运行效果

import time
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.itcast.cn/")
time.sleep(1)

js = 'window.scrollTo(0,document.body.scrollHeight)' # js语句
driver.execute_script(js) # 执行js的方法

time.sleep(5)
driver.quit()
  • 执行js的方法:driver.execute_script(js)

知识点:掌握 selenium控制浏览器执行js代码的方法

5. 页面等待

页面在加载的过程中需要花费时间等待网站服务器的响应,在这个过程中标签元素有可能还没有加载出来,是不可见的,如何处理这种情况呢?

  1. 页面等待分类
  2. 强制等待介绍
  3. 显式等待介绍
  4. 隐式等待介绍
  5. 手动实现页面等待
5.1 页面等待的分类

首先我们就来了解以下selenium页面等待的分类

  1. 强制等待
  2. 隐式等待
  3. 显式等待
5.2 强制等待(了解)
  • 其实就是time.sleep()
  • 缺点时不智能,设置的时间太短,元素还没有加载出来;设置的时间太长,则会浪费时间
5.3 隐式等待
  • 隐式等待针对的是元素定位,隐式等待设置了一个时间,在一段时间内判断元素是否定位成功,如果完成了,就进行下一步

  • 在设置的时间内没有定位成功,则会报超时加载

  • 示例代码

from selenium import webdriver

driver = webdriver.Chrome()  

driver.implicitly_wait(10) # 隐式等待,最长等20秒  

driver.get('https://www.baidu.com')

driver.find_element_by_xpath()
5.4 显式等待(了解)
  • 每经过多少秒就查看一次等待条件是否达成,如果达成就停止等待,继续执行后续代码

  • 如果没有达成就继续等待直到超过规定的时间后,报超时异常

  • 示例代码

from selenium import webdriver  
from selenium.webdriver.support.wait import WebDriverWait  
from selenium.webdriver.support import expected_conditions as EC  
from selenium.webdriver.common.by import By 

driver = webdriver.Chrome()

driver.get('https://www.baidu.com')

  
  
# 显式等待
  
  
WebDriverWait(driver, 20, 0.5).until(
    EC.presence_of_element_located((By.LINK_TEXT, '好123')))  
  
  
# 参数20表示最长等待20秒
  
  
  
  
# 参数0.5表示0.5秒检查一次规定的标签是否存在
  
  
  
  
# EC.presence_of_element_located((By.LINK_TEXT, '好123')) 表示通过链接文本内容定位标签
  
  
  
  
# 每0.5秒一次检查,通过链接文本内容定位标签是否存在,如果存在就向下继续执行;如果不存在,直到20秒上限就抛出异常
  
  

print(driver.find_element_by_link_text('好123').get_attribute('href'))
driver.quit()
5.5 手动实现页面等待

在了解了隐式等待和显式等待以及强制等待后,我们发现并没有一种通用的方法来解决页面等待的问题,比如“页面需要滑动才能触发ajax异步加载”的场景,那么接下来我们就以淘宝网首页为例,手动实现页面等待

  • 原理:

    • 利用强制等待和显式等待的思路来手动实现
    • 不停的判断或有次数限制的判断某一个标签对象是否加载完毕(是否存在)
  • 实现代码如下:

import time
from selenium import webdriver
driver = webdriver.Chrome('/home/worker/Desktop/driver/chromedriver')

driver.get('https://www.taobao.com/')
time.sleep(1)

  
  
# i = 0
  
  
  
  
# while True:
  
  
for i in range(10):
    i += 1
    try:
        time.sleep(3)
        element = driver.find_element_by_xpath('//div[@class="shop-inner"]/h3[1]/a')
        print(element.get_attribute('href'))
        break
    except:
        js = 'window.scrollTo(0, {})'.format(i*500) # js语句
        driver.execute_script(js) # 执行js的方法
driver.quit()

知识点:掌握 手动实现页面等待

6. selenium开启无界面模式

绝大多数服务器是没有界面的,selenium控制谷歌浏览器也是存在无界面模式的,这一小节我们就来学习如何开启无界面模式(又称之为无头模式)

  • 开启无界面模式的方法

    • 实例化配置对象

      • options = webdriver.ChromeOptions()
    • 配置对象添加开启无界面模式的命令

      • options.add_argument("--headless")
    • 配置对象添加禁用gpu的命令

      • options.add_argument("--disable-gpu")
    • 实例化带有配置对象的driver对象

      • driver = webdriver.Chrome(chrome_options=options)
  • 注意:macos中chrome浏览器59+版本,Linux中57+版本才能使用无界面模式!

  • 参考代码如下:

from selenium import webdriver

options = webdriver.ChromeOptions() # 创建一个配置对象
options.add_argument("--headless") # 开启无界面模式
options.add_argument("--disable-gpu") # 禁用gpu

  
  
# options.set_headles() # 无界面模式的另外一种开启方式
  
  
driver = webdriver.Chrome(chrome_options=options) # 实例化带有配置的driver对象

driver.get('http://www.itcast.cn')
print(driver.title)
driver.quit()

知识点:掌握 selenium开启无界面模式

7. selenium使用代理ip

selenium控制浏览器也是可以使用代理ip的!

  • 使用代理ip的方法

    • 实例化配置对象

      • options = webdriver.ChromeOptions()
    • 配置对象添加使用代理ip的命令

      • options.add_argument('--proxy-server=http://202.20.16.82:9527')
    • 实例化带有配置对象的driver对象

      • driver = webdriver.Chrome('./chromedriver', chrome_options=options)
  • 参考代码如下:

from selenium import webdriver

options = webdriver.ChromeOptions() # 创建一个配置对象
options.add_argument('--proxy-server=http://202.20.16.82:9527') # 使用代理ip

driver = webdriver.Chrome(chrome_options=options) # 实例化带有配置的driver对象

driver.get('http://www.itcast.cn')
print(driver.title)
driver.quit()

知识点:了解 selenium使用代理ip

8. selenium替换user-agent

selenium控制谷歌浏览器时,User-Agent默认是谷歌浏览器的,这一小节我们就来学习使用不同的User-Agent

  • 替换user-agent的方法

    • 实例化配置对象

      • options = webdriver.ChromeOptions()
    • 配置对象添加替换UA的命令

      • options.add_argument('--user-agent=Mozilla/5.0 HAHA')
    • 实例化带有配置对象的driver对象

      • driver = webdriver.Chrome('./chromedriver', chrome_options=options)
  • 参考代码如下:

from selenium import webdriver

options = webdriver.ChromeOptions() # 创建一个配置对象
options.add_argument('--user-agent=Mozilla/5.0 HAHA') # 替换User-Agent

driver = webdriver.Chrome('./chromedriver', chrome_options=options)

driver.get('http://www.itcast.cn')
print(driver.title)
driver.quit()

知识点:了解 selenium替换user-agent

反爬与反反爬

本阶段本文主要学习爬虫的反爬及应对方法。

未完待续 下一期下一章

全套笔记直接地址: 请移步这里

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1234544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

股票池(三)

3-股票池 文章目录 3-股票池一. 查询股票池支持的类型二. 查询目前股票池对应的股票信息三 查询股票池内距离今天类型最少/最多的股票数据四. 查询股票的池统计信息 一. 查询股票池支持的类型 接口描述: 接口地址:/StockApi/stockPool/listPoolType 请求方式:GET…

OpenLayers实战,WebGL图层根据Feature要素的变量动态渲染多种颜色的三角形,适用于大量三角形渲染不同颜色

专栏目录: OpenLayers实战进阶专栏目录 前言 本章使用OpenLayers根据Feature要素的变量动态渲染不同颜色的三角形。 通过一个WebGL图层生成四种不同颜色的图形要素,适用于WebGL图层需要根据大量点要素区分颜色显示的需求。 更多的WebGL图层使用运算符动态生成样式的内容将会…

如何搭建测试环境?一文解决你所有疑惑!

什么是测试环境 测试环境,指为了完成软件测试工作所必需的计算机硬件、软件、网络设备、历史数据的总称,简而言之,测试环境硬件软件网络数据准备测试工具。 硬件:指测试必需的服务器、客户端、网络连接等辅助设备。 软件&#…

5年经验之谈 —— 性能测试如何定位分析性能瓶颈?

你好,我是小牛,目前在一家准一线互联网大厂做测试开发工程师。 对于一般公司普通测试工程师来说,可能性能测试做的并不是很复杂,可能只是编写下脚本,做个压测,然后输出报告结果,瓶颈分析和调优…

SQL基础理论篇(八):视图

文章目录 简介创建视图修改视图删除视图总结参考文献 简介 视图,即VIEW,是SQL中的一个重要概念,它其实是一种虚拟表(非实体数据表,本身不存储数据)。 视图类似于编程中的函数,也可以理解成是一个访问数据的接口。 从…

STM32通用定时器产生PWM信号

STM32通用定时器产生PWM信号 PWM信号stm32定时器PWM生成模式PWM配置基本步骤PWM周期计算CubeMX配置代码展现 本期内容我将展示使用STM32通用定时器产生PWM信号,这里以定时器3通道3为例 PWM信号 如果还不懂的话,可以看看 : “蓝桥杯单片机学习…

使用sonar对webgoat进行静态扫描

安装sonar并配置 docker安装sonarqube,sonarQube静态代码扫描 - Joson6350 - 博客园 (cnblogs.com) 对webgoat进行sonar扫描 扫描结果 bugs Change this condition so that it does not always evaluate to "false" 意思是这里的else if语句不会执行…

基于STC12C5A60S2系列1T 8051单片机的液晶显示器LCD1602显示两行常规字符应用

基于基于STC12C5A60S2系列1T 8051单片机的液晶显示器LCD1602显示两行常规字符应用 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式及配置STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式介绍液晶显示器LCD1602简单介绍通过液晶显…

【算法之路】高精度算法(实现加减乘除)

目录 一、高精度概念 二、高精度算法的实现 1、高精度加法(大整数相加) 2、高精度减法(大整数减法) 3、高精度乘法(大整数*小整数) 4、高精度除法(大整数/小整数) 一、高精度概…

硬件寿命警告!Windows11在特定情况下对【固态硬盘】执行与【机械硬盘】相同的磁盘碎片整理。

首图,无图无真相 据我所知 此bug已持续约3个月。 此bug目前仍可以在Windows Feature Experience Pack 1000.25997.1000.0版本复现(截至2023/11/21,最新的Windows预览金丝雀通道) 如何复现 1 手动运行系统维护,点…

<C++> 模板-下

目录 前言 一、非类型模板参数 二、类模板的特化 1. 概念 2. 函数模板特化 3. 类模板特化 4. 全特化 5. 偏特化 5.1 特化部分参数 5.2 对某些类型的进一步限制 三、模板的分离编译 1. 概念 2. 分离编译 3. 解决方法 1. 显式实例化 2. 在一个文件内写声明和定义 四、模板总结 …

UE5、CesiumForUnreal实现加载GeoJson绘制盒体(Box)功能(StaticMesh方式)

文章目录 1.实现目标2.实现过程2.1 实现原理2.2 具体代码2.3 应用测试2.3.1 材质2.3.2 蓝图测试3.参考资料1.实现目标 与之前基于StaticMesh创建Polygon和Wall类似,本文通过读取本地GeoJson数据,在UE中以staticMeshComponent的形式绘制出盒体Box,支持Editor和Runtime模式,在…

HR人才测评,提高员工和岗位的适配度

作为中小企业领导,除了操心企业的经营管理,还得经常为内部运行做考虑。某个岗位总是缺少匹配的员工,而公司的员工如何进行岗位优化,这都是人资管理中经常遇到的难题,归根结底,是对人才评价的难题。 人才&a…

【PHY6222】simpleBLEPeripheral剖析

源码剖析 main.c main函数中所有使用extern引用外部的函数均无源码,具体细节不可知。 可以看到源码函数有以下几个: hal_rfphy_init: 相关参数: hal_init: jump_table.c 因为rom的code是不开源的,rom代…

ubuntu 安装 gparted

前提环境: 阿里云的源。 sudo apt update sudo apt upgrade sudo apt install gparted 搜索:

新能源充电桩工业4G路由器应用,推动绿色出行,响应环保理念

在智慧城市环保事业发展领域,新能源技术应用成熟,物联网技术越来越广泛,充电桩物联网成为了智慧城市建设的热门应用。充电桩作为新能源汽车的重要配套设施,对于节能减排和推动环保理念可持续发展具有重要意义。而工业4G路由器作为…

OpenLayers入门,OpenLayers6的WebGLPointsLayer图层样式运算符详解

专栏目录: OpenLayers入门教程汇总目录 前言 本章讲解使用OpenLayers6的WebGL图层显示大量点情况下,列举出所有WebGLPointsLayer图层所支持的所有样式运算符大全。 二、基于的OpenLayers版本 "ol": "^6.15.1"使用npm安装依赖npm install ol@6.15.1使…

Transformer——encoder

本文参考了b站的Eve的科学频道中的深入浅出解释Transformer原理和DASOU讲AI中的Transformer从零详解。 入浅出解释Transformer原理 Transformer从零详解 前言: 在自然语言识别中,之前讲过lstm,但是lstm有明显的缺陷,就是当文本过…

GNSS技术在灾害监测与应急响应中的关键作用

全球导航卫星系统(GNSS)技术在灾害监测与应急响应领域发挥着重要作用,为预防、监测和应对自然灾害提供了关键数据支持。本文将深入探讨GNSS技术在灾害监测与应急响应中的作用,并分析其对提高应对灾害能力的重要性。 一、GNSS在灾害…

78基于matlab的BiLSTM分类算法,输出迭代曲线,测试集和训练集分类结果和混淆矩阵

基于matlab的BiLSTM分类算法,输出迭代曲线,测试集和训练集分类结果和混淆矩阵,程序有详细注释,数据可更换自己的,程序已调通,可直接运行。