python 爬虫 selenium 笔记

news2024/9/20 4:13:37
todo
  1. 阅读并熟悉 Xpath, 这个与 Selenium 密切相关、
selenium
  1. selenium 加入无图模式,速度快很多。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# selenium 无图模式,速度快很多。
option = Options()
option.page_load_strategy = "none"
prefs = {"profile.managed_default_content_settings.images": 2}  # 设置无图模式
option.add_experimental_option("prefs", prefs)  # 加载无图模式设置

driver = webdriver.Chrome(chrome_options=option)
  1. 遇到 BeautifulSoup iframe
  • 一种解决方案是, 获得iframe的src属性,然后请求并解析其内容:
  • 另一种是:
driver.get(url)
iframe = driver.find_elements_by_tag_name('iframe')[1]
driver.switch_to.frame(iframe) # 最重要的一步
soup = BeautifulSoup(driver.page_source, "html.parser")
个人常犯的错误, 误区,陷阱
  1. driver.execute_script(JS) 这个才是执行 JS,
    注意是 execute_script, 不是 execute。
页面等待。这个是比较关键的。
  1. 显式等待。貌似比较麻烦,且不常用。
from selenium.webdriver.support import expected_conditions as EC
wait = WebDriverWait(driver, 10)
element = wait.until(EC.element_to_be_clickable((By.ID,'someid')))
  1. 隐式等待。推荐使用。

driver.implicitly_wait(10) # seconds

定位元素
  1. 定位元素之前,加上这句话,笔记安全。

bot.implicitly_wait(10) # 这句话很关键。

  1. 查找元素的方法
find_element_by_id()
find_element_by_name()              # 这个name 是标签里面的一种属性。
find_element_by_xpath()             
find_element_by_link_text()         # 比如  'Sign In'
find_element_by_partial_link_tex()      
find_element_by_tag_name()
find_element_by_class_name()
find_element_by_css_selector()
基本配置,导包
import os
import random
import json
import pickle
import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys
import pyautogui as pt
import pyperclip

切换frame
  1. 遇到 iframe,最好是切换过去, 见 https://blog.csdn.net/huilan_same/article/details/52200586

driver.switch_to.frame(0) # 1.用frame的index来定位,第一个是0

点击元素。不可点击的元素, 执行下面的方法。
def real_click(self, driver, ele):
    actions = ActionChains(driver)
    actions.move_to_element(ele)
    actions.click(ele)
    actions.perform()
执行 js, 页面滚动
# 先滚动到底部,然后再滚动到顶部
# window.scrollTo(0,document.body.scrollHeight);

js = "var q=document.documentElement.scrollTop=500"
bot.execute_script(js)

js2 = "document.body.scrollTop=document.documentElement.scrollTop=0;"
bot.execute_script(js2)
填写表格。这个需要再读读看。
element = driver.find_element_by_xpath("//select[@name='name']")
choices = element.find_elements_by_tag_name("option")
for c in choices:
    print("Value is: %s" % c.get_attribute("value"))
    c.click()
封装一些自己常用的方法
@staticmethod
def save_html(bot):             # 保存 html
    filename = 'ret.html'
    data = bot.page_source
    with open(filename, 'w') as f:
        f.write(data)
    print("保存 html 完成!")

@staticmethod
def real_click(driver, ele):    # 点击元素
    actions = ActionChains(driver)
    actions.move_to_element(ele)
    actions.click(ele)
    actions.perform()

@staticmethod
def send_word(ele, word):       # 输入框,输入文字
    ele.clear()
    ele.send_keys(word)
    ele.send_keys(Keys.RETURN)
源码中有趣的,有用的方法

Driver

  1. driver.current_url # 本身就是静态方法
  2. driver.page_source
  3. driver.save_screenshot(‘foo.png’)
  4. driver.get_log(‘driver’)
  5. driver.page_source # 保存 html 源码,功本地调试,减少网络请求
  6. driver.title 直接获取页面的标题, 很适合作为文件名。

WebElement

  1. ele.id # 直接就可以用
  2. ele.get_attribute(“class”) # 这个很常用的。

个人接单,python, R语言,有事请私聊

老哥,支持一下啊。

支付宝扫码领红包哦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2147829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

栈、队列、链表

基于《啊哈!算法》和《数据结构》(人民邮电出版社) 本博客篇幅较多,读者根据目录选择,不理解的可留言和私信。 栈、队列、链表都是线性结构。 三者都不是结构体、数组这种数据类型,我认为更像是一种算法…

面试必备!值得收藏!不容错过的100+ 大语言模型面试问题及答案

引言 大语言模型(LLMs)现在在数据科学、生成式人工智能(GenAI,即一种借助机器自动产生新信息的技术)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升。…

Windows如何查看已缓存的DNS信息

Windows server 2016如何查看已缓存的DNS信息 在Windows server 2016系统下,如何查看已缓存的DNS信息呢? 1.打开“运行”,输入cmd,点击“确定” 2.在命令行界面输入ipconfig /displaydns,按回车即可查看已缓存的dns信息

9月26日云技术研讨会 | SOA整车EE架构开发流程及工具实施方案

面向服务的架构(Service Oriented Architecture, SOA)实施需要复杂的基础技术作为支撑,伴随着整车硬件资源的集中化、车载以太网等高速通信技术在车内的部署,将在未来一段时间内成为行业技术研究和市场布局的热点。 近年来&#x…

分享几种方式获取免费精致的Live2d模型

文章目录 1、 Live2D官方示例数据集(可免费下载)2、模之屋3、unity商店4、直接b站搜索5、youtube6、BOOTH完结 1、 Live2D官方示例数据集(可免费下载) 官方提供了一些 Live2D实例模型给大家下载使用 地址:https://ww…

房屋租赁系统源码分享:SpringBoot + Vue 免费分享

这是一套使用 SpringBoot 与 Vue 开发的房屋租赁系统源码,站长分析过这套源码,推测其原始版本可能是一个员工管理系统,经过二次开发后,功能被拓展和调整,现已完全适用于房屋租赁业务。 源码说明: 该系统功…

一键生成高级感PPT封面,首推这个在线AI生成PPT软件!

PPT封面怎么做? ppt封面的重要性不言而喻,就像写文章讲究的“凤头”,一个漂亮的PPT封面,可以吸引观众的注意力,让人有意愿驻足下来听你演讲,才会有后面更多的故事发生。 漂亮的ppt封面怎么做?…

dll文件丢失怎么恢复?10种dll修复方法任你选,一次学会!

dll文件丢失怎么恢复?dll文件丢失在多个Windows 版本中都是常见的问题,包括win7/win8/win10和 win11。这类错误通常与一些特定的dll文件有关,比如MSVCR110.DLL、MSVCR71.DLL、d3compiler_43.DLL、LogiLDA.DLL、MSVCP140.DLL、api-ms-win-crt-…

组装电脑-电脑配置

键盘、鼠标:买一百多的机械盘。 主板 电脑台式机主板是计算机最基本的同时也是最重要的部件之一,它在整个计算机系统中扮演着举足轻重的角色。以下是对它的详细介绍: 基础功能: 主板作为计算机的核心部件,负责连接和…

【图像检索】基于颜色模型的图像内容检索,matlab实现

博主简介:matlab图像代码项目合作(扣扣:3249726188) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 本次案例是基于颜色模型的图像内容检索,用matlab实现。 一、案例背景和算法介绍 这…

inBuilder低代码平台新特性推荐-第二十四期

今天给大家带来的是 inBuilder 低代码平台新特性推荐第二十四期 ——表单格式支持流程配置。 场景介绍: 如下图所示,目前支持在流程设计上的不同节点设置表单字段的必填、显隐等属性控制,不必在表单设计上进行配置,从而减少了开…

VS Code远程连接虚拟机

VS Code远程连接虚拟机 1.下载vscode2.打开VS Code下载Remote-SSH插件1.修改相关信息 3.虚拟机检查或安装ssh4.检查虚拟机服务是否安装成功5.开启ssh,并检查是否开启成功 1.下载vscode 2.打开VS Code下载Remote-SSH插件 1.修改相关信息 2. 3.虚拟机检查或安装ssh…

同一个单元格内包含标签和文本框

<!DOCTYPE html> <html> <head> <title>单元格内包含标签和文本框</title> <style> /* 可选的CSS样式&#xff0c;用于美化表格 */ table { width: 50%; /* 设置表格宽度为页面宽度的50% */ border-collapse: collapse; /* 合并…

【JSrpc破解前端加密问题】

目录 一、背景 二、项目介绍 三、JSrpc 处理前端加密步骤 一、背景 解决日常渗透测试、红蓝对抗中的前端密码加密问题&#xff0c;让你的爆破更加丝滑&#xff1b;降低js逆向加密的难度&#xff0c;降低前端加密逻辑分析工作量和难度。 二、项目介绍 运行服务器程序和js脚本…

解锁生命活力密码!帕金森患者的专属锻炼秘籍,让每一步都稳健前行

在这个快节奏的时代&#xff0c;健康成为了我们最宝贵的财富之一。然而&#xff0c;对于帕金森病患者而言&#xff0c;身体的逐渐僵硬、运动能力的下降&#xff0c;似乎给生活按下了减速键。但请相信&#xff0c;科学的锻炼方法&#xff0c;就是那把重启生命活力的钥匙&#xf…

时间复杂度的常用符号+渐进时间复杂度分析

时间复杂度的常用符号 Θ \Theta Θ 如果 f ( n ) Θ ( g ( n ) ) f(n)\Theta(g(n)) f(n)Θ(g(n))&#xff0c;则 f ( n ) f(n) f(n) 与 g ( n ) g(n) g(n) 同阶。&#xff08;阶是指 f ( n ) f(n) f(n) 的指数&#xff0c;比如 n 2 n^2 n2 高于 n n n&#xff09; O O …

OJ在线评测系统 登录页面开发 前端后端联调实现全栈开发

前端 登录页面就是一个让用户输入账号和密码的表单 使用acro组件 先写布局 <a-form-item field"userAccount" label"账号"><a-input v-model"form.userAccount" placeholder"请输入账号" /></a-form-item><a-…

msvcp140.dll丢失如何解决?msvcp140.dll丢失的多种解决方法

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“msvcp140.dll丢失”。这个错误通常会导致某些应用程序无法正常运行&#xff0c;给用户带来很大的困扰。那么&#xff0c;当我们遇到msvcp140.dll丢失的情况时&#xff0c;应该如何解决呢&a…

office2016 增强版 KMS

第一步&#xff1a; 用管理员权限登陆&#xff1a;Windows PowerShell &#xff08;安装最新的 PowerShell&#xff0c;了解新功能和改进&#xff01;https://aka.ms/PSWindows&#xff09; 第二步&#xff1a; C:\Windows\system32> cd C:\Program Files\Microsoft Off…

表情包创作、取图小程序端(带流量主)

小程序永久免费&#xff0c;无任何广告&#xff0c;无任何违规功能&#xff01; 小程序具备以下功能有&#xff1a; 支持创作者加入 支持在线制作表情包 使用说明 表情包必备工具&#xff0c;一款专属于你的制作表情包工具&#xff0c;斗图必备神器