【爬虫】5.2 Selenium编写爬虫程序

news2024/11/17 7:36:46

1. Selenium  框架介绍

  • Selenium自动化测试框架是实现自动化测试的一个软件结构功能组件集合
  • Selenium自动化测试框架是一个半成品,能够帮助用户实现自动化测试。
  • Selenium是模仿浏览器行为的,当你运行测试类(爬虫)的时候,你就会发现selenium会打开一个浏览器,然后执行你的操作。

Selenium 的两种版本

  • Selenium 1(Selenium RC,Remote Control):传统 Selenium 框架,支持多种编程语言脚本生成。但需要启动一个代理 Server 来处理用户与测试 Server 之间的通讯。
  • Selenium 2(Selenium Webdriver):全新自动化接口,突破了 Selenium 1 的一些限制,剔除了中间 Server,适合熟悉 Selenium API 的 case 测试人员使用。

Selenium RC 工作原理图

        Selenium 引入了 Remote Control Server 这样一个代理 Server,JavaScript 脚本注入和与 Server 通讯都通过这个代理 Server 来进行。流程说明:

  1. 执行测试脚本,脚本向Selenium Server发起请求,要求和Selenium Server建立链接
  2. Selenium Server的Launcher启动浏览器,向浏览器中插入Selenium Core的JavaScript代码库,并把浏览器的代理设置为Selenium Server的Http Proxy,确保后续Core的脚本域被访问的网站的脚本同源。
  3. 测试脚本向selenium Server发送Http请求,Selenium Server对请求进行解析,然后通过Http Proxy发送JS命令通知Selenium Core发送JS命令通知selenium Core执行操作浏览器的请求。
  4. Selenium Core收到指令后,执行测试脚本里指定的网页操作命令。
  5. 浏览器收到新的请求信息,于是发送Http请求给Selenium给Selenium Core里的Http Proxy,请求新的Web页面。(因为第二步中,selenium Server在启动浏览器的时候,已经把浏览器的代理地址设定为Selenium Server的Http Proxy)
  6. Selenium Server接收到请求后,自行重组http请求,向应用服务器发送请求并获取返回的web页面。
  7. Selenium Server的Http Proxy把接收的Web页面返回给浏览器

简述:

  1. 客户端建立与 selenium-RC server 的连接。
  2. Selenium RC Server 启动一个浏览器(或是已经使用中),并注入 JS 代码
  3. 将 Selenese 代码传到客户端的 Selenium-Core 中。
  4. Selenium-Core 翻译并解析执行用户录制的操作。
  5. 让代理 Server 进行通讯
  6. Remote Control Server 负责跟远程 Web 应用服务器进行通讯。
  7. 操作完成,显示结果,并执行下一指令。

以上就是 Selenium Remote Control 的执行原理。


Selenium- WebDriver工作原理

三个模块:

  1.  自动化测试代码:自动化测试代码发送请求给浏览器的驱动(比如火狐驱动、谷歌驱动)
  2. 浏览器驱动:它来解析这些自动化测试的代码,解析后把它们发送给浏览器
  3. 浏览器:执行浏览器驱动发来的指令,并最终完成工程师想要的操作。

Selenium脚本执行时后端六条实现的流程

  1. 对于每一条Selenium脚本,一个http 请求会被创建并且发送给浏览器的驱动。
  2. 浏览器驱动中包含了一个HTTP Server,用来接收这些 http 请求
  3. HTTP Server接收到请求后根据请求来具体操控对应的浏览器
  4. 浏览器执行具体的测试步骤
  5. 浏览器将步骤执行结果返回给HTTP Server
  6. HTTP Server又将结果返回给Selenium的脚本,如果是错误的http代码我们就会在控制台看到对应的报错信息。

2. Selenium  框架使用

2.1 Selenium  安装与环境配置

  • 安装selenium

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/

  • 安装chrome驱动程序要 selenium 与浏览器配合工作就必须安装浏览器对应的驱动程序。

chrome版本查看: chrome://version/

下载地址:https://npm.taobao.org/mirrors/chromedriver/

ChromeDriver 官方网站 https://sites.google.com/chromium.org/driver/downloads

下载chromedrive.exe的驱动程序,然后把它复制到python38\Scripts\目录下。


cmd命令打开命令行界面,输入“chromedriver”启动该驱动程序,查看是否配置成功。

 2.2 常用指令

(1) 程序先从selenium引入webdriver,引入chrome程序的选择项目Options:

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

(2) 设置启动chrome时不可见:

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

(3) 创建chome浏览器:

driver= webdriver.Chrome(chrome_options=chrome_options)

这样创建的chrome浏览器是不可见的,仅仅使用:

driver= webdriver.Chrome()

创建chrome浏览器,那么在程序执行时会弹出一个chrome浏览器。

(4) 使用driver.get(url)方法访问网页:

driver.get("http://127.0.0.1:5000")

(5) 通过driver.page_source 获取网页HTML代码(渲染后的数据页面): html=driver.page_source

print(html)

(6) driver.get_cookies()  获得页面的cookies

(7) 使 driver.current_url  查看请求的URL

(8) 用driver.close()关闭页面。driver.quit()关闭浏览器:

driver.close()

driver.quit()

(9)操作点击事件:

click()

(10)给输入框赋值:

send_keys()

编写Selenium爬虫程序

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome()
driver.get("http://127.0.0.1:5000")
html = driver.page_source
soup = BeautifulSoup(html, "lxml")
hMsg = soup.find("span", attrs={"id": "hMsg"}).text
print(hMsg)
jMsg = soup.find("span", attrs={"id": "jMsg"}).text
print(jMsg)
sMsg = soup.find("span", attrs={"id": "sMsg"}).text
print(sMsg)

运行结果:

Html Message

JavaScript Message

Server Message

        采用Selenium的结构主要是模拟浏览器去访问网页,并充分执行网页中的 JavaScript程序,使得网页的数据充分下载,这样再用爬虫程序去爬取数据就能正确的爬取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/700489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AIGC】Chatglm2-lora微调

ChatGLM2介绍 ChatGLM2-6B源码地址:https://github.com/THUDM/ChatGLM2-6B ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性&…

【Java】Java中的异常

文章目录 一、什么是异常1.1 异常的概念1.2 异常的分类 二、异常的体系结构三、异常的处理3.1 异常的抛出3.2 异常的捕获与处理3.3 异常的处理流程 四、自定义异常类4.1 自定义异常类的规则4.2 自定义异常案例 一、什么是异常 1.1 异常的概念 在Java中,异常&#…

《Linux操作系统编程》第八章 Shell程序设计: shell 语言结构,包括测试、分支、循环、跳转、函数、语句组

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

C++ DAY3

1.思维导图 2.有以下类定义&#xff0c;按要求实现剩余功能 #include <iostream> using namespace std;class Person { private:int age;int *p; public://无参构造Person():p(new int(89)){age 18;}//有参构造Person(int age,int num){this->age age;this->pne…

基于Java实验室开放管理系统设计实现(源码+lw+部署文档+讲解等)

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…

Servlet实现留言墙

目录 1.创建工程 2.构建目录工程结构 3.设置编码格式尾utf-8 4.查看Maven配置 5.一些其他配置​编辑 6.导入依赖 7.导入HTML和JS、配置tomcat 8.测试网站是否可以正常访问 9.编写业务代码 开发环境&#xff1a;idea2022.2社区版 1.创建工程 2.构建目录工程结构 web.xml中的…

《程序员的AI书_从代码开始》第一章 机器学习的Hello World

文章目录 1.3 从代码开始1.3.2 一段简单的代码 1.3 从代码开始 1.3.2 一段简单的代码 python导入tensflow.keras报错解决方法 import tensorflow as tf from tensorflow.python.keras.models import Sequential from tensorflow.python.keras.layers import DensemodelSeque…

为什么网络攻击绝大多数发生在游戏行业

近年来&#xff0c;游戏行业欣欣向荣&#xff0c;游戏玩家也呈指数级增长&#xff0c;全球数以亿计的游戏玩家享受着网络游戏广泛的互动体验&#xff0c;然而&#xff0c;由于游戏的崛起和受欢迎程度也使其成为网络黑客寻求利用其漏洞的首选目标。 出于多种原因&#xff0c;游…

MybatisPlus的分页插件自动优化LeftJoin语句导致参数不匹配

所报的错误&#xff1a; java.sql.SQLException: Parameter index out of range (3 &#xff1e; number of parameters, which is 2). 首先会去检查自己传了哪些参数&#xff1f;是否都用上了&#xff1f;反复检查&#xff0c;发现并没有多余的参数&#xff1a; controller…

目前主流的软件开发模型:瀑布模型,增量模型(渐增模型,快速原型模型),螺旋模型,喷泉模型,敏捷模型。

目录 前言&#xff1a; 一、瀑布模型&#xff1a; 二、增量模型&#xff1a; 三、螺旋模型&#xff1a; 四、喷泉模型&#xff1a; 五、敏捷开发模型&#xff1a; 前言&#xff1a; 软件开发模型是用来指导和组织软件开发过程的模式或方法。随着软件行业的发展和不断变化…

Hue 后台编辑器 远程命令执行漏洞

描述 Hue 后台编辑器存在命令执行漏洞&#xff0c;攻击者通过编辑上传 xxx.sh 文件即可达到命令执行的目的。 FOFA title"Hue - 欢迎使用 Hue" "/hue/accounts/login?next/"复现过程 默认密码&#xff1a;admin:admin 上传并编辑文件为执行的命令

5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)

1、DataX简介 1.1 DataX概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具&#xff0c;致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。源码地址&#xff1a;https://github.com/alibaba/Dat…

SpringBoot3.0整合RocketMQ时出现未能加载bean文件

SpringBoot3.0整合RocketMQ时出现未能加载bean文件 问题 APPLICATION FAILED TO START Description: Field rocketMQTemplate in com.spt.message.service.MqProducerService required a bean of type ‘org.apache.rocketmq.spring.core.RocketMQTemplate’ that could not …

Scala里的WordCount 案例

7.7.5 普通 WordCount 案例 package chapter07object TestWordCount__简单版 {def main(args: Array[String]): Unit {//单词计数&#xff1a;将集合中出现的相同单词计数&#xff0c;进行计数&#xff0c;取计数排名的前三的结果val stringList List("Hello Scala Hbas…

2023年前端面试汇总-React

1. 组件基础 1.1. React事件机制 <div onClick{this.handleClick.bind(this)}>点我</div> React并不是将click事件绑定到了div的真实DOM上&#xff0c;而是在document处监听了所有的事件&#xff0c;当事件发生并且冒泡到document处的时候&#xff0c;React将事…

C语言进阶--动态内存管理

目录 一.为什么使用动态内存分配&#xff1f; 二.动态内存函数 2.1.malloc和free malloc函数 free函数 2.2.calloc和realloc calloc函数 realloc函数 三.常见的动态内存错误 对NULL指针的解引用 对动态开辟空间的越界访问 对非动态开辟内存使用free释放 使用free释…

新型进网许可标志规格样式及申请使用流程说明

新型进网许可标志规格样式及申请使用流程说明 一、新型进网许可标志规格样式 (一)标志样式 新型进网许可标志分为彩色样式和黑白样式&#xff0c;如图1所示&#xff0c;生产企业可以自行选择使用。 (二)标志要素 新型进网许可标志由许可标识、设备型号、数字编码等要素组成…

13年测试老鸟,web性能测试-测试用例总结 (全覆盖),卷起来...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 性能测试用例主要…

弟子规 古译今 详解

博主 默语带您 Go to New World. ✍ 个人主页—— 默语 的博客&#x1f466;&#x1f3fb; 《java 面试题大全》 &#x1f369;惟余辈才疏学浅&#xff0c;临摹之作或有不妥之处&#xff0c;还请读者海涵指正。☕&#x1f36d; 《MYSQL从入门到精通》数据库是开发者必会基础之…

docker专题系列之十五:卸载docker

一、准备工作 1.杀死docker有关的容器&#xff1a; docker kill $(docker ps -a -q)2.删除所有docker容器&#xff1a; docker rm $(docker ps -a -q)3.删除所有docker镜像&#xff1a; docker rmi $(docker images -q)4.停止 docker 服务&#xff1a; systemctl stop dock…