〖Python网络爬虫实战㉙〗- Selenium案例实战(三)

news2024/12/23 15:26:29
  • 订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+ 

                python项目实战

                Python编程基础教程系列(零基础小白搬砖逆袭)

  • 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销(名额有限,先到先得)

        即将转为付费专栏,更多详细请看,五一或有优惠活动哦。

关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明

  • 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。

 最近更新

〖Python网络爬虫实战㉘〗- Selenium案例实战(二)

🌟上节回顾

我们在上一节,为大家演示了selenium的实战,今天,我们将会带大家继续实现selenium的项目实战,我们更加深刻的了解selenium的优势是什么。

⭐️Selenium案例实战(三)

今天,我们就用python+Selenium来模拟人来做题,实现鼠标的点击行为。

🌟环境使用

  • python 3.9
  • pycharm

🌟模块使用

  • requests
  • selenium
  • time
  • 谷歌驱动

🌟说明

✨一、谷歌驱动安装

1.下载网址

CNPM Binaries Mirror

2.文件安装(放置)位置

可以把这个文件理解成一个脚本入口。说它是安装,其实就是把下载的 chromedriver.exe 文件复制到相应的位置。

将文件复制到两个位置:1...\python\Scripts复制一份到安装Python的文件夹中的Scripts文件夹中;2.如果用的是Pycharm,再复制一份到..\python\site-packages\selenium\webdriver\chrome文件中。这个地址可以将鼠标放在Pycharm里面安装库的地方的相应库上就能看到。

✨二、selenium模块

        之前,我们爬虫是模拟浏览器,但始终不是用的浏览器,但今天我们要说的是另一种爬虫方式,这次不是模拟浏览器,而是用程序去控制浏览器进行一些列操作,也就是selenium。selenium是python的一个第三方库,对外提供的接口可以操控浏览器,比如说输入、点击,跳转,下拉等动作。

  在使用selenium模块之前要做两件事,一是安装selenium模块,可以用终端用pip,也可以在pycharm里的setting安装;二是我们需要下载一款浏览器驱动程序,下载的驱动程序要和浏览器的版本一致。

 🌟代码实现

c574d5a937014c7692cb3cda53d652a1.gif

✨打开网页

我们打开在线驾驶员考试科目一考试的网址。代码如下:

driver = webdriver.Chrome()

driver.get('https://www.jsyks.com/kmy-mnks')

运行效果如下:

3079e65458874de492c4bca25ec41e28.png

✨分析网页

我们发现每道题目后面都有查看本题分析,点击进去之后,我们就可以看到这题答案,通过对比 分析发现,答案网址有一定的规律,只是后缀不一样,我们称之为该题的编号或者是答案id。后来我们又发现考试页面就有我们所需要的答案id。

1e1f0f342ffb48eface503e2568ffb2c.png 

接下来,我们开始提取答案id。代码如下:

# 获取答案id

lis = driver.find_elements(By.CSS_SELECTOR, 'div.Exam ul.Content li')

 然后,我们用for循环遍历,获取li标签的c属性 get_attribute方法。

for li in lis:
    

    answer_id = li.get_attribute('c')

接下来,我们开始拼接答案的网址。

answer_url = f'https://tiba.jsyks.com/Post/{answer_id}.htm'

✨解析网页

我们获得网址之后,发起请求,获取数据,解析数据,获得我们想要的数据,使用正则表达式去匹配答案的内容。

html_data = requests.get(answer_url).text
 
answer = re.findall('<br/>答案:<u>(.*?)</u></h1><p>', html_data)[0]

我们请求之后,发现答案和我们题目的选项有细微的差别,对和正确,错和错误,我们是只是什么意思,但是机器不知道什么意思,所以需要我们转换数据。

    if answer == '错':

        answer = '错误'

    elif answer == '对':

        answer = '正确'

✨模拟做题

做完这些,就需要将选项和答案进行比较,首先是选项匹配:

bs = li.find_elements(By.CSS_SELECTOR, 'b')        

答案和选项比较:


    for b in bs:

        choose = b.text

        if len(choose) > 2:

            choose = choose[0]

        if answer == choose:

            b.click()

到这里我们所有的题目就做完了,接下来是交卷。

driver.find_element(By.CSS_SELECTOR, '.btnJJ').click()

运行完代码,我们会发现我们获得了满分。

e5f44c443eca4aad9460c4363b39d923.png

玩归玩,闹归闹,还是要好好做题。

全部代码如下:

import re

import requests
from selenium import webdriver
import time

from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.jsyks.com/kmy-mnks')
# time.sleep(1)
# 获取答案id
lis = driver.find_elements(By.CSS_SELECTOR, 'div.Exam ul.Content li')
# print(lis)
for li in lis:
    # 获取li标签c属性
    answer_id = li.get_attribute('c')
    # print(answer_id)
    answer_url = f'https://tiba.jsyks.com/Post/{answer_id}.htm'
    # print(answer_url)
    html_data = requests.get(answer_url).text
    # print(html_data)
    answer = re.findall('<br/>答案:<u>(.*?)</u></h1><p>', html_data)[0]

    if answer == '错':
        answer = '错误'
    elif answer == '对':
        answer = '正确'
    # print(answer)
    # 答案和选项内容比较

    # 获取选项

    bs = li.find_elements(By.CSS_SELECTOR, 'b')
    # 把b标签提取出来了
    for b in bs:
        choose = b.text
        if len(choose) > 2:
            # 提取第一个元素
            choose = choose[0]
        if answer == choose:
            b.click()
    #     print('选项:', choose)
    # print('答案:', answer)
    time.sleep(2)

driver.find_element(By.CSS_SELECTOR, '.btnJJ').click()

 🌟总结

我们前面和大家讲解了三个实战,后面,我们将会具体的分析selenium的用法,以及在实战中常用的函数介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/560382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenGL之着色器

文章目录 什么是着色器数据类型输入与输出Uniform三角形渐变色例子从文件中读取 什么是着色器 着色器是使用一种叫GLSL的类C语言写成的。GLSL是为图形计算量身定制的&#xff0c;它包含一些针对向量和矩阵操作的有用特性。着色器的开头总是要声明版本&#xff0c;接着是输入和输…

攻击面管理有多重要?从一个社工钓鱼的仿冒网站说起

2023年4月中旬&#xff0c;A企业紧锣密鼓地展开了重保前期的筹备。A企业是一家集团公司&#xff0c;业务范围广&#xff0c;资产众多&#xff0c;为了提前了解自身安全情况&#xff0c;探知未知风险&#xff0c;公司通过自身资产清单及配套手段对自身资产暴露情况进行了梳理。 …

总结springboot项目中一些后端接收前端传参的方法

文章目录 1、java方法入参里面什么注解都没有2、不使用&#xff1f;&来拼接参数&#xff0c;在参数中添加PathVariable注解3、RequestBody 先创建一个springboot项目&#xff0c;并在pom文件中添加web依赖&#xff1a; <dependency><groupId>org.springframewo…

Linux:LVM动态磁盘管理

Linux中的LVM是什么 LVM&#xff08;Logical Volume Manager&#xff09;是Linux系统中的一种动态分区技术&#xff0c;它允许将多个物理硬盘上的存储空间组合成一个或多个逻辑卷&#xff08;Logical Volume&#xff09;&#xff0c;并且可以在运行时对逻辑卷进行调整。LVM的设…

Unity UI -- (7) 创建世界空间UI

目前为止&#xff0c;我们已经设计了一个屏幕空间UI&#xff08;Screen Space UI&#xff09;。一个屏幕空间UI会在屏幕上平坦放置&#xff0c;它会被渲染到环境中所有东西的上面&#xff0c;无论相机位置在哪里。 而一个世界空间UI&#xff08;World Space UI&#xff09;能够…

什么是半实物仿真平台自动驾驶半实物仿真平台有哪些?

文章目录 半实物仿真平台介绍自动驾驶半实物仿真平台介绍1.CARLA2.AirSim3.LGSVL Simulator 半实物仿真平台介绍 半实物仿真平台是一种综合利用虚拟仿真和实际硬件设备的仿真系统。它将虚拟环境和真实硬件设备结合起来&#xff0c;旨在提供更真实、更准确的仿真体验。 在半实…

Hack The Box真实靶机环境搭建教程

Hack The Box真实靶机环境搭建教程 1.开启测试靶机的方法2.Windows连接HTB3.Kali连接HTB 1.开启测试靶机的方法 在机器列表中选择一台主机&#xff1a; 选择加盟主机&#xff1a; 靶机开启成功&#xff1a; 2.Windows连接HTB 下载安装OpenVPN&#xff1a; 下载VPN&#xff08…

Linux---文本处理命令(grep、wc、管道符 |)

1. grep命令 grep命令能够在一个或多个文件中&#xff0c;搜索某一特定的字符模式&#xff08;也就是正则表达式&#xff09;&#xff0c;此模式可以 是单一的字符、字符串、单词或句子。 注意&#xff1a;在基本正则表达式中&#xff0c;如通配符 *、、{、|、( 和 )等&#…

【STM32G431RBTx】备战蓝桥杯嵌入式→决赛试题→第十三届

文章目录 前言一、题目二、模块初始化三、代码实现interrupt.h:interrupt.c:main.h:main.c: 四、完成效果五、总结 前言 无 一、题目 二、模块初始化 1.LCD这里不用配置&#xff0c;直接使用提供的资源包就行 2.ADC:开启ADCsingle-ended 3.LED:开启PC8-15,PD2输出模式就行了…

从前序与中序遍历序列构造二叉树(java)

从前序与中序遍历序列构造二叉树 leetcode 105 题-原题链接题目描述解题思路往期经典二叉树递归题目&#xff1a; leetcode 105 题-原题链接 从前序与中序遍历序列构造二叉树 题目描述 给定两个整数数组 preorder 和 inorder &#xff0c;其中 preorder 是二叉树的先序遍历&a…

【论文阅读系列】NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA) 计算机视觉

NWD-Based Model | 小目标检测新范式&#xff0c;抛弃IoU-Based暴力涨点(登顶SOTA) 计算机视觉 参考&#xff1a;博客1 知乎2 在这里进行纪录分享&#xff0c;这是有用的资料&#xff0c;避免之后再寻找相当麻烦。 小目标检测是一个非常具有挑战性的问题&#xff0c;因为小目…

监控易:信创工程,几十万台终端设备桌面集中监控运维方案​

监控易&#xff1a;信创工程&#xff0c;几十万台终端设备桌面集中监控运维方案 从2019年开始,我国因国际国内形势的迫切要求,在信息和网络安全方面启动 “安全可靠工程”,全面深入推进信创运维及相关产品国产化。时至今日&#xff0c;已取得令世人瞩目的成果。 过去&#xff…

learn_C_deep_14 (条件编译的基本使用与理解)

目录 条件编译 1.条件编译如何使用&#xff1f; 2.为何要有条件编译? 3. 条件编译都在哪些地方用? 条件编译 1.条件编译如何使用&#xff1f; C语言的条件编译是一种在程序编译时根据条件选择不同代码段进行编译的技术。条件编译可以用于实现代码跨平台&#xff0c;开启…

C++小知识点(auto关键字)

&#x1f339;作者:云小逸 &#x1f4dd;个人主页:云小逸的主页 &#x1f4dd;Github:云小逸的Github &#x1f91f;motto:要敢于一个人默默的面对自己&#xff0c;强大自己才是核心。不要等到什么都没有了&#xff0c;才下定决心去做。种一颗树&#xff0c;最好的时间是十年前…

猿创征文|Spring系列框架之面向切面编程AOP

⭐️前面的话⭐️ 本篇文章将介绍一种特别重要的思想&#xff0c;AOP&#xff08;Aspect Oriented Programming&#xff09;&#xff0c;即面向切面编程&#xff0c;可以说是OOP&#xff08;Object Oriented Programming&#xff0c;面向对象编程&#xff09;的补充和完善。 …

Springcloud1---->Zuul网关

目录 简介加入zuul后的架构快速入门添加Zuul依赖编写zuul启动类编写zuul配置文件编写路由规则 面向服务的路由添加Eureka客户端依赖开启Eureka客户端发现功能添加Eureka配置&#xff0c;获取服务信息修改映射配置&#xff0c;通过服务名称获取 简化的路由配置过滤器使用场景自定…

这个 堆排序详解过程 我能吹一辈子!!!

文章目录 堆排序的概念堆的分类堆排序的算法思想堆排序的实现 堆排序的概念 堆是一种叫做完全二叉树的数据结构&#xff0c;可分为大根堆、小根堆&#xff0c;而堆排序就是基于这种结构产生的一种排序的算法。 堆的分类 大根堆&#xff1a;每个节点的值都大于或者等于它的左…

SpringBoot 读取 yml 文件属性值常用法总结

开发过程中有一些常量配置一般会写在application.yml文件中&#xff0c;而Spring Boot读取yml文件的主要方式有以下几种: 一、使用Value注解 在bean的属性上使用Value注解,直接读取yml中的值,如: 但这里面写法也有一些情况&#xff1a;其实这种写法对于 String 字符串其实没有…

计算机网络考试周极限复习--1

第一章 时延 因特网协议栈和OSI参考模型 应用层&#xff1a;报文 HTTP&#xff08;提供了Web文档的请求和传送&#xff09;&#xff0c;SMP&#xff08;提供了电子邮件报文的传送&#xff09;&#xff0c; FTP&#xff08;它提供两个端系统之间的文件传送&#xff09; 运输…

【线下|05.27】|StarRocks Friends 杭州站

StarRocks & Friends 是由 StarRocks 社区发起的城市线下 meetup&#xff0c;旨在联合社区与行业的专家小伙伴们分享基于 StarRocks 的最佳实践、大数据分析的前沿技术和 StarRocks 生态融合等热门话题。 不远千里奔赴&#xff0c;只为与你相聚。这个夏天&#xff0c;让我们…