〖Python网络爬虫实战㉙〗- Selenium案例实战（三）

news2025/7/16 11:41:59

订阅：新手可以订阅我的其他专栏。免费阶段订阅量1000+

python项目实战

Python编程基础教程系列（零基础小白搬砖逆袭)

说明：本专栏持续更新中，目前专栏免费订阅，在转为付费专栏前订阅本专栏的，可以免费订阅付费专栏，可报销（名额有限，先到先得）。

即将转为付费专栏，更多详细请看，五一或有优惠活动哦。

关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明

作者：爱吃饼干的小白鼠。Python领域优质创作者，2022年度博客新星top100入围，荣获多家平台专家称号。

🌟上节回顾

我们在上一节，为大家演示了selenium的实战，今天，我们将会带大家继续实现selenium的项目实战，我们更加深刻的了解selenium的优势是什么。

⭐️Selenium案例实战（三）

今天，我们就用python+Selenium来模拟人来做题，实现鼠标的点击行为。

🌟环境使用

python 3.9
pycharm

🌟模块使用

requests
selenium
time
谷歌驱动

🌟说明

✨一、谷歌驱动安装

1.下载网址

CNPM Binaries Mirror

2.文件安装（放置）位置

可以把这个文件理解成一个脚本入口。说它是安装，其实就是把下载的 chromedriver.exe 文件复制到相应的位置。

将文件复制到两个位置：1...\python\Scripts复制一份到安装Python的文件夹中的Scripts文件夹中；2.如果用的是Pycharm，再复制一份到..\python\site-packages\selenium\webdriver\chrome文件中。这个地址可以将鼠标放在Pycharm里面安装库的地方的相应库上就能看到。

✨二、selenium模块

之前，我们爬虫是模拟浏览器，但始终不是用的浏览器，但今天我们要说的是另一种爬虫方式，这次不是模拟浏览器，而是用程序去控制浏览器进行一些列操作，也就是selenium。selenium是python的一个第三方库，对外提供的接口可以操控浏览器，比如说输入、点击，跳转，下拉等动作。

　　在使用selenium模块之前要做两件事，一是安装selenium模块，可以用终端用pip，也可以在pycharm里的setting安装；二是我们需要下载一款浏览器驱动程序，下载的驱动程序要和浏览器的版本一致。

🌟代码实现

✨打开网页

我们打开在线驾驶员考试科目一考试的网址。代码如下：

driver = webdriver.Chrome()

driver.get('https://www.jsyks.com/kmy-mnks')

运行效果如下：

✨分析网页

我们发现每道题目后面都有查看本题分析，点击进去之后，我们就可以看到这题答案，通过对比分析发现，答案网址有一定的规律，只是后缀不一样，我们称之为该题的编号或者是答案id。后来我们又发现考试页面就有我们所需要的答案id。

接下来，我们开始提取答案id。代码如下：

# 获取答案id

lis = driver.find_elements(By.CSS_SELECTOR, 'div.Exam ul.Content li')

然后，我们用for循环遍历，获取li标签的c属性 get_attribute方法。

for li in lis:
    

    answer_id = li.get_attribute('c')

接下来，我们开始拼接答案的网址。

answer_url = f'https://tiba.jsyks.com/Post/{answer_id}.htm'

✨解析网页

我们获得网址之后，发起请求，获取数据，解析数据，获得我们想要的数据，使用正则表达式去匹配答案的内容。

html_data = requests.get(answer_url).text
 
answer = re.findall('<br/>答案：<u>(.*?)</u></h1><p>', html_data)[0]

我们请求之后，发现答案和我们题目的选项有细微的差别，对和正确，错和错误，我们是只是什么意思，但是机器不知道什么意思，所以需要我们转换数据。

    if answer == '错':

        answer = '错误'

    elif answer == '对':

        answer = '正确'

✨模拟做题

做完这些，就需要将选项和答案进行比较，首先是选项匹配：

bs = li.find_elements(By.CSS_SELECTOR, 'b')

答案和选项比较:


    for b in bs:

        choose = b.text

        if len(choose) > 2:

            choose = choose[0]

        if answer == choose:

            b.click()

到这里我们所有的题目就做完了，接下来是交卷。

driver.find_element(By.CSS_SELECTOR, '.btnJJ').click()

运行完代码，我们会发现我们获得了满分。

玩归玩，闹归闹，还是要好好做题。

全部代码如下：

import re

import requests
from selenium import webdriver
import time

from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.jsyks.com/kmy-mnks')
# time.sleep(1)
# 获取答案id
lis = driver.find_elements(By.CSS_SELECTOR, 'div.Exam ul.Content li')
# print(lis)
for li in lis:
    # 获取li标签c属性
    answer_id = li.get_attribute('c')
    # print(answer_id)
    answer_url = f'https://tiba.jsyks.com/Post/{answer_id}.htm'
    # print(answer_url)
    html_data = requests.get(answer_url).text
    # print(html_data)
    answer = re.findall('<br/>答案：<u>(.*?)</u></h1><p>', html_data)[0]

    if answer == '错':
        answer = '错误'
    elif answer == '对':
        answer = '正确'
    # print(answer)
    # 答案和选项内容比较

    # 获取选项

    bs = li.find_elements(By.CSS_SELECTOR, 'b')
    # 把b标签提取出来了
    for b in bs:
        choose = b.text
        if len(choose) > 2:
            # 提取第一个元素
            choose = choose[0]
        if answer == choose:
            b.click()
    #     print('选项:', choose)
    # print('答案:', answer)
    time.sleep(2)

driver.find_element(By.CSS_SELECTOR, '.btnJJ').click()