100天精通Python(爬虫篇)——第122天:基于selenium接管已启动的浏览器(反反爬策略)

news2025/4/18 23:58:53

文章目录

  • 1、问题描述
  • 2、问题推测
  • 3、解决方法
    • 3.1 selenium自动启动浏览器
    • 3.2 selenium接管已启动的浏览器
    • 3.3 区别总结
  • 4、代码实战
    • 4.1 手动方法(手动打开浏览器输入账号密码)
    • 4.2 自动方法(.bat文件启动的浏览器)


1、问题描述


使用selenium自动化测试爬取pdd的时候,通过携带cookie登录或者控制selenium输入账号密码登录,都出现了:错误代码10001:请求异常请升级客户端后重新尝试


2、问题推测


这个错误的产生是由于pdd可以检测selenium自动化测试的脚本,因此可以阻止selenium的继续访问。现在大厂网站基本上都能检测到selenium脚本了。


3、解决方法


直接用selenium启动浏览器会被检测到,博主测试用selenium接管已经启动的浏览器就不会(原因:接管已经启动的浏览器所携带的浏览器指纹 ≈ 正常访问的浏览器指纹)


使用selenium自动启动浏览器和接管已启动的浏览器,在浏览器指纹方面存在一些区别。以下是详细的分析:

3.1 selenium自动启动浏览器

  1. 默认行为

    • selenium在自动启动浏览器时,通常会使用默认的配置和设置。
    • 浏览器会生成一个新的用户数据目录,这意味着它会创建一个全新的浏览器环境,与之前的会话或用户数据无关。
  2. 指纹特征

    • 由于是新启动的浏览器实例,许多浏览器指纹特征(如用户代理、插件列表、屏幕分辨率等)可能会与常规用户有所不同。
    • selenium可能会在浏览器对象中留下一些特定的标记,如 window.navigator.webdriver 属性,这可能会被网站用来检测自动化工具的使用。
  3. 检测风险

    • 网站可能会通过检测这些指纹特征来识别出 selenium自动化启动的浏览器,从而采取反爬措施,如限制访问、封禁账号等。

3.2 selenium接管已启动的浏览器

  1. 现有环境

    • selenium接管已启动的浏览器时,会使用现有的浏览器实例和用户数据目录。
    • 这意味着浏览器会保留之前的会话信息、登录状态、用户设置等。
  2. 指纹特征

    • 由于是使用现有的浏览器环境,接管后的浏览器指纹特征与常规用户的使用环境更为接近。
    • 浏览器中的插件、扩展、用户代理等设置都会与常规用户保持一致,这有助于降低被检测的风险。
  3. 检测难度

    • 网站在检测接管后的浏览器时,可能会发现其指纹特征与常规用户更为相似,从而难以准确识别出自动化工具的使用。
    • 然而,如果 selenium在接管过程中留下了特定的标记或行为模式,仍然有可能被网站检测到。

3.3 区别总结

  • 指纹特征一致性:接管已启动的浏览器在指纹特征上与常规用户更为一致,而自动启动的浏览器则可能因默认配置和设置而与常规用户有所不同。
  • 检测风险:由于指纹特征的一致性差异,接管已启动的浏览器在降低检测风险方面可能更具优势。
  • 使用场景:自动启动浏览器适用于需要全新浏览器环境的场景,而接管已启动的浏览器则适用于需要保留现有会话信息或用户设置的场景。

4、代码实战


4.1 手动方法(手动打开浏览器输入账号密码)


第一步:找到谷歌浏览器的启动路径,默认在:C:\Program Files\Google\Chrome\Application复制去打开进入路径,如下所示有chrome.exe程序(待会我们需要启动它):


在这里插入图片描述

第二步:当前路径下输入cmd,点击回车:


在这里插入图片描述


进入cmd控制台:


在这里插入图片描述

第三步:我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。在命令行中输入命令,回车:

chrome.exe --remote-debugging-port=9222 --user-data-dir="E:\selenium_data"
  • -remote-debugging-port=端口号:可以指定任何打开的端口。

  • -user-data-dir:指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件。

  • E:\selenium_data:数据存储的目录,这里可以自己修改希望的存储位置

  • 注意:如果失败不要忘了在环境变量中PATH里将chrome的路径添加进去。

第四步:输入命令回车后会启动一个空白浏览器,接下来手动去登录自己目标网站即可:


在这里插入图片描述

第五步:现在,我们需要接管上面手动登录好的浏览器。新建一个python文件,运行以下代码:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options


chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222") # 通过端口号接管已打开的浏览器
driver = webdriver.Chrome(chrome_options=chrome_options)

print(driver.title) # 打印标题

第六步:运行结果,成功打印目标网站标题,表示接管成功

在这里插入图片描述

问题描述:通用方法需要手动打开,手动输入账号密码,基本可以解决所有问题,但是不够智能不够自动化


4.2 自动方法(.bat文件启动的浏览器)

可以把上一种方式的目标路径设置写进 bat 文件(Windows系统),运行 bat 文件来启动浏览器,再用程序接管。

1、新建一个start_chrome.bat文件,复制下面内容(注意:chrome.exe路径改为自己的安装路径,端口号看情况修改):

@echo off
set CHROME_PATH="C:\Program Files\Google\Chrome\Application\chrome.exe"
set DEBUG_PORT=9222

%CHROME_PATH% --remote-debugging-port=%DEBUG_PORT%

点击测试能否自动启动谷歌:

在这里插入图片描述

2、在 Python 中启动 .bat 文件可以借助subprocess模块实现(注意:start_chrome.bat的文件路径)

import subprocess

try:
    # 一、启动 .bat 文件,确保子进程在 Python 程序关闭后仍能继续运行
    # 使用 DETACHED_PROCESS 和 CREATE_NEW_PROCESS_GROUP 标志
    DETACHED_PROCESS = 0x00000008
    CREATE_NEW_PROCESS_GROUP = 0x00000200
    bat_file_path = "start_chrome.bat" # .bat 文件路径
    subprocess.Popen([bat_file_path], creationflags=DETACHED_PROCESS | CREATE_NEW_PROCESS_GROUP, shell=True)
    print("已启动谷歌浏览器,Python 程序关闭后浏览器将继续运行。")
except Exception as e:
    print(f"启动过程中出现错误: {e}")

运行上面代码启动谷歌成功,并且保留我们正常启动浏览器的缓存:

在这里插入图片描述

3、python启动 .bat 文件,然后selenium通过端口号去接管浏览器:

import subprocess
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

try:
    # 一、启动 .bat 文件,确保子进程在 Python 程序关闭后仍能继续运行
    # 使用 DETACHED_PROCESS 和 CREATE_NEW_PROCESS_GROUP 标志
    DETACHED_PROCESS = 0x00000008
    CREATE_NEW_PROCESS_GROUP = 0x00000200
    bat_file_path = "start_chrome.bat" # .bat 文件路径
    subprocess.Popen([bat_file_path], creationflags=DETACHED_PROCESS | CREATE_NEW_PROCESS_GROUP, shell=True)
    print("已启动谷歌浏览器,Python 程序关闭后浏览器将继续运行。")

    # 二、通过端口号去接管启动的浏览器
    chrome_options = Options()
    chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")

    # 创建 Chrome 浏览器实例
    driver = webdriver.Chrome(options=chrome_options)
    print(driver.title)  # 打印页面的标题

    # 三、发送请求
    url = "https://www.baidu.com"
    driver.get(url)
    print(driver.title)  # 打印页面的标题

    # 四、后续再去干别的操作就不容易被检测了,代码省略.......
    print('后续再去干别的操作就不容易被检测了,代码省略.......')
except Exception as e:
    print(f"启动过程中出现错误: {e}")

运行动图展示:

在这里插入图片描述

4、后续再去干别的操作就不容易被检测了,代码省略…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2332593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MPP 架构解析:原理、核心优势与对比指南

一、引言:大数据时代的数据处理挑战 全球数据量正以指数级增长。据 Statista 统计,2010 年全球数据量仅 2ZB,2025 年预计达 175ZB。企业面临的核心挑战已从“如何存储数据”转向“如何快速分析数据”。传统架构在处理海量数据时暴露明显瓶颈…

Python设计模式-工厂模式

一、模式定义与核心思想 工厂模式(Factory Pattern)属于创建型设计模式,其核心思想是通过一个"工厂类"来创建对象,而不是直接调用类的构造函数。这种模式将对象的实例化过程封装起来,使系统在实例化对象时能…

彻底解决VS2008编译错误:fatal error C1083 无法打开包括文件“stdint.h“

彻底解决VS2008编译错误:fatal error C1083 无法打开包括文件"stdint.h" 一、错误现象与本质原因 当在Visual Studio 2008中编译包含C99标准整数类型(如int8_t、uint32_t)的代码时,常出现以下编译错误: f…

react从零开始的基础课

全文约5万字。 1.hello,.. // App.jsx import { useState } from react import reactLogo from ./assets/react.svg import viteLogo from /vite.svg import ./App.cssfunction App() {const [count, setCount] useState(0)return (<><Greeting name"world&qu…

算法题型讲解

一.双指针 主要分为俩种类型&#xff1a; 1.左右指针&#xff1a;双指针指向开头&#xff0c;以一定标准移动或交换&#xff0c;对区域进行划分&#xff0c;或找到特殊点的位置 &#xff08;如&#xff1a;快慢指针判断有无环&#xff0c;移动零&#xff09; 2.对撞指针&am…

Redis和数据库一致性问题

操作模拟 1、先更新数据库还是先更新缓存&#xff1f; 1.1先更新缓存&#xff0c;再更新数据库 按并发的角度来说&#xff0c;有两个线程A、B&#xff0c;操作同一个数据&#xff0c;线程A先更新缓存为1&#xff0c;在线程A更新数据库之前&#xff0c;这时候线程B进来&#…

第R8周:RNN实现阿尔茨海默病诊断(pytorch)

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营]中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊]** 本人往期文章可查阅&#xff1a; 深度学习总结 一、准备工作 &#x1f3e1; 我的环境&#xff1a; 语言环境&#xff1a;Python3.1…

C++基础精讲-02

文章目录 1.C/C申请、释放堆空间的方式对比1.1C语言申请、释放堆空间1.2C申请、释放堆空间1.2.1 new表达式申请数组空间 1.3回收空间时的注意事项1.4malloc/free 和 new/delete 的区别 2.引用2.1 引用的概念2.2 引用的本质2.3 引用与指针的联系与区别2.4 引用的使用场景2.4.1 引…

【网络安全】Linux 命令大全

未经许可,不得转载。 文章目录 前言正文文件管理文档编辑文件传输磁盘管理磁盘维护网络通讯系统管理系统设置备份压缩设备管理其它命令前言 在网络安全工作中,熟练掌握 Linux 系统中的常用命令对于日常运维、日志分析和安全排查等任务至关重要。 以下是常用命令的整理汇总,…

C++学习之ORACLE①

目录 1.ORACLE数据库简介 2..ORACLE数据库安装 3..ORACLE体系结构 4..ORACLE基本概念 5..ORACLE基本元素 6..ORACLE数据库启动和关闭 7.SQLPLUS登录ORACLE数据库相关操作 8.SQLPLUS的基本操作 9.oracle中上课使用的方案 10.SQL语言分类 11.SQL中的select语句语法和注…

企业级开发SpringBoost玩转Elasticsearch

案例 Spring Boot 提供了 spring-data-elasticsearch 模块&#xff0c;可以方便地集成 Elasticsearch。 下面我们将详细讲解如何在 Spring Boot 中使用 Elasticsearch 8&#xff0c;并提供示例代码。 1. 添加依赖: 首先&#xff0c;需要在 pom.xml 文件中添加 spring-data-e…

从零开始的图论讲解(1)——图的概念,图的存储,图的遍历与图的拓扑排序

目录 前言 图的概念 1. 顶点和边 2. 图的分类 3. 图的基本性质 图的存储 邻接矩阵存图 邻接表存图 图的基本遍历 拓扑排序 拓扑排序是如何写的呢? 1. 统计每个节点的入度 2. 构建邻接表 3. 将所有入度为 0 的节点加入队列 4. 不断弹出队头节点&#xff0c;更新其…

SpringBoot框架—启动原理

1.SpringBootApplication注解 在讲解启动原理之前先介绍一个非常重要的注解SpringBootApplication&#xff0c;这个注解在Springboot程序的入口文件Application.java中必须添加。SpringBootApplication是一个整合了三个核心注解的组合注解。 三个核心注解的作用机制&#xff1…

怎么检查网站CDN缓存是否生效

为什么要使用CDN缓存&#xff1f; 网站使用缓存可显著提升加载速度&#xff0c;减少服务器负载和带宽消耗&#xff0c;优化用户体验&#xff0c;增强架构稳定性&#xff0c;助力SEO优化&#xff0c;实现资源高效利用与性能平衡。 通过合理配置 CDN 缓存策略&#xff0c;可降低…

【自然语言处理】深度学习中文本分类实现

文本分类是NLP中最基础也是应用最广泛的任务之一&#xff0c;从无用的邮件过滤到情感分析&#xff0c;从新闻分类到智能客服&#xff0c;都离不开高效准确的文本分类技术。本文将带您全面了解文本分类的技术演进&#xff0c;从传统机器学习到深度学习&#xff0c;手把手实现一套…

vba讲excel转换为word

VBA将excel转换为word Sub ExportToWordFormatted() 声明变量Dim ws As Worksheet 用于存储当前活动的工作表Dim rng As Range 用于存储工作表的使用范围&#xff08;即所有有数据的单元格&#xff09;Dim rowCount As Long, colCount As Long 用于存储数据范围的行数和列数…

ubuntu安装openWebUI和Dify【自用详细版】

系统版本&#xff1a;ubuntu24.04LTS 显卡&#xff1a;4090 48G 前期准备 先安装好docker和docker-compose&#xff0c;可以参考我之前文章安装&#xff1a; ubuntu安装docker和docker-compose【简单详细版】 安装openWebUI 先docker下载ollama docker pull ghcr.nju.edu.c…

基于Flask的勒索病毒应急响应平台架构设计与实践

基于Flask的勒索病毒应急响应平台架构设计与实践 序言&#xff1a;安全工程师的防御视角 作为从业十年的网络安全工程师&#xff0c;我深刻理解勒索病毒防御的黄金时间法则——应急响应速度每提升1分钟&#xff0c;数据恢复成功率将提高17%。本文介绍的应急响应平台&#xff…

spark数据清洗案例:流量统计

一、项目背景 在互联网时代&#xff0c;流量数据是反映用户行为和业务状况的重要指标。通过对流量数据进行准确统计和分析&#xff0c;企业可以了解用户的访问习惯、业务的热门程度等&#xff0c;从而为决策提供有力支持。然而&#xff0c;原始的流量数据往往存在格式不规范、…

list的使用以及模拟实现

本章目标 1.list的使用 2.list的模拟实现 1.list的使用 在stl中list是一个链表,并且是一个双向带头循环链表,这种结构的链表是最优结构. 因为它的实现上也是一块线性空间,它的使用上是与string和vector类似的.但相对的因为底层物理结构上它并不像vector是线性连续的,它并没有…