爬虫策略规避:Python爬虫的浏览器自动化

news2024/11/14 11:06:44

网络爬虫作为一种自动化获取网页数据的技术,被广泛应用于数据挖掘、市场分析、竞争情报等领域。然而,随着反爬虫技术的不断进步,简单的爬虫程序往往难以突破网站的反爬虫策略。因此,采用更高级的爬虫策略,如浏览器自动化,成为了爬虫开发者的必然选择。

浏览器自动化概述

浏览器自动化是指通过编程方式控制浏览器执行一系列操作的技术。在爬虫领域,浏览器自动化可以帮助我们模拟真实用户的行为,从而规避一些简单的反爬虫检测。Python作为一门强大的编程语言,拥有多个库可以实现浏览器自动化,如Selenium、Pyppeteer等。

Selenium库介绍

Selenium是一个用于Web应用程序测试的工具,但它也可以用于浏览器自动化。Selenium支持多种浏览器,如Chrome、Firefox、IE等,并提供了丰富的API来控制浏览器行为。

Selenium的安装

要使用Selenium,首先需要安装它。可以通过pip命令轻松安装:

此外,还需要下载对应浏览器的驱动程序,并将其路径添加到系统环境变量中。

Selenium的基本使用

以下是一个使用Selenium打开网页的简单示例:

python

from selenium import webdriver

# 创建一个Chrome浏览器实例
driver = webdriver.Chrome()

# 打开网页
driver.get("http://www.example.com")

# 获取网页标题
print(driver.title)

# 关闭浏览器
driver.quit()

爬虫策略规避实战

接下来,我们将通过一个简单的爬虫项目,展示如何使用Selenium来规避反爬虫策略。

项目需求

假设我们需要从一个电商网站抓取商品信息,包括商品名称、价格和图片链接。该网站有一定的反爬虫措施,如检测用户代理、请求频率等。

实现步骤

  1. 伪装用户代理:设置浏览器的用户代理为常见的浏览器标识,以模拟真实用户访问。
  2. 设置请求间隔:模拟人类操作,设置合理的请求间隔,避免频繁访问。
  3. 处理JavaScript渲染的页面:使用Selenium可以执行JavaScript,获取动态渲染后的页面内容。
  4. 异常处理:添加异常处理机制,确保爬虫在遇到错误时能够自动恢复。
  5. 使用代理服务器:通过设置代理服务器,隐藏爬虫的真实IP地址,避免IP被封禁。

代码实现

python

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException

# 设置代理服务器
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 设置用户代理
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"

# 初始化浏览器驱动
options = webdriver.ChromeOptions()
options.add_argument(f"user-agent={user_agent}")
options.add_argument(f"http-proxy={proxyHost}:{proxyPort}")
options.add_argument(f"https-proxy={proxyHost}:{proxyPort}")
options.add_argument(f"proxy-Authorization={proxyUser}:{proxyPass}")

driver = webdriver.Chrome(options=options)

# 打开网页
driver.get("http://www.example-ecommerce.com")

# 设置请求间隔
time.sleep(2)

try:
    # 获取商品列表
    products = driver.find_elements(By.CSS_SELECTOR, ".product-list .product-item")
    for product in products:
        # 获取商品名称
        name = product.find_element(By.CSS_SELECTOR, ".product-name").text
        # 获取商品价格
        price = product.find_element(By.CSS_SELECTOR, ".product-price").text
        # 获取商品图片链接
        image_url = product.find_element(By.CSS_SELECTOR, ".product-image").get_attribute("src")
        
        # 打印商品信息
        print(f"名称:{name}, 价格:{price}, 图片链接:{image_url}")

except NoSuchElementException:
    print("页面结构发生变化,无法找到商品信息。")

# 关闭浏览器
driver.quit()

代码解释

  1. 用户代理设置:通过options.add_argument方法设置用户代理,模拟不同浏览器的访问。
  2. 代理服务器设置:通过options.add_argument方法设置代理服务器,隐藏爬虫的真实IP地址。
  3. 请求间隔:使用time.sleep函数设置请求间隔,避免频繁访问导致的反爬虫检测。
  4. 获取商品信息:使用find_elementsfind_element方法定位页面元素,获取商品名称、价格和图片链接。
  5. 异常处理:使用try-except结构处理页面结构变化导致的异常,确保爬虫的健壮性。

总结

通过使用Selenium进行浏览器自动化,我们可以有效地规避一些简单的反爬虫策略,提高爬虫的抓取成功率。然而,随着反爬虫技术的不断进步,单一的浏览器自动化技术可能难以应对所有挑战。因此,在实际应用中,我们需要结合多种技术,如IP代理、请求头伪装、行为分析等,来构建更加强大和稳健的爬虫系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2236420.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信号-3-信号处理、可重入函数与`volatile`关键字总结

信号处理是操作系统中的一个重要机制,它允许进程在运行期间响应外部事件,并作出相应的处理。为了处理信号,程序员需要理解如何设置信号处理器,如何管理信号的屏蔽与阻塞,以及信号的递送机制。本文将结合操作系统中的信…

深度学习-图像评分实验(TensorFlow框架运用、读取处理图片、模型建构)

目录 0、实验准备 ①实验环境 ②需要下载的安装包 ③注意事项(很关键,否则后面内容看不懂) ④容易出现的问题 1、查看数据并读取数据。 2、PIL库里的Image包进行读取(.resize更改图片尺寸,并将原始数据归一化处…

【Linux系统】—— 基本指令(二)

【Linux系统】—— 基本指令(二) 1 「alias」命令1.1 「ll」命令1.2 「alias」命令 2 「rmdir」指令与「rm」指令2.1 「rmdir」2.2 「rm」2.2.1 「rm」 删除普通文件2.2.2 「rm」 删除目录2.2.3 『 * 』 通配符 3 「man」 指令4 「cp」 指令4.1 拷贝普通…

面向对象技术简述(含设计模式)

6.9.2 面向对象技术 面向对象 对象 分类 继承 通过消息的通信 面向对象 对象 分类 继承 通过消息的通信 面向对象对象分类继承通过消息的通信其中包括: 对象 运行的实体;既包含属性/数据,又包含方法/行为/操作数据的函数;…

【信号处理】基于联合图像表示的深度学习卷积神经网络

Combined Signal Representations for Modulation Classification Using Deep Learning: Ambiguity Function, Constellation Diagram, and Eye Diagram 信号表示 Ambiguity Function(AF) 模糊函数描述了信号的两个维度(dimensions):延迟(delay)和多普勒(Doppler)。 …

【C++练习】两个实型数的加法运算

题目: 编写一个C程序,实现两个实型数的加法运算并输出结果。 要求: 定义一个函数 dadd,该函数接收两个 double 类型的参数,并返回它们的和。在 main 函数中,提示用户输入两个实型数(double 类…

【开源免费】基于SpringBoot+Vue.JS周边产品销售网站(JAVA毕业设计)

博主说明:本文项目编号 T 061 ,文末自助获取源码 \color{red}{T061,文末自助获取源码} T061,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

Sql面试题二:请查询出用户连续三天登录的所有数据记录

问题: 现有用户登录记录表,请查询出用户连续三天登录的所有数据记录 id dt 1 2024-04-25 1 2024-04-26 1 2024-04-27 1 2024-04-28 1 2024-04-30 1 2024-05-01 1 2024-05-02 1 2024-05-04 1 2024-05-05 2 2…

科研绘图系列:R语言分组堆积图(grouped stacked barplot)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包准备画图主题数据链接导入数据画图数据准备图例图1图2合并图系统信息介绍 分组堆积图(Grouped Stacked Bar Chart)是一种数据可视化图表,它结合了分组柱状图和堆积柱状图…

世界技能竞赛大数据应用开发环境1:1还原

集群情况 模块A搭建环境,在容器中搭建大数据平台 Pc机,安装安装比赛需要软件 模块B中使用idea快速开发完成数据处理 模块E包含了接口数据,使用vs code快速搭建vue数据可视化

【网络协议大花园】应用层 http协议的使用小技巧,用好了都不用加班,效率翻两倍(下篇)

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人…

SpringBoot源码解析(一)

SpringBoot自动装配原理 SpringBootApplication注解 我们在使用SpringBoot时,通常使用的是SpringBootApplication这个注解,比如: 而这个注解的定义为下图,可以发现这个注解上有另外三个注解:SpringBootConfiguration…

流类库与输入输出

来源:《C语言程序设计》 像C语言一样,C语言也没有输入输出语句。 但C标准库中有一个面向对象的输入输出软件包,即I/O流类库。 流是I/O流类的中心概念。 ------ I/O流类库是C语言中I/O函数在面向对象的程序设计方法中的一个替换产品。 -…

k8s图形化显示(KRM)

在master节点 kubectl get po -n kube-system 这个命令会列出 kube-system 命名空间中的所有 Pod 的状态和相关信息,比如名称、状态、重启次数等。 systemctl status kubelet #查看kubelet状态 yum install git #下载git命令 git clone https://gitee.com/duk…

理解鸿蒙app 开发中的 context

是什么 Context是应用中对象的上下文,其提供了应用的一些基础信息,例如resourceManager(资源管理)、applicationInfo(当前应用信息)、dir(应用文件路径)、area(文件分区…

ML1:sklearn env

sklearn: 中文参考: https://scikit-learn.cn/stable/modules/linear_model.html#ordinary-least-squares https://scikit-learn.org.cn/view/4.html ——》为主,不懂地方参考上面中文以及下面英文 英文参考: https://scikit…

五分钟入门双拼!

‍这是从零开始学双拼的第一篇:概述 双拼的原理 如果你使用全拼,想要完整敲出一个字的读音,需要敲出这个字拼音的每个字母。 虽然简拼能简化一点步骤,但除非是很常见的成语、俗语,否则重码率很高,选词很…

基于STM32的智能充电桩:集成RTOS、MQTT与SQLite的先进管理系统设计思路

一、项目概述 随着电动车的普及,充电桩作为关键基础设施,其智能化、网络化管理显得尤为重要。本项目旨在基于STM32微控制器开发一款智能充电桩,能够实现高效的充电监控与管理。项目通过物联网技术,提供实时数据监测、远程管理、用…

毕业后如何查找获取文献

当我们毕业后就无法再使用自己学校的数据库资源了,如果需要查找文献该从哪里获取资源呢?下面这个方法很简单而且有效: 一、首先选对科研工具 文献党下载器,把大量数据库资源整合在一起,直接去文献来源数据库查找获取…

串口接收,不定长数据接收

###1.CUBE-MX配置串口 2.我采用串口中断接收,打开中断接口 3.时钟同样8倍频,1分频,使用内部时钟 打开串口中断 main() { __HAL_UART_ENABLE_IT(&huart1, UART_IT_IDLE); // 启用空闲中断__HAL_UART_ENABLE_IT(&huart1, UART_IT_R…