Python Requests 的高级使用技巧:应对复杂 HTTP 请求场景

news2024/11/7 20:55:10

爬虫代理

介绍

网络爬虫(Web Crawler)是自动化的数据采集工具,用于从网络上提取所需的数据。然而,随着反爬虫技术的不断进步,很多网站增加了复杂的防护机制,使得数据采集变得更加困难。在这种情况下,Python 的 requests 库因其易用性和强大的功能,成为了开发爬虫的常用工具。然而,在复杂的 HTTP 请求场景中,标准的 requests 使用往往不够灵活,爬虫需要结合代理、会话控制、限流等高级技巧来更好地适应不同网站的反爬限制。

本文将针对三种典型的复杂 HTTP 请求场景,分别为 Spider Trap(蜘蛛陷阱)、SESSION访问限制和请求频率限制,进行深入的技术分析,并给出实际代码示例,帮助读者掌握 Python Requests 的高级用法。

技术分析

1. 应对 Spider Trap(蜘蛛陷阱)

Spider Trap 是一种通过设置大量链接或无限循环的链接结构来消耗爬虫资源的技术。爬虫陷入这些陷阱后,可能会在特定网页中无限循环,导致资源浪费,甚至引发封禁。为避免此问题,我们可以采取以下措施:

  • CSS类链接数控制:限制同一页面中每个 CSS 类中能爬取的最大链接数,从而防止在陷阱页面中过度抓取。
  • URL去重:通过哈希或布隆过滤器(Bloom Filter)对已访问的 URL 进行去重,避免重复抓取。

以下代码展示了如何通过 Python Requests 结合代理和 CSS 类链接数控制来实现对 Spider Trap 的防护。

import requests
from bs4 import BeautifulSoup
import hashlib

# 代理信息,需替换成实际的亿牛云爬虫代理配置 www.16yun.cn
proxy = {
    "http": "http://username:password@proxy.16yun.cn:18000",
    "https": "http://username:password@proxy.16yun.cn:18000"
}

# 用于记录访问过的URL
visited_urls = set()

# 爬取函数
def crawl(url, max_links_per_class=10):
    if url in visited_urls:
        print(f"已访问过 URL:{url}")
        return
    
    try:
        # 使用代理发送请求
        response = requests.get(url, proxies=proxy, timeout=10)
        response.raise_for_status()
        visited_urls.add(url)  # 标记该 URL 为已访问
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 统计每个 CSS 类中的链接数
        class_link_count = {}

        for link in soup.find_all("a", href=True):
            # 计算每个链接的哈希值
            link_url = link['href']
            link_class = link.get("class", [""])[0]

            # 更新每个 CSS 类的链接数
            class_link_count[link_class] = class_link_count.get(link_class, 0) + 1

            # 超过最大链接数则跳过
            if class_link_count[link_class] > max_links_per_class:
                print(f"跳过过多链接的类:{link_class}")
                continue
            
            # 递归爬取新链接
            if link_url not in visited_urls:
                crawl(link_url)

    except requests.RequestException as e:
        print(f"请求失败:{e}")

# 开始爬取
crawl("http://example.com")

2. SESSION访问限制

某些网站会通过观察用户的操作模式来区分是普通用户还是爬虫。例如,频繁的请求和重复性高的操作可能被视为异常,导致账号被限制访问。针对这种情况,我们可以模拟用户的正常操作,比如在页面之间设置合理的等待时间,同时通过多个账号轮换访问来减少单一 SESSION 的负载。

以下代码示例展示了如何模拟多账号登录,并进行合理的延时,避免触发访问限制。

import requests
import time
import random

# 代理信息,需替换成实际的亿牛云爬虫代理配置 www.16yun.cn
proxy = {
    "http": "http://username:password@proxy.16yun.cn:18000",
    "https": "http://username:password@proxy.16yun.cn:18000"
}

# 用户账号列表
accounts = [
    {"username": "user1", "password": "pass1"},
    {"username": "user2", "password": "pass2"},
    # 可添加更多账号
]

def login(account):
    session = requests.Session()
    login_url = "http://example.com/login"
    
    try:
        # 使用POST方法模拟登录请求
        response = session.post(login_url, data=account, proxies=proxy)
        response.raise_for_status()
        
        # 检查登录状态
        if "欢迎" in response.text:
            print(f"{account['username']} 登录成功")
            return session
        else:
            print(f"{account['username']} 登录失败")
            return None

    except requests.RequestException as e:
        print(f"请求失败:{e}")
        return None

# 主循环
for account in accounts:
    session = login(account)
    if session:
        # 模拟正常操作,随机延时
        for _ in range(5):
            try:
                response = session.get("http://example.com/data", proxies=proxy)
                response.raise_for_status()
                print(f"获取数据:{response.text[:100]}...")
                
                # 模拟用户的延时
                time.sleep(random.uniform(1, 3))

            except requests.RequestException as e:
                print(f"请求失败:{e}")
                
    # 切换账号
    time.sleep(random.uniform(5, 10))

3. 请求频率限制

为了防止频繁请求造成服务器压力,很多网站设置了请求频率限制。常用的限流算法包括令牌桶漏桶。这些算法通过控制请求速度和时间间隔来实现稳定的数据请求。

以下示例展示了通过限流控制请求频率的方式,以避免触发请求频率限制。

import requests
import time
import threading
import queue

# 代理信息,需替换成实际的亿牛云爬虫代理配置 www.16yun.cn
proxy = {
    "http": "http://username:password@proxy.16yun.cn:18000",
    "https": "http://username:password@proxy.16yun.cn:18000"
}

# 配置令牌桶
class TokenBucket:
    def __init__(self, rate, capacity):
        self.rate = rate          # 每秒生成的令牌数
        self.capacity = capacity  # 桶的最大容量
        self.tokens = capacity
        self.last_refill_time = time.time()

    def acquire(self):
        current_time = time.time()
        elapsed = current_time - self.last_refill_time
        # 更新令牌数量
        self.tokens = min(self.capacity, self.tokens + elapsed * self.rate)
        self.last_refill_time = current_time

        # 判断是否可以进行请求
        if self.tokens >= 1:
            self.tokens -= 1
            return True
        else:
            return False

# 创建令牌桶,限制每秒最多3个请求
token_bucket = TokenBucket(rate=3, capacity=3)

def limited_request(url):
    while not token_bucket.acquire():
        time.sleep(0.1)  # 等待令牌
    try:
        response = requests.get(url, proxies=proxy)
        print(f"获取数据:{response.text[:100]}...")
    except requests.RequestException as e:
        print(f"请求失败:{e}")

# 测试请求
urls = ["http://example.com/data"] * 10
for url in urls:
    threading.Thread(target=limited_request, args=(url,)).start()

结论

本文深入探讨了 Python Requests 的高级使用技巧,帮助读者在面对复杂的 HTTP 请求场景时更加得心应手。通过代理的使用、CSS 类链接数控制、多账号 SESSION 切换、以及限流算法的实现,我们可以大幅提高爬虫的稳定性与效率,提升在反爬虫环境中的生存能力。掌握这些技巧不仅有助于提高抓取数据的成功率,同时也为更复杂的反爬需求打下了扎实的技术基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2228775.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SAP Hana】X-DOC:数据仓库ETL如何抽取SAP中的CDS视图数据

【SAP Hana】X-DOC:数据仓库ETL如何抽取SAP中的CDS视图数据 1、无参CDS对应数据库视图2、有参CDS对应数据库表函数3、封装有参CDS为无参CDS,从而对应数据库视图 1、无参CDS对应数据库视图 select * from ZFCML_REP_V where mandt 300;2、有参CDS对应数…

提升网站速度与性能优化的有效策略与实践

内容概要 在数字化快速发展的今天,网站速度与性能优化显得尤为重要,它直接影响用户的浏览体验。用户在访问网站时,往往希望能够迅速获取信息,若加载时间过长,轻易可能导致他们转向其他更为流畅的网站。因此&#xff0…

C#界面设计--9--fatal error C1083: 无法打开包括文件:“jruparse.h”: No such file or directory

1、VS2008-编译时报错“fatal error C1083: 无法打开包括文件:“jruparse.h”: No such file or directory” 2、问题出现的原因及解决方法 1、如果要引入的这些,h文件跟.cpp在同一个目录下,就不会出现这种问题,检査在工程的include目录下是不是真的存…

‍️CentOS7.9 mall 部署【高可用版本】【本机部署】

文章目录 [TOC]技术选型后端技术前端技术移动端技术开发环境架构图业务架构图 项目部署实操主机规划中间件版本服务规划系统准备开始部署[[#MYSQL]]建立主从关系再次配置成为双主双从为 mysql 集群配置 vip [[#mongodb]]在主节点上无认证登录 [[#redis]]在主节点上查看集群状态…

【数据结构】-数组

数组 特点: 数组的地址连续,可以通过下标获取数据。 1. 数组扩容 步骤: $1. 创建一个比原来数组更长的新数组 $2. 让原来数组当中的数据依次复制到新数组当中 $3. 让arr指向新数组,原数组空间释放 2. 数组插入 2.1 最后位置…

Java 使用Maven Surefire插件批量运行单元测试

在基于Maven的Java项目中可以使用Maven 的 mvn test 命令来运行单元测试。 示例 有一个简单的Maven 项目&#xff0c; pom.xml 只导入了JUnit 5 的相关依赖&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://m…

如何搭建题库管理小序❓

土著刷题小&#x1f34a;序不仅能够作为组织考试的利器&#xff0c;它同样可以帮助教育培训机构构建一个强大且高效的题库管理系统。 下面跟随我们的指导&#xff0c;一起来看看如何利用土著刷题小&#x1f34a;序轻松快捷地建立起自己的题库&#xff0c;并享受其所带来的诸多好…

ComfyUI - ComfyUI 工作流中集成 SAM2 + GroundingDINO 处理图像与视频 教程

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/143359538 免责声明&#xff1a;本文来源于个人知识与公开资料&#xff0c;仅用于学术交流&#xff0c;欢迎讨论&#xff0c;不支持转载。 SAM2 与…

汽车免拆诊断案例 | 2010款起亚赛拉图车发动机转速表指针不动

故障现象  一辆2010款起亚赛拉图车&#xff0c;搭载G4ED 发动机&#xff0c;累计行驶里程约为17.2万km。车主反映&#xff0c;车辆行驶正常&#xff0c;但组合仪表上的发动机转速表指针始终不动。 故障诊断  接车后进行路试&#xff0c;车速表、燃油存量表及发动机冷却温度…

MFC界面开发组件Xtreme Toolkit Pro v24全新发布—完整的SVG支持

Codejock软件公司的Xtreme Toolkit Pro是屡获殊荣的VC界面库&#xff0c;是MFC开发中最全面界面控件套包&#xff0c;它提供了Windows开发所需要的11种主流的Visual C MFC控件&#xff0c;包括Command Bars、Controls、Chart Pro、Calendar、Docking Pane、Property Grid、Repo…

基于Springboot+Vue的智慧社区数字治理平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 智慧社区作为智慧城市…

SpringMVC学习中遇到编码问题(过滤器)

一、准备 1、创建一个简单的spring项目&#xff0c;具体不多说&#xff0c;这里主要使用Java配置来搭建。 2、这里我们就只简单的添加两个主要的包&#xff08;若是想要其他的自己添加&#xff09; <dependency><groupId>org.springframework</groupId>&l…

搭建支持国密GmSSL的Nginx环境

准备 1、服务器准备&#xff1a;本文搭建使用的服务器是CentOS 7.6 2、安装包准备&#xff1a;需要GmSSL、国密Nginx&#xff0c;可通过互联网下载或者从 https://download.csdn.net/download/m0_46665077/89936158 下载国密GmSSL安装包和国密Nginx安装包。 服务器安装依赖包…

遥遥领先!手把手带你用国产香橙派部署清华AI语言模型,比肩GPT,树莓派做得到吗?

感谢 顾子韵 &#xff0c;Tass及其他朋友的帮助&#xff0c;缺少他们的帮助无法完成该教程。感兴趣的朋友私聊我或他进群一起学习。 省流中文版本 b站手把手教程&#xff0c;小伙伴们可以直接对着视频进行实践&#xff1a; 1.cd /root 来到root目录 2.apt update &&…

-XSS-

链接 https://github.com/do0dl3/xss-labs 搭建过程非常容易的 搭建好之后&#xff0c;就可以点击图片开始闯关了 第一关--JS弹窗函数alert() 显示payload的长度是4 level1.php?nametest level1.php?nametest1 发现只要改变name的值就显示什么在页面上 没有什么过滤的 …

忘记密码如何解除PPT的限制编辑?推荐两种方法!

当PPT文件设置了带密码的“只读方式”&#xff0c;文件的编辑权限就会受到限制。如果没有密码&#xff0c;就只能查看&#xff0c;而无法编辑修改PPT了。 那在忘记密码的情况下如何解除PPT的限制编辑呢&#xff1f;本文将介绍两种解除方法&#xff0c;帮助小伙伴们轻松编辑PPT…

R向量运算数组矩阵

向量的运算 向量的加减乘除可以直接进运行&#xff0c;不用循环 向量之间的运算&#xff1a;分别对应计算&#xff0c;不用循环 两个运算的向量可以不是长度相等&#xff0c;但是一定长度要成整数倍。 每种运算都可以返回逻辑值T或F 取整函数 保留小数位用round&#xff1a; …

微软官宣 GitHub Spark: 编程进入自然语言时代

今年的生活是那样悬而未决 悬置在好与烂之间&#xff0c;更偏烂一点 我没追求什么意义 我只是无所事事的来 这个世界度过了我的全部时间 我们都知道 AI 的发展可谓是一日千里&#xff0c;远超之前互联网的发展速度。在国际 AI 领域&#xff0c;微软&#xff0c;谷歌基本上已…

【成都新篇】龙信科技电子取证实验室,引领科技取证新时代

文章关键词&#xff1a;电子数据取证实验室、手机取证、介质取证、云取证、现场勘查、电子物证 在科技创新的浪潮中&#xff0c;龙信科技成都实验室以其卓越的电子数据取证服务&#xff0c;成为了中西部地区一颗璀璨的明珠。随着新址的搬迁&#xff0c;我们不仅扩大了业务范围…

.NET内网实战:通过白名单文件反序列化漏洞绕过UAC

01阅读须知 此文所节选自小报童《.NET 内网实战攻防》专栏&#xff0c;主要内容有.NET在各个内网渗透阶段与Windows系统交互的方式和技巧&#xff0c;对内网和后渗透感兴趣的朋友们可以订阅该电子报刊&#xff0c;解锁更多的报刊内容。 02基本介绍 03原理分析 在渗透测试和红…