【实战】Python爬虫之代理使用详解

news2024/12/22 13:23:28

在Python爬虫中,代理的使用非常常见。代理的主要作用是隐藏客户端的真实IP地址,从而实现更高的网络访问速度和更好的访问隐私保护。下面我们将通过Python爬虫的实例,带你详细了解Python爬虫中代理的使用方法。

目录

## 1. 代理原理和作用

## 2. Python爬虫代理的使用方式

## 3. 代理IP的获取

## 4. 多线程和多进程使用代理

## 5. 请求头的设置

总结


## 1. 代理原理和作用

代理是一种中间层服务器,在客户端和目标服务器之间传送请求和响应。代理可以缓存请求结果,从而大大减少网络请求的次数,也可以隐藏客户端真实IP地址,避免被目标服务器识别。

 

代理主要有以下作用:

- 隐藏客户端的真实IP地址,防止被服务器识别。
- 帮助访问本地系统无法访问的服务器。
- 缓存目标服务器的结果,避免重复请求浪费资源。
- 通过代理负载均衡优化网络请求的响应速度。

## 2. Python爬虫代理的使用方式

Python爬虫代理的使用,可以通过更改HTTP请求头信息或通过某些库辅助实现。例如,urllib和requests库中都已经提供了代理IP相关的设置方法。urllib库的代理IP设置可以通过创建代理处理器(proxy handler)实现:

import urllib.request

proxy_handler = urllib.request.ProxyHandler({'http': 'http://127.0.0.1:8000'})
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)

response = urllib.request.urlopen('http://httpbin.org/ip')
print(response.read().decode())

代码中,即通过proxy_handler设置http代理进行访问。可以将这个代理handler作为参数传入build_opener创建一个opener,再通过urllib.request.install_opener()方法将opener设置为默认opener,最终通过response读取url对应的数据。如果proxy_handler、opener、install_opener方法都不清楚的话,可参阅Python标准库文档。

同样requests库中提供的代理IP设置代码如下:

import requests

proxies = {
    "http": "http://127.0.0.1:8000",
    "https": "http://127.0.0.1:8000",
}
response = requests.get('http://httpbin.org/ip',proxies=proxies)
print(response.content.decode())

其中,在requests库中可以通过proxies参数设置代理IP,实现对目标网站的访问。

## 3. 代理IP的获取

在使用Python爬虫代理的过程中,要获取可用的代理IP非常关键。使用免费代理IP时,需要注意代理IP的质量和失效率,避免使用低质量的代理IP而导致爬虫失败或者被封禁。这里推荐站大爷代理IP供大家参考。

 

## 4. 多线程和多进程使用代理

在Python中,可以使用多线程和多进程技术,实现同时使用多个代理IP的效果,从而进一步提高爬取效率。其中,多线程技术可以使用threading库,多进程技术可以使用multiprocessing库。为了在爬虫中使用多个代理IP,可以将代理列表在多个线程及进程中共享,并对其进行有效地管理。

以下是使用多线程同时使用多个代理IP的示例代码:

import requests
import threading

proxies = ["http://127.0.0.1:8000", "http://127.0.0.1:8001", "http://127.0.0.1:8002", "http://127.0.0.1:8003"]
lock = threading.Lock()

def request_data(url, proxy):
    with requests.session() as s:
        s.proxies = {'http': proxy}
        response = s.get(url=url)
        print(response.text)

def main():
    url = "http://httpbin.org/ip"
    threads = []
    for proxy in proxies:
        thread = threading.Thread(target=request_data, args=(url, proxy))
        thread.start()
        threads.append(thread)

    for thread in threads:
        thread.join()

if __name__ == '__main__':
    main()

上述代码中,首先定义了一个代理列表`proxies`,然后定义了一个`request_data`函数用于进行爬取数据。利用每个线程使用不同的代理对目标网站进行访问,最终将多个线程的结果显示出来。其中,通过使用`threading.Lock()` 来进行线程锁,防止线程之间的代理混乱。

## 5. 请求头的设置

在Python爬虫的实际应用中,有许多网站通过检查HTTP请求头的信息来判断是否为爬虫程序。针对这种情况,我们需要设置一些自定义的HTTP请求头信息,以掩盖采集的真实性质。

可以通过requests库中的headers参数,以及urllib库中的Request对象来进行设置请求头信息。否则,操作系统或库默认的请求头信息会尝试插入到请求头中。
以下是通过requests库的headers参数来设置请求头的示例代码:

import requests

headers = {
    "Host": "httpbin.org",
    "Connection": "keep-alive",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "User-Agent": "Mozilla/5.0 (Windows NT x.y; rv:10.0) Gecko/20100101 Firefox/10.0",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "en-us,en;q=0.5",
    "DNT": "1"}

proxies = {"http": "http://127.0.0.1:8000"}

response = requests.get(url, headers=headers, proxies=proxies)

上面代码中,通过headers参数设置了一个自定义的HTTP请求头信息,其中包括了用户代理、连接类型、通信协议等信息。这些信息可以根据具体的目标网站情况适当进行更改。同时,同样通过proxies设置代理IP,实现对目标网站的优质访问。

总结

Python爬虫中代理的使用需要注意代理IP的质量和失效率,动态切换代理IP,多线程和多进程共享代理IP,以及设置HTTP请求头信息等方面。通过这些方法有效地优化爬虫,可以实现高效地爬取目标页面数据的目的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/653250.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多维度员工信息整合查询——红海云员工信息数字化管理实用指南(中)

红海云员工全生命周期数字化管理平台从信息源头开始管控员工数据质量,在员工数据的采集、更新、审核环节采用多种方式保障员工信息的准确性、完整性、时效性和一致性,为企业搭建坚实可靠的人力资源管理数字化基座。但在有了准确可靠的员工数据基础后&…

APP测试应该从哪些方面入手?其实就这几点

前言 还在苦恼怎么去测APP吗? 一定要记住这几个方向,然后流程化的去执行,一来严谨规范,二来不会有遗漏。 1、需求检查: 在需求评审的时候展现你的业务能力啦!不过还是得口下留情哟。(PM心里瑟…

GitOps指南

GitOps基于CICD和IaC,以一致的方式管理代码和部署,是DevOps最佳实践之一。本文完整介绍了GitOps的理念和实践,并介绍了Weave Cloud的GitOps模型和工具,从整体上提供了实践GitOps的路径和方案。原文:Guide To GitOps[1]…

C++中的一些小技巧,numeric_limits、static_cast、reinterpret_cast方法内存验证

1、获取指定类型的最大值和最小值 在准备求一堆double数据中的最大值最小值的时候,常规做法是预估这堆数据的最大最小值,然后进行比较求,在重构别人代码的时候发现,可以准确知道double类型最大值或者最小值,获取方法如…

Apikit 自学日记:分享 API 文档

开启/关闭在线分享 您可以在线分享项目给团队以外的人,其他人可以通过分享链接在线查看API文档并且进行API测试。通过这种方式查看API文档不需要注册账号,用户可方便查看接口文档和测试接口。 在项目内,点击进入项目管理菜单,选择…

银河麒麟部署达梦8数据库开发者版本详细教程

我的系统信息如下: 系统架构:X86架构 系统信息:银河麒麟(V10) CPU:interl E5 官方安装文档:安装及卸载 | 达梦技术文档 (dameng.com) 数据库下载: 下载地址:产品下载…

【深度学习】2-5 神经网络-批处理

批处理(Batch Processing)是指在深度学习中每次迭代更新模型参数时同时处理多个样本的方式。 批处理时要注意对应维度的元素个数要一致 关于之前手写数字识别的例子: 用图表示,可以发现,多维数组的对应维度的元素个数…

体验DIY物联网浏览器(谷歌内核兼容性好支持H264视频播放)

一、功能及快捷键说明(说明32位兼容64位,版本往下看) 功能及快捷键图说明,不可多得的浏览器,支持右键自定义菜单... 二、下载安装包 2.1 版本 100.0.230 (支持H264版本)介绍 cefsharp物联网浏览器-支持H264(100.0.230)_cefsharp h264_久爱物联网的博客-CSDN博客 …

《论文阅读》用于情感分析的融合预训练表情符号特征增强

《论文阅读》用于情感分析的融合预训练表情符号特征增强 前言简介模型构架实验结果总结前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家带来的是《Fusion Pr…

SonarScanner扫描本地项目代码

一、Windows系统扫描 下载SonarScanner 去SonarQube官网下载相应系统的SonarScanner 点这里跳转 设置环境变量 下载好试个压缩文件,解压到你想存放的位置,设置环境变量 新增变量名:SONAR_SCANNER_HOME,值:你解压Sona…

ansible知识

在物理机查看环境,[kioskfoundation0 ~]$ cat /etc/rht 先清空当前环境,[kioskfoundation0 ~]$ rht-clearcourse 0 再切换rh294环境,[kioskfoundation0 ~]$ rht-setcourse rh294 验证环境是否切换成功,[kioskfoundation0 ~]$ cat…

2023年6月DAMA-CDGA/CDGP数据治理工程师认证找这家

DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业…

清北「学渣」创业心路:AI 新时代已来,不参与对不起自己

内容一览:近日,HyperAI 超神经有幸接触到 SegmentFault AIGC Hackathon 2023 北京站二等奖获得者 OAISIS 团队,与他们畅聊了本次参赛的心路历程以及比赛之外团队的工作和生活。交谈中,三位年轻人显露出的自信、沉着、从容令人印象…

自动识别字幕

抖音官方出品的视频剪辑工具,国内版本和网易见外工作台一样,智能生成字幕功能只能识别中文和英文两种语言。 但是剪映国际版就支持英语、日语、韩语、葡萄牙语、俄语、印度尼西亚语、西班牙语还有德语总共八种语言。 剪映国际版字幕小助手 地址&#x…

【Android开发基础】传感器(方向传感器、加速度传感器)

文章目录 一、引言二、设计1、指南针(方向传感器)(1)效果(2)UI设计(3)功能设计 2、摇一摇(加速度传感器)(1)效果(2&#x…

华硕天选2ubuntu18.04升级内核后黑屏

https://piaoyun.cc/post/26957.html 1.开机,进入grub画面 2.按’‘‘e’’’ 进入编辑开机指令的模式,同样找到’‘‘quite splash’’,并在后面加上对应的字。 1.Intel 82852/82855 或8系列显示晶片:i915.modeset1或i915.modeset0 2.Nvidia&#xff…

SpringBoot集成支付宝支付 - 少走弯路就看这篇

最近在做一个网站,后端采用了SpringBoot,需要集成支付宝进行线上支付,在这个过程中研究了大量支付宝的集成资料,也走了一些弯路,现在总结出来,相信你读完也能轻松集成支付宝支付。 在开始集成支付宝支付之前…

【神经网络】梯度检测

在神经网络中,使用前向或者反向传播计算后,再使用梯度下降去寻找代价函数最小时 θ \theta θ的取值是一个可行的方法,但是它很容易出错:因为在这个算法中含有海量的细节,容易产生微小而又难以察觉的bug。即便是存在bu…

为什么 Serverless 能提升资源利用率?

作者:木吴 阿里云智能高级技术专家 业务的负载往往不是一成不变的,而是随着时间呈现一定的上下波动。传统的应用构建方式一般是备足充分的资源以保障业务可用性,造成资源利用率不高的现象。随着容器技术的普及,应用可以通过弹性伸…

二叉树相关OJ练习题(1、锯齿形层序遍历 2、二叉搜索子树的最大键值和 3、验证二叉树 4、剑指 Offer II 047. 二叉树剪枝)

接上次博客:https://mp.csdn.net/mp_blog/creation/editor/130934670​​​​​​ 目录 1、锯齿形层序遍历 2、二叉搜索子树的最大键值和 3、验证二叉树 4、剑指 Offer II 047. 二叉树剪枝 最近临近期末,忙得焦头烂额的…… 天天都是高数、微观经济…