Python爬虫:制作一个属于自己的IP代理模块

news2024/12/26 9:26:03

前言

在Python爬虫过程中,为了避免被网站的反爬虫机制干扰,我们需要使用IP代理。所谓IP代理,就是通过修改网络请求中的IP地址,来达到隐藏真实IP地址的效果。本文将教你如何制作一个自己的IP代理模块,让你的爬虫更加稳定、安全。

1. 理解IP代理的原理

在网络请求中,我们通常会使用requests库的get()或者post()方法来发送GET或者POST请求。其中,get()方法使用的是HTTP协议,在发送请求的同时,会将本机IP地址作为请求的来源地址附加到HTTP报文头中。而post()方法则使用的是HTTPS协议,在发送请求的时候,会先建立一条TLS连接,然后再发送请求。在TCP协议层面,它的报文头中也会包含本机IP地址等信息。

在这种情况下,如果我们在短时间内频繁发送请求,很容易被网站的反爬虫机制锁定IP地址,从而导致爬虫无法正常运行。为了避免这种情况的发生,我们可以使用IP代理,利用代理服务器的IP地址来代替本机IP地址,从而达到伪装的效果。

2. 实现代理IP池

要使用IP代理,首先我们需要获取到可用的代理IP地址。这里我们可以使用一些免费的代理IP网站来获取可用的代理IP地址,比如国内的代理66、快代理等。

我们可以使用requests库来获取代理IP地址列表:

import requests

# 获取代理IP地址列表
def get_ip_list(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    web_data = requests.get(url, headers=headers)
    ip_list = web_data.text.split('\r\n')
    return ip_list

接下来,我们需要使用这些代理IP地址来构建一个IP池。IP池可以看作是一个存放可用代理IP地址的列表,当我们发送网络请求的时候,就可以从池中随机选取一个IP地址来使用。如果该IP地址无法使用(比如请求超时或者返回状态码不是200),就应该从IP池中将该IP地址删除,并选取下一个IP地址作为代理。

import random

# 构造IP池
def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

3. 使用代理IP发送网络请求

有了可用的代理IP池之后,我们就可以开始使用代理IP来发送网络请求了。这里我们还是使用requests库来发送请求,只是在发送请求之前,我们需要先从IP池中随机选取一个IP地址,并设置requests库的proxies参数。

# 使用代理IP发送网络请求
def use_proxy(url, ip_list):
    while True:
        proxies = get_random_ip(ip_list)
        print('Use proxy:', proxies)
        try:
            response = requests.get(url, proxies=proxies, timeout=3)
            if response.status_code == 200:
                return response.text
        except Exception:
            pass

在这个例子中,我们设置了请求超时时间为3秒钟,如果在请求超时时间内没有得到正确的返回结果,就会跳过当前代理IP地址,从IP池中选取下一个IP地址来尝试。

4. 添加IP代理模块

将上述代码整合起来,我们可以得到一个完整的IP代理模块。这个模块包括以下几个部分:

  • 从代理IP网站获取代理IP地址列表
  • 构造IP池
  • 使用代理IP发送网络请求
import requests
import random

# 获取代理IP地址列表
def get_ip_list(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    web_data = requests.get(url, headers=headers)
    ip_list = web_data.text.split('\r\n')
    return ip_list

# 构造IP池
def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

# 使用代理IP发送网络请求
def use_proxy(url, ip_list):
    while True:
        proxies = get_random_ip(ip_list)
        print('Use proxy:', proxies)
        try:
            response = requests.get(url, proxies=proxies, timeout=3)
            if response.status_code == 200:
                return response.text
        except Exception:
            pass

使用这个模块非常简单,只需要传入代理IP的URL地址和目标网站的URL地址就可以了:

ip_url = 'http://www.zdaye.com/nn/'
target_url = 'http://httpbin.org/ip'
ip_list = get_ip_list(ip_url)
content = use_proxy(target_url, ip_list)
print(content)

 总结

通过上述步骤,我们就成功地制作了一个属于自己的IP代理模块。使用这个模块,我们可以轻松地获取可用的代理IP地址,并在发送网络请求的时候使用代理IP地址,从而避免因为频繁请求而被反爬虫机制锁定IP地址的情况发生。当然,这个模块只是一个简单的示例,如果要在实际应用中使用的话,还需要根据不同的爬虫需求进行相应的改进和优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1100772.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络库OKHttp(1)流程

序、慢慢来才是最快的方法。 背景 OkHttp 是一套处理 HTTP 网络请求的依赖库,由 Square 公司设计研发并开源,目前可以在 Java 和 Kotlin 中使用。对于 Android App 来说,OkHttp 现在几乎已经占据了所有的网络请求操作。 OKHttp源码官网 版…

8.14 PowerBI系列之DAX函数专题-分析客户购买行为

需求 实现 其实如果同时输出订单号的情况下,可以通过订单号出现的次数判断同一订单中同时购买与否的关系。 同时购买了A和B的客户 var v_cust_1 calculatetable(values(客户表[客户姓名]),filter(订单表,订单表[产品编号] "off-pa-10001970")) var v…

2016款奔驰C200车COMAND显示屏黑屏

作者:中鑫之宝鹤壁店 赵玉宾 赵玉宾,从事汽车维修工作9年,现任中鑫之宝汽车服务有限公司鹤壁分公司高级维修技师。 故障现象 一辆2016款奔驰C200车,搭载274发动机,累计行驶里程约为7万km。车主反映,车辆行…

亚马逊、eBay,速卖通,国际站买家账号支付异常问题解决方法

如何解决下单被砍、封号问题,建议采取以下措施: 买家账号下单,不单纯只是解决支付卡、IP问题就可以了,因为平台大数据风控点很多, 我们防关联具体要解决几个问题 一:要硬件参数的关联、安全码、地区码、…

【定时开关机】windows 10 如何设置定时开关机

一、需求 二、场景 三、思路 四、实现 A. 设置来电开机 B. 设置及定时关机 一、需求 需要一台 win 10 的电脑在工作时间内自动开关机(早 8:30 - 晚:6:05) 二、场景 开机:早 8:30 关机:晚 6:05 三、思路 【开机…

github 终端克隆操作,以及对 https/ssh 的理解

前言 最近瞎搞 github 的一些配置,结果搞得有一段时间克隆不了仓库。不过经历了这次风波后,我对 github 的一些原理有了更清楚的了解。所以想稍微写一小篇文章总结输出一下,也欢迎有疑问的读者与博主进一步交流,我的理解还是有限…

2023年中国钢卷尺产量、销量、市场均价及市场规模分析[图]

卷尺是日常生活中常用的工量具,是家庭必备工具之一。鲁班尺、风水尺、文公尺同样属于钢卷尺。钢卷尺是建筑和装修常用工具。钢卷尺可分为,自卷式卷尺、制动式卷尺、摇卷式卷尺。钢卷尺的其他名称有:钢皮卷尺、钢盒尺。 钢卷尺市场已经告别了以…

什么是库存管理?无需Excel,2023年这几款大热库存管理软件你get了吗?

什么是库存管理?库存管理是什么意思?都有哪些好用的库存管理系统?相信这些都是大家非常关注的话题,这篇就跟大家详细唠唠什么是库存管理,都用什么系统可以进行库存管理,并且为大家盘点2023年这几款大热库存…

和硕首次参加展OCP 峰会,将发布多项AI合作项目产品 | 百能云芯

电子代工大厂和硕联合科技宣布,将参与今年的 OCP 全球峰会 (OCP Global Summit),展示与英伟达 (NVIDIA) 合作成果,包含使用英伟达 GH200 Grace Hopper 超级芯片的 MGX AI 服务器,以及搭载 A100、L40 等服务器产品。 OCP 峰会于 10…

斯坦福JSKarel编程机器人使用介绍

斯坦福JSKarel编程机器人使用介绍 为了避免被编程语言固有的复杂性所困扰,有一个被称为卡雷尔(Karel)机器人的微型世界(microworld)的简化环境,可以让编程初学者从中学习理解编程的基本概念,而…

GaussDB for openGauss部署形态

前言 华为云数据库GaussDB是华为自主创新研发的分布式关系型数据库,具有高性能、高可用、高安全、低成本的特点,本文带你详细了解GaussDB数据库的部署形态。 1、GaussDB部署形态三种类型 GaussDB部署形态:单机 独立部署是将数据库组件部署…

10.17课上(七段显示器,递归异或与电路)

异或的递归与数电实现 用二选一选择器实现异或函数 在异或当中,如果有一项为0,就可以把那一项消掉;如果有一项为1,就是把剩下的所有项运算完的结果取反 (由此在算法当中可以采用递归解决) 当w1为0时&…

电脑蓝牙与ESP32蓝牙连接,让电脑发现ESP32

win11蓝牙默认只查看常见蓝牙设备。ESP32创建的蓝牙很有可能是看不到的。 再蓝牙设备发现一栏选择高级&#xff0c;才能查看所有蓝牙设备。 只要下面几行代码&#xff0c;就能让PC发现ESP32 #include <BLEDevice.h> // 引入相关库void setup() {BLEDevice::init("…

使用 PDB Alignment Tool 对 PDB 中多个蛋白结构进行比对

0. 说明&#xff1a; 利用 PDB 提供的在线工具 PDB Alignment Tool (https://www.rcsb.org/alignment) 对 PDB 中多个蛋白进行结构比对&#xff0c;并将比对结果输出&#xff0c;用于后续计算不同链上氨基酸之间的距离。 1. 步骤&#xff08;以 3GBM_A, 3FKU_A 和 2FK0_A 为例…

Linux学习——进程状态

目录 一&#xff0c;进程状态 1&#xff0c;进程状态的分类 2.状态的本质 3.进程状态详解 1.运行状态 2.阻塞状态 3.挂起状态 4.Linux内核中的状态分类 一&#xff0c;进程状态 1&#xff0c;进程状态的分类 如下图&#xff1a; 在计算机中我们的状态的分类便如下图所示…

16-k8s-configMap配置管理中心

文章目录 一、相关概念二、基于目录创建configMap三、基于文件创建configMap四、基于自定义参数创建configMap五、configMap使用六、configMap热更新 一、相关概念 简介 为了解决传统容器中配置的挂载、变更、管理等问题&#xff0c;在k8s中引入了一个叫做configmap的资源对象&…

采用医疗AI、自然语言处理技术的java智能导诊导医系统源码

一套java智能导诊导医系统源码&#xff08;演示自主版权商业项目应用&#xff09; 随着人工智能技术的快速发展&#xff0c;语音识别与自然语言理解技术的成熟应用&#xff0c;基于人工智能的智能导诊导医逐渐出现在患者的生活视角中&#xff0c;智能导诊系统应用到医院就医场景…

同为科技TOWE智能PDU引领数据中心机房远控用电安全高效

随着数据中心的环境变得更加动态和复杂&#xff0c;许多数据中心都在对数据中心管理人员施加压力&#xff0c;要求提高可用性&#xff0c;同时降低成本&#xff0c;提升效率。新一代高密度服务器和网络设备的投入使用&#xff0c;增加了对更高密度机架的需求&#xff0c;并对整…

《持续交付:发布可靠软件的系统方法》- 读书笔记(五)

持续交付&#xff1a;发布可靠软件的系统方法&#xff08;五&#xff09; 第二部分——部署流水线第 5 章 部署流水线解析5.1 引言5.2 什么是部署流水线5.3 部署流水线的相关实践5.3.1 只生成一次二进制包5.3.2 对不同环境采用同一部署方式5.3.3 对部署进行冒烟测试5.3.4 向生产…

vcpkg manifest 的使用

最近项目上要使用 CMakeLists 管理&#xff0c;由于 Windows 版本有依赖到 vcpkg 提供的库&#xff0c;所以需要使用 vcpkg manifest 来统一设置库的版本&#xff0c;方便后续维护 推荐一个文章&#xff0c;介绍的可以说是非常全面了 VCPKG 特性 - Versioning 不过里面也有一些…