Python爬虫——怎么搭建和维护一个本地IP池

news2024/11/25 18:38:48

目录

背景

一、什么是本地代理IP池

二、代理IP池功能架构图

三、各个组件功能说明及示例代码

1. IP池管理器

2. 代理IP获取器

3. IP质量检测器

4、数据存储器

5、API接口层

6、应用程序

总结


背景

在我们进行爬虫工作时,经常需要使用代理IP。大多数代理IP服务商为了保障服务器的持久稳定性,提供的代理IP往往都有最小提取间隔限制,虽然很合理,但有些特殊要求需要0间隔提取代理IP的业务就无法使用,那么建立本地IP池,可以很好的实现0间隔提取代理IP。

 

一、什么是本地代理IP池

代理IP池是一种由多个代理IP构成的集合,可以通过接口等方式随时获取可用的代理IP通俗地打个比方,它就是一个池子,里面装了很多代理ip。代理IP具有以下几个特征:

      1、池子里的ip是有生存周期的,它们将被定期验证,其中失效的将被剔除。

      2、池子里的ip是有补充渠道的,不断会有新的代理ip加入其中。

      3、池子中的代理ip是可以被随机取出来使用的。

这样,代理池中始终有多个不断更换的、有效的代理ip,且我们可以无间隔随机从池子中取出代理ip,然后让爬虫程序使用代理ip访问目标网站,解决在爬虫或其他应用中遇到的封禁、限制等问题。

二、代理IP池功能架构图

自建代理IP池的功能架构图包括以下组件:

  1. IP池管理器:用于管理IP池,包括IP地址的添加、删除、查询和更新等操作。

  2. 代理IP获取器:用于从外部资源中获取代理IP,例如从公开代理IP网站上爬取代理IP、从代理服务商订购代理IP等。

  3. IP质量检测器:用于检测代理IP的质量,包括代理IP的连接速度、稳定性、匿名性等特征。

  4. 数据存储器:用于存储IP池和代理IP的数据,例如使用MySQL等关系型数据库、Redis等非关系型数据库等。

  5. API接口层:用于接收来自应用程序的请求,调用IP池管理器、代理IP获取器、IP质量检测器和数据存储器等组件进行处理,并返回相应的数据结果。

  6. 应用程序:用于调用API接口层,实现代理IP的使用、监控和管理等功能。

 

三、各个组件功能说明及示例代码

1. IP池管理器

IP池管理器的作用是管理IP池,它可以实现以下功能:

- 添加新的IP地址到IP池中;
- 删除不需要的IP地址;
- 查询IP池中的可用IP地址;
- 更新IP池中的IP地址信息。

这里以Python语言举例,实现一个简单的IP池管理器:

class IPPoolManager:
    def __init__(self, db):
        self.db = db  # 数据库连接

    def add_ip(self, ip, port, protocol='http', source='', status='new'):
        ''' 添加新的IP地址到IP池 '''
        cursor = self.db.cursor()
        sql = "INSERT INTO ip_pool(ip, port, protocol, source, status) VALUES(%s, %s, %s, %s, %s)"
        data = (ip, port, protocol, source, status)
        cursor.execute(sql, data)
        self.db.commit()
        return cursor.lastrowid  # 返回添加记录的ID

    def delete_ip(self, ip_id):
        ''' 从IP池中删除不需要的IP地址 '''
        cursor = self.db.cursor()
        sql = "DELETE FROM ip_pool WHERE id=%s"
        cursor.execute(sql, (ip_id,))
        self.db.commit()

    def get_ip(self, status='new'):
        ''' 查询IP池中的可用IP地址 '''
        cursor = self.db.cursor()
        sql = "SELECT * FROM ip_pool WHERE status=%s ORDER BY id DESC LIMIT 1"
        cursor.execute(sql, (status,))
        result = cursor.fetchone()
        return result

    def update_status(self, ip_id, status):
        ''' 更新IP池中的IP地址信息 '''
        cursor = self.db.cursor()
        sql = "UPDATE ip_pool SET status=%s WHERE id=%s"
        cursor.execute(sql, (status, ip_id))
        self.db.commit()

2. 代理IP获取器

 负责定时(最小提取间隔)从代理IP服务商那里调用API接口获取代理IP。当然也可以爬取免费代理IP,但为了提高工作效率,建议购买优质代理IP,这里使用了站大爷代理IP(https://www.zdaye.com)。注册后可以免费试用所有的套餐2小时,生成API接口后,就可以提取到代理IP。

这里以站大爷代理IP接口为例,实现一个简单的代理IP获取器(需要使用requests库):

import requests

def get_ip():
    url = "https://www.zdaye.com" //在后台的实例管理里面可以直接生成api接口,选择JSON格式
    res = requests.get(url)
    # print(res.text)
    for i in json.loads(res.text)["data"]:
        print(i, type(i))
        ip = {
            "http": str(i["ip"]) + ":" + str(i["port"]),
            "https": str(i["ip"]) + ":" + str(i["port"])
        } 
        return ip

注意:我们拿到的代理是 {"ip":"117.57.91.154","port":40021} 这种样子的;

爬虫使用的代理要装成:{'http': '163.125.104.6:40011', 'https': '163.125.104.6:40011'}这种样子。

3. IP质量检测器

IP质量检测器的作用是检测代理IP的质量,包括代理IP的连接速度、稳定性、匿名性等特征。这里以验证代理IP的可用性为例,实现一个简单的IP质量检测器。

import requests

class IPChecker:
    def __init__(self):
        self.timeout = 5  # 设置超时时间
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'}

    def check_ip(self, ip, port):
        ''' 验证代理IP的可用性 '''
        proxies = {'http': 'http://%s:%s' % (ip, port), 'https': 'https://%s:%s' % (ip, port)}
        try:
            response = requests.get('http://www.baidu.com', headers=self.headers, proxies=proxies, timeout=self.timeout)
            if response.status_code == 200:
                return True
            else:
                return False
        except:
            return False

上面的代码使用requests库发送HTTP请求,通过设置proxies参数和timeout参数来验证代理IP是否可用,如果能正常访问百度网站,则验证通过返回True,否则返回False。

4、数据存储器

数据存储器的作用是存储IP池和代理IP的数据,例如使用MySQL等关系型数据库、Redis等非关系型数据库等。这里以MySQL为例,实现一个简单的数据存储器。

import pymysql

class MySQLDataStorage:
    def __init__(self, host, port, user, password, database):
        self.host = host
        self.port = port
        self.user = user
        self.password = password
        self.database = database

    def connect(self):
        ''' 连接数据库 '''
        self.db = pymysql.connect(host=self.host, port=self.port, user=self.user, password=self.password, database=self.database)

    def disconnect(self):
        ''' 断开数据库连接 '''
        self.db.close()

    def create_table(self):
        ''' 创建IP池表 '''
        cursor = self.db.cursor()
        sql = '''
        CREATE TABLE IF NOT EXISTS ip_pool (
            id INT(11) NOT NULL AUTO_INCREMENT,
            ip VARCHAR(50) NOT NULL,
            port VARCHAR(10) NOT NULL,
            protocol VARCHAR(10) NOT NULL,
            source VARCHAR(50) NOT NULL,
            status VARCHAR(10) NOT NULL,
            created_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
            PRIMARY KEY (id)
        ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
        '''
        cursor.execute(sql)
        self.db.commit()

    def insert(self, ip, port, protocol, source, status):
        ''' 添加新的IP地址到IP池 '''
        cursor = self.db.cursor()
        sql = "INSERT INTO ip_pool(ip, port, protocol, source, status) VALUES(%s, %s, %s, %s, %s)"
        data = (ip, port, protocol, source, status)
        cursor.execute(sql, data)
        self.db.commit()
        return cursor.lastrowid  # 返回添加记录的ID

    def delete(self, ip_id):
        ''' 从IP池中删除不需要的IP地址 '''
        cursor = self.db.cursor()
        sql = "DELETE FROM ip_pool WHERE id=%s"
        cursor.execute(sql, (ip_id,))
        self.db.commit()

    def select(self, status='new'):
        ''' 查询IP池中的可用IP地址 '''
        cursor = self.db.cursor()
        sql = "SELECT * FROM ip_pool WHERE status=%s ORDER BY id DESC LIMIT 1"
        cursor.execute(sql, (status,))
        result = cursor.fetchone()
        return result

    def update(self, ip_id, status):
        ''' 更新IP池中的IP地址信息 '''
        cursor = self.db.cursor()
        sql = "UPDATE ip_pool SET status=%s WHERE id=%s"
        cursor.execute(sql, (status, ip_id))
        self.db.commit()

上面的代码封装了MySQL的连接、断开连接、创建表、增删改查等操作,可以通过调用接口实现IP池数据库的交互。注意,这里使用了execute()函数的带参数方式来防止SQL注入攻击。

5、API接口层

API接口层的作用是提供API接口,让其他程序可以与IP池系统进行交互,例如查询可用代理IP、获取新的代理IP等。这里以Python Flask框架为例,实现一个简单的API接口层。```

from flask import Flask, jsonify
from ip_pool_manager import IPPoolManager

app = Flask(__name__)
manager = IPPoolManager()  # 初始化IP池管理器

@app.route('/')
def hello_world():
    return 'Hello, World!'

@app.route('/get')
def get_proxy():
    ''' 查询可用代理IP '''
    result = manager.get_ip()
    if result:
        ip = result['ip']
        port = result['port']
        protocol = result['protocol']
        manager.update_status(result['id'], 'using')  # 更新IP状态为使用中
        return jsonify({'ip': ip, 'port': port, 'protocol': protocol})
    else:
        # 如果没有可用IP,则返回空
        return ''

@app.route('/add/<ip>/<port>')
def add_proxy(ip, port):
    ''' 添加新的代理IP '''
    manager.add_ip(ip, port)
    return 'ok'

@app.route('/delete/<int:id>')
def delete_proxy(id):
    ''' 删除不需要的代理IP '''
    manager.delete_ip(id)
    return 'ok'

if __name__ == '__main__':
    app.run()

上面的代码使用了Flask框架实现了三个接口:

- /get:查询可用代理IP;
- /add:添加新的代理IP;
- /delete:删除不需要的代理IP。

其中,get_proxy()函数从IP池管理器中获取可用代理IP,并更新IP状态为使用中,返回JSON格式的数据;add_proxy()函数向IP池管理器中添加新的代理IP;delete_proxy()函数从IP池管理器中删除不需要的代理IP。启动Flask应用程序后,其他程序可以通过HTTP请求调用这些接口与IP池系统进行交互。

6、应用程序

以下是一个简单的应用程序示例。它使用IP池系统提供的可用代理IP,并使用requests库实现了一个简单的爬虫示例。

import requests
from bs4 import BeautifulSoup
from ip_checker import IPChecker
from ip_pool_manager import IPPoolManager
import time

def main():
    checker = IPChecker()
    manager = IPPoolManager()

    while True:
        ip_info = manager.get_ip()  # 获取可用代理IP
        if ip_info:
            ip = ip_info.get('ip')
            port = ip_info.get('port')
            protocol = ip_info.get('protocol')
            if checker.check_ip(ip, port):
                print(f'使用代理IP {ip}:{port} 获取数据')
                proxies = {'http': f'{protocol}://{ip}:{port}', 'https': f'{protocol}://{ip}:{port}'}
                response = requests.get('http://www.baidu.com', proxies=proxies)
                # 这里可以根据需要解析返回的数据
                soup = BeautifulSoup(response.text, 'html.parser')
                print(soup.title.string)
                time.sleep(5)  # 延迟5秒后继续获取
            else:
                # 如果代理IP不可用,则将其状态设置为失效
                manager.update_status(ip_info['id'], 'invalid')
        else:
            # 如果没有可用代理IP,则等待一段时间后再尝试获取
            time.sleep(60)

if __name__ == '__main__':
    main()

以上代码的主函数中使用IP池系统提供的可用代理IP,使用requests库发送HTTP请求,获取返回的数据。如果返回的数据解析成功,控制台输出网站的标题,然后等待5秒后继续获取。如果代理IP不可用或者IP池中没有可用的IP,程序会等待一段时间后再尝试获取。

总结

有了本地IP池,可以更加方便的管理和使用代理IP,不仅可以0间隔提取代理IP,还能提高爬虫的工作效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/627731.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

unity2d粒子特效

文章目录 前言先看效果一、2d平台雨1. 配置2. 图片素材3. 最终效果 二、脚步灰尘效果1. 配置2. 代码调用3. 效果 三、受伤血液四溅效果1. 配置2. 效果 待续四、工程源码五、参考六、完毕 前言 我只是我抽空写了一些简单的2d粒子特效&#xff0c;后面如果接触新的不错的2d特效&a…

Maven 安装

一. 下载 apache官网下载 Maven&#xff1a;Maven – Download Apache Maven &#xff0c;根据需要下载不同压缩包。 将压缩包进行解压&#xff0c;最好放在无中文目录下解压。 二. 安装 三. 配置 1. 配置maven本地仓库 打开解压后的文件夹&#xff0c;找到conf文件夹&#…

银行vr元宇宙全景虚拟展馆提供更加真实、立体、高效的数字资产交易场景

为了贯彻国家普惠金融政策&#xff0c;使金融如无惠及广大群体,宇宙技术在金融行业中的应用将进一步提升金融消费体验感觉和金融管理水平。打造元宇宙金融服务平台&#xff0c;构建虚实结构的金融服务世界&#xff0c;培育和管理好数字机器人员工队伍&#xff0c;提升金融业务各…

postman登录鉴权之接口测试

一.背景 在做接口测试的时候&#xff0c;有些接口向后台请求数据的时候&#xff0c;是需要用户在登录情况下才有数据返回。 以电商平台为例&#xff0c;用户的个人中心&#xff0c;用户的订单列表&#xff0c;用户的支付信息等等&#xff0c;所有用户维度的数据都是需要登录态…

Django - 页面静态化和crontab定时任务(二)

一. 前言 一个网页会有很多数据是不需要经常变动的&#xff0c;比如说首页&#xff0c;变动频率低而访问量大&#xff0c;我们可以把它静态化&#xff0c;这样就不需要每次有请求都要查询数据库再返回&#xff0c;可以减少服务器压力 我们可以使用Django的模板渲染功能完成页面…

app反编译查看是否被混淆或者混淆是否成功

同时打 debug包和release包&#xff0c;生成的目录在build->output文件夹下面 一般直接运行的apk 包是在build/intermediates/apk/debug 目录下 方法1&#xff1a;Android studio 安装插件jadx build成apk 后 直接选中 右键 在Jadx GUI中反编译 就可以查看代码 方法2&…

距离保护的影响因素

1、汲出电流和助增电流的影响 当保护安装处与故障点之间有分支电源时&#xff0c;如图所示&#xff0c;分支电源将向故障点K送短路电流ICB&#xff0c;使流过故障线路的电流IBKIAB ICB&#xff0c;大于实际流过保护1的电流IAB&#xff0c;所以ICB称作助增电流。 由于助增电流的…

第一章操作系统引论

目录 一、熟悉的操作系统 二、计算机系统的层次结构 三、操作系统的概念 四、操作系统的功能 4.1 系统资源的管理者 4.2 向上层提供方便易用的服务 4.2.1 GUI&#xff1a;图形化用户接口&#xff08;Graphical UserInterface&#xff09; 4.2.2 命令接口 4.2.3 程序接…

当杠精型AI丈夫遇上阴阳怪气AI老婆,你的代码玩得转吗?

玩趣味活动 赢千元奖金 DataFountain社区首个趣味活动来啦&#xff01;&#xff01;&#xff01; 活动已发车&#xff0c;来不及解释了&#xff0c;先上车&#xff1a;https://www.datafountain.cn/information/activity/3 人工智能问答爆火&#xff0c;你的算法技能储备跟上…

达梦数据库ODBC配置及达梦与mysql创建DBLINK测试

目录 官网ODBC配置... 3 1、ODBC下载官网... 3 2、上传安装包并解压... 3 3、安装odbc. 3 4、安装依赖... 4 5、再次执行安装即可... 4 6、查看版本及配置文件... 4 Mysql-ODBC配置... 5 一、达梦服务器... 5 1、下载odbc包... 5 2、安装... 6 3、报错... 6 4、先…

STM32——01-开发软件Keil5及STM32CubeMX的安装

1.1开发环境的安装 编程语言&#xff1a;C语言 需要安装的软件有两个&#xff1a;Keil5和STM32CubeMX 安装 安装包&#xff08;不需要太新&#xff0c;以 MDK324 为例&#xff0c;最新的 MDK327 有问题&#xff09; 安装过程一路下一步即可&#xff08;建议不要安装在 C …

Gitlab集成jira

实现功能 gitlab提交和合并分支&#xff0c;会自动将comment信息提交到JIRA上的相关问题的页面gitlab可以修改jira上问题的状态 集成说明 gitlab集成Jira 按项目集成&#xff0c;因此gitlab上的每个项目对应jira上的对应项目由项目管理员&#xff08;一般为接口人&#xff…

如何用Python开发QQ机器人

前言 虽然该文最终是达到以python开发mirai机器人的目的&#xff0c;但起步教程&#xff0c;尤其是环境配置上仍然有大量的相同操作&#xff0c;对其他编程语言仍有借鉴之处 假设你已经安装好了 Java、Python等运行必须的环境 mirai生态 mirai官方生态文档 要使用mirai开发…

【tableau】基础图形绘制

4.5 文字云 第一步&#xff1a; 想要突出显示的字段拖入 “标签”&#xff0c;如 客户名称 第二步&#xff1a; 展示大小的字段拖入“大小”&#xff0c;默认黑色 第三步&#xff1a;展示大小的字段拖入“颜色”&#xff0c;颜色不是喜欢的&#xff0c;可以右侧编辑颜色 4.6…

Vue中如何进行地图展示与交互(如百度地图、高德地图)?

Vue中如何进行地图展示与交互 随着移动互联网的普及&#xff0c;地图应用已经成为人们生活中不可或缺的一部分。在Vue.js中&#xff0c;我们可以使用第三方地图库&#xff08;如百度地图、高德地图&#xff09;来实现地图的展示和交互。本文将介绍如何在Vue.js中使用百度地图和…

IDEA整合GO并传module工程

IDEA整合Go 安装包环境配置idea配置并创建test mode 安装包 1.去官网下载对应还的安装包 官网下载地址 我选择下载的window 版本&#xff1a; 直接按照对应的目录&#xff0c;然后点击下一步 环境配置 1.配置go环境变量 在高级环境变量PAHT中添加安装包的**/bin 目录&…

主流自动化测试框架,这5种真的帮助巨大。

今天我们要向大家介绍的是常见5种主流自动化测试框架&#xff0c;包括优缺点等内容&#xff0c;供大家参考学习。 1.ATF 自动化测试框架AutoTestFramework是B/S架构框架&#xff0c;可实现Selenium等多种自动化测试全流程、团队化管理的高级框架平台&#xff0c;通过集成自动化…

想必大家都为测试用例头疼过,那么如何才能设计出一个“好的”测试用例

目录 前言&#xff1a; “好的”测试用例具备的特征 1&#xff0e;等价类划分方法 2&#xff0e;边界值分析方法 “好的”测试用例的设计方法 测试用例设计的其他经验 作为测试人员&#xff0c;需要注意以下几点&#xff1a; 前言&#xff1a; 设计一个“好的”测试用例&…

c++学习——模板

模板 **模板的概念****函数模板的语法****函数模板注意事项****函数模板案例****普通模板和函数模板的区别****普通函数和函数模板的调用规则****模板的局限性****类模板****类模板和函数模板的区别****类模板中成员函数创建时机****类模板对象做函数参数****类模板与继承****类…

ubuntu22.04安装mysql8和xtrabackup8

使用官网下载的ubuntu22.04文件制作启动u盘 u盘启动后安装ubuntu22.04,安装完毕,先修改root密码,然后升级软件包。 sudo apt-get update sudo apt-get upgrade 使用下面命令安装mysql8 sudo apt-get install mysql-server 这个跟20.04中安装方法一致。 安装成功,修改…