Python搭建代理IP池实现存储IP的方法

news2024/11/29 12:40:22

目录

前言

1. 介绍

2. IP存储方法

2.1 存储到数据库

2.2 存储到文件

2.3 存储到内存

3. 完整代码示例

总结



前言

代理IP池是一种常用的网络爬虫技术,可以用于反爬虫、批量访问目标网站等场景。本文介绍了使用Python搭建代理IP池,并实现IP存储的方法。首先,介绍了代理IP的概念和使用场景。然后,详细介绍了IP存储的几种方法,包括存储到数据库、存储到文件和存储到内存中。最后,给出了完整的代码示例。

1. 介绍

代理IP池是一种常用的网络爬虫技术,它通过维护一组可用的代理IP地址,用于隐藏用户真实IP地址,以实现反爬虫、批量访问目标网站等目的。代理IP可以分为公开代理和私密代理两种类型。公开代理是免费提供给大众使用的代理IP,它的可用性较低,适合于一些对速度和稳定性要求不高的场景。私密代理是需付费使用的代理IP,由于可用性较高,适合于对速度和稳定性要求较高的场景。

2. IP存储方法

代理IP池需要维护一组可用的代理IP地址,因此需要一种方法来存储这些IP地址。下面介绍几种常用的IP存储方法。

2.1 存储到数据库

将代理IP存储到数据库中是一种常用的方法。使用数据库可以方便地进行IP的增删改查操作,并且可以与其他数据进行关联。常用的数据库包括MySQL、MongoDB等。以下是一个使用MySQL存储代理IP的示例代码:

import pymysql

# 连接数据库
conn = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    password='password',
    db='proxy_ip',
    charset='utf8'
)

# 创建游标对象
cursor = conn.cursor()

# 创建代理IP表
sql = '''
CREATE TABLE IF NOT EXISTS proxy_ip (
    id INT AUTO_INCREMENT PRIMARY KEY,
    ip VARCHAR(50) NOT NULL,
    port INT NOT NULL,
    type VARCHAR(10) NOT NULL,
    speed FLOAT NOT NULL
)
'''
cursor.execute(sql)

# 插入代理IP
def insert_proxy(ip, port, type, speed):
    sql = '''
    INSERT INTO proxy_ip (ip, port, type, speed)
    VALUES ('{}', {}, '{}', {});
    '''.format(ip, port, type, speed)
    cursor.execute(sql)
    conn.commit()

# 查询代理IP
def select_proxy():
    sql = '''
    SELECT * FROM proxy_ip;
    '''
    cursor.execute(sql)
    results = cursor.fetchall()
    for row in results:
        print(row)

# 关闭数据库连接
cursor.close()
conn.close()

2.2 存储到文件

将代理IP存储到文件中是另一种常用的方法。使用文件可以方便地进行IP的读写操作,但是不方便进行增删改查操作。以下是一个使用文本文件存储代理IP的示例代码:

# 写入代理IP到文件
def write_proxy(ip, port, type, speed):
    with open('proxy_ip.txt', 'a') as f:
        f.write('{},{}:{},{}\n'.format(type, ip, port, speed))

# 读取代理IP文件
def read_proxy():
    with open('proxy_ip.txt', 'r') as f:
        lines = f.readlines()
        for line in lines:
            type, ip_port, speed = line.strip().split(',')
            ip, port = ip_port.split(':')
            print(ip, port, type, speed)

2.3 存储到内存

将代理IP存储到内存中是一种简单高效的方法,适用于数据量较小的场景。以下是一个使用列表存储代理IP的示例代码:

# 定义全局变量
proxy_ips = []

# 添加代理IP到列表
def add_proxy(ip, port, type, speed):
    proxy_ips.append((ip, port, type, speed))

# 输出代理IP列表
def print_proxy():
    for ip, port, type, speed in proxy_ips:
        print(ip, port, type, speed)

3. 完整代码示例

下面是一个完整的使用Python搭建代理IP池,并实现IP存储的示例代码:

import pymysql

# 连接数据库
conn = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    password='password',
    db='proxy_ip',
    charset='utf8'
)

# 创建游标对象
cursor = conn.cursor()

# 创建代理IP表
sql = '''
CREATE TABLE IF NOT EXISTS proxy_ip (
    id INT AUTO_INCREMENT PRIMARY KEY,
    ip VARCHAR(50) NOT NULL,
    port INT NOT NULL,
    type VARCHAR(10) NOT NULL,
    speed FLOAT NOT NULL
)
'''
cursor.execute(sql)

# 插入代理IP
def insert_proxy(ip, port, type, speed):
    sql = '''
    INSERT INTO proxy_ip (ip, port, type, speed)
    VALUES ('{}', {}, '{}', {});
    '''.format(ip, port, type, speed)
    cursor.execute(sql)
    conn.commit()

# 查询代理IP
def select_proxy():
    sql = '''
    SELECT * FROM proxy_ip;
    '''
    cursor.execute(sql)
    results = cursor.fetchall()
    for row in results:
        print(row)

# 添加代理IP到列表
def add_proxy(ip, port, type, speed):
    proxy_ips.append((ip, port, type, speed))

# 输出代理IP列表
def print_proxy():
    for ip, port, type, speed in proxy_ips:
        print(ip, port, type, speed)

# 关闭数据库连接
cursor.close()
conn.close()

总结

本文介绍了使用Python搭建代理IP池,并实现IP存储的方法。存储IP的方法包括存储到数据库、存储到文件和存储到内存中。不同的存储方法适用于不同场景,开发者可以根据实际需求选择合适的方法。使用代理IP池可以提高网站爬取效率,防止被目标网站反爬虫。希望本文对大家了解Python搭建代理IP池有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1341073.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件开发模式

瀑布式开发 在瀑布式开发中,开发严格遵循预先计划的需求分析、设计、编码、集成、测试、维护的步骤进行,步骤的成果作为衡量进度的方法,例如需求规格、设计文档、测试计划和代码审阅等, 瀑布式开发最早强调系统开发应有完整的周期…

文档智能翻译,保留文档原有布局,版式还原

翻译能力: 使用讯飞的AI翻译能力:机器翻译 niutrans - 语音扩展 - 讯飞开放平台API: 机器翻译niutrans API 文档 | 讯飞开放平台文档中心 执行效果: 原文档: 翻译还原的文档: 源码如下: impor…

AOT编程

1. AOT与JIT AOT:Ahead-of-Time(提前编译):程序执行前,全部被编译成机器码 JIT:Just in Time(即时编译): 程序边编译,边运行; 编译: 源代码&a…

oled显示汉字字体 形状 使用

oled模块的工作原理 oled的上方四个接口是IIC总线 通过IIC总线可以进行数据的传输 在OLED模块背后有一个芯片叫做SSD1306 这个芯片内部有1024个字节的RAM 对应到右边的小屏幕上就有1024个字节 一个字节八个bit位 每一个bit位就对应着一个小点 我们只需要往oled的RAM上写入数据就…

TPRI-DMP平台介绍

TPRI-DMP平台介绍 TPRI-DMP平台概述 TPRI-DMP为华能集团西安热工院自主产权的工业云PaaS平台,已经过13年的发展和迭代,其具备大规模能源电力行业生产应用软件开发和运行能力。提供TPRI-DMP平台主数据管理、业务系统开发与运行、应用资源管理与运维监控…

新能源光伏行业CRM:推动绿色能源发展与高效客户管理的双重突破

随着“碳中和”计划以及传统能源价格的不断飙升,我国新能源光伏产业在国家“双碳”战略目标和市场需求的双重驱动下高歌猛进,中国光伏产业新增装机量、累计装机量连续多年位居全球首位。CRM在光伏产业中的作用也日益突出。下面为您介绍新能源光伏行业的C…

UDP单播

CMakeLists.txt文件中添加如下行&#xff1a; link_libraries(ws2_32) 1.发送端 #include <iostream> #include <winsock2.h> #include <cstdio>#pragma comment(lib, "Ws2_32.lib") // Link with ws2_32.libint main() {1.Initialize winsock…

Redis中RDB和AOF

Redis中RDB和AOF 定时间间隔执行数据集的时间快照&#xff0c;把某一时刻数据和妆容以文件的形式写到磁盘上&#xff0c;也就是快照。 配置文件 如果是普通安装方式可以跳过&#xff0c;如果是docker安装&#xff0c;需要到官网下载redis.conf配置文件到本地&#xff0c;地址…

配置IPv6静态路由示例

1、静态路由简介 静态路由是一种需要管理员手工配置的特殊路由。 静态路由在不同网络环境中有不同的目的&#xff1a; 当网络结构比较简单时&#xff0c;只需配置静态路由就可以使网络正常工作。 在复杂网络环境中&#xff0c;配置静态路由可以改进网络的性能&#xff0c;并…

嵌入式开发——ADC模拟信号和数字信号

模拟信号和数字信号 模拟信号 自然界中大多数物理量是连续变化的,比如温度、声音、压力等灯,它们在一定时间内,可以有无限多个不同的取值,这些信号就是模拟信号。模拟信号就是指用连续变化的物理量所表示的信号。 自然界中的物理量都需要通过传感器将其转换成电信号后,才能进…

锐捷路由小型综合实验

一、实验拓扑 二、实验目的 1、熟练掌握ospf的配置 2、熟练掌握RIP的配置 3、熟练掌握静态路由的配置 4、熟练掌握各种路由协议之间的引入 5、熟练掌握telnet和ssh的配置 三、实验配置 R1 //配置telent username admin password admin123 enable password admin123 enable…

java设计模式学习之【迭代器模式】

文章目录 引言迭代器模式简介定义与用途实现方式 使用场景优势与劣势在Spring框架中的应用迭代器示例代码地址 引言 想象一下&#xff0c;你在一个书店里浏览各种书籍。你可能会从头到尾查看每一本书&#xff0c;或者可能跳过一些不感兴趣的部分。在这个过程中&#xff0c;你实…

Yapi接口管理平台Centos7部署

文章目录 1.环境准备1.1 关闭透明大页THP1.2 设置最大文件打开数最大进程数 2.Nodejs安装3.安装Mongodb3.1 下载安装3.2 配置3.3 配置环境变量3.4 启动3.5 关闭 4.安装YAPI4.1 离线安装4.2 页面安装&#xff08;本次采用&#xff09;4.3 访问 1.环境准备 1.1 关闭透明大页THP …

c语言:输出范围内的质数|练习题

一、题目 输入一个数n&#xff0c;输出n之内的所有质数 如图&#xff1a; 二、思路分析 1、设置一个数num&#xff0c;从2开始&#xff0c;不断作1操作&#xff0c;作为被除数 2、用一个不断自1的数&#xff0c;除以num&#xff0c;如果num不能被整除&#xff0c;则为质数 3、例…

Google Ad帐号被封?这几个关键点看好

海外广告投放工作中&#xff0c;账号是非常重要的环节。与在Facebook上运行广告相比&#xff0c;运行Google Ads在代理选择方面通常没有那么严格&#xff0c;因为 Google 对 IP 使用并不那么严格。但是&#xff0c;这并不意味着您可以不加考虑地使用任何代理IP。在本文中&#…

MySQL事务、四大原则、执行步骤、四种隔离级别、锁、脏读、脏写等

MySQL事务 MySQL事务1.什么是事务&#xff1f;2.事务的四大原则3.事务执行的步骤4、事务的隔离性5、MySQL中的锁 MySQL事务 模拟一个转账业务&#xff1a; 上图中的sql语句&#xff1a; update from table set money mongey - 100 where name A; update from table set mone…

【数据结构】插入排序、选择排序、冒泡排序、希尔排序、堆排序

前言&#xff1a;生活中我们总是会碰到各种各样的排序&#xff0c;今天我们就对部分常用的排序进行总结和学习&#xff0c;今天的内容还是相对比较简单的一部分&#xff0c;各位一起加油哦&#xff01; &#x1f496; 博主CSDN主页:卫卫卫的个人主页 &#x1f49e; &#x1f44…

Python经典游戏 唤醒你童年记忆

这些游戏你玩过几个&#xff1f; 1.贪吃蛇2.吃豆人3.加农炮4.四子棋5. Fly Bird<font color #f3704ab>6.记忆&#xff1a;数字对拼图游戏&#xff08;欢迎挑战&#xff01;用时&#xff1a;2min&#xff09;7.乒乓球8.上课划水必备-井字游戏&#xff08;我敢说100%的人都…

verilog rs232串口模块

前面发了个发送模块&#xff0c;这次补齐&#xff0c;完整。 串口计数器&#xff0c;波特率适配 uart_clk.v module uart_clk(input wire clk,input wire rst_n,input wire tx_clk_en,input wire rx_clk_en,input wire[1:0] baud_sel,output wire tx_clk,output wire rx_clk )…

spring、springmvc、springboot、springcloud简介

spring简介 spring是什么&#xff1f; spring: 春天spring: 轻量级的控制反转和面向切面编程的框架 历史 2002年&#xff0c;首次推出spring雏形&#xff0c;interface 21框架2004年&#xff0c;发布1.0版本Rod Johnson: 创始人&#xff0c;悉尼大学&#xff0c;音乐学博士…