python爬虫关于ip代理池的获取和随机生成

news2024/12/23 13:37:44

前言

在进行爬虫开发时,代理IP池是一个非常重要的概念。代理IP池是指一个包含多个可用代理IP的集合,这些代理IP可以用来绕过网站的防爬虫策略,从而提高爬取数据的成功率。

在本文中,我们将介绍如何获取代理IP池,并且随机生成可用的代理IP。除此之外,我们还将以爬取微博热搜为例,介绍代理IP池的应用。

一、获取代理IP池

在获取代理IP池之前,我们需要先了解一些代理IP提供商的信息。代理IP提供商一般会提供API接口或者代理IP列表来供我们使用。

站大爷为例,他们提供了一个API接口,在访问该接口时,可以随机获得一个可用的代理IP。使用Python来获取代理IP的代码如下:

```
import requests

def get_proxy():
    url = 'http://http://www.zdopen.com/ShortProxy/GetIP/?api=202207291010568666&akey=ca950945aa6aa851&timespan=1&type=1'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text.strip()
    return None
```

get_proxy函数通过访问API接口来获取一个可用的代理IP。其中,url参数是API接口的请求地址,headers参数中包含了User-Agent信息,这是为了避免被网站识别为爬虫。

接下来,我们需要将这些代理IP保存起来,供后面使用。在本文中,我们使用Python的list列表来保存代理IP。示例代码如下:

```
proxy_list = []

for i in range(10):
    proxy = get_proxy()
    if proxy:
        proxy_list.append(proxy)
```

上面的代码中,我们使用get_proxy函数来获取10个代理IP,并且将它们添加到一个名为proxy_list的list列表中。

二、随机获取代理IP

在使用代理IP时,我们需要随机获取一个代理IP。这样可以避免使用同一个代理IP过于频繁,从而提高爬取数据的成功率。

使用Python来随机获取代理IP的代码如下:

```
import random

def get_random_proxy():
    if proxy_list:
        return random.choice(proxy_list)
    return None
```

上面的代码中,我们使用Python的random模块,随机选择一个代理IP。如果代理IP池中没有可用的代理IP,就返回None。

三、代理IP池的应用

下面我们来介绍一个使用代理IP池的示例程序。该程序需要爬取微博热搜,由于微博对频繁访问有限制,我们需要使用代理IP来完成任务。

首先,我们需要获取微博热搜的页面源码。我们使用requests库来访问页面,然后使用lxml库解析HTML文档,找到热搜关键词。代码如下:

```
import requests
from lxml import etree

def parse_page(url):
    proxies = {'http': 'http://' + get_random_proxy(), 'https': 'https://' + get_random_proxy()}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    try:
        response = requests.get(url, headers=headers, proxies=proxies)
        if response.status_code == 200:
            return response.text
    except:
        return None

def get_hot_search():
    url = 'https://s.weibo.com/top/summary?cate=realtimehot'
    html = parse_page(url)
    if html:
        results = []
        tree = etree.HTML(html)
        items = tree.xpath('//table[@class="data"][1]//tr[position()>1]')
        for item in items:
            rank = item.xpath('./td[@class="ranktop"]/text()')[0]
            keyword = item.xpath('./td[@class="td-02"]/a/text()')[0]
            hot = item.xpath('./td[@class="td-02"]/span/text()')[0]
            results.append({'rank': rank, 'keyword': keyword, 'hot': hot})
        return results
```

上面的代码中,我们使用get_random_proxy函数来随机选择一个代理IP,并且使用requests库来访问微博热搜页面。其中,proxies参数指定了使用的代理IP。接着,我们使用lxml库解析HTML文档,找到热搜关键词。

最后,我们将找到的热搜关键词和热度保存在一个名为results的列表中。

四、 总结

本文介绍了如何获取代理IP池,并且随机生成可用的代理IP。除此之外,我们还以爬取微博热搜为例,介绍代理IP池的应用。当我们使用代理IP池时,需要注意代理IP池的管理。例如,我们可以使用队列来管理代理IP,控制使用频率,从而降低被封禁的风险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/948835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

统一使用某一个包管理工具,比如yarn pnpm

原因:前端每个人的习性不一样,有人用npm 有人用yarn等包管理工具,混合下载插件容易出bug,就用个小工具锁住就行了,只能使用yarn或者pnpm反向下载依赖和下载插件。不然就报错 1.在项目主目录下创建preinstall.js // 如…

直播预告!生鲜与零售商品识别系统产业实践与部署详解

生鲜零售作为民生消费的重要一环,在促进行业新消费升级的进程中有着至关重要的作用。在超市等无人零售场景中,目前结算方式主要有以下几种: 但是以上几种方法存在如下缺点: 条形码方式:对于成品包装的商品较为成熟&…

MindSponge分子动力学模拟——软件架构(2023.08)

技术背景 在前面一篇文章中,我们介绍了MindSponge的两种不同的安装与使用方法,让大家能够上手使用。这篇文章主要讲解MindSponge的软件架构,并且协同mindscience仓库讲解一下二者的区别。 整体架构 首先我们来了解一下MindSponge独立仓库的软…

day28 异常

to{}catch{} try{}catch{}的流传输 try {fis new FileInputStream("file-APP\\fos.txt");fos new FileOutputStream("fos.txt");int a ;while ((a fis.read())! -1){fos.write(a);}System.out.println(a); } catch (IOException e) {e.printStackTrace()…

ECharts图表动态修改series显示隐藏

文章目录 1、前言2、思路3、实现 1、前言 最近做的大数据平台,里面很多部分用到了ECharts,其中有个功能,要求将图表分组,根据用户选择的组,来确定ECharts要显示那些线条和柱子,也就是动态的显示option.seri…

习题练习 C语言(暑期第三弹)

自我小提升! 前言一、存储地址二、逗号表达式三、除自身以外数组的乘积四、字节与二进制五、符号计算六、不用加减乘除做加法七、unsigned判断八、移位计算九、sizeof宏十、移位计算十一、移位计算十二、优先级判断十三、单词倒排总结 前言 重要的事说三遍&#xf…

仓储24代电子标签操作指导

服务器使用 服务器环境需求 数据库:Mysql5.7 Java环境:jdk1.8 软件容器: Tomcat8.5/9.0 软件部署步骤 mysql5.7, 创建db_wms数据库并导入原始数据库文件 安装jdk1.8, 配置java环境变量 下载tomca8.0, 部署wms.war到tomcat, 并启动tomc…

一体化智能可观测平台助力车企数智化转型

8月24日,博睿数据主办的《"车程ONE里,万事大吉" - 可观测性在汽车行业的应用与发展网络分享会》开播,邀请了博睿数据全国汽车行业负责人吴伟硕和博睿数据资深技术专家向涛做客直播间,分享汽车企业数字化转型的故事&…

恒运资本:华为Mate 60 Pro突然发售拉动半导体股,中芯国际等开盘涨超5%

8月30日,受华为突然发售Mate 60 Pro手机影响,A股开盘后半导体板块迅速拉升,伟测科技、美芯晟涨超10%,利扬芯片、唯捷创芯、芯动联科、中芯世界、华虹公司等涨超5%。 恒运资本平台(百度搜索恒运资本)是深圳…

QT生成可执行文件

有时候为方便在没有QT电脑上执行程序,需要生成可执行文件 1.在计算机任意英文路径下新建一个文件夹。本文在F:\QTproject\hisiupdate下创建了test文件夹。将QT工程运行Release生成的build-update-MinGW-Release文件夹下Release下.exe文件拷贝到新建的test文件夹下。…

【数据结构-链表-01】反转链表

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…

基于swing的图书管理系统java书店信息 jsp源代码Mysql

本项目为前几天收费帮学妹做的一个项目,Java EE JSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。 一、项目描述 基于swing的图书管理系统 系统有1权限:管理员 二、主…

Ansible学习笔记6

stat模块:获取文件的状态信息,类似Linux的stat状态。 获取/etc/fstab文件的状态。 [rootlocalhost tmp]# ansible group1 -m stat -a "path/etc/fstab" 192.168.17.106 | SUCCESS > {"ansible_facts": {"discovered_inter…

数据通信——传输层TCP(可靠传输原理的ARQ)

引言 上一篇讲述了停止等待协议的工作流程,在最后提到了ARQ自动请求重传机制。接下来,我们就接着上一篇的篇幅,讲一下ARQ这个机制 还是这个图来镇楼 ARQ是什么? 发送端对出错的数据帧进行重传是自动进行的,因而这种…

《Go 语言第一课》课程学习笔记(十三)

方法 认识 Go 方法 Go 语言从设计伊始,就不支持经典的面向对象语法元素,比如类、对象、继承,等等,但 Go 语言仍保留了名为“方法(method)”的语法元素。当然,Go 语言中的方法和面向对象中的方…

高忆管理:培育钻石价格大跌,力量钻石等多家概念股业绩下滑

8月29日,培养钻石板块直线拉升,其间沃尔德(688028.SH)涨幅达10.89%,力气钻石(301071.SZ)、惠丰钻石(839725.BJ)、四方达(300179.SZ)、黄河旋风(600172.SH&…

【STM32】学习笔记(TIM定时器)-江科大

TIM(Timer)定时器 定时器可以对输入的时钟进行计数,并在计数值达到设定值时触发中断 16位计数器、预分频器、自动重装寄存器的时基单元,在72MHz计数时钟下可以实现最大59.65s的定时 不仅具备基本的定时中断功能,而且…

SpringBoot实现简单的登录验证码

参考了一些资料,完成了这个验证码的功能,下面记录一下功能的实现过程。 一、效果图 二、实现原理 后台生成验证码图片,将图片传到前台。后台在session中保存验证码内容。前台输入验证码后传到后台在后台取出session中保存的验证码进行校验。…

x86架构 指令INT3只有一个字节的原因

文章目录 一、单字节原因简介二、断点原理三、单字节具体原因参考资料 一、单字节原因简介 INT3指令生成一个特殊的单字节操作码(CC),用于调用调试异常处理程序。(这种单字节形式很有价值,因为它可以用来用断点替换任何…

冠达管理:火爆!拼多多飙涨15%,中概股沸腾!这些外资巨头唱多中国资产

当地时间8月29日,美国三大股指团体收涨,道指涨0.85%,标普500指数涨1.45%,纳指涨1.74%。科技股大涨,特斯拉涨7.69%,英伟达涨4.16%。纳斯达克我国金龙指数收涨3.7%,拼多多涨超15%。 广东研山私募…