使用Python和Proxy302代理IP高效采集Bing图片

news2024/9/21 13:50:39

目录

    • 项目背景
    • 一、项目准备
      • 环境配置
    • 二、爬虫设计与实现
      • 爬虫设计思路
        • 目标网站分析
        • 数据获取流程
      • 代码实现
        • 1. 初始化爬虫类(BingImageSpider)
        • 2. 创建存储文件夹
        • 3. 获取图像链接
        • 4. 下载图片
        • 5. 使用Proxy302代理IP
        • 6. 主运行函数
      • 运行截图
    • 三、总结

项目背景

本篇博客详细介绍了一个网络爬虫项目的准备和实现过程。该项目的目标是从Bing图片搜索中获取图片链接并下载图片。此类爬虫项目通常用于收集大量的图片数据,以便用于训练各种人工智能模型,特别是计算机视觉模型。计算机视觉领域的研究需要大量的图像数据来训练和测试模型,以便实现图像分类、对象检测、图像生成等功能。

一、项目准备

环境配置

在开始编写爬虫之前,确保已经完成以下环境配置:

1.Python安装: 确保已安装Python 3.x版本。Python是一种功能强大且易于学习的编程语言,适合于各种编程任务,包括网络爬虫开发。

2.需要的库: Python拥有庞大的第三方库生态系统,我们将使用几个核心库来开发爬虫:

  • requests: 用于发送HTTP请求和处理响应。
  • os: 提供了与操作系统交互的功能,用于创建文件夹等文件操作。
  • time: 提供了时间相关的功能,例如休眠程序以及计时等。
  • urllib: 提供了在网络上获取数据的一些功能,主要用于URL编码。

可以使用以下命令通过pip安装这些库:

pip install requests

如果你使用的是Anaconda等集成环境,可以使用conda命令:

conda install requests

这些库将帮助我们处理HTTP请求、解析和存储数据,以及进行一些基本的系统操作。

二、爬虫设计与实现

爬虫设计思路

目标网站分析

在设计爬虫之前,分析目标网站是必不可少的。对于Bing图片搜索网站,我们进行如下分析:

  • 网页结构:Bing图片搜索页面的结果通常以HTML的形式呈现,其中包含了多个图片的缩略图。每张图片的缩略图通常通过<img>标签展示,图片的真实链接保存在src属性中。
  • 动态加载:Bing的图片搜索结果可能采用了动态加载的方式。即在页面初始加载时,可能只加载部分图片,更多图片会在用户滚动页面时动态加载。Selenium可以模拟用户行为(如滚动)以加载这些动态内容。
  • 请求限制:Bing图片搜索可能对请求频率或IP地址进行限制。使用代理服务器有助于分散请求负载,避免IP被封禁。
数据获取流程

构建请求URL:根据用户输入的搜索关键词构建Bing图片搜索的URL。URL的格式通常为https://www.bing.com/images/search?q={搜索词},其中{搜索词}是用户的查询内容。
发送GET请求:通过Selenium WebDriver发送GET请求,加载目标网页。由于Bing图片搜索页面可能含有动态内容,Selenium能够处理这些动态加载的内容,确保图片链接完全加载。
解析网页数据:使用Selenium解析网页源代码,提取所有图片缩略图的src属性。通常,缩略图链接可以通过CSS选择器找到,例如使用img.mimg选择器获取图片标签。
下载图片:对于每个提取到的图片链接,使用Requests库发送GET请求以获取图片数据,并将其保存到本地目录。确保在保存时处理任何可能的下载异常,如网络问题或链接无效等。
存储管理:将下载的图片保存到预先创建的目录中,目录结构可按搜索词分类,方便后续管理和使用。

代码实现

以下是代码的主要部分及其功能说明:

1. 初始化爬虫类(BingImageSpider)

在爬虫开发过程中,首先需要定义一个爬虫类以实现图片的爬取功能。我们定义了一个名为BingImageSpider的类,用于处理从Bing图片搜索页面抓取和下载图片的任务。

import requests
import os
import time
from urllib import parse

class BingImageSpider(object):
    def __init__(self):
        self.url = 'https://www.bing.com/images/search?q={}&form=HDRSC2&first=1&tsc=ImageBasicHover'
        self.directory = r"D:\价值一个亿\python-mini-projects\projects\bingimg\{}"
        self.header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
            'Accept-Language': 'en-US,en;q=0.9',
            'Referer': 'https://www.bing.com'
        }
2. 创建存储文件夹

在图片爬取的过程中,为了组织和管理下载的图片,需要创建一个专门的存储文件夹。这个文件夹的名称通常与搜索关键词相关,以便于后续查找和管理。以下是创建存储图片文件夹的代码:

def create_directory(self, name):
    self.directory = self.directory.format(name)
    if not os.path.exists(self.directory):
        os.makedirs(self.directory)
3. 获取图像链接

该方法通过发送HTTP请求获取网页内容,并从Bing图片搜索结果页面获取图片的缩略图链接:

def get_image_link(self, url):
    list_image_link = []
    response = requests.get(url, headers=self.header)
    
    # 解析网页内容并提取图片链接
    try:
        json_data = response.json()
        for item in json_data['value']:
            if 'thumbnailUrl' in item:
                list_image_link.append(item['thumbnailUrl'])
    except Exception as e:
        print(f"Error occurred: {e}")
    
    return list_image_link

返回一个包含所有提取到的图片缩略图链接的列表,用于后续的图片下载操作。

4. 下载图片

此段代码的主要任务是下载指定的图片并将其保存到本地存储。实现这一功能需要处理网络请求、文件操作以及错误处理等多个方面。下面是该方法的实现代码:

def save_image(self, img_link, filename):
    try:
        res = requests.get(img_link, headers=self.header)
        with open(filename, "wb") as f:
            f.write(res.content)
            print("存储路径:" + filename)
    except requests.RequestException as e:
        print(f"Error downloading image: {e}")
  • 下载图片:该方法接受两个参数:img_link 和 filename。img_link 是要下载的图片的URL链接,filename 是保存图片的本地文件路径。方法通过HTTP请求下载图片数据,并将其写入到指定的文件中。
  • 文件存储:下载的图片以二进制模式(“wb”)写入到本地文件系统中,确保图片数据被正确保存。
    通过这种方法,可以确保从网络上下载的图片被正确存储在本地,以便于后续的使用和管理。
5. 使用Proxy302代理IP

在网络爬虫中,频繁的请求可能会被目标网站识别为异常流量,导致IP地址被封禁。为降低此风险,可以使用Proxy302等代理IP服务。Proxy302与302.AI是同一个开发团队,302.AI是一个汇集全球顶级品牌的AI超市,按需付费,无月费,全面开放使用各种类型AI。Proxy302跟302.AI的账号余额是通用的。

首先我们来到 proxy302.com 官网注册账号,选择自己所需要的代理ip

在这里插入图片描述

定义一个变量 proxy,包含了你要使用的代理服务器的地址和端口号。在这个例子中,代理服务器的地址是 proxy.proxy302.com,端口号是 2222。

# 配置代理设置
proxy = "proxy.proxy302.com:2222"  # 代理地址:端口

创建一个 Options 对象,这是Selenium提供的一个配置类,用于设置Chrome浏览器的各种选项。

chrome_options = Options()
chrome_options.add_argument(f'--proxy-server=http://{proxy}')
  • 通过 add_argument 方法将一个新的命令行参数添加到Chrome浏览器的启动选项中。这行代码添加了 --proxy-server 参数,指定了要使用的代理服务器。
  • http://{proxy} 表示使用 http 协议连接到代理服务器,{proxy} 是上面定义的代理地址和端口。最终,这个参数告诉Chrome浏览器所有的网络请求都要通过这个指定的代理服务器进行。

在这里插入图片描述

在选择代理服务时,可靠性和灵活性是至关重要的考虑因素。Proxy302凭借其全面的代理类型、多样的支持协议,以及灵活的定价模式,成为了众多用户的首选。这些优势不仅确保了高效的数据采集,还为不同场景的应用提供了极大的便利。

最全面代理类型:Proxy302提供市面上最全面的代理类型,满足各种业务需求。

  • 全球240+国家和地区,6500万个住宅IP可供选择。
  • Proxy302支持HTTP、SOCKS5网络协议的代理。
  • Proxy302支持动态、静态代理,代理类型分为【动态按流量扣费】、【动态按IP扣费】、【静态按流量扣费】、【静态按IP扣费】,静态代理还分为住宅IP、数据中心IP。

简洁易用:用户界面简洁而不简单,易用且高效。提供浏览器扩展插件,实现一键设置代理,省去复杂配置步骤。
按需付费,无月付套餐:无需套餐捆绑购买,按需付费,充值即可使用所有类型的代理IP,无阶梯式定价。

使用代理ip 这种方式能够有效地隐藏真实IP地址,从而规避被封禁的风险。

6. 主运行函数

run函数是程序的入口点,负责控制整个爬虫的执行流程。它依次处理用户输入、构建请求URL、提取图片链接、下载图片,并进行适当的延时以防止过于频繁的请求。以下是run函数的具体代码:

def run(self):
    searchName = input("查询内容:")
    self.create_directory(searchName)

    search_url = self.url.format(parse.quote(searchName))
    image_links = self.get_image_link(search_url)

    for index, link in enumerate(image_links):
        self.save_image(link, os.path.join(self.directory, f"{index + 1}.jpg"))
        time.sleep(1)  # 防止请求过于频繁

通过这些方法,爬虫能够高效地从Bing图片搜索中获取并下载相关图片,实现自动化的图像数据收集。

运行截图

在这里插入图片描述

在这里插入图片描述

三、总结

本文档介绍了如何通过Python实现一个简单的Bing图片爬虫,并解释了各部分代码的功能与逻辑。同时,为了规避频繁请求可能带来的IP封禁风险,我们还介绍了如何在爬虫中使用Proxy302代理IP服务。通过这个项目,大家可以轻松获取大量的图片数据,用于训练计算机视觉模型或其他用途。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152486.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024/9/21 leetcode 19题 24题

目录 19.删除链表中的倒数第n个结点 题目描述 题目链接 解题思路与代码 24.两两交换链表中的结点 题目描述 题目链接 解题思路与代码 19.删除链表中的倒数第n个结点 题目描述 给你一个链表&#xff0c;删除链表的倒数第 n 个结点&#xff0c;并且返回链表的头结点。 示…

Kyutai开源实时语音对话模型Moshi

新闻 法国人工智能实验室Kyutai在巴黎举行的一次活动上推出了能够进行自然交互的对话式人工智能助手Moshi&#xff0c;并计划将其作为开源技术发布。Kyutai表示&#xff0c;Moshi是首款可公开访问的人工智能助手&#xff0c;可实现实时对话&#xff0c;有别于OpenAI的GPT-4o&a…

mybatis 和 mybatis-plus

mybatis 配置 1.新建MAVEN项目 2.配置mybatis依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocatio…

基于YOLOv5s的无人机航拍输电线瓷瓶检测(附数据集与操作步骤)

本文主要内容:详细介绍了无人机航拍输电线瓷瓶检测的整个过程&#xff0c;从创建数据集到训练模型再到预测结果全部可视化操作与分析。 文末有数据集获取方式&#xff0c;请先看检测效果 现状 输电线路绝缘瓷瓶的检测主要依赖人工巡检。巡检人员需携带专业设备&#xff0c;攀…

Typora安装和导入导出

Typora安装和导入导出 文章目录 Typora安装和导入导出前言Typora v1.9.5Typora v1.4.7Pandoc 前言 Typora v1.9是最新版, , Typora v1.4是老版本的, 这两个选择一个即可Pandoc可以导入导出word Typora v1.9.5 Typora v1.9.rar, 提取码&#xff1a;tian按ctrl单击鼠标左键打开…

毕业设计选题:基于ssm+vue+uniapp的捷邻小程序

开发语言&#xff1a;Java框架&#xff1a;ssmuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;M…

大数据实验一: Linux系统安装和使用

一、实验目的 描述Ubuntu的安装过程&#xff1b;使用命令完成Ubuntu中的基础操作&#xff1b; 二、实验平台 操作系统&#xff1a;window系统&#xff1b;内存&#xff1a;4G以上&#xff1b;硬盘&#xff1a;100GB以上&#xff1b;Virtual Box或者VMware&#xff1b;Ubuntu…

如何用1024张显卡训练一个模型

最近看到知乎一个回答&#xff0c;把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。 本文将包括几个部分&#xff1a; 首先我们将讨论千卡训练的难题&#xff0c;以及应该在什么时候使用千卡训练&#xff1b; 接着&#xff…

品牌建设是什么?怎么做好品牌建设?

品牌建设&#xff0c;是每个公司品牌形象树立过程中所做的一系列动作&#xff0c;旨在与目标市场建立情感联系&#xff0c;并在竞争激烈的市场中为企业或产品赢得认同和忠诚度。要做好品牌建设&#xff0c;公司首先要明确自己的品牌定位&#xff0c;然后在通过一些品牌建设策略…

Java调用数据库 笔记06 (修改篇)

1.创建Java的普通class类 2.加载驱动 Class.forName("com.mysql.jdbc.Driver"); 3.驱动管理类调用方法进行连接&#xff0c;得到连接对象 DriverManager.getConnection(url, user, password); 其中设置参数&#xff1a; static final String url "jdbc:my…

2024年上海小学生古诗文大会倒计时一个月:做2024官方模拟题

2024年上海市小学生古诗文大会自由参赛的初赛将于10月19日开始&#xff0c;还有不到一个月的时间。 今天好真题继续带着大家来继续做官方2024年小学生古诗文大会的官方模拟题。 【温馨提示】我给每一道题都独家制作了解析&#xff0c;便于孩子理解和熟记题目背后的知识点&…

【python设计模式6】行为型模式1

目录 责任链模式 观察者模式 责任链模式 责任链模式的内容&#xff1a;使多个对象都有机会处理请求&#xff0c;从而避免请求的发送者和接收者之间的耦合关系。将这些对象连成一条链并沿着这条链传递该请求&#xff0c;直到有一个对象处理它为止。责任链的角色有抽象处理者、…

b2b2c商城系统好用么 多用户商城系统四大盈利模式

商淘云B2B2C商城系统能帮助企业快速搭建企业自己的多用户商城系统&#xff0c;它提供了多种功能&#xff0c;如多商家管理、订单处理、支付模块集成等&#xff0c;适合各种规模的企业。用户界面友好&#xff0c;且支持定制化&#xff0c;能满足不同业务需求。 多用户商城有四大…

【ARM】A64指令介绍及内存屏障和寄存器

A64指令集介绍 ISA : Instruction System Architecture 指令集总结 跳转指令 使用跳转指令直接跳转&#xff0c;跳转指令有跳转指令B&#xff0c;带链接的跳转指令BL &#xff0c;带状态切换的跳转指令BX。 B 跳转指令&#xff0c;跳转到指定的地址执行程序。 BL 带链接的跳…

.NET周刊【9月第3期 2024-09-15】

国内文章 关于.NET在中国为什么工资低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中国开发者的薪资偏低&#xff0c;主要因市场需求、技术栈选择和企业文化等因素所致。历史上&#xff0c;.NET曾因微软的闭源策略发展受限&#xff0c;尽管后来推出了跨平…

传输层协议 —— TCP协议(下篇)

目录 0.前言 1.流量控制 什么是流量控制&#xff1f; 如何做到流量控制&#xff1f; 窗口探测 PSH标志位与流量控制 一个问题 2.滑动窗口 为什么要有滑动窗口&#xff1f; 滑动窗口在哪&#xff1f; 滑动窗口到底是什么&#xff1f; 滑动窗口的工作原理 滑动窗口中…

Java——认识String类

在 C 语言中已经涉及到字符串了&#xff0c;但是在 C 语言中要表示字符串只能使用字符数组或者字符指针&#xff0c;可以使用标准库提供的字符串系列函数完成大部分操作&#xff0c;但是这种将数据和操作数据方法分离开的方式不符合面相对象的思想&#xff0c;而字 符串应用又非…

【射频通信电子线路基础第五讲】噪声、噪声系数和灵敏度

一、噪声 确定信号对应的是干扰&#xff0c;而随机信号对应的是噪声&#xff0c;噪声又分为系统内部的噪声和外部对系统的噪声。 1、电阻热噪声 &#xff08;1&#xff09;无源有耗网络的热噪声 &#xff08;2&#xff09;热噪声通过线性网络 &#xff08;3&#xff09;等效噪…

酷炫航模飞手飞行技术详解

在无人机与航模的广阔世界里&#xff0c;成为一名技艺高超的飞手&#xff0c;不仅需要对飞行器有深入的理解&#xff0c;还需掌握一系列精湛的飞行技巧。本文将从基础飞行技巧、特技飞行动作、FPV第一人称视角、安全飞行要点、设备调试与维护&#xff0c;以及实战应用与拓展六个…

2024 “华为杯” 中国研究生数学建模竞赛(E题)深度剖析|高速公路应急车道启用建模|数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2022年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题&#xff01; CS团队倾注了大量时间和心血&#xff0c;深入挖掘解…