python爬虫之Scrapy框架--保存图片(详解)

news2024/9/21 4:34:21

目录

Scrapy 使用ImagePipeline 保存图片

使用图片管道 

具体步骤

安装相关的依赖库

创建Scrapy项目

配置settings.py 

 定义Item

 编写Spider

运行Spider

Scrapy 自定义ImagePipeline

自定义图片管道


Scrapy 使用ImagePipeline 保存图片

Scrapy提供了一个 ImagePipeline,用来下载图片这条管道,图片管道ImagesPipeline 提供了方便并具有额外特性的功能,比如:

  • 将所有下载的图片转换成通用的格式(JPG)和模式(RGB)
  • 避免重新下载最近已经下载过的图片
  • 缩略图生成
  • 检测图像的宽/高,确保它们满足最小限制

使用图片管道 

scrapy.pipelines.images.ImagesPipeline

使用 ImagesPipeline ,典型的工作流程如下所示:

  1. 在一个爬虫中,把图片的URL放入 image_urls 组内(image_urls是个列表)
  2. URL从爬虫内返回,进入图片管道
  3. 当图片对象进入 ImagesPipeline,image_urls 组内的URLs将被Scrapy的调度器和下载器安排下载
  4. settings.py文件中配置保存图片路径参数IMAGES_STORE
  5. 开启管道

需要安装pillow4.0.0以上版本

pip install pillow==9.2.0

问题

报错:twisted.python.failure.Failure OpenSSL.SSL.Error

解决方案

pip uninstall cryptography pip install cryptography==36.0.2


具体步骤

安装相关的依赖库

Pillow 

pip install scrapy Pillow

创建Scrapy项目

首先,创建一个Scrapy项目,可以使用以下命令在命令行中创建一个新项目:

scrapy startproject myproject

配置settings.py 

打开生成的Scrapy项目文件夹,找到其中的settings.py文件,编辑该文件,以配置ImagePipeline。

将以下代码添加到settings.py文件中:

ITEM_PIPELINES定义项目中使用的管道,其中scrapy.pipelines.images.ImagesPipeline是用于处理图片的管道。1是优先级,数字越小优先级越高。

IMAGES_STORE是指定要保存图片的目录路径。将"path/to/save/images"替换为实际的目录路径,以便保存图片。

ITEM_PIPELINES = {
    'scrapy.pipelines.images.ImagesPipeline': 1
}

IMAGES_STORE = 'path/to/save/images'

 定义Item

 在Scrapy项目中,使用Item来定义要提取的数据。在项目的目录下找到items.py文件,编辑该文件,以定义一个Item用于保存图片链接。

定义一个名为MyItem的Item,它包含两个字段:image_urlsimagesimage_urls字段用于存储图片的URL,images字段用于存储已下载的图片的信息。

import scrapy

class MyItem(scrapy.Item):
    image_urls = scrapy.Field()
    images = scrapy.Field()

 编写Spider

在Scrapy项目中,Spider用于定义如何爬取和提取数据。在项目的目录下找到spiders文件夹,并在该文件夹中创建一个Python文件,命名为myspider.py可以根据实际需求命名)。

myspider.py文件中,编写Spider代码以提取图片链接并将其保存到MyItem中。

import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        item = MyItem()
        item['image_urls'] = response.css('img::attr(src)').getall()
        yield item

定义了一个名为MySpider的Spider,设置了起始URL为​​​​​​“http://example.com”。在`parse`方法中,我们创建了一个`MyItem`对象,使用CSS选择器提取页面中的所有图片链接,并将其赋值给`item['image_urls']`字段。最后,使用`yield`语句将`item`返回。 

运行Spider

在命令行中,切换到项目根目录,并执行以下命令运行Spider:

scrapy crawl myspider

这将启动Scrapy并开始爬取数据。当爬取完成时,图片将自动下载并保存到指定的目录中。

Scrapy 自定义ImagePipeline

问题

使用官方默认图片管道,有如下几个问题:

  • 文件名不友好
  • 存储图片URL的参数名称与类型太固定

解决方案

自定义ImagePipeline,扩展

自定义图片管道

  • 继承scrapy.pipelines.images import ImagesPipeline

  • 实现get_media_requests(self, item, info)方法

    • 发送请求,下载图片
    • 转发文件名
  • 实现file_path(self,request,response=None,info=None,*,item=None)

    • 修改文件名与保存路径
import re


class Scrapy05Pipeline:
  def process_item(self, item, spider):
    return item


from scrapy.pipelines.images import ImagesPipeline
from scrapy.http.request import Request


class MyImagePipeline(ImagesPipeline):
  def get_media_requests(self, item, info):
    return Request(item['image_url'])
  
  def file_path(self, request, response=None, info=None, *, item=None):
    # 处理文件名中的特殊字符
    # name = item.get('name').strip().replace('\r\n\t\t','').replace('(','').replace(')','').replace('/','_')
    name = re.sub('/','_',re.sub('[\s()]','',item.get('name')))
    return f'{name}.jpg'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/690905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用原生AJAX请求数据

一、什么是AJAX AJAX英文全称 Asynchronous Javascript And XML(异步的JavaScript和XML),是指一种创建交互式网页应用的网页开发技术,用于浏览器和服务器之间进行数据交互。AJAX在浏览器与Web服务器之间使用异步数据传输&#xf…

【Jetpack】Navigation 导航组件 ③ ( 为 Navigation Graph 页面跳转 action 添加跳转动画 )

文章目录 一、为 Navigation Graph 添加跳转动画1、进入 Navigation Graph 配置的 Design 模式2、选中 action 跳转3、为 action 跳转设置 enterAnim 进入动画4、为 action 跳转设置 exitAnim 退出动画5、通过代码为 action 跳转设置进入 / 退出动画6、执行效果 代码地址 : CS…

DBeaver连接mysql时报错com.mysql.cj.jdbc.Driver的解决方法【修改驱动下载的maven地址和重新下载驱动】

文章目录 说明解决方法1、打开DBeaver点击窗口-->窗口-->首选项-->链接-->点击驱动-->Maven-->添加2、删除已有的驱动3、重新创建mysql链接 说明 网上下载了最新版本的DBeaver软件,但是链接mysql的时候驱动下载失败,所以就报下面错误…

Cisco Secure Client 5.0.03072 (macOS, Linux, Windows iOS, Andrord)

Cisco Secure Client 5.0.03072 (macOS, Linux, Windows & iOS, Andrord) 思科安全客户端(包括 AnyConnect) 请访问原文链接:https://sysin.org/blog/cisco-secure-client-5/,查看最新版。原创作品,转载请保留出…

半小时摸清一个行业:ChatGPT+麦肯锡关键词法

大家好,我是可夫小子,关注AIGC、读书和自媒体。 说实话,在行业分析中「关键词分析法」最早见诸于冯唐,并非是麦肯锡公司的方法论。 冯唐作为麦肯锡前合伙人,讲了快速掌握一个行业的基本方法,一共有三个看似…

ChatGPT最新版多功能批量写作工具揭秘

随着人工智能技术的不断进步,自然语言处理领域也取得了巨大的突破。其中,ChatGPT作为一款强大的多功能批量写作工具,备受关注。它的最新版本将用户体验提升到了一个新的高度。本文将从多个方面详细阐述ChatGPT最新版的功能和优势。 自动摘要功…

进程与线程的区别,特点比较区别与联系

进程与线程的区别、关系 定义关系比较对于系统调度来说:从拥有资源来说:并发性上下文:系统开销使用多线程的主要目的: 定义 进程:进程是程序执行的实例,包括程序计数器和寄存器和变量的当前值 进程依赖于程…

漏洞复现-fastjson1.2.24-RCE

0x00 实验环境 攻击机:Win 10、Win Server2012 R2(公网环境,恶意java文件所在服务器) 靶机也可作为攻击机:Ubuntu18 (公网环境,docker搭建的vulhub靶场)(兼顾反弹shell…

创造与布局:剖析 Java 对象创建过程以及内存布局

目录 前言创建对象过程对象布局普通对象数组对象如何观察 Object 大小对象头组成部分 对象如何定位对象如何分配总结 前言 上下文提及到了类的加载过程,详细介绍了加载类的每个阶段:Loading、Linking、Initialize,在其中也说明了静态变量赋…

【无标题】asdasd

【4】Ubuntu网络图标消失 sudo service network-manager stop ----->停止网络服务 sudo rm /var/lib/NetworkManager/NetworkManager.state ----->删除配置文件 sudo service network-manager start ----->重启网络服务 sudo vim /etc/NetworkManager/NetworkMana…

Linux RPM包安装、卸载和升级(rpm命令)详解

下面讲解一下,如何使用 rpm 命令对 RPM 二进制包进行安装、卸载和升级操作。我们以安装 apache 程序为例。 RPM包默认安装路径 通常情况下,RPM 包采用系统默认的安装路径,所有安装文件会按照类别分散安装到下表所示的目录中。 RPM 包默认安…

Mybatis实现品牌数据的增删改查

项目目录如下图所示。Mapper包用于存储对数据库进行操作的Mapper接口文件,本文中通过注释的方式对sql语句进行编写。pojo包中存放实体类文件,文件中包含Brand对象相关字段的定义以及get、set、toString方法。service包中存放service层文件,调…

最优化方法(基于lingo)之 整数规划问题求解(3/6)

一、实验目的: 1. 掌握分支定界法原理。整数规划求解的分枝定界法,首先确定目标函数的一个初始上下界,然后通过逐步分支使上界减小,下界增大,直到两者相等时,就求出了最优值和最优解。 2. 掌握用数学软件求…

pdf可以转excel格式吗?分享两个快速转换方法给大家!

PDF文档常用于存储和共享信息,但在需要编辑或分析数据时,将PDF转换为Excel格式是一个常见需求。本文将向您介绍两种快速转换PDF为Excel格式的方法,让您轻松解决数据提取难题。无论您是处理大量数据还是需要转换复杂表格,这些方法都…

Ubuntu安装和配置ssh保姆教程

配置ssh常常遇到一些问题,接下来是避免踩坑,快速配置ssh 相信大家在设置ssh时,会碰到"Permission denied, please try again." ⚠️敲黑板: 有可能是密码输入错误 有可能是防火墙未关闭 有可能是连接机器的root用户没…

spring boot使用swagger简明笔记

1、什么是swagger swagger就是一个在你写接口的时候自动帮你生成接口文档的东西&#xff0c;只要你遵循它的规范并写一些接口的说明注解即可。 本文springboot版本&#xff1a;2.5.6 2、引入依赖 <!-- swagger --><dependency><groupId>io.springfox</gr…

【论文阅读】Level-S2fM:神经隐式表面水平集上的SfM

【论文阅读】Level-S2fM&#xff1a;神经隐式表面水平集上的SfM Abstract1. Introduction2. Related Works2.1. Structure from Motion2.2. Neural Implicit Representation for 3D Scene 3. Preliminaries3.1. Neural Implicit Surface Rendering3.2. Ray Sampling and Sphere…

JavaScript—DomApi

DomApi &#x1f50e;Dom&#x1f50e;Dom树&#x1f50e;Dom—querySelector(获取元素)&#x1f50e;事件事件的三要素 &#x1f50e;操作元素获取 / 修改元素内容获取 / 修改元素属性获取 / 修改表单元素属性获取 / 修改样式属性修改内联样式修改元素应用的 CSS 类名 &#x…

Scrapy框架--settings配置 (详解)

目录 settings配置 官网-参考配置 配置文档 Scrapy默认BASE设置 settings配置 Scrapy框架中的配置文件&#xff08;settings.py&#xff09;是用来管理爬虫行为和功能的关键部分。它是一个Python模块&#xff0c;提供了各种配置选项&#xff0c;可以自定义和控制爬虫的行为。…

02【存储引擎、索引】

文章目录 一、存储引擎1.1 查看存储引擎1.2 修改默认存储引擎1.3 常见存储引擎1.4 存储引擎的特点1.4.1 InnoDB 存储引擎1.4.2 MyISAM 存储引擎1.4.2.1 MyISAM与InnoDB对比1.4.2.2 批量插入性能测试1.4.2.3 MyISAM压缩表 1.4.3 Merge 存储引擎1.4.4 Memory 存储引擎 二、索引2.…