scrapy下载图片

news2024/11/24 16:49:42
🐱 个人主页: 莎萌玩家
🙋‍♂️ 作者简介:全栈领域新星创作者、专注于全栈各领域技术,共同学习共同进步,一起加油呀!
💫系列专栏:网络爬虫、WEB全栈开发
📢 资料领取:python,java,c++等进阶资料以及文中源码可以找我免费领取
🔥 全栈学习交流:可以关注我们新课的微信公众号,汇集了各路大神,一起交流学习,期待你的加入!

一转眼,我在新课的学习时间也已经过半,回顾来到这的5个月时间,一点一滴,一分一秒都不是那么轻松容易,但是我相信我的选择是正确的,有人说:“选择大于努力”,一往无前,在IT的道路上越走越远和,今天我也想分享一下我在这儿的一些学习感受:

首先,老师们都是非常和蔼可亲的,平时问的问题都会积极给予回应,每个学生都有一个专门课后解答的群聊,里面全是老师:

课后服务效果由此可见。

其次,学生们的学习态度也是非常积极,活跃,课上课下都非常积极的讨论平时课堂上,或者是作业中遇到的各种问题,时不时还会聊聊生活:

接下来给大家说说我昨晚的课程内容吧!老师讲得是SCRAPY下载图片:

先在自己的SPIDER里面构建需要抓取的URL,然后提取图片链接并且封装在item里面。

分析上图代码,可见用SCARAPY下载图片需要在管道里面引入一个类:ImagePipeline,然后构造一个类并且继承于ImagePipeline。然后在类里面重写三个函数,分别是get_media_requests,file_path,item_completed;他们的功能分别是向图片链接发起请求,给图片起名字,返回(item)

下面对这三个功能分别做解释:先来看看管道里引入类ImagePipeline的源码,找到函数get_media_requests:

可见函数get_media_requests返回的数据类型是一个列表,并且这个列表是列表推导式生成的,其实列表里面存储的就是每张图片的二进制数据。至于函数item_completed,他单纯的用来返回item,没有这个函数是无法返回ITEM的,但是实现整个代码业务逻辑需要返回item,所以设计者就发明了:item_completed这个函数。

下面看看设置:

可见,在settings里面设置了日志等级LOG_LEVEL = "ERROR",添加了USER_AGENT ,并且修改了ROBOTS协议ROBOTSTXT_OBEY = False,下面还打开了管道,最后面添加了一个图片保存的位置:

IMAGES_STORE = "./图片"

项目跑起来速度非常快,不到一分钟就下载了一千多张高清大图,相比于之前用REQUSESTS写的多线程,多进程,效率都有显著的提升!这是因为scrapy基于TWISTED,他本身就是异步爬取,所以底层代码量虽然很大,但应用在在爬取大量页面,对大量URL发起请求时速度却是最快的。

如果用requests向大量URL发起请求,requests很容易崩溃,这就是为什么我们要学习scrapy的好处:在企业里工作,很多时候需要爬取的页面就是几千页,那么发起请求就得有成千上万次,若是不用scrapy,就无法完成工作任务!

暂时先分享这么多吧,希望大家都能在学习过程当中都能有所收获,拿到自己满意的兼职和 offer,如想获取更多资料或者联系加群,可以关注我们新课的微信公众号哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/373856.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二叉树的后序遍历-java递归+非递归-力扣145双百方案

一、题目描述给你一棵二叉树的根节点 root ,返回其节点值的 后序遍历 。示例 1:输入:root [1,null,2,3]输出:[3,2,1]示例 2:输入:root []输出:[]示例 3:输入:root [1]…

使用jenkins实现自动化部署springboot应用

1. 前置准备 这里代码仓库使用gitlab。在介绍如何通过gitlab和jenkins进行自动化部署之前,需要先安装完成gitlab以及jenkins。两种程序的安装方式以及相关配置可以参看以下内容: linux中安装gitlab:linux安装极狐gitlab linux中安装jenki…

Objective-C description 自定义对象的打印格式/输出的字符串 类似于Java 中的 toString 方法

总目录 iOS开发笔记目录 从一无所知到入门 文章目录IntroNSObject 源码测试类截图测试代码输出Intro 在 Java 中,对于自定义类一般会重写集成自Object类的toString方法,这样在打印该类的对象时,打印出的字符串就是我们在 toString() 方法中返…

【Vue3源码】第六章 computed的实现

【Vue3源码】第六章 computed的实现 上一章节我们实现了 ref 及其它配套的isRef、unRef 和 proxyRefs API。这一章开始实现computed计算属性。 认识computed 接受一个 getter 函数,返回一个只读的响应式 ref 对象。该 ref 通过 .value 暴露 getter 函数的返回值。…

[架构之路-121]-《软考-系统架构设计师》-计算机体系结构 -3-汇编语言与ARM系统的初始化

第9章 计算机体系结构 第1-6节 参考前文第7节 ARM汇编语言7.1 程序框架(1)数据段Data初始化的数据: 初始的全局变量未初始化的数据:未初始化的全局变量堆heap:malloc的内存或数据栈stack:函数的局部变量&am…

ubuntu20系统+RobotiQ 2F-85夹爪+Ros+VMware配置

文章目录环境说明Ros配置Vmware虚拟机串口通信配置运行节点并调试有关问题解决办法rosdep相关缺少ros有关的库与pymodbus相关参考环境说明 环境说明系统版本Ubuntu 20.04.4Ros版本noetic主机形式VMware虚拟机夹爪型号RobotiQ 2F-85 Ros配置 新建ros工作空间并进行初始化 mkdir…

Nginx配置web服务器及部署反向代理

Nginx配置web服务器及部署反向代理配置web服务器location语法部署反向代理代理转发配置web服务器 项目部署到linux上的静态文件代理给Nginx处理。当访问服务器IP时,可以自动返回静态文件主页。 主配置文件中server块对应的次配置include /etc/nginx/conf.d/*.conf…

ESP-01S烧录MQTT固件连接阿里云

烧录MQTT固件 资源下载包 用到的所有烧录攻击和固件都放百度云链接了 提取码:qwlo 烧录固件 淘宝上10块钱左右一个CH340C下载烧录器ESP8266的就可以了。 连接好硬件打开ESPFlashDownloadTool_v3.6.2.2.exe软件(记得放到英文目录下不然可能打不开&a…

windows服务编程

文章目录前言方案一:服务程序方案二:后台程序对比windows服务编程windows服务控制附录 - 完整代码前言 在linux中,如果需要一个程序在后台持续提供服务,我们一般会使用守护进程。 守护进程(daemon)是生存期长的一种进程。它们常…

Canonical为所有支持的Ubuntu LTS系统发布了新的Linux内核更新

导读Canonical近日为所有支持的Ubuntu LTS系统发布了新的Linux内核更新,以解决总共19个安全漏洞。新的Ubuntu内核更新仅适用于长期支持的Ubuntu系统,包括Ubuntu 22.04 LTS(Jammy Jellyfish)、Ubuntu 20.04 LTS(Focal F…

需求:节目上传至MINIO后,使用mqtt进行上报

需求:节目上传至MINIO后,使用mqtt进行上报 环境准备 文件管理平台:首先需要使用minio搭建属于自己的对象存储(此步骤跳过) 通信方式:MQTT方式,客户端测试工具:MQTTX(ht…

AI - stable-diffusion(AI绘画)的搭建与使用

最近 AI 火的一塌糊涂,除了 ChatGPT 以外,AI 绘画领域也有很大的进步,以下几张图片都是 AI 绘制的,你能看出来么? 一、环境搭建 上面的效果图其实是使用了开源的 AI 绘画项目 stable-diffusion 绘制的,这是…

《MySQL学习》 表中随机取记录的方式

一.初始化测试表 创建表 words CREATE TABLE words ( id int(11) NOT NULL AUTO_INCREMENT, word varchar(64) DEFAULT NULL, PRIMARY KEY (id)) ENGINEInnoDB;插入测试数据 create procedure idata()begin declare i int; set i 0; while i<10000 do insert into words…

【计算机网络】TCP的可靠性传输机制和常见配置讲解

文章目录1.TCP的可靠性传输机制2.TCP的传输优化机制 Nagle算法和延迟确认3.Linux服务器常见网络内核参数配置4. Linux服务器生产环境常见问题1.TCP的可靠性传输机制 TCP的可靠性传输机制 ACK机制 接收方收到TCP 数据包&#xff0c;要响应一个确认消息 acknowledgement&#xff…

Jinja2----------模板渲染、模板访问对象属性

目录 1.Jinja2 1.简介 2.Jinja2模板 2.模板渲染 app.py templates/index.html templates/blog_detail.html 效果 3.模板访问对象属性 app.py templates/index.html 效果 1.Jinja2 1.简介 Jinja2是Python下一个被广泛应用的模版引擎&#xff0c;他的设计思想来…

k8s-Pod基础

文章目录一、资源限制二、Pod 的两种使用方式三、Pod 资源共享四、底层容器Pause1、Pause共享资源1.1 网络1.2 存储1.3 小结2、Pause主要功能3、Pod 与 Pause 结构的设计初衷五、Pod容器的分类1、基础容器&#xff08;infrastructure container&#xff09;2、初始化容器&#…

行测-判断推理-图形推理-位置规律-平移

位置平移&#xff0c;选D空白每次顺时针移动一格&#xff0c;黑色圆每次逆时针移动2格选C两个黑色⚪&#xff0c;每次顺时针移动2格白色⚪&#xff0c;先到对角位置&#xff0c;再顺时针移动一格选B三角形的底&#xff0c;顺时针移动三角形的顶点&#xff0c;在正方形的内部顺时…

大数据周会-本周学习内容总结03

目录 01【大数据导论与Linux基础】 02【Apache Hadoop、HDFS】 03【Hadoop MapReduce与Hadoop YARN】 04【数据仓库基础与Apache Hive入门】 05【Apache Hive DML语句与函数使用】 06【Hadoop生态综合案例&#xff1a;陌陌聊天数据分析】 01【大数据导论与Linux基础】 大…

如何从0创建Spring Cloud Alibaba(多模块)

以一个父工程带两个Module&#xff08;test1、test2&#xff09;为例。 一、创建父工程 由于是模块化项目&#xff0c;那么父工程不需要实际的代码逻辑&#xff0c;因此无需创建src&#xff0c;那么可以有几种方式创建&#xff0c;例如&#xff1a; 使用Spring Initializr脚…

【跟着ChatGPT学深度学习】ChatGPT带我入门NLP

❤️觉得内容不错的话&#xff0c;欢迎点赞收藏加关注&#x1f60a;&#x1f60a;&#x1f60a;&#xff0c;后续会继续输入更多优质内容❤️&#x1f449;有问题欢迎大家加关注私戳或者评论&#xff08;包括但不限于NLP算法相关&#xff0c;linux学习相关&#xff0c;读研读博…