python爬虫学习第二十八天-------了解scrapy(二十八天)

news2025/1/8 5:00:49

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

hello,兄弟姐妹们!我是喔的嘛呀。今天我们首先来了解scrapy。为后面的学习打下基础。

一、scrapy是什么?

Scrapy 是一个用于爬取网站数据并提取结构化信息的强大 Python 框架。它可以帮助开发人员快速、高效地构建网络爬虫,从而自动化地从网页中提取所需数据。Scrapy 提供了一套完整的工具和组件,包括用于定义爬取规则的 Spider、用于提取数据的选择器(Selectors)、用于处理数据的管道(Pipeline)等,使得爬虫开发变得简单且高效。Scrapy 还支持异步处理和并发请求,可以处理复杂的爬取任务,并提供了命令行工具和调试工具,方便开发人员进行调试和监控。Scrapy 在数据挖掘、信息收集、监测和自动化测试等领域都有广泛的应用。

二、工作原理和重要功能

工作原理:

  1. 引擎(Engine):是 Scrapy 的核心,负责调度整个爬取流程的执行。
  2. 调度器(Scheduler):接收引擎发来的请求,并根据一定的策略进行调度,以确保合理高效地使用网络和系统资源。
  3. 下载器(Downloader):负责下载网页并将响应传递给 Spider。
  4. Spider:定义了如何抓取某个网站的规则,包括如何开始抓取以及如何跟踪链接等。
  5. Item Pipeline:负责处理爬取到的数据,可以进行数据清洗、验证、存储等操作。
  6. Downloader Middleware:介于引擎和下载器之间的一层组件,可以修改请求和响应,例如添加代理、设置 User-Agent 等。
  7. Spider Middleware:介于引擎和 Spider 之间的一层组件,用于处理 Spider 的输入和输出。

主要功能:

  1. Spider:定义了如何爬取某个(些)网站的规则,包括起始URL、如何跟踪链接、如何解析页面等。
  2. Selector:用于从页面中提取数据的工具,支持 XPath 和 CSS 选择器。
  3. Item:表示从网页中提取的数据,类似于字典或数据库表的行。
  4. Pipeline:负责处理爬取到的数据,可以进行数据清洗、去重、验证、存储等操作。
  5. Downloader Middleware:用于在下载器处理请求和响应的过程中进行额外的操作,比如修改请求头、处理代理等。
  6. Spider Middleware:对 Spider 的输出(Item 和 Request)进行处理的组件,可以对请求和响应进行预处理或后处理。
  7. Scrapy Shell:交互式 shell 环境,用于测试和调试 XPath 或 CSS 选择器表达式。
  8. 命令行工具:用于运行爬虫、检查爬取结果等,例如 scrapy crawl spider_name

三、工作流程

Scrapy 的工作流程可以简要地描述为以下几个步骤:

  1. 启动爬虫
    • 使用命令行工具或代码启动 Scrapy 爬虫。
  2. 引擎调度请求
    • 引擎接收到启动爬虫的命令后,会根据 Spider 的配置和规则生成初始请求,并将请求交给调度器。
  3. 调度器管理请求队列
    • 调度器会根据一定的策略管理请求队列,确保请求按照合理的顺序被发送给下载器。
  4. 下载器下载网页
    • 下载器接收到调度器发送的请求后,会下载对应的网页内容,并将下载到的响应返回给引擎。
  5. 引擎将响应发送给 Spider
    • 引擎接收到下载器返回的响应后,会将响应发送给对应的 Spider 进行处理。
  6. Spider 解析响应
    • Spider 接收到响应后,会根据预先定义的规则,解析网页内容,提取需要的数据,并生成新的 Item 对象。
  7. Item 被发送到 Item Pipeline
    • Spider 将解析得到的 Item 对象发送到 Item Pipeline 进行处理,包括数据清洗、验证、存储等操作。
  8. 数据存储
    • Item Pipeline 将处理后的数据存储到指定的数据存储介质(如数据库、文件等)中。
  9. Spider 继续爬取
    • Spider 可能会继续根据规则跟踪链接,生成新的请求,并重复上述流程,直到没有新的请求或达到停止条件。
  10. 爬虫关闭
    • 当爬取结束时,Spider 可能会发送信号给引擎,引擎收到信号后关闭爬虫。

这就是 Scrapy 的基本工作流程。通过这个流程,Scrapy 能够高效地从网页中提取数据,并进行处理和存储,实现了一个完整的网络爬虫功能。

介绍完了scrapy相信你对它已经有了一定的了解。不要着急,后面我会详细解析scrapy的知识点。那今天的学习就到这里了,我们明天再见啦。要天天开心!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1619241.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ESLint 、 e2e test 学习

Lint和Format的区别: Lint只会告诉你代码中的错误或者不符合规范的地方,而Format是用来对格式作调整的 HTML/tpl:HTMLLint CSS/SCSS:Stylelint JS/JSX:Eslint JSLint:古老,不能配置和扩展JSHin…

jvm中的引用类型

Java中的引用类型 1.强引用 一个对象A被局部变量、静态变量引用了就产生了强引用。因为局部变量、静态变量都是被GC Root对象关联上的,所以被引用的对象A,就在GC Root的引用链上了。只要这一层关系存在,对象A就不会被垃圾回收器回收。所以只要…

STM32点灯大师(点了一颗LED灯,轮询法)

配置操作: 一、使用CubeMX配置到大致的操作 1.1 选择芯片 1.2 选择引脚(根据电路图) 1.3 配置gpio口 1.4 配置系统 1.5文件项目操作 最后就是点击 二、点击CubeMX生成的代码,并且修改代码 2.1 看看效果 2.2 写代码

线程-条件变量和生产者消费者模型

这个内容比较重要,并且面试很容易被问道。所以把他单独拿出来了。 条件变量 条件变量是一种线程同步机制 当条件不满足时,相关线程被一直阻塞,直到某种条件出现,这些线程才会被唤醒。为了保护共享资源,条件变量需要…

tiktok如何影响用户行为的分析兼论快速数据分析的策略

tiktok如何影响用户行为的分析 快速数据分析的策略流程: 1.确定指标变量,也就确定了数据分析想要回答的问题。想回答不同的问题,就选择不同的指标变量。 变量筛选方法选出指标变量相关的变量; 针对筛选出的变量进行描述性分析和因…

【软考经验分享】软考-中级-嵌入式备考

这里写目录标题 教辅用书嵌入式系统设计师考试大纲嵌入式系统设计师教程嵌入式系统设计师5天修炼嵌入式系统设计师考前冲刺100题 刷题软件希赛网软考真题 视频教程希赛网王道-计组计网 教辅用书 嵌入式系统设计师考试大纲 50页左右,内容为罗列一些考点&#xff0c…

【hackmyvm】 Quick2靶机

渗透流程 渗透开始1.IP地址 获取2.端口扫描3.任意文件读取4.扫描目录5.总结信息6.漏洞扫描7.php_filter_chain_generator.py使用8.提权 渗透开始 1.IP地址 获取 ┌─[✗]─[userparrot]─[~] └──╼ $fping -ag 192.168.9.0/24 2>/dev/null 192.168.9.124 本机 192.1…

密码学 | Schnorr 协议:零知识身份证明和数字签名

🥕原文: Schnorr 协议:零知识身份证明和数字签名 🥕写在前面: 本文属搬运博客,自己留存学习。文中的小写字母表示标量,大写字母表示椭圆曲线中的点。 1 Schnorr 简介 Schnorr 由德国数学家和密…

Opencv_10_自带颜色表操作

void color_style(Mat& image); Opencv_10_自带颜色表操作: void ColorInvert::color_style(Mat& image) { int colormap[] { COLORMAP_AUTUMN, COLORMAP_BONE , COLORMAP_JET , COLORMAP_WINTER, COLORMAP_RAINBOW , COLOR…

图像处理之Retinex算法(C++)

图像处理之Retinex算法(C) 文章目录 图像处理之Retinex算法(C)前言一、单尺度Retinex(SSR)1.原理2.代码实现3.结果展示 二、多尺度Retinex(MSR)1.原理2.代码实现3.结果展示 三、带色…

STM32单片机C语言模块化编程实战:按键控制LED灯并串口打印详解与示例

一、开发环境 硬件:正点原子探索者 V3 STM32F407 开发板 单片机:STM32F407ZGT6 Keil版本:5.32 STM32CubeMX版本:6.9.2 STM32Cube MCU Packges版本:STM32F4 V1.27.1 虽然这里演示的是STM32F407,但是ST…

JetBrains PhpStorm v2024.1 安装教程 (PHP集成开发IDE)

前言 PhpStorm是由JetBrains推出的一款轻量级集成开发环境,专为PHP开发者而设计。该软件融合了智能的HTML/CSS/JavaScript/PHP编辑器、代码质量分析工具、版本控制系统集成(包括SVN和GIT)、调试和测试等功能。除此之外,PhpStorm还…

FPGA秋招-笔记整理(1)

一、关键路径 关键路径通常是指同步逻辑电路中,组合逻辑时延最大的路径(这里我认为还需要加上布线的延迟),也就是说关键路径是对设计性能起决定性影响的时序路径。也就是静态时序报告中WNS(Worst Nagative Slack&…

【计算机毕业设计】jspm医院门诊挂号系统——后附源码

🎉**欢迎来到琛哥的技术世界!**🎉 📘 博主小档案: 琛哥,一名来自世界500强的资深程序猿,毕业于国内知名985高校。 🔧 技术专长: 琛哥在深度学习任务中展现出卓越的能力&a…

【服务器部署篇】Linux下Ansible安装和配置

作者介绍:本人笔名姑苏老陈,从事JAVA开发工作十多年了,带过刚毕业的实习生,也带过技术团队。最近有个朋友的表弟,马上要大学毕业了,想从事JAVA开发工作,但不知道从何处入手。于是,产…

编译器的学习

常用的编译器: GCCVisual CClang(LLVM): Clang 可以被看作是建立在 LLVM 之上的一个项目, 实际上LLVM是clang的后端,clang作为前端前端生成LLVM IR,https://zhuanlan.zhihu.com/p/656699711MSVC &#xff…

构建安全高效的前端权限控制系统

✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 🎈🎈作者主页: 喔的嘛呀🎈🎈 ✨✨ 帅哥美女们,我们共同加油!一起进步&am…

计算机网络相关知识总结

一、概述 计算机网络可以极大扩展计算机系统的功能机器应用范围,提高可靠性,在为用户提供放方便的同时,减少了整体系统费用,提高性价比。 计算机网络的功能主要有:1. 数据共享;2. 资源共享;3. 管…

《系统架构设计师教程(第2版)》第15章-面向服务架构设计理论与实践-05-SOA设计模式

文章目录 1. 服务注册表模式1.1 服务注册表1.2 SOA治理功能1.3 注册表中的配置文件 2. 企业服务总线(ESB)模式3. Synchro ESB3. 微服务模式3.1 概述3.2 微服务架构模式方案3.2.1 聚合器微服务1)概述2)几种特殊的聚合微服务 3.2.2 …

ElasticSearch笔记一

随着这个业务的发展,我们的数据量越来越庞大。那么传统的这种mysql的数据库就渐渐的难以满足我们复杂的业务需求了。 所以在微服务架构下一般都会用到一种分布式搜索的技术。那么今天呢我们就会带着大家去学习分布搜索当中最流行的一种ElasticSearch,Ela…