Python网络爬虫原理及实践

Python网络爬虫原理及实践

news2026/3/28 23:06:42

1 网络爬虫

网络爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

网络爬虫相关技术和框架繁多，针对场景的不同可以选择不同的网络爬虫技术。

2 Scrapy框架（Python）

2.1. Scrapy架构

2.1.1. 系统架构

2.1.2. 执行流程

总结爬虫开发过程，简化爬虫执行流程如下图所示：

爬虫运行主要流程如下：

（1） Scrapy启动Spider后加载Spaider的start_url，生成request对象;

（2）经过middleware完善request对象（添加IP代理、User-Agent）；

（3） Downloader对象按照request对象下载页面；

（4）将response结果传递给spider的parser方法解析；

（5） spider获取数据封装为item对象传递给pipline，解析的request对象将返回调度器进行新一轮的数据抓取；

2.2. 框架核心文件介绍

2.2.1. scrapy.cfg

scrapy.cfg是scrapy框架的入口文件，settings节点指定爬虫的配置信息，deploy节点用于指定scrapyd服务的部署路径。

| [settings]

default = sfCrawler.settings

[deploy]

url =http://localhost:6800/

project = jdCrawler

|

2.2.2. settings.py

settings主要用于配置爬虫启动信息，包括：并发线程数量、使用的middleware、items等信息；也可以作为系统中的全局的配置文件使用。

**注：**目前主要增加了redis、数据库连接等相关配置信息。

2.2.3. middlewares.py

middleware定义了多种接口，分别在爬虫加载、输入、输出、请求、请求异常等情况进行调用。

**注：**目前主要用户是为爬虫增加User-Agent信息和IP代理信息等。

2.2.4. pipelines.py

用于定义处理数据的Pipline对象，scrapy框架可以在settings.py文件中配置多个pipline对象，处理数据的个过程将按照settings.py配置的优先级的顺序顺次执行。

**注：**系统中产生的每个item对象，将经过settings.py配置的所有pipline对象。

2.2.5. items.py

用于定义不同种数据类型的数据字典，每个属性都是Field类型；

2.2.6. spider目录

用于存放Spider子类定义，scrapy启动爬虫过程中将按照spider类中name属性进行加载和调用。

2.3. 爬虫功能扩展说明

2.3.1. user_agents_middleware.py

通过procces_request方法，为request对象添加hearder信息，随机模拟多种浏览器的User-Agent信息进行网络请求。

2.3.2. proxy_server.py

通过procces_request方法，为reques对象添加网络代理信息，随机模拟多IP调用。

2.3.3. db_connetion_pool.py

文件位置
db_manager/db_connetion_pool.py，文件定义了基础的数据连接池，方便系统各环节操作数据库。

2.3.4. redis_connention_pool.py

文件位置db_manager/ redis_connention_pool.py，文件定义了基础的Redis连接池，方便系统各环节操作Redis缓存。

2.3.5. scrapy_redis包

scrapy_redis包是对scrapy框架的扩展，采用Redis作为请求队列，存储爬虫任务信息。

spiders.py文件：定义分布式RedisSpider类，通过覆盖Spider类start_requests()方法的方式，从Redis缓存中获取初始请求列表信息。其中RedisSpider子类需要为redis_key赋值。

pipelines.py文件：定义了一种简单的数据存储方式，可以直接将item对象序列化后保存到Redis缓存中。

dupefilter.py文件：定义数据去重类，采用Redis缓存的方式，已经保存的数据将添加到过滤队列中。

queue.py文件：定义几种不同的入队和出队顺序的队列，队列采用Redis存储。

2.4. 微博爬虫开发示例

2.4.1. 查找爬虫入口

2.4.1.1. 站点分析

网站一般会分为Web端和M端两种，两种站点在设计和架构上会有较大的差别。通常情况下Web端会比较成熟，User-Agent检查、强制Cookie、登录跳转等限制，抓取难度相对较大，返回结果以HTML内容为主；M端站点通常采用前后端分离设计，大多提供独立的数据接口。所以站点分析过程中优先查找M端站点入口。微博Web端及M端效果如图所示：

微博Web端地址：weibo.com/，页面显示效果如下图所…

注：图片来源于微博PC端截图

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1668457.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

io_uring的使用示例及其解释

io_uring的使用示例及其解释

io_uring的使用示例及其解释 1 io_uring机制1.1 io_uring机制1.2 io_uring系统调用接口功能介绍1.2.1 io_uring_setup()：1.2.2 io_uring_enter()：1.2.3 io_uring_register()： 2 liburing2.1 liburing简介2.2 liburing编译2.2.1 liburing的代码…

阅读更多...

如何快速展示专业：掌握类的基本概念-类/方法/关键字/变量/数据类型/注释

如何快速展示专业：掌握类的基本概念-类/方法/关键字/变量/数据类型/注释

在李笑来的《财富自由之路》中提到一种初学者快速入门的学习方法：快速掌握最小必要知识。关于Java的类，最少必要知识就是本文提到的基本概念，掌握了这些基本概念，就对类有了基本的了解，为后续的深入学习和沟通奠定了基…

阅读更多...

MFC桌面应用中窗口的客户区与非客户区的

MFC桌面应用中窗口的客户区与非客户区的

在MFC（Microsoft Foundation Class）中，窗口被分为客户区和非客户区。理解这两个概念对于设计和开发Windows应用程序至关重要。客户区（Client Area）： 客户区是窗口中用于显示应用程序内容的区域。它是窗口…

阅读更多...

单链表经典算法OJ题---力扣206，876(带图详解

单链表经典算法OJ题---力扣206，876(带图详解

1.链接：. - 力扣（LeetCode）【点击即可跳转】思路：创建三个指针，看下图注意：n3如果为空，则不能继续指向下一节点，需要进行判断代码实现： struct ListNode* reverseLi…

阅读更多...

VS中scanf使用的常见问题

VS中scanf使用的常见问题

本篇文章给大家讲一讲如何解决scanf使用的常见问题那么先给大家看一下scanf在vs编译器中出现的问题从图中大家可以看到这串代码报错了，那么我们来看看报错信息从图中我们可以看到，vs说scanf不安全，并且也给了我们两种解决方法第一种&…

阅读更多...

路由器、交换机和网卡

路由器、交换机和网卡

大家使用VMware安装镜像之后，是不是都会考虑虚拟机的镜像系统怎么连上网的，它的连接方式是什么，它ip是什么？ 路由器、交换机和网卡 1.路由器一般有几个功能，第一个是网关、第二个是扩展有线网络端口、第三个是WiFi功…

阅读更多...

数据恢复软件 –最好的Android数据恢复软件分享

数据恢复软件 –最好的Android数据恢复软件分享

在安卓数据恢复方面，奇客数据恢复安卓版是最好的 Android 数据恢复公司，因为它的成功率为 100%。随着无数企业和个人使用智能手机和平板电脑，总是有很多数据丢失或损坏的机会，这就是它们如此受欢迎的原因。在恢复数据时&#xff0…

阅读更多...

vue+springboot项目服务器部署

vue+springboot项目服务器部署

①创建一台opencloud8的腾讯云服务器 ②用xshell连接服务器 ③vue中新建.env.development配置文件 .env.development: VUE_APP_BASEURLhttp://localhost:9090 .env.production: VUE_APP_BASEURLhttp://服务器ip:9090 ④修改main.js import Vue from vue import App from ./A…

阅读更多...

IB 公式解析

IB 公式解析

公式 3.2. Influence Function 影响函数允许我们在移除样本时估计模型参数的变化，而无需实际移除数据并重新训练模型。 3.3 影响平衡加权因子 3.4 影响平衡损失 3.5 类内重加权 m代表一个批次（batch）的大小，这意味着公式对一个批…

阅读更多...

【qt】最快的开发界面效率——混合编程

【qt】最快的开发界面效率——混合编程

混合编程一.准备工作1.创建项目2.添加项目资源二.ui界面设计1.menuBar菜单栏2.action ▲3.toolBar工具栏4.中心组件三.代码界面设计1.toolBar添加组件2.statusBar状态栏添加组件四.完成界面的功能1.对action配置信号槽2.对action转到信号槽3.代码添加的组件手动关联槽函数 …

阅读更多...

鸿蒙内核源码分析(Shell编辑篇) | 两个任务,三个阶段

鸿蒙内核源码分析(Shell编辑篇) | 两个任务,三个阶段

系列篇从内核视角用一句话概括shell的底层实现为：两个任务，三个阶段。其本质是独立进程，因而划到进程管理模块。每次创建shell进程都会再创建两个任务。客户端任务(ShellEntry)： 负责接受来自终端(控制台)敲入的一个个字符&…

阅读更多...

第五步-＞手撕spring源码之资源加载器解析到注册

第五步-＞手撕spring源码之资源加载器解析到注册

本步骤目标在完成 Spring 的框架雏形后，现在我们可以通过单元测试进行手动操作 Bean 对象的定义、注册和属性填充，以及最终获取对象调用方法。但这里会有一个问题，就是如果实际使用这个 Spring 框架，是不太可能让用户通过手动方式…

阅读更多...

PD-L1表达与免疫逃逸和免疫响应

PD-L1表达与免疫逃逸和免疫响应

免疫检查点信号转导和癌症免疫治疗（文献）-CSDN博客https://blog.csdn.net/hx2024/article/details/137470621?ops_request_misc%257B%2522request%255Fid%2522%253A%2522171551954416800184136566%2522%252C%2522scm%2522%253A%252220140713.130102334.…

阅读更多...

webrtc windows 编译，以及peerconnection_client

webrtc windows 编译，以及peerconnection_client

webrtc windows环境编译，主要参考webrtc官方文档，自备梯子 depot tools 安装 Install depot_tools 因为我用的是windows，这里下载bundle 的安装包，然后直接解压，最后设置到环境变量PATH。执行gn等命令不报错&…

阅读更多...

A计算机上的程序与B计算机上部署的vmware上的虚拟机的程序通讯如何配置？

A计算机上的程序与B计算机上部署的vmware上的虚拟机的程序通讯如何配置？

环境： 在A计算机上运行着Debian11.3 Linux操作系统；在B计算机上运行着Windows10操作系统，并且安装了VMware软件，然后在VMware上创建了虚拟机C并安装了CentOS 6操作系统需求： 现在A计算机上的程序需要同虚拟机C上的软…

阅读更多...

【递归、回溯和剪枝】全排列子集

【递归、回溯和剪枝】全排列子集

0.回溯算法介绍什么是回溯算法回溯算法是⼀种经典的递归算法，通常⽤于解决组合问题、排列问题和搜索问题等。回溯算法的基本思想：从⼀个初始状态开始，按照⼀定的规则向前搜索，当搜索到某个状态⽆法前进时，回退到前…

阅读更多...

docker容器实现https访问

docker容器实现https访问

前言： 【云原生】docker容器实现https访问_docker ssl访问-CSDN博客一术语介绍 ①key 私钥明文--自己生成（genrsa ） ②csr 公钥由私钥生成 ③crt 证书公钥签名（自签名或者由CA签名） ④证书&#xf…

阅读更多...

Eclipse下载安装教程（包含JDK安装）【保姆级教学】【2024.4已更新】

Eclipse下载安装教程（包含JDK安装）【保姆级教学】【2024.4已更新】

目录文章最后附下载链接第一步：下载Eclipse，并安装第二步：下载JDK，并安装第三步：Java运行环境配置安装Eclipse必须同时安装JDK ！！！ 文章最后附下载链接第一步&#xf…

阅读更多...

Go编程语言的调试器Delve | Goland远程连接Linux开发调试（go远程开发）

Go编程语言的调试器Delve | Goland远程连接Linux开发调试（go远程开发）

文章目录 Go编程语言的调试器一、什么是Delve二、delve 安装安装报错cgo: C compiler "gcc" not found: exec: "gcc": executable file not found in $PATH解决三、delve命令行使用delve 常见的调试模式常用调试方法todo调试程序代码与动态库加载程序运行…

阅读更多...

Unity编辑器如何多开同一个项目？

Unity编辑器如何多开同一个项目？

在联网游戏的开发过程中，多开客户端进行联调是再常见不过的需求。但是Unity并不支持编辑器多开同一个项目，每次都得项目打个包(耗时2分钟以上)，然后编辑器开一个进程，exe 再开一个，真的有够XX的。o(╥﹏╥)o没错&#…

阅读更多...

推荐文章

最新文章